Global ETD Search

Return to search

Segmentation en lignes de documents anciens : application aux documents arabes

L'indexation de documents numérisés manuscrits pose le problème de la segmentation en lignes qui, si elle échoue, handicape les étapes suivantes d'extraction et de reconnaissance de mots. Dans les documents arabe anciens, s'ajoute à ce problème, la présence dans les marges, d'annotations souvent composées de lignes obliques. La détection de ces lignes est nécessaire et constitue un défi important pour l'indexation de ces documents. Ainsi, la segmentation visée dans ce travail de thèse concerne l'extraction de lignes multi-orientées. Pour ce problème, la bibliographie ne présente que des techniques rudimentaires basées essentiellement sur une projection directe de l'image du document suivant une seule direction et donc non applicable à du texte multi-orienté. Devant ce manque, nous avons proposé une approche adaptative permettant de localiser d'abord les zones d'orientation différentes, puis de s'appuyer sur chaque orientation locale pour extraire les lignes. Pendant ma thèse, j'ai développé les points suivants : – Application d'un maillage automatique en utilisant le modèle de contour actif (snake). – Préparation du signal de profil de projection en supprimant tous les pixels qui ne sont pas nécessaires dans le calcul de l'orientation. Ensuite, application de toutes les distributions d'énergie de la classe de Cohen sur le profil de projection pour trouver la meilleure distribution qui donne l'orientation. – Application de quelques règles d'extension pour trouver les zones. – Extraction des lignes en se basant sur un algorithme de suivi des composantes connexes. – Séparation de lignes

documents arabes manuscrits

extraction de lignes

estimation de l'orientation

modèle de contour actif (snake)

distribution de Wigner-Ville

connexion de lignes

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00495972
Date	11 June 2010
Creators	Ouwayed, Nazih
Publisher	Université Nancy II
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0024 seconds

Segmentation en lignes de documents anciens : application aux documents arabes

Description

Links & Downloads

Tags

Additional Fields