L'indexation de documents numérisés manuscrits pose le problème de la segmentation en lignes qui, si elle échoue, handicape les étapes suivantes d'extraction et de reconnaissance de mots. Dans les documents arabes anciens, s'ajoute à ce problème, la présence dans les marges, d'annotations souvent composées de lignes obliques. La détection de ces lignes est nécessaire et constitue un défi important pour l'indexation de ces documents. Ainsi, la segmentation visée dans ce travail de thèse concerne l'extraction de lignes multi-orientées. Pour ce problème, la bibliographie ne présente que des techniques rudimentaires basées essentiellement sur une projection directe de l'image du document suivant une seule direction et donc non applicable à du texte multi-orienté. Devant ce manque, nous avons proposé une approche adaptative permettant de localiser d'abord les zones d'orientation différentes, puis de s'appuyer sur chaque orientation locale pour extraire les lignes. Pendant ma thèse, j'ai développé les points suivants : - Application d'un maillage automatique en utilisant le modèle de contour actif (snake). - Préparation du signal de profil de projection en supprimant tous les pixels qui ne sont pas nécessaires dans le calcul de l'orientation. Ensuite, application de toutes les distributions d'énergie de la classe de Cohen sur le profil de projection pour trouver la meilleure distribution qui donne l'orientation. - Application de quelques règles d'extension pour trouver les zones. - Extraction des lignes en se basant sur un algorithme de suivi des composantes connexes. - Séparation de lignes se chevauchant et se connectant en utilisant la morphologie des lettres terminales arabes. / The indexing of handwritten scanned documents poses the problem of lines segmentation, if it fails, disabling the following steps of words extraction and recognition. In addition, the ancient Arabic documents contain annotations in the margins, often composed of lines obliquely oriented. The detection of these lines is important as the rest and is a major challenge for the indexing of these documents. Thus, the segmentation described in this thesis involves the extraction of multi-oriented lines. For this problem, the bibliography has only rudimentary techniques based essentially on the projection of the document image along one direction, which be failed in the case of multi-oriented documents. Given this lack, we have proposed an adaptive approach that first locates the different orientation zones, then based on each local orientation to extract the lines. During my thesis, i particularly invested on the following points : - Applying an automatic paving using the active contour model (snake). - Preparation the signal of the projection profile by removing all pixels that are not needed in the orientation estimation. Then, implementation of all energy distributions of Cohen's class on the projection profile to find the best distribution that gives the orientation. - Applying some extension rules to find the oriented zones. - Extraction of lines by using an connected components follow-up algorithm. - Separation of overlapped and touched lines using the morphology of Arabic terminal letters.
Identifer | oai:union.ndltd.org:theses.fr/2010NAN23001 |
Date | 11 June 2010 |
Creators | Ouwayed, Nazih |
Contributors | Nancy 2, Belaïd, Abdelwaheb |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds