Dans le cadre du traitement automatique de courriers entrants, nous présentons dans cette thèse l'étude, la conception et la mise en \oe uvre d'un système d'extraction de champs numériques dans des documents manuscrits quelconques. En effet, si la reconnaissance d'entités manuscrites isolées peut être considérée comme un problème en partie résolu, l'extraction d'information dans des images de documents aussi complexes et peu contraints que les courriers manuscrits libres reste à ce jour un réel défi. Ce problème nécessite aussi bien la mise en \oe uvre de méthodes classiques de reconnaissance d'entités manuscrites que de méthodes issues du domaine de l'extraction d'information dans des documents électroniques. Notre contribution repose sur le développement de deux stratégies différentes : la première réalise l'extraction des champs numériques en se basant sur les techniques classiques de reconnaissance de l'écriture, alors que la seconde, plus proche des méthodes utilisées pour l'extraction d'information, réalise indépendamment la localisation et la reconnaissance des champs. Les résultats obtenus sur une base réelle de courriers manuscrits montrent que les choix plus originaux de la seconde approche se révèlent également plus pertinents. Il en résulte un système complet, générique et industrialisable répondant à l'une des perspectives émergentes dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des images de documents quelconques.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00143090 |
Date | 05 December 2006 |
Creators | Chatelain, Clément |
Publisher | Université de Rouen |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0021 seconds