Return to search

Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits

Malgré l'entrée récente de notre monde dans l'ère du tout numérique, de nombreux documents manuscrits continuent à s'échanger, obligeant nos sociétés et administrations à faire face au traitement de ces masses de documents. Le traitement automatique de ces documents nécessite d'accéder à un échantillon inconnu mais pertinent de leur contenu et implique de prendre en compte trois points essentiels : la segmentation du document en entités comparable à l'information recherchée, la reconnaissance de ces entités recherchées et le rejet des entités non pertinentes. Nous nous démarquons des approches classiques de lecture complète de documents et de détection de mots clés en parallélisant ces trois traitements en une approche d'extraction d'information. Une première contribution réside dans la conception d'un modèle de ligne générique pour l'extraction d'information et l'implémentation d'un système complet à base de modèles de Markov cachés (MMC) construit autour de ce modèle. Le module de reconnaissance cherche, en une seule passe, à discriminer l'information pertinente, caractérisée par un ensemble de requêtes alphabétiques, numériques ou alphanumériques, de l'information non pertinente, caractérisée par un modèle de remplissage. Une seconde contribution réside dans l'amélioration de la discrimination locale des observations des lignes par l'utilisation d'un réseau de neurones profond. Ce dernier permet également d'inférer une représentation de haut niveau des observations et donc d'automatiser le processus d'extraction des caractéristiques. Il en résulte un système complet, générique et industrialisable, répondant à des besoins émergents dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des documents non-contraints.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00863502
Date12 July 2012
CreatorsThomas, S.
PublisherUniversité de Rouen
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0021 seconds