Global ETD Search

Return to search

Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits

Malgré l'entrée récente de notre monde dans l'ère du tout numérique, de nombreux documents manuscrits continuent à s'échanger, obligeant nos sociétés et administrations à faire face au traitement de ces masses de documents. Le traitement automatique de ces documents nécessite d'accéder à un échantillon inconnu mais pertinent de leur contenu et implique de prendre en compte trois points essentiels : la segmentation du document en entités comparable à l'information recherchée, la reconnaissance de ces entités recherchées et le rejet des entités non pertinentes. Nous nous démarquons des approches classiques de lecture complète de documents et de détection de mots clés en parallélisant ces trois traitements en une approche d'extraction d'information. Une première contribution réside dans la conception d'un modèle de ligne générique pour l'extraction d'information et l'implémentation d'un système complet à base de modèles de Markov cachés (MMC) construit autour de ce modèle. Le module de reconnaissance cherche, en une seule passe, à discriminer l'information pertinente, caractérisée par un ensemble de requêtes alphabétiques, numériques ou alphanumériques, de l'information non pertinente, caractérisée par un modèle de remplissage. Une seconde contribution réside dans l'amélioration de la discrimination locale des observations des lignes par l'utilisation d'un réseau de neurones profond. Ce dernier permet également d'inférer une représentation de haut niveau des observations et donc d'automatiser le processus d'extraction des caractéristiques. Il en résulte un système complet, générique et industrialisable, répondant à des besoins émergents dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des documents non-contraints.

Reconnaissance de l'écriture

keyword spotting

HMM

architectures profondes

modèle hybride

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00863502
Date	12 July 2012
Creators	Thomas, S.
Publisher	Université de Rouen
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0019 seconds

Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits

Description

Links & Downloads

Tags

Additional Fields