Cette thèse traite de l'analyse et de la reconnaissance de documents administratifs. L'arrivée continue des documents nous a conduit à choisir une méthodologie prenant en compte les expériences précédentes. Aussi, nous avons opté pour le raisonnement à partir de cas. A partir d'une structuration de base du document représentant ses éléments comme les adresses, les zones de montants et les tableaux, un modèle du document est construit sous forme d'un graphe. Il correspond au problème à résoudre. Ce problème est ensuite comparé à une base de cas de documents en utilisant le sondage de graphes. Si un cas de document similaire existe, alors il est adapté pour analyser et interpréter le cas courant. Sinon, une analyse structure par structure est effectuée en utilisant une base de cas de structures élémentaires de documents. L'arrivée continue des données impose un mode d'apprentissage incrémental, qui peut être fait au fur et à mesure du traitement. Nous avons donc proposé une amélioration d'un réseau de neurone incrémental existant appelé Incremental Growing Neural Gas. L'amélioration proposée consiste à prendre en compte uniquement le voisinage local du neurone le plus proche lors de la phase de création d'un nouveau neurone. Le réseau proposé a été testé avec succès aussi bien sur des documents (factures, formulaires) que sur des données synthétiques. Cette thèse étant effectuée en collaboration avec l'entreprise ITESOFT, nous avons testé toutes les étapes de notre approche sur des cas réels.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00586317 |
Date | 21 April 2008 |
Creators | Hamza, Hatem |
Publisher | Université Nancy II |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0016 seconds