Spelling suggestions: "subject:"analyse dde documents"" "subject:"analyse dee documents""
1 |
Application du raisonnement à partir de cas à l'analyse de documents administratifsHamza, Hatem 21 April 2008 (has links) (PDF)
Cette thèse traite de l'analyse et de la reconnaissance de documents administratifs. L'arrivée continue des documents nous a conduit à choisir une méthodologie prenant en compte les expériences précédentes. Aussi, nous avons opté pour le raisonnement à partir de cas. A partir d'une structuration de base du document représentant ses éléments comme les adresses, les zones de montants et les tableaux, un modèle du document est construit sous forme d'un graphe. Il correspond au problème à résoudre. Ce problème est ensuite comparé à une base de cas de documents en utilisant le sondage de graphes. Si un cas de document similaire existe, alors il est adapté pour analyser et interpréter le cas courant. Sinon, une analyse structure par structure est effectuée en utilisant une base de cas de structures élémentaires de documents. L'arrivée continue des données impose un mode d'apprentissage incrémental, qui peut être fait au fur et à mesure du traitement. Nous avons donc proposé une amélioration d'un réseau de neurone incrémental existant appelé Incremental Growing Neural Gas. L'amélioration proposée consiste à prendre en compte uniquement le voisinage local du neurone le plus proche lors de la phase de création d'un nouveau neurone. Le réseau proposé a été testé avec succès aussi bien sur des documents (factures, formulaires) que sur des données synthétiques. Cette thèse étant effectuée en collaboration avec l'entreprise ITESOFT, nous avons testé toutes les étapes de notre approche sur des cas réels.
|
2 |
Sur les limites de la perception artificielle et de l'interprétationLamiroy, Bart 03 December 2013 (has links) (PDF)
La thèse défendue dans de document commence par un examen des approches d'évaluation de performances dans le cadre de la perception artificielle, et comment elle se rapporte aux limites ( et l'inévitable subjectivité) de la spécification de la vérité terrain. Elle établit qu'il existe une ambiguïté intrinsèque dans son interprétation et son analyse, notamment dans le cadre de l'analyse du document de l'image. Après avoir établi le fait que l'interprétation est nécessairement ambigüe et que cette ambiguïté provient essentiellement de l'existence différents contextes plus ou moins compatibles, notre objectif global est d'étudier si on peut: * établir une forme de description du contexte qui est adaptée à la perception artificielle ( et de l'analyse de documents en particulier) et si elle peut être obtenue automatiquement par des techniques d'apprentissage statistique ou formelle ; * utiliser la description du contexte pour évaluer les performances d'algorithmes ; * utiliser la description de contexte pour décrire les données, de sorte à ce que cette description peut être utilisée pour des applications de recherche d'information ; * établir des limites ou des restrictions formelles pour les descriptions décrites précédemment et déterminer s'il existe des interprétations qui sont prouvablement impossibles à être obtenues par un algorithme. S'il existe effectivement une classe de problèmes d'interprétation qui ne peuvent pas être résolus par un algorithme, la seconde question serait de savoir si cette classe peut être caractérisée d'une façon ou d'une autre.
|
3 |
Segmentation and indexation of complex objects in comic book images / Segmentation et indexation d'objets complexes dans les images de bandes dessinéesRigaud, Christophe 11 December 2014 (has links)
Dans ce manuscrit de thèse, nous détaillons et illustrons les différents défis scientifiques liés à l'analyse automatique d'images de bandes dessinées, de manière à donner au lecteur tous les éléments concernant les dernières avancées scientifiques en la matière ainsi que les verrous scientifiques actuels. Nous proposons trois approches pour l'analyse d'image de bandes dessinées. La première approche est dite "séquentielle'' car le contenu de l'image est décrit progressivement et de manière intuitive. Dans cette approche, les extractions se succèdent, en commençant par les plus simples comme les cases, le texte et les bulles qui servent ensuite à guider l'extraction d'éléments plus complexes tels que la queue des bulles et les personnages au sein des cases. La seconde approche propose des extractions indépendantes les unes des autres de manière à éviter la propagation d'erreur due aux traitements successifs. D'autres éléments tels que la classification du type de bulle et la reconnaissance de texte y sont aussi abordés. La troisième approche introduit un système fondé sur une base de connaissance a priori du contenu des images de bandes dessinées. Ce système permet de construire une description sémantique de l'image, dirigée par les modèles de connaissances. Il combine les avantages des deux approches précédentes et permet une description sémantique de haut niveau pouvant inclure des informations telles que l'ordre de lecture, la sémantique des bulles, les relations entre les bulles et leurs locuteurs ainsi que les interactions entre les personnages. / In this thesis, we review, highlight and illustrate the challenges related to comic book image analysis in order to give to the reader a good overview about the last research progress in this field and the current issues. We propose three different approaches for comic book image analysis that are composed by several processing. The first approach is called "sequential'' because the image content is described in an intuitive way, from simple to complex elements using previously extracted elements to guide further processing. Simple elements such as panel text and balloon are extracted first, followed by the balloon tail and then the comic character position in the panel. The second approach addresses independent information extraction to recover the main drawback of the first approach : error propagation. This second method is called “independent” because it is composed by several specific extractors for each elements of the image without any dependence between them. Extra processing such as balloon type classification and text recognition are also covered. The third approach introduces a knowledge-driven and scalable system of comics image understanding. This system called “expert system” is composed by an inference engine and two models, one for comics domain and another one for image processing, stored in an ontology. This expert system combines the benefits of the two first approaches and enables high level semantic description such as the reading order of panels and text, the relations between the speech balloons and their speakers and the comic character identification.
|
4 |
Analysis and Visualisation of Edge Entanglement in Multiplex Networks / Analyse et visualisation de l'intrication d'arêtes dans les réseaux multiplexRenoust, Benjamin 18 December 2013 (has links)
Cette thèse présente une nouvelle méthodologie pour analyser des réseaux. Nous développons l'intrication d'un réseau multiplex, qui se matérialise sous forme d'une mesure d'intensité et d'homogénéité, et d'une abstraction, le réseau d'interaction des catalyseurs, auxquels sont associés des indices d'intrication. Nous présentons ensuite la mise en place d'outils spécifiques pour l'analyse visuelle des réseaux complexes qui tirent profit de cette méthodologie. Ces outils présente une vue double de deux réseaux,qui inclue une un algorithme de dessin, une interaction associant brossage d'une sélection et de multiples liens pré-attentifs. Nous terminons ce document par la présentation détaillée d'applications dans de multiples domaines. / When it comes to comprehension of complex phenomena, humans need to understand what interactions lie within them.These interactions are often captured with complex networks. However, the interaction pluralism is often shallowed by traditional network models. We propose a new way to look at these phenomena through the lens of multiplex networks, in which catalysts are drivers of the interaction through substrates. To study the entanglement of a multiplex network is to study how edges intertwine, in other words, how catalysts interact. Our entanglement analysis results in a full set of new objects which completes traditional network approaches: the entanglement homogeneity and intensity of the multiplex network, and the catalyst interaction network, with for each catalyst, an entanglement index. These objects are very suitable for embedment in a visual analytics framework, to enable comprehension of a complex structure. We thus propose of visual setting with coordinated multiple views. We take advantage of mental mapping and visual linking to present simultaneous information of a multiplex network at three different levels of abstraction. We complete brushing and linking with a leapfrog interaction that mimics the back-and-forth process involved in users' comprehension. The method is validated and enriched through multiple applications including assessing group cohesion in document collections, and identification of particular associations in social networks.
|
5 |
Generalized Haar-like filters for document analysis : application to word spotting and text extraction from comics / Filtres généralisés de Haar pour l’analyse de documents : application aux word spotting et extraction de texte dans les bandes dessinéesGhorbel, Adam 18 July 2016 (has links)
Dans cette thèse, nous avons proposé une approche analytique multi-échelle pour le word spotting dans les documents manuscrits. Le modèle proposé fonctionne selon deux niveaux différents. Un module de filtrage global permettant de définir plusieurs zones candidates de la requête dans le document testé. Ensuite, l’échelle de l’observation est modifiée à un niveau inférieur afin d’affiner les résultats et sélectionner uniquement ceux qui sont vraiment pertinents. Cette approche de word spotting est basée sur des familles généralisées de filtres de Haar qui s’adaptent à chaque requête pour procéder au processus de spotting et aussi sur un principe de vote qui permet de choisir l’emplacement spatial où les réponses générées par les filtres sont accumulées. Nous avons en plus proposé une autre approche pour l’extraction de texte du graphique dans les bandes dessinées. Cette approche se base essentiellement sur les caractéristiques pseudo-Haar qui sont générées par l’application des filtres généralisés de Haar sur l’image de bande dessinée. Cette approche est une approche analytique et ne nécessite aucun processus d’extraction ni des bulles ni d’autres composants. / The presented thesis follows two directions. The first one disposes a technique for text and graphic separation in comics. The second one points out a learning free segmentation free word spotting framework based on the query-by-string problem for manuscript documents. The two approaches are based on human perception characteristics. Indeed, they were inspired by several characteristics of human vision such as the Preattentive processing. These characteristics guide us to introduce two multi scale approaches for two different document analysis tasks which are text extraction from comics and word spotting in manuscript document. These two approaches are based on applying generalized Haar-like filters globally on each document image whatever its type. Describing and detailing the use of such features throughout this thesis, we offer the researches of document image analysis field a new line of research that has to be more explored in future. The two approaches are layout segmentation free and the generalized Haar-like filters are applied globally on the image. Moreover, no binarization step of the processed document is done in order to avoid losing data that may influence the accuracy of the two frameworks. Indeed, any learning step is performed. Thus, we avoid the process of extraction features a priori which will be performed automatically, taking into consideration the different characteristics of the documents.
|
6 |
Contributions a l'indexation et a la reconnaissance des manuscrits SyriaquesBilane, P. 23 June 2010 (has links) (PDF)
CETTE THESE EST DEDIEE A L'EXPLORATION INFORMATIQUE DE MANUSCRITS SYRIAQUES, C'EST LA PREMIERE ETUDE DE CE TYPE MISE EN ŒUVRE. LE SYRIAQUE EST UNE LANGUE QUI S'EST DEVELOPPE A L'EST DU BASSIN MEDITERRANEEN, IL Y A PLUS DE VINGT SIECLES ET QUI AUJOURD'HUI EST ENCORE PRATIQUEE. LA PRESENTATION DE L'HISTOIRE DU DEVELOPPEMENT DE CETTE LANGUE FAIT L'OBJECT DU PREMIER CHAPITRE. LE SYRIAQUE S'ECRIT DE DROITE A GAUCHE, AVEC UN ASPECT TRES SINGULIER, UN PENCHE D'UN ANGLE D'ENVIRON 45° QUI REND LES ALGORITHMES DE TRAITEMENT ET D'ANALYSE DE DOCUMENTS DEVELOPPES POUR LES AUTRES ECRITURES INOPERANTS. DANS LE SECOND CHAPITRE, APRES NOUS ETRE INTERESSES A LA DESCRIPTION ET L'EXTRACTION DES STRUCTURES DES DOCUMENTS, NOUS AVONS ELABORE UNE METHODE DE SEGMENTATION DES MOTS QUI PREND EN COMPTE CE PENCHE; ELLE NOUS CONDUIT A UNE TRENTAINE DE FORMES STABLES QUI SONT DES LETTRES INDIVIDUELLES VERTICALES ET DES "N-GRAMMES" CONSTITUES PAR DES LETTRES PENCHEES. DANS LA DEUXIEME PARTIE DE LA THESE, NOUS NOUS SOMMES INTERESSES AU CONTENU DES DOCUMENTS POUR DES FINS D'INDEXATION. NOUS AVONS DEVELOPPE UNE METHODE DE REPERAGE DE MOTS QUI PERMET DE RETROUVER, DANS IN DOCUMENT, TOUTES LES OCCURRENCES D'UN MOT SELON PLUSIEUS MODES DE REQUETES (WORD SPOTTING, WORD RETRIEVAL). ELLE REPOSE SUR UNE SIMILARITE DE FORME EVALUEE A PARTIR D'UNE ANALYSE TRES FINE DE L'ORIENTATION DU TRACE DE L'ECRITURE. LE DERNIER CHAPITRE EST UNE PREMIERE CONTRIBUTION A LA TRANSCRIPTION ASSISTEE DES MANUSCRITS SYRIAQUES QUI REPOSE SUR LA SEGMENTATION DES MOTS DECRITE CI-DESSUS. NOUS MONTRONS QUE LA TRANSCRIPTION, QUI S'APPUIE SUR L'INTERACTION, EST EN RUPTURE AVES LES TRADITIONNELLES DEMARCHES DE RECONNAISSANCE PAR O. C. R.
|
7 |
Extraction de séquences numériques dans des documents manuscrits quelconquesChatelain, Clément 05 December 2006 (has links) (PDF)
Dans le cadre du traitement automatique de courriers entrants, nous présentons dans cette thèse l'étude, la conception et la mise en \oe uvre d'un système d'extraction de champs numériques dans des documents manuscrits quelconques. En effet, si la reconnaissance d'entités manuscrites isolées peut être considérée comme un problème en partie résolu, l'extraction d'information dans des images de documents aussi complexes et peu contraints que les courriers manuscrits libres reste à ce jour un réel défi. Ce problème nécessite aussi bien la mise en \oe uvre de méthodes classiques de reconnaissance d'entités manuscrites que de méthodes issues du domaine de l'extraction d'information dans des documents électroniques. Notre contribution repose sur le développement de deux stratégies différentes : la première réalise l'extraction des champs numériques en se basant sur les techniques classiques de reconnaissance de l'écriture, alors que la seconde, plus proche des méthodes utilisées pour l'extraction d'information, réalise indépendamment la localisation et la reconnaissance des champs. Les résultats obtenus sur une base réelle de courriers manuscrits montrent que les choix plus originaux de la seconde approche se révèlent également plus pertinents. Il en résulte un système complet, générique et industrialisable répondant à l'une des perspectives émergentes dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des images de documents quelconques.
|
Page generated in 0.1063 seconds