Spelling suggestions: "subject:"documents manuscritos"" "subject:"documents manuscrit""
1 |
Approche markovienne bidimensionnelle d'analyse et de reconnaissance de documents manuscritsLemaitre, Melanie 16 November 2007 (has links) (PDF)
Dans cette thèse, nous présentons une approche bidimensionnelle markovienne générale pour l'analyse et la reconnaissance de documents manuscrits appelée AMBRES (Approche Markovienne Bidimensionnelle pour la Reconnaissance et la Segmentation d'images). Elle est fondée sur les champs de Markov, la programmation dynamique 2D et une analyse bidimensionnelle de l'image.<br /><br />AMBRES a été appliquée avec succès à des tâches aussi diverses que la reconnaissance de caractères et de mots manuscrits isolés, la structuration de documents manuscrits et la reconnaissance de logos et pourrait être étendue à d'autres problématiques du domaine de la vision.<br /><br />Des protocoles rigoureux ont été utilisés pour l'étude du système et de ses paramètres ainsi que pour l'évaluation des performances. En particulier, AMBRES a pu être validée au sein de la campagne d'évaluation RIMES (Reconnaissance et Indexation de données Manuscrites et de fac similES).
|
2 |
Approches textuelles pour la catégorisation et la recherche de documents manuscrits en-lignePeña Saldarriaga, Sebastián 24 March 2010 (has links) (PDF)
L'évolution technologique des dispositifs électroniques de capture de l'écriture manuscrite se traduit par l'apparition d'une grande quantité de documents manuscrits en-ligne. Cela pose la question de l'accès à l'information contenue dans ces données. Ce travail s'intéresse à l'accès à l'information textuelle contenue dans des documents qui se présentent sous la forme d'une séquence temporelle de points (x,y). Deux tâches principales ont été étudiées : la première concerne le développement d'un système de catégorisation de documents, tandis que la seconde s'intéresse à la recherche d'information dans des bases documentaires manuscrites. En amont, une première étape importante a consisté à collecter un corpus manuscrit de référence pour la validation expérimentale de cette étude. L'utilisation d'un système de reconnaissance de l'écriture étant l'élément transversal des approches proposées, une partie de notre travail a consisté à analyser le comportement de ces approches face aux erreurs de reconnaissance. La catégorisation est effectuée en enchaînant un système de reconnaissance à un système de catégorisation basé sur des méthodes d'apprentissage statistique. Pour la recherche d'information, deux approches ont été proposées. La première tire parti de la diversité des résultats restitués par des algorithmes de recherche différents, l'idée étant que la combinaison des résultats peut pallier leurs faiblesses respectives. La seconde approche exploite les relations de proximité thématique entre les documents. Si deux documents proches ont tendance à répondre au même besoin d'information, alors ces mêmes documents doivent avoir des scores de pertinence proches.
|
3 |
Generalized Haar-like filters for document analysis : application to word spotting and text extraction from comics / Filtres généralisés de Haar pour l’analyse de documents : application aux word spotting et extraction de texte dans les bandes dessinéesGhorbel, Adam 18 July 2016 (has links)
Dans cette thèse, nous avons proposé une approche analytique multi-échelle pour le word spotting dans les documents manuscrits. Le modèle proposé fonctionne selon deux niveaux différents. Un module de filtrage global permettant de définir plusieurs zones candidates de la requête dans le document testé. Ensuite, l’échelle de l’observation est modifiée à un niveau inférieur afin d’affiner les résultats et sélectionner uniquement ceux qui sont vraiment pertinents. Cette approche de word spotting est basée sur des familles généralisées de filtres de Haar qui s’adaptent à chaque requête pour procéder au processus de spotting et aussi sur un principe de vote qui permet de choisir l’emplacement spatial où les réponses générées par les filtres sont accumulées. Nous avons en plus proposé une autre approche pour l’extraction de texte du graphique dans les bandes dessinées. Cette approche se base essentiellement sur les caractéristiques pseudo-Haar qui sont générées par l’application des filtres généralisés de Haar sur l’image de bande dessinée. Cette approche est une approche analytique et ne nécessite aucun processus d’extraction ni des bulles ni d’autres composants. / The presented thesis follows two directions. The first one disposes a technique for text and graphic separation in comics. The second one points out a learning free segmentation free word spotting framework based on the query-by-string problem for manuscript documents. The two approaches are based on human perception characteristics. Indeed, they were inspired by several characteristics of human vision such as the Preattentive processing. These characteristics guide us to introduce two multi scale approaches for two different document analysis tasks which are text extraction from comics and word spotting in manuscript document. These two approaches are based on applying generalized Haar-like filters globally on each document image whatever its type. Describing and detailing the use of such features throughout this thesis, we offer the researches of document image analysis field a new line of research that has to be more explored in future. The two approaches are layout segmentation free and the generalized Haar-like filters are applied globally on the image. Moreover, no binarization step of the processed document is done in order to avoid losing data that may influence the accuracy of the two frameworks. Indeed, any learning step is performed. Thus, we avoid the process of extraction features a priori which will be performed automatically, taking into consideration the different characteristics of the documents.
|
Page generated in 0.0855 seconds