1 |
Interprétation interactive de documents structurés : application à la rétroconversion de plans d'architecture manuscritsGhorbel, Achraf 11 December 2012 (has links) (PDF)
Cette thèse entre dans le cadre de projet ANR-Mobisketch (http://mobisketch.irisa.fr/). Ce projet vise à élaborer une solution logicielle générique orientée stylo pour la réalisation de documents techniques : schémas, plans... L'objectif est d'aboutir à un continuum entre un document technique sous sa forme papier et ce même document sous sa forme numérique interprétée. Ce continuum nécessite deux analyseurs cohérents : un pour la phase de reconnaissance et un autre pour la composition/édition. Nous nous sommes intéressés dans cette thèse à l'analyseur pour la reconnaissance de documents. Le but de nos travaux était d'élaborer une approche interactive, générique et incrémentale. L'originalité de notre méthode de reconnaissance, nommée IMISketch, est la sollicitation de l'utilisateur durant la phase d'analyse. En effet, le processus d'analyse est capable de solliciter l'utilisateur s'il rencontre des cas d'ambigüités. Deux cas d'ambigüité peuvent se présenter : l'ambigüité structurelle et l'ambigüité de forme. L'ambigüité structurelle est levée par le système d'analyse quand il hésite entre deux segmentations différentes pour interpréter un symbole. Par exemple, dans un plan d'architecture, une ambigüité structurelle peut être levée pour trouver la bonne segmentation des primitives entre un mur et un ouvrant (porte, fenêtre, etc.). L'ambigüité de forme est levée s'il existe plusieurs hypothèses concurrentes pour étiqueter un symbole, par exemple une ambigüité entre une porte et une fenêtre. L'intégration de l'utilisateur dans la boucle de reconnaissance évite une correction a posteriori fastidieuse des erreurs de reconnaissance tout en permettant d'avoir un système auto-évolutif au fur et à mesure de l'analyse. Le processus de reconnaissance est basé sur une séparation de l'analyseur et des connaissances liées au type de document à reconnaître. Les connaissances structurelles a priori du document sont exprimées à travers un langage visuel grammatical basé sur l'écriture de règles de production. L'application de chaque règle est quantifiée par l'attribution d'un score à chaque hypothèse sous tendue par une branche de l'arbre d'analyse. La description grammaticale ainsi produite permet de piloter l'analyseur. Notre analyseur à base de règles est capable de mettre en concurrence des hypothèses possibles d'interprétation, afin de solliciter l'utilisateur lorsque c'est nécessaire. De plus, afin de limiter la combinatoire, l'analyseur se base sur un contexte local de recherche. Nous avons également mis en place un processus d'exploration hybride original, guidé par la description grammaticale, qui permet d'accélérer localement l'analyse tout en limitant le risque de réaliser une fausse interprétation. Notre méthode interactive a été validée sur les plans d'architecture dessinés à main levée. Ces plans sont composés de murs, de trois types d'ouvrants et d'une dizaine de classes de mobilier. Ces travaux montrent que la sollicitation de l'utilisateur permet d'améliorer la qualité de reconnaissance des documents.
|
Page generated in 0.1242 seconds