Spelling suggestions: "subject:"text aprocessing"" "subject:"text eprocessing""
171 |
Méta-modèles de positionnement spatial pour la reconnaissance de tracés manuscritsDelaye, Adrien 09 December 2011 (has links) (PDF)
L'essor des interfaces homme-machine permettant la saisie d'informations à l'aide d'un stylo électronique est accompagné par le développement de méthodes automatiques pour interpréter des données de plus en plus riches et complexes : texte manuscrit, mais aussi expressions mathématiques, schémas, prise de notes libre... Pour interpréter efficacement ces documents manuscrits, il est nécessaire de considérer conjointement les formes des objets qui les constituent et leur positionnement spatial. Nos recherches se concentrent sur la modélisation du positionnement spatial entre des objets manuscrits, en partant du constat qu'il n'est pas exploité dans toute sa richesse par les méthodes actuelles. Nous introduisons le concept de méta-modèle spatial, une modélisation générique pour décrire des relations spatiales entre des objets de nature, complexité et formes variables. Ces modèles, qui peuvent être appris à partir de données, offrent une richesse et une précision inédite car ils autorisent la conduite d'un raisonnement spatial directement dans l'espace image. L'appui sur le cadre de la théorie des sous-ensembles flous et de la morphologie mathématique permet la gestion de l'imprécision et offre une description des relations spatiales conforme à l'intuition. Un méta-modèle est doté d'un pouvoir de prédiction qui permet de décrire la relation spatiale modélisée au sein de l'image, par rapport à un objet de référence. Cette capacité rend possible la visualisation des modèles et fournit un outil pour segmenter les tracés en fonction de leur contexte. En exploitant ces modèles, nous proposons une représentation pour des objets manuscrits à la structure complexe. Cette représentation repose uniquement sur la modélisation de leurs informations spatiales, afin de démontrer l'importance de ces informations pour l'interprétation d'objets manuscrits structurés. La segmentation des tracés en primitives structurelles est guidée par les modèles de positionnement, via leur capacité de prédiction. Les résultats expérimentaux, portant sur des objets de complexité et de natures diverses (caractères chinois, gestes d'édition, symboles mathématiques, lettres), confirment la bonne qualité de description du positionnement offerte par les méta-modèles. Les tests de reconnaissance de symboles par l'exploitation de leur information spatiale attestent d'une part de l'importance de cette information et valident d'autre part la capacité des méta-modèles à la représenter avec une grande précision. Ces résultats témoignent donc de la richesse de l'information spatiale et du potentiel des méta-modèles spatiaux pour l'amélioration des techniques de traitement du document manuscrit.
|
172 |
Reconnaissance des entités nommées par exploration de règles d'annotation - Interpréter les marqueurs d'annotation comme instructions de structuration localeNouvel, Damien 20 November 2012 (has links) (PDF)
Ces dernières décennies, le développement considérable des technologies de l'information et de la communication a modifié en profondeur la manière dont nous avons accès aux connaissances. Face à l'afflux de données et à leur diversité, il est nécessaire de mettre au point des technologies performantes et robustes pour y rechercher des informations. Les entités nommées (personnes, lieux, organisations, dates, expressions numériques, marques, fonctions, etc.) sont sollicitées afin de catégoriser, indexer ou, plus généralement, manipuler des contenus. Notre travail porte sur leur reconnaissance et leur annotation au sein de transcriptions d'émissions radiodiffusées ou télévisuelles, dans le cadre des campagnes d'évaluation Ester2 et Etape. En première partie, nous abordons la problématique de la reconnaissance automatique des entités nommées. Nous y décrivons les analyses généralement conduites pour traiter le langage naturel, discutons diverses considérations à propos des entités nommées (rétrospective des notions couvertes, typologies, évaluation et annotation) et faisons un état de l'art des approches automatiques pour les reconnaître. A travers la caractérisation de leur nature linguistique et l'interprétation de l'annotation comme structuration locale, nous proposons une approche par instructions, fondée sur les marqueurs (balises) d'annotation, dont l'originalité consiste à considérer ces éléments isolément (début ou fin d'une annotation). En seconde partie, nous faisons état des travaux en fouille de données dont nous nous inspirons et présentons un cadre formel pour explorer les données. Les énoncés sont représentés comme séquences d'items enrichies (morpho-syntaxe, lexiques), tout en préservant les ambigüités à ce stade. Nous proposons une formulation alternative par segments, qui permet de limiter la combinatoire lors de l'exploration. Les motifs corrélés à un ou plusieurs marqueurs d'annotation sont extraits comme règles d'annotation. Celles-ci peuvent alors être utilisées par des modèles afin d'annoter des textes. La dernière partie décrit le cadre expérimental, quelques spécificités de l'implémentation du système (mXS) et les résultats obtenus. Nous montrons l'intérêt d'extraire largement les règles d'annotation, même celles qui présentent une moindre confiance. Nous expérimentons les motifs de segments, qui donnent de bonnes performances lorsqu'il s'agit de structurer les données en profondeur. Plus généralement, nous fournissons des résultats chiffrés relatifs aux performances du système à divers point de vue et dans diverses configurations. Ils montrent que l'approche que nous proposons est compétitive et qu'elle ouvre des perspectives dans le cadre de l'observation des langues naturelles et de l'annotation automatique à l'aide de techniques de fouille de données.
|
Page generated in 0.0697 seconds