Global ETD Search

Return to search

Approches textuelles pour la catégorisation et la recherche de documents manuscrits en-ligne

L'évolution technologique des dispositifs électroniques de capture de l'écriture manuscrite se traduit par l'apparition d'une grande quantité de documents manuscrits en-ligne. Cela pose la question de l'accès à l'information contenue dans ces données. Ce travail s'intéresse à l'accès à l'information textuelle contenue dans des documents qui se présentent sous la forme d'une séquence temporelle de points (x,y). Deux tâches principales ont été étudiées : la première concerne le développement d'un système de catégorisation de documents, tandis que la seconde s'intéresse à la recherche d'information dans des bases documentaires manuscrites. En amont, une première étape importante a consisté à collecter un corpus manuscrit de référence pour la validation expérimentale de cette étude. L'utilisation d'un système de reconnaissance de l'écriture étant l'élément transversal des approches proposées, une partie de notre travail a consisté à analyser le comportement de ces approches face aux erreurs de reconnaissance. La catégorisation est effectuée en enchaînant un système de reconnaissance à un système de catégorisation basé sur des méthodes d'apprentissage statistique. Pour la recherche d'information, deux approches ont été proposées. La première tire parti de la diversité des résultats restitués par des algorithmes de recherche différents, l'idée étant que la combinaison des résultats peut pallier leurs faiblesses respectives. La seconde approche exploite les relations de proximité thématique entre les documents. Si deux documents proches ont tendance à répondre au même besoin d'information, alors ces mêmes documents doivent avoir des scores de pertinence proches.

[INFO] Computer Science

documents manuscrits en ligne

reconnaissance de l'écriture

catégorisation

recherche d'information

fusion de résultats

régularisation

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00483684
Date	24 March 2010
Creators	Peña Saldarriaga, Sebastián
Publisher	Université de Nantes
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0018 seconds

Approches textuelles pour la catégorisation et la recherche de documents manuscrits en-ligne

Description

Links & Downloads

Tags

Additional Fields