Global ETD Search

Return to search

Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes / Towards an omni-language word retrieval system applied in homogeneous document collections

Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes. / The objective of our thesis is to build an omni-language word retrieval system for scanned documents. We place ourselves in the context where the content of documents is homogenous and the prior knowledge about the document (the language, the writer, the writing style, etc.) is not known. Due to this system, user can freely and intuitively compose his/her query. With the query created by the user, he/she can retrieve words in homogenous documents of any language, without finding an occurrence of the word to search. The key of our proposed system is the invariants, which are writing pieces that frequently appeared in the collection of documents. The invariants can be used in query making process in which the user selects and composes appropriate invariants to make the query. They can be also used as structural descriptor to characterize word images in the retrieval process. We introduce in this thesis our method for automatically extracting invariants from document collection, our evaluation method for evaluating the quality of invariants and invariant’s applications in the query making process as well as in the retrieval process.

http://www.theses.fr/2015LAROS010/document

Système de recherche de mots

Composition des requêtes

Extraction de strokes

Invariants

Représentation basée sur graphe

Distance d’édition de graphes

Word retrieval system

Request composition

Stroke extraction

Invariants

Graph-based representation

Graph edit distance

Identifer	oai:union.ndltd.org:theses.fr/2015LAROS010
Date	28 September 2015
Creators	Bui, Quang Anh
Contributors	La Rochelle, Mullot, Rémy, Visani, Muriel
Source Sets	Dépôt national des thèses électroniques françaises
Language	French
Detected Language	French
Type	Electronic Thesis or Dissertation, Text

Page generated in 0.0079 seconds

Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes / Towards an omni-language word retrieval system applied in homogeneous document collections

Description

Links & Downloads

Tags

Additional Fields