Return to search

Contribution à l'analyse et à la recherche d'information en texte intégral : application de la transformée en ondelettes pour la recherche et l'analyse de textes

L'objet des systèmes de recherche d'informations est de faciliter l'accès à un ensemble de documents, afin de permettre à l'utilisateur de retrouver ceux qui sont pertinents, c'est-à-dire ceux dont le contenu correspond le mieux à son besoin en information. La qualité des résultats de la recherche se mesure en comparant les réponses du système avec les réponses idéales que l'utilisateur espère recevoir. Plus les réponses du système correspondent à celles que l'utilisateur espère, plus le système est jugé performant. Les premiers systèmes permettaient d'effectuer des recherches booléennes, c'est à dire, des recherches ou seule la présence ou l'absence d'un terme de la requête dans un texte permet de le sélectionner. Il a fallu attendre la fin des années 60, pour que l'on applique le modèle vectoriel aux problématiques de la recherche d'information. Dans ces deux modèles, seule la présence, l'absence, ou la fréquence des mots dans le texte est porteuse d'information. D'autres systèmes de recherche d'information adoptent cette approche dans la modélisation des données textuelles et dans le calcul de la similarité entre documents ou par rapport à une requête. SMART (System for the Mechanical Analysis and Retrieval of Text) [4] est l'un des premiers systèmes de recherche à avoir adopté cette approche. Plusieurs améliorations des systèmes de recherche d'information utilisent les relations sémantiques qui existent entre les termes dans un document. LSI (Latent Semantic Indexing) [5], par exemple réalise ceci à travers des méthodes d'analyse qui mesurent la cooccurrence entre deux termes dans un même contexte, tandis que Hearst et Morris [6] utilisent des thésaurus en ligne pour créer des liens sémantiques entre les termes dans un processus de chaines lexicales. Dans ces travaux nous développons un nouveau système de recherche qui permet de représenter les données textuelles par des signaux. Cette nouvelle forme de représentation nous permettra par la suite d'appliquer de nombreux outils mathématiques de la théorie du signal, tel que les Transformées en ondelettes et jusqu'a aujourd'hui inconnue dans le domaine de la recherche d'information textuelle

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00504368
Date27 January 2009
CreatorsSmail, Nabila
PublisherUniversité Paris-Est
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0022 seconds