Return to search

Modélisation d'un système de recherche d'information pour les systèmes hypertextes. Application à la recherche d'information sur le World Wide Web

Dans un hypertexte, un document est souvent composé de plusieurs nœuds et non pas d'un seul. L'information véhiculée par un nœud donné peut difficilement être appréhendée à travers la lecture du seul contenu de ce nœud, le contenu des autres nœuds qui composent un document avec le premier nœud lui apportent un contexte .La connaissance de ce contexte est fondamentale dans la compréhension de l'information véhiculée par le premier nœud. Un système de recherche d'information, ou plus couramment un moteur de recherche, appliqué au système hypertexte que constitue le Web devrait considérer dans son fonctionnement la fragmentation des documents hypertextuels en plusieurs pages : une page ne constitue pas un document à part entière, elle n'en est qu'une partie. Ainsi, pour bien indexer une page le contexte de l'information qu'elle véhicule doit être considéré. Les moteurs de recherche considèrent souvent une page comme un document et l'indexent en analysant uniquement son contenu. Le contexte des pages est ignoré. Dans ce travail nous proposons un modèle de recherche d'information pour un moteur de recherche appliqué à un système hypertexte constitué par un site Web. Ce modèle repose sur la construction d'un index à deux niveaux pour chacune des pages du site : un premier niveau, niveau inférieur, construit à partir du seul contenu de la page, et un deuxième niveau, niveau supérieur, construit à partir du contenu des pages qui apportent un contexte au contenu de la page en train d'être indexée. En améliorant la qualité des index des pages on cherche à améliorer l'efficacité du moteur de recherche. Grâce à l'implémentation d'un prototype de moteur de recherche intégrant le modèle proposé ainsi que l'utilisation de la collection de tests WT10g issue des conférences TREC et adaptée à nos besoins, nous avons pu mener des expérimentations. Les résultats de ces dernières, une amélioration dans la qualité des réponses retournées par le moteur prototype, sont des indicateurs favorables de l'utilité de l'information contextuelle des pages. L'efficacité du moteur prototype a été comparée avec celle d'un moteur de recherche adoptant un modèle traditionnel où un seul niveau d'index, celui issu du seul contenu des pages, est utilisé.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00818333
Date28 June 2002
CreatorsCarvalho De Aguiar, Fernando Jorge
PublisherEcole Nationale Supérieure des Mines de Saint-Etienne, Université Jean Monnet - Saint-Etienne
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0022 seconds