Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence).
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00463066 |
Date | 10 December 2008 |
Creators | Chibane, Idir |
Publisher | Université Paris Sud - Paris XI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds