Return to search

Vers une prise en compte de plusieurs aspects des besoins d'information dans les modèles de la recherche documentaire : Propagation de métadonnées sur le World Wide Web

Dans cette thèse, qui s'inscrit dans le contexte général de la recherche d'information sur la Toile, nous abordons le problème de l'indexation (thématique et non thématique) des pages. En particulier, nous nous intéressons à leur typologie. Nous proposons une méthode de caractérisation des pages comprenant deux étapes. La première, l'extraction de corpus homogènes, vise à rapprocher des pages partageant des caractéristiques communes. La seconde, l'affectation semi-automatique de métadonnées au sein de chaque corpus homogène, est basée sur la propagation : au départ, seule une faible proportion des ressources sont qualifiées manuellement, leurs informations sont ensuite propagées aux autres ressources. Au niveau méthodologique, l'extraction des corpus homogènes est fondée sur l'analyse des liens hypertextes. Plus précisément, elle utilise le principe de "co-sitation". Ce principe est la transposition sur le Web de la méthode des co-citations bien connue en scientométrie.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00839565
Date26 November 2004
CreatorsPrime-Claverie, Camille
PublisherEcole Nationale Supérieure des Mines de Saint-Etienne, Université Jean Monnet - Saint-Etienne
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0019 seconds