Global ETD Search

Return to search

Mod`ele flexible pour la Recherche d'Information dans des corpus de documents semi-structur´es

La nature de sources d'information évolue, et les documents numériques traditionnels ” plats ” ne contenant que du texte s'enrichissent d'information structurelle et multimédia. Cette ´évolution est accélérée par l'expansion du Web, et les documents semi-structurés de type XML (eXtensible Markup Language) tendent à former la majorité des documents numériques mis à disposition des utilisateurs. Le développement d'outils automatisés permettant un accès efficace à ce nouveau type d'information numérique apparaît comme une nécessité. Afin de valoriser au mieux l'ensemble des informations disponibles, les méthodes existantes de Recherche d'Information (RI) doivent être adaptées. L'information structurelle des documents peut en effet servir à affiner le concept de granule documentaire. Le but pour les Systèmes de Recherche d'Information (SRI) est alors de retrouver des unités d'information (et non plus de documents) pertinentes à des requêtes utilisateur. Afin de répondre à cette problématique fondamentale, de nouveaux modèles prenant en compte l'information structurelle des documents, tant au niveau de l'indexation, de l'interrogation que de la recherche doivent être construits. L'objectif de nos travaux est de proposer un modèle permettant d'effectuer des recherches flexibles dans des corpus de document semi-structurés. Ceci nous a conduit à proposer le mod`ele XFIRM (XML Flexible Information Retrieval Model ) reposant sur : (i) Un modèle de représentation des donn´ees générique, permettant de modéliser des documents possédant des structures différentes ; (ii) Un langage de requête flexible, permettant à l'utilisateur d'exprimer son besoin selon divers degrés de précision, en exprimant ou non des conditions sur la structure des documents ; (iii) Un modèle de recherche bas´ee sur une m´ethode de propagation de la pertinence. Ce modèle a pour but de trouver les unités d'information les plus exhaustives et spécifiques répondant à une requête utilisateur, que celle-ci contienne ou non des conditions de structure. Les documents semi-structurés peuvent être représentés sous forme arborescente, et le but est alors de trouver les sous-arbres de taille minimale répondant à la requête. Les recherches sur le contenu seul des documents sont effectuées en prenant en compte les importances diverses des feuilles des sous-arbres, et en plaçant ces derniers dans leur contexte, c'est à dire, en tenant compte de la pertinence du document. Les recherches portant à la fois sur le contenu et la structure des documents sont effectuées grâce à plusieurs propagations de pertinence dans l'arbre du document, et ce afin d'effectuer une correspondance vague entre l'arbre du document et l'arbre de la requête. L'´evaluation de notre modèle, grâce au prototype que nous avons d´eveloppé, montre l'intérêt de nos propositions, que ce soit pour effectuer des recherches sur le contenu seul des documents que sur le contenu et la structure.

[INFO] Computer Science

Recherche d'Information

documents semi-structurés

XML

propagation de la pertinence

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00359579
Date	30 June 2005
Creators	Sauvagnat, Karen
Publisher	Université Paul Sabatier - Toulouse III
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0016 seconds

Mod`ele flexible pour la Recherche<br />d'Information dans des corpus de<br />documents semi-structur´es

Description

Links & Downloads

Tags

Additional Fields