La nature de sources d'information évolue, et les documents numériques<br />traditionnels ” plats ” ne contenant que du texte s'enrichissent d'information<br />structurelle et multimédia. Cette ´évolution est accélérée par l'expansion du<br />Web, et les documents semi-structurés de type XML (eXtensible Markup Language)<br />tendent à former la majorité des documents numériques mis à disposition<br />des utilisateurs. Le développement d'outils automatisés permettant un<br />accès efficace à ce nouveau type d'information numérique apparaît comme une<br />nécessité. Afin de valoriser au mieux l'ensemble des informations disponibles,<br />les méthodes existantes de Recherche d'Information (RI) doivent être adaptées.<br />L'information structurelle des documents peut en effet servir à affiner le concept<br />de granule documentaire. Le but pour les Systèmes de Recherche d'Information<br />(SRI) est alors de retrouver des unités d'information (et non plus de documents)<br />pertinentes à des requêtes utilisateur. Afin de répondre à cette problématique<br />fondamentale, de nouveaux modèles prenant en compte l'information structurelle<br />des documents, tant au niveau de l'indexation, de l'interrogation que de<br />la recherche doivent être construits.<br />L'objectif de nos travaux est de proposer un modèle permettant d'effectuer des<br />recherches flexibles dans des corpus de document semi-structurés. Ceci nous<br />a conduit à proposer le mod`ele XFIRM (XML Flexible Information Retrieval<br />Model ) reposant sur : (i) Un modèle de représentation des donn´ees générique,<br />permettant de modéliser des documents possédant des structures différentes ;<br />(ii) Un langage de requête flexible, permettant à l'utilisateur d'exprimer son<br />besoin selon divers degrés de précision, en exprimant ou non des conditions<br />sur la structure des documents ; (iii) Un modèle de recherche bas´ee sur une<br />m´ethode de propagation de la pertinence. Ce modèle a pour but de trouver les<br />unités d'information les plus exhaustives et spécifiques répondant à une requête<br />utilisateur, que celle-ci contienne ou non des conditions de structure. Les documents<br />semi-structurés peuvent être représentés sous forme arborescente, et<br />le but est alors de trouver les sous-arbres de taille minimale répondant à la<br />requête. Les recherches sur le contenu seul des documents sont effectuées en<br />prenant en compte les importances diverses des feuilles des sous-arbres, et en<br />plaçant ces derniers dans leur contexte, c'est à dire, en tenant compte de la<br />pertinence du document. Les recherches portant à la fois sur le contenu et la<br />structure des documents sont effectuées grâce à plusieurs propagations de pertinence<br />dans l'arbre du document, et ce afin d'effectuer une correspondance<br />vague entre l'arbre du document et l'arbre de la requête.<br />L'´evaluation de notre modèle, grâce au prototype que nous avons d´eveloppé,<br />montre l'intérêt de nos propositions, que ce soit pour effectuer des recherches<br />sur le contenu seul des documents que sur le contenu et la structure.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00359579 |
Date | 30 June 2005 |
Creators | Sauvagnat, Karen |
Publisher | Université Paul Sabatier - Toulouse III |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds