Return to search

Modélisation, indexation et recherche de documents structurés

Les systèmes actuels de recherche de documents électroniques, que ce soit des systèmes de gestion de bases de données ou des systèmes de recherche d'informations, n'exploitent pas suffisament la richesse des documents. Les uns n'analysent pas le contenu des documents et se laissent diriger par la structure du document alors que les autres délaissent l'aspect structurel en s'appuyant sur des méthodes trop peu adaptées aux nouvelles caractéristiques de ces documents. Le but de notre travail, situé à l'intersection de ces deux types de systèmes, est de réconcilier les différentes modalités d'accès aux documents électroniques et de rendre accessible tout document ou toute partie de documents qui peut résoudre le problème d'informations d'un utilisateur. Notre travail comporte plusieurs phases : la définition de modèles de représentation des documents structurés ainsi que de leurs composantes monomédias et multimédias (texte et image fixe) et la mise en place d'un processus d'indexation structurelle support du processus d'interrogation. Le modèle de représentation des documents structurés s'articule autour de trois relations de structure que nous avons particulièrement identifiées dans les documents textuels : la relation de composition, la relation de séquence et la relation de référence. Elles établissent l'organisation syntaxique des parties des documents, appelées éléments de structure, qui comme nous le montrons, possède une organisation duale, la structure sémantique. Nous exploitons les caractéristiques de cette dernière pour définir des propriétés sur les descripteurs des éléments de structure. Ces propriétés sont formalisées par la notion de portées des attributs et par la classification des attributs qui s'en suit. Pour chaque attribut d'un élément de structure, sa portée indique les autres éléments de structure concernés par l'attribut et par sa valeur. C'est en suivant les relations de structure que nous retrouvons les éléments concernés, puis nous leur assignons un attribut et une valeur dépendante de la valeur de l'attribut de l'élément qui est à la source de l'information. L'application des portées fournit une représentation du document au sein de laquelle les informations, si elles ne sont pas modifiées, sont mieux réparties et pour laquelle la plupart des informations sont explicitées pour chaque élément de structure et sont rendues dépendantes les unes des autres. Le processus d'interrogation utilise ces dépendances pour retrouver le ou les éléments de structure pertinents d'un document structuré. Nous avons validé ce travail par le développement du prototype my Personal Daily News qui permet d'interroger une base constituée de quotidiens d'informations en mêlant dans les requêtes des critères structurels et des critères de contenu. Nous montrons ainsi que notre approche rend des éléments accessibles et augmente la flexibilité d'interrogation en autorisant une connaissance imparfaite de la structure des documents.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00004888
Date05 February 1998
CreatorsFourel, Franck
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0019 seconds