La plupart des modèles d'indexation en recherche d'informations sont spécifiques à une application ou à un domaine particulier, et n'exploitent pas toute la richesse des documents électroniques. Le but de ce travail est de définir un modèle d'indexation pour les documents textuels qui tienne compte de la structure et d'autres informations complémentaires au discours. Le modèle proposé comporte deux composantes : le langage de représentation, qui définit de façon conceptuelle les informations du document, y compris les index eux-mêmes, et les règles de dérivation, qui, reprenant ce langage, permettent de déduire un type particulier d'index, les thèmes. L'indexation dans notre modèle ne se contente pas de produire une représentation statique du document, mais elle est aussi dynamiquement liée au processus de correspondance ; ainsi, le choix des thèmes, tels que déterminés par les règles, est fonction du document et de l'utilisateur. Notre approche a été validée en deux temps. D'abord, un questionnaire a été soumis à un groupe d'utilisateurs afin de cerner leur processus de dérivation de thèmes. Cette validation à priori a permis de démontrer le bien-fondé de nos règles de dérivation. Puis, dans une validation à posteriori, le modèle a été implémenté et testé sur une collection de documents sgml. Cette expérimentation a demontré l'applicabilité et la flexibilité du modèle.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00005009 |
Date | 07 November 1996 |
Creators | Paradis, Francois |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0021 seconds