1 |
Modélisation, indexation et recherche de documents structurésFourel, Franck 05 February 1998 (has links) (PDF)
Les systèmes actuels de recherche de documents électroniques, que ce soit des systèmes de gestion de bases de données ou des systèmes de recherche d'informations, n'exploitent pas suffisament la richesse des documents. Les uns n'analysent pas le contenu des documents et se laissent diriger par la structure du document alors que les autres délaissent l'aspect structurel en s'appuyant sur des méthodes trop peu adaptées aux nouvelles caractéristiques de ces documents. Le but de notre travail, situé à l'intersection de ces deux types de systèmes, est de réconcilier les différentes modalités d'accès aux documents électroniques et de rendre accessible tout document ou toute partie de documents qui peut résoudre le problème d'informations d'un utilisateur. Notre travail comporte plusieurs phases : la définition de modèles de représentation des documents structurés ainsi que de leurs composantes monomédias et multimédias (texte et image fixe) et la mise en place d'un processus d'indexation structurelle support du processus d'interrogation. Le modèle de représentation des documents structurés s'articule autour de trois relations de structure que nous avons particulièrement identifiées dans les documents textuels : la relation de composition, la relation de séquence et la relation de référence. Elles établissent l'organisation syntaxique des parties des documents, appelées éléments de structure, qui comme nous le montrons, possède une organisation duale, la structure sémantique. Nous exploitons les caractéristiques de cette dernière pour définir des propriétés sur les descripteurs des éléments de structure. Ces propriétés sont formalisées par la notion de portées des attributs et par la classification des attributs qui s'en suit. Pour chaque attribut d'un élément de structure, sa portée indique les autres éléments de structure concernés par l'attribut et par sa valeur. C'est en suivant les relations de structure que nous retrouvons les éléments concernés, puis nous leur assignons un attribut et une valeur dépendante de la valeur de l'attribut de l'élément qui est à la source de l'information. L'application des portées fournit une représentation du document au sein de laquelle les informations, si elles ne sont pas modifiées, sont mieux réparties et pour laquelle la plupart des informations sont explicitées pour chaque élément de structure et sont rendues dépendantes les unes des autres. Le processus d'interrogation utilise ces dépendances pour retrouver le ou les éléments de structure pertinents d'un document structuré. Nous avons validé ce travail par le développement du prototype my Personal Daily News qui permet d'interroger une base constituée de quotidiens d'informations en mêlant dans les requêtes des critères structurels et des critères de contenu. Nous montrons ainsi que notre approche rend des éléments accessibles et augmente la flexibilité d'interrogation en autorisant une connaissance imparfaite de la structure des documents.
|
2 |
Extraction et impact des connaissances sur les performances des systèmes de recherche d'informationHaddad, Mohamed Hatem 24 September 2002 (has links) (PDF)
Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d'information'', est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information.
|
3 |
Un modèle d'indexation pour les documents textuels structurésParadis, Francois 07 November 1996 (has links) (PDF)
La plupart des modèles d'indexation en recherche d'informations sont spécifiques à une application ou à un domaine particulier, et n'exploitent pas toute la richesse des documents électroniques. Le but de ce travail est de définir un modèle d'indexation pour les documents textuels qui tienne compte de la structure et d'autres informations complémentaires au discours. Le modèle proposé comporte deux composantes : le langage de représentation, qui définit de façon conceptuelle les informations du document, y compris les index eux-mêmes, et les règles de dérivation, qui, reprenant ce langage, permettent de déduire un type particulier d'index, les thèmes. L'indexation dans notre modèle ne se contente pas de produire une représentation statique du document, mais elle est aussi dynamiquement liée au processus de correspondance ; ainsi, le choix des thèmes, tels que déterminés par les règles, est fonction du document et de l'utilisateur. Notre approche a été validée en deux temps. D'abord, un questionnaire a été soumis à un groupe d'utilisateurs afin de cerner leur processus de dérivation de thèmes. Cette validation à priori a permis de démontrer le bien-fondé de nos règles de dérivation. Puis, dans une validation à posteriori, le modèle a été implémenté et testé sur une collection de documents sgml. Cette expérimentation a demontré l'applicabilité et la flexibilité du modèle.
|
4 |
Compréhension de textes et représentation des relations causalesGuha, Amal 24 February 2003 (has links) (PDF)
Cette thèse porte sur la notion de distance causale dans la représentation mentale du texte lu (hypothèse du modèle de situation). J'ai d'abord étudié dans la littérature, notamment philosophique, comment on définissait la relation de causalité "dans les choses". Une telle définition semblant hors d'atteinte, j'ai élaboré des définitions opérationnelles de la distance causale, à la fois dans la réalité et dans le modèle de situation. J'ai conduit deux expériences sur des chaînes causales (i. e. des séquences de phrases dans lesquelles chacune décrit la conséquence de la précédente) partielles issues de textes de vulgarisation, recueillant des jugements de plausibilité sur les couples cause-conséquence présentés. Il s'avère que la distance causale mentale (plausibilité) est d'autant moindre que le nombre d'intermédiaires sautés (approximation de la distance causale réelle) est important. On ne trouve pas d'effet du rang de lecture dans la plausibilité jugée. Par ailleurs, la familiarité du participant avec le thème abordé augmente la plausibilité jugée. Il est présenté une série de descripteurs du temps, de l'espace, et des protagonistes, qui permet de qualifier la relation entre les événements décrits par deux phrases. Ces descripteurs sont prédicteurs (à 41 %) de la plausibilité. La causalité est donc une dimension à part entière du modèle de situation, mais elle peut être en grande partie ramenée aux autres dimensions de la situation, que sont le temps, l'espace, et les protagonistes. Nous suggérons que ces données situationnelles peuvent fournir la base d'une décision "fruste" pour entreprendre ou non une inférence causale lors de la lecture d'un texte.
|
Page generated in 0.0829 seconds