Ce travail de thèse porte sur la problématique d'extraction de connaissances à partir de textes, plus communément appelée la fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de textes proprement dite, et l'interprétation des éléments de connaissances extraits. Dans ce cadre, un système d'extraction des connaissances nécessaires pour analyser les textes en fonction de leur contenu est étudié et implanté. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents (avec l'algorithme Close) et l'extraction de règles d'association. Le mémoire s'attache à définir précisément le processus de fouille de textes et ses principales caractéristiques et propriétés en s'appuyant sur l'extraction de motifs fréquents et de règles d'association. En outre, une étude minutieuse d'un ensemble donné de mesures de qualité qu'il est possible d'attacher aux règles d'association est menée, toujours dans le cadre de la fouille de textes. Il est montré quel rôle ces mesures peuvent avoir sur la qualité et sur l'interprétation des règles extraites ; comment peuvent-elles influer sur la qualité globale du processus de fouille de textes.<br />L'utilisation d'un modèle de connaissances vient appuyer et surtout compléter cette première approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant les connaissances déjà répertoriées et décrites par un modèle de connaissances du domaine. Les règles d'association peuvent donc être utilisées pour alimenter un modèle de connaissances terminologiques du domaine des textes choisi. La thèse inclut la réalisation d'un système appelé TAMIS : "Text Analysis by Mining Interesting ruleS" ainsi qu'une expérimentation et une validation sur des données réelles de résumés de textes en biologie moléculaire.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00011195 |
Date | 15 November 2004 |
Creators | Cherfi, Hacène |
Publisher | Université Henri Poincaré - Nancy I |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds