• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Représentation de collections de documents textuels : application à la caractéristique thématique

Mokrane, Abdenour 17 November 2006 (has links) (PDF)
Ce travail de thèse s'inscrit dans le contexte d'extraction de connaissances à partir de documents textuels, appelé Fouille de textes (FdT) ou Text Mining (TM). Ce mémoire s'articule autour des problématiques liées à la modélisation de documents et la représentation de connaissances textuelles. Il s'intéresse à des collections de documents qui abordent des thématiques différentes. Le mémoire s'attache à élaborer un modèle de représentation et un système permettant d'extraire automatiquement des informations sur les différentes thématiques abordées mais également des mécanismes offrant la possibilité d'avoir des aperçus sur les contenus. Il est montré que les approches basées sur les associations de termes sont adaptées à ce contexte. Cependant, ces approches souffrent de certaines lacunes liées au choix du modèle et de la connaissance à retenir. Pour l'élaboration du modèle de représentation, le choix porte sur l'extension de l'approche d'association de termes. A cet effet, la notion de contexte est étudiée et un nouveau critère appelé « partage de contextes » est défini. Via ce critère, il est possible de détecter des liens entre termes qui n'apparaîtraient pas autrement. L'objectif est de représenter le plus de connaissances possibles. Ces dernières sont exploitées pour une meilleure représentation du contenu et des informations enfouies dans les textes. Un système appelé IC-DOC est réalisé, ce dernier met en oeuvre le modèle de représentation dans un nouvel environnement d'extraction de connaissances à partir de documents textuels. Dans un contexte de veille scientifique, la proposition de ce type de systèmes devient indispensable pour extraire et visualiser de manière automatique l'information contenue dans les collections de documents textuels. L'originalité du système IC-DOC est de tirer profit du modèle de représentation proposé. Une série d'expérimentations et de validations sur divers jeux de données sont réalisées via le système IC-DOC. Deux applications sont considérées. La première s'intéresse à la caractérisation thématique et la seconde étend la première pour une cartographie visuelle de connaissances textuelles.

Page generated in 0.1444 seconds