Malgré l'essor de l'Extraction d'Information et le développement de nombreuses applications dédiées lors de ces vingt dernières années, cette tâche rencontre des problèmes lorsqu'elle est réalisée sur des textes atypiques comme des Notes de Communication Orale.<br />Les Notes de Communication Orale sont des textes issus de prises de notes réalisées lors d'une communication orale (entretien, réunion, exposé, etc.) et dont le but est de synthétiser le contenu informatif de la communication. Leurs contraintes de rédaction (rapidité et limitation de la quantité d'écrits) sont à l'origine de particularités linguistiques auxquelles sont mal adaptées les méthodes classiques de Traitement Automatique des Langues et d'Extraction d'Information. Aussi, bien qu'elles soient riches en informations, elles ne sont pas exploitées par les systèmes extrayant des informations à partir de textes.<br />Dans cette thèse, nous proposons une méthode d'extraction adaptée aux Notes de Communication Orale. Cette méthode, nommée MEGET, est fondée sur une ontologie modélisant les connaissances contenues dans les textes et intéressantes du point de vue des informations recherchées (« ontologie d'extraction »). Cette ontologie est construite en unifiant une « ontologie des besoins », décrivant les informations à extraire, avec une « ontologie des termes », conceptualisant les termes du corpus à traiter liés avec ces informations. L'ontologie des termes est élaborée à partir d'une terminologie extraite des textes et enrichie par des termes issus de documents spécialisés. L'ontologie d'extraction est représentée par un ensemble de règles formelles qui sont fournies comme base de connaissance au système d'extraction SYGET. Ce système procède d'abord à un étiquetage des instances des éléments de l'ontologie d'extraction présentes dans les textes, puis extrait les informations recherchées. Cette approche est validée sur plusieurs corpus.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00109400 |
Date | 03 October 2005 |
Creators | Even, Fabrice |
Publisher | Université de Nantes |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds