Les ressources lexico-sémantiques, telles que les thésaurus, les terminologies ou les ontologies, visent à organiser les connaissances en rendant explicites divers types de relations sémantiques comme la synonymie ou la spécialisation. Le coût de la construction manuelle de telles ressources reste élevé, ce qui explique l'essor des méthodes d'acquisition automatique de connaissances, allant de l'extraction des termes représentant les unités de connaissance à l'identification des relations sémantiques qui les relient. Nous nous intéressons dans cette thèse au rôle que peut jouer la morphologie, c'est-à-dire la structure interne des mots, pour l'acquisition de telles connaissances à partir de corpus de textes de spécialité, essentiellement médicaux, et dans une perspective multilingue. <br /><br />Nous présentons deux systèmes d'acquisition de connaissances morphologiques non supervisés, caractérisés par des approches différentes. Le premier procède par segmentation des mots, tandis que le second regroupe les mots dans des familles morphologiques. <br /><br />Nous explorons ensuite les utilisations possibles de ce type d'informations pour l'acquisition de termes et de relations sémantiques. Nous proposons notamment une méthode de pondération et de visualisation des mots clés extraits de corpus de textes de spécialité en fonction de leur famille morphologique. Nous définissons également des schémas, basés sur les résultats de la segmentation morphologique, afin de découvrir des relations sémantiques telles que la spécialisation et la cohyponymie.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00119257 |
Date | 30 November 2006 |
Creators | Bernhard, Delphine |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0019 seconds