La thèse porte sur la génération automatique de descriptions définies et démonstratives. Il s'agit d'établir les contraintes linguistiques qui régissent leur production, et d'identifier les connaissances non linguistiques qui entrent en jeu dans cette production. Les algorithmes existant traitent essentiellement la génération de descriptions définies lorsque leur référent est déjà connu et les pronoms. Notre objectif est de parvenir à la génération de descriptions définies référant à des entités nouvelles et de descriptions démonstratives. Pour y parvenir, nous avons étudié un corpus de 10 000 descriptions définies et démonstratives. Notre thèse s'articule autour de deux grandes parties. Dans la première partie, nous réalisons un état de l'art dans les trois domaines qui nous concernent et dans la seconde, nous présentons les résultats de notre étude, et les extensions des algorithmes que nous proposons. Dans le premier chapitre, nous exposons les données théoriques et empiriques connues sur la référence, les expressions référentielles en français, et en anglais. Nous concluons par une synthèse montrant les limites de ces analyses. Nous présentons dans le deuxième chapitre la problématique de la génération d'expressions référentielles, et les algorithmes existant. Nous présentons l'algorithme de Gardent et Striegnitz, et montrons en quoi il nous semble être le plus approprié pour les extensions que nous souhaitons réaliser. Le troisième chapitre présente les concepts liés la linguistique de corpus et au traitement de corpus électroniques. Nous terminons la première partie par une synthèse exposant comment se lient les problèmes posés par les trois domaines abordés. Le cinquième chapitre de notre thèse présente les travaux ralisés sur le corpus, des pré-traitements informatiques à l'extraction des résultats. Dans le sixième chapitre, nous exposons les résultats d'une étude approfondie des anaphores associatives annotées dans notre corpus, et une extension de l'algorithme de Gardent et Striegnitz. Le septième chapitre présente une étude des descriptions définies et démonstratives et une seconde extension de l'algorithme de Gardent et Striegnitz, en tenant compte de la notion d'informativité d'une expression référentielle. Le dernier chapitre présente les contraintes identifiées l'aide du corpus sur le choix du déterminant des descriptions, et nous montrons qu'elles sont à la fois syntaxiques et sémantiques.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00526602 |
Date | 27 November 2003 |
Creators | Manuélian, Hélène |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0051 seconds