Toutes les informations présentes actuellement sur le web représentent une source d‘informations colossale, qui s‘enrichit de jour en jour. L‘analyse automatique de ces informations, qui sont plus souvent non-structurées, constitue un véritable enjeu économique et scientifique. La résolution des anaphores nominales s‘inscrit dans la structuration des informations grâce à l‘identification du lien entre des groupes nominaux, elle permet de simplifier des tâches à différentes applications : la traduction automatique, le résumé ou l‘extraction automatique d‘information, le data mining etc. Dans ce contexte, le travail que nous avons mené dans cette thèse évoque différentes méthodes de résolution des anaphores nominales de deux types : infidèles et associatives. En nous fondant sur divers aspects autours de la notion d‘anaphore nominale et des notions de voisinage comme la résolution d‘anaphores pronominales, la résolution de coréférences ; en combinant des méthodes existantes avec des outils et des ressources disponibles pour la langue française, notre travail s‘attache à trois modules : module de prétraitement du corpus, module de résolution des anaphores nominales et le module d‘évaluation. Au module de prétraitement, les ressources lexicales sont constituées et mobilisées grâces aux analyses au niveau linguistique des anaphores nominales. La plateforme Unitex est le principal outil utilisé à cette étape. Pour les anaphores du type infidèle, nous avons utilisé deux méthodes différentes : la première mobilise des ressources lexicales simples avec les entrées de groupes nominaux uniquement ; la deuxième mobilise des ressources plus élaborées (les entrées de groupes nominaux et verbaux). Pour les anaphores associatives du type méronymique, nous nous fondons sur la théorie des classes d‘objets afin de décrire le type de relation anaphorique établie Résumé 17 entre l‘expression anaphorique et son antécédent. Les ressources utilisées pour ce type d‘anaphore sont ainsi divisées hiérarchiquement selon les classes et les domaines. Le module de résolution est l‘étape de décision, nous nous basons sur le calcul du poids de saillance de chacun des antécédents potentiels pour sélectionner le meilleur candidat. Chaque candidat peut avoir différents facteurs de saillance, qui correspond à sa probabilité d'être sélectionné. Le poids de saillance final est calculé par le moyen pondéré des poids de saillance élémentaires. Les facteurs de saillances sont proposés après les analyses syntaxiques et sémantiques du corpus. L‘évaluation de notre travail constitue un vrai enjeu à cause de la complexité de la tâche, mais elle nous permet d‘avoir une vue globale sur nos méthodes de travail. La comparaison des résultats obtenus permet de visualiser l‘apport de chaque paramètre utilisé. L‘évaluation de notre travail nous permet également de voir les erreurs au niveau du prétraitement (l‘extraction des syntagmes nominaux, des syntagmes verbaux…), cela nous a permis d‘intégrer un module de correction dans notre système. / In order to facilitate the interpretation of texts, this thesis is devoted to the development of a system to identify and resolve the indirect nominal anaphora and the associative anaphora. Resolution of the indirect nominal anaphora is based on calculating salience weights of candidate antecedents with the purpose of associating these antecedents with the anaphoric expressions identified. It is processed by twoAnnexe317different methods based on a linguistic approach: the first method uses lexical and morphological parameters; the second method uses morphological and syntactical parameters. The resolution of associative anaphora is based on syntactical and semantic parameters.The results obtained are encouraging: 90.6% for the indirect anaphora resolution with the first method, 75.7% for the indirect anaphora resolution with the second method and 68.7% for the associative anaphora resolution. These results show the contribution of each parameter used and the utility of this system in the automatic interpretation of the texts.
Identifer | oai:union.ndltd.org:theses.fr/2017USPCD049 |
Date | 27 January 2017 |
Creators | Pham, Thi Nhung |
Contributors | Sorbonne Paris Cité, Buvet, Pierre-André |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds