Return to search

Etude de la paraphrase sous-phrastique en traitement automatique des langues / A study of sub-sentential paraphrases in Natural Language Processing

La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu’une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s’avère indispensable dans de nombreux contextes. L’acquisition a priori de listes d’équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d’une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d’acquisition de paraphrases sous-phrastiques à partir de paires d’énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu’extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d’étude. Nos expériences mettent en jeu cinq techniques d’acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d’améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d’entropie bi-classe. Un résultat important de notre étude est l’identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l’impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d’acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d’une analyse de la performance des différentes méthodes testées en fonction des difficultés d’alignement des paires de paraphrases d’énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d’identification automatique. / Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the level of sub-sentential fragments. Although one can envisage to manually build high-coverage lists of synonyms, enumerating meaning equivalences at the level of phrases is too daunting a task for humans. Consequently, acquiring this type of knowledge by automatic means has attracted a lot of attention and significant research efforts have been devoted to this objective. In this thesis we use parallel monolingual corpora for a detailed study of the task of sub-sentential paraphrase acquisition. We argue that the scarcity of this type of resource is compensated by the fact that it is the most suited corpus type for studies on paraphrasing. We propose a large exploration of this task with experiments on two languages with five different acquisition techniques, selected for their complementarity, their combinations, as well as four monolingual corpus types of varying comparability. We report, under all conditions, a significant improvement over all techniques by validating candidate paraphrases using a maximum entropy classifier. An important result of our study is the identification of difficult-to-acquire paraphrase pairs, which are classified and quantified in a bilingual typology.

Identiferoai:union.ndltd.org:theses.fr/2012PA112100
Date11 June 2012
CreatorsBouamor, Houda
ContributorsParis 11, Vilnat, Anne
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text, Image

Page generated in 0.0021 seconds