L'acquisition de connaissances relatives aux constructions verbales est une question importante pour le traitement automatique des langues, mais aussi pour la lexicographie qui vise à documenter les nouveaux usages linguistiques. Cette tâche pose de nombreux enjeux, techniques et théoriques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à deux aspects fondamentaux de la description du verbe : la notion d'entrée lexicale et la distinction entre arguments et circonstants. A la suite de précédentes études en traitement automatique des langues et en linguistique nous faisons l'hypothèse qu’il n’y a pas de distinction marquée entre homonymes et quasi-synonymes ; de même, nous posons qu’il existe un continuum entre arguments et circonstants. Nous proposons une chaîne de traitement complète pour l'acquisition de schémas prédicatifs verbaux en japonais à partir d'un corpus non étiqueté de textes journalistiques. Cette chaîne de traitement intègre la notion d'argumentalité au processus de création des entrées lexicales et met en œuvre une modélisation de ces deux continuums. La ressource produite a fait l'objet d'une évaluation comparative qualitative, qui a permis de mettre en évidence la difficulté des ressources linguistiques à décrire de nouvelles données, plaidant par là même pour une lexicologie s'inscrivant dans le cadre épistémologique de la linguistique de corpus. / Lexical knowledge acquisition of verbal constructions is an important issue for natural language processing as well as lexicography, which aims at referencing emerging linguistic usages. Such a task implies numerous challenges, technical as well as theoretical. In this thesis, we had a closer look at two fundamental aspects of the description of the verb: the notion of lexical item and the distinction between arguments and adjuncts. Following up on studies in natural language processing and linguistics, we embrace the hypothesis that there is no clear distinction between homonyms and quasi-synonyms, and the hypothesis of a continuum between arguments and adjuncts. We provide a complete approach to lexical knowledge acquisition of verbal constructions from an untagged news corpus. The acquisition process makes use of the notion of argumenthood, and builds models of the two continuums. Our lexicon has been evaluated on a qualitative and comparative basis. Siding with lexicography anchored in the theoretical framework of corpus linguistics, we show the difficulty of using lexical resources to describe as yet unseen data.
Identifer | oai:union.ndltd.org:theses.fr/2015INAL0015 |
Date | 15 October 2015 |
Creators | Marchal, Pierre |
Contributors | Paris, INALCO, Institut national des langues et civilisations orientales (Paris), Poibeau, Thierry |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0026 seconds