L'enjeu de cette thèse est l'acquisition automatique de nouveaux sens lexicaux.Nous définissons un modèle théorique sur l'émergence d'un nouveau sens pour une unité lexicale ayant déjà un sens codé. Le phénomène ciblé est la néologie sémantique, ou néosémie, définie comme une variation sémantique marquée en cours de diffusion. Nous la modélisons à partir d'indices quantitatifs articulés à des principes issus de la sémantique textuelle. Le sens codé est représentécomme un ensemble structuré de traits sémantiques. Il est modulé en discours sous l'effet de récurrences d'autres traits. La dynamique du sens est représentée à l'aide de descripteurs de granularité sémantique variable.Ensuite, nous proposons des ressources et outils adaptés, relevant de la linguistique de corpus. Les ressources sont de deux types, lexicographiques pour le sens codé et textuelles pour le sens en discours. En pratique, le Trésor de la Langue Française informatisé fournit les sens codés. Une plateforme transforme ses définitions en ensembles de traits sémantiques. Trois corpus journalistiques des années 2000 servent de ressources textuelles. Les outils mathématiques, essentiellementstatistiques, permettent de jouer sur la structure des ressources, d'extraire des unités saillantes et d'organiser l'information.Enfin, nous établissons les grandes lignes d'une procédure pour allouer de façon semi-automatique un nouveau sens. Elles sont étayées par des expériences illustratives. Le déroulement de la procédure repose sur des niveaux de description de plus en plus fins (domaines, unités lexicales puis traits sémantiques). Il s'appuie sur des jeux de contrastes multiples, permettant de nuancer l'informationsémantique. / The issue at stake is the automated meaning allocation.In a first time, a theoretical scheme is elaborated to describe meaning change for a lexical unit already defined in a lexical resource. We focus on semantic neology, considered as a significant repeted change. Our model relies on quantitative evidence and it is inspired from text semantics. The preexisting meaning is represented as a structured set of semantic features. The context modifies it dueto salient semantic featuresin texts. These dynamic change is comprehended through description strata ranging from coarse-grained to fine-grained semantic units. In a second time, we dwell on relevant resources and tools from corpus linguistics. The resources are dictionaries and text corpus. Concretely, we use the Trésor de la Langue Française informatisé as a dictionary. Its entries are automatically converted into bags of semantic features. The textual dataconsists in three recent journalistic corpus. The resources are considered are mathematic spaces and statistical tools are used to extract significant units and to structure information.In a last time, we give an outline of a process to allocate automatically a new meaning. Experiments illustrate each step. This process relies on multiple levels of description, getting finer and finer.Through this approach, it is possible to qualify the new meaning in a precise and structured way.
Identifer | oai:union.ndltd.org:theses.fr/2012LORR0038 |
Date | 20 January 2012 |
Creators | Reutenauer, Coralie |
Contributors | Université de Lorraine, Pierrel, Jean-Marie, Jacquey, Evelyne, Valette, Mathieu |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.002 seconds