Le sens d’un mot est sujet à des variations au cours du temps. Nombre de phénomènes motivent ces modifications comme l’apparition de nouveaux objets ou les changements d’habitudes. Ainsi, un même mot peut se voir assigner un nouveau sens, retirer un sens, ou encore rester stable entre deux dates.
L’étude de la diachronie sémantique est un domaine s’intéressant à ces changements de sens. Les récents travaux sur la diachronie sémantique proposent des méthodologies pour le repérage de diachronies. Pour ce faire, ils s’appuient sur des textes issus de plusieurs périodes temporelles différentes, et grâce auxquels sont entrainés des modèles de langue. Un alignement des représentations obtenues, et une comparaison de celles de mots-cibles leur permet de conclure quant à leur changement de sens. Néanmoins, l’absence de jeu de données (dataset) de référence pour la validation de ces méthodes conduit au développement de méthodes de validation alternatives, suggérant notamment de s’appuyer sur les changements de sens recensés dans les dictionnaires traditionnels.
Le travail réalisé au cours de ma maitrise s’attache à exposer une réflexion sur les méthodes existantes de repérage des diachronies.
En nous appuyant sur un corpus journalistique couvrant l’ensemble du XXème siècle, nous proposons des méthodes complémentaires grâce auxquelles nous démontrons que les évaluations proposées font l’objet d’ambiguïtés. Celles-ci ne permettent dès lors pas de conclure quant à la qualité des méthodes.
Nous nous sommes ensuite attachés à développer une méthodologie pour la construction d’un jeu de données de validation. Cette méthodologie tire parti d’un algorithme de désambiguïsation afin d’associer à tous les sens recensés d’un mot une date d’apparition au cours du temps. Nous proposons un jeu de données composé de 151 mots permettant d’évaluer le repérage de diachronies en français entre 1910 et 1990. / The meaning of a word is subject to variations over time. Many phenomena motivate these modifications such as the appearance of new objects or changes in habits. Thus, the same word can be assigned a new meaning, or have a meaning withdrawn, or remain stable between two dates.
The study of semantic diachrony is a field that focuses on these changes in meaning. Recent work on semantic diachrony proposes methodologies for the detection of diachronies. In order to do so, they rely on texts from several different temporal periods, and through which language models are trained. An alignment of the obtained representations, and a comparison of those of target words enables one to infer the change of meaning. Nevertheless, the absence of a reference dataset for the validation of these methods leads to the development of alternative validation methods, suggesting in particular to rely on the changes of meaning identified in traditional dictionaries.
The work carried out during my master's degree aims at presenting a reflection on the existing methods of diachrony detection.
Based on a corpus of newspapers covering the whole 20th century, we propose complementary methods thanks to which we demonstrate that the proposed evaluations are subject to ambiguities. These ambiguities do not allow us to ensure the quality of the methods.
We then develop a methodology for the construction of a validation dataset. This methodology takes advantage of a disambiguation algorithm in order to associate a date of appearance in the course of time to all the senses of a word. We propose a dataset composed of 151 words allowing one to evaluate the identification of diachronies in French between 1910 and 1990.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/26071 |
Date | 08 1900 |
Creators | Kletz, David |
Contributors | Langlais, Philippe, Drouin, Patrick |
Source Sets | Université de Montréal |
Language | fra |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0025 seconds