• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Représentations vectorielles et apprentissage automatique pour l’alignement d’entités textuelles et de concepts d’ontologie : application à la biologie / Vector Representations and Machine Learning for Alignment of Text Entities with Ontology Concepts : Application to Biology

Ferré, Arnaud 24 May 2019 (has links)
L'augmentation considérable de la quantité des données textuelles rend aujourd’hui difficile leur analyse sans l’assistance d’outils. Or, un texte rédigé en langue naturelle est une donnée non-structurée, c’est-à-dire qu’elle n’est pas interprétable par un programme informatique spécialisé, sans lequel les informations des textes restent largement sous-exploitées. Parmi les outils d’extraction automatique d’information, nous nous intéressons aux méthodes d’interprétation automatique de texte pour la tâche de normalisation d’entité qui consiste en la mise en correspondance automatique des mentions d’entités de textes avec des concepts d’un référentiel. Pour réaliser cette tâche, nous proposons une nouvelle approche par alignement de deux types de représentations vectorielles d’entités capturant une partie de leur sens : les plongements lexicaux pour les mentions textuelles et des “plongements ontologiques” pour les concepts, conçus spécifiquement pour ce travail. L’alignement entre les deux se fait par apprentissage supervisé. Les méthodes développées ont été évaluées avec un jeu de données de référence du domaine biologique et elles représentent aujourd’hui l’état de l’art pour ce jeu de données. Ces méthodes sont intégrées dans une suite logicielle de traitement automatique des langues et les codes sont partagés librement. / The impressive increase in the quantity of textual data makes it difficult today to analyze them without the assistance of tools. However, a text written in natural language is unstructured data, i.e. it cannot be interpreted by a specialized computer program, without which the information in the texts remains largely under-exploited. Among the tools for automatic extraction of information from text, we are interested in automatic text interpretation methods for the entity normalization task that consists in automatically matching text entitiy mentions to concepts in a reference terminology. To accomplish this task, we propose a new approach by aligning two types of vector representations of entities that capture part of their meanings: word embeddings for text mentions and concept embeddings for concepts, designed specifically for this work. The alignment between the two is done through supervised learning. The developed methods have been evaluated on a reference dataset from the biological domain and they now represent the state of the art for this dataset. These methods are integrated into a natural language processing software suite and the codes are freely shared.
2

Extraction et analyse de la néologie des technologies langagières dans deux revues traductologiques

Morel, Jean-Benoit 04 1900 (has links)
Dans la présente étude, nous avons pour objectifs d’extraire et d’analyser les néologismes des technologies langagières du point de vue de la traductologie et de ses domaines connexes, d’utiliser ces néologismes comme fenêtre sur l’évolution des connaissances relatives aux technologies langagières, et de mettre à l’épreuve la méthodologie élaborée dans le cadre de l’étude. Les technologies langagières occupent une place centrale en traductologie. Pour l’extraction et l’analyse, nous utilisons alors un corpus diachronique composé d’articles publiés en français et en anglais, de 1966 à 2019, dans les revues traductologiques Meta : journal des traducteurs et TTR : traduction, terminologie et rédaction. Nous proposons une méthodologie innovatrice en terminologie pour l’extraction et l’analyse des néologismes, qui combine l’utilisation d’un corpus d’exclusion, d’un calcul des fréquences et des plongements lexicaux diachroniques. Enfin, nous validons et analysons les néologismes sur la base de leur concordance et selon la typologie de Rondeau (1984). Nous visons plus précisément les termes d’un lexique bilingue des technologies langagières que nous avons compilé à partir d’ouvrages spécialisés. Les résultats nous permettent de faire état de la néologie, en anglais et en français, des technologies langagières utilisées en traductologie et dans ses domaines connexes. Les données recueillies évoquent une variété de domaines, d’événements et de thématiques que nous analysons et qui représentent de nouvelles avenues à explorer. De plus, elles signalent la similarité de la néologie du domaine dans les deux langues et nous permettent d’observer la popularité, la trajectoire et l’instabilité des néologismes au sein du corpus. Ainsi, nous offrons une perspective novatrice sur les technologies langagières et sa terminologie pour les spécialistes de la traductologie et de ses domaines connexes. / In this study, we aim to extract and analyze language technologies neologisms from the point of view of translation studies and its related fields, to use these neologisms as a window on the evolution of knowledge about language technologies, and to put the methodology developed as part of the study to the test. Language technologies hold an important place in translation studies. For the extraction and analysis, we then use a diachronic corpus built from articles published in French and English, from 1966 to 2019, in two translation studies journals, Meta: translators’ journal and TTR: traduction, terminologie et rédaction. We develop an innovative methodology in terminology for the extraction and analysis of neologisms combining the use of an exclusion corpus, a frequency analysis and diachronic word embeddings. Finally, we validate and analyze neologisms based on their concordance and according to Rondeau’s typology (1984). We focus on terms that are part of a bilingual glossary of language technologies that we compiled for this study from specialized works. The results enable us to describe the neology, in French and English, of language technologies used in translation studies and its related fields. Collected data relate to a variety of fields, events and themes that we analyze, and which provide leads for further analysis. Also, the data point to the similarity of the domain’s neology in both languages and enable us to observe the popularity, trajectory, and stability of neologisms within the corpus. In this way, we offer an innovative perspective on language technologies and its terminology to translation studies and related fields experts.

Page generated in 0.0812 seconds