Global ETD Search

11	Méthode d'enrichissement et d'élargissement d'une ontologie à partir de corpus de spécialité multilingues / Method of ontology enrichment and population from multilingual comparable domain specific corpus Korenchuk, Yuliya 11 July 2017 (has links) Cette thèse propose une méthode pour alimenter une ontologie, une structure de concepts liés par des relations sémantiques, par des termes français, anglais et allemands à partir de corpus spécialisés comparables. Son apport principal est le développement des méthodes d'extraction utilisant des ressources endogènes apprises à partir de corpus et d'ontologie. Exploitant des n-grammes de caractères, elles sont disponibles et indépendantes vis-à-vis de la langue et du domaine. La première contribution porte sur l'utilisation des ressources morphologiques et morphosyntaxiques endogènes pour extraire des termes mono- et polylexicaux à partir de corpus. La deuxième contribution vise à exploiter des ressources endogènes pour identifier leurs traductions. La troisième contribution concerne la construction des familles morphologiques endogènes servant à alimenter l'ontologie. / This thesis proposes a method of enrichment and population of an ontology, a structure of concepts linked by semantic relations, by terms in French, English and German from comparable domain-specific corpora. Our main contribution is the development of extraction methods based on endogenous resources, learned from the corpus and the ontology being analyzed. Using caracter n-grams, these resources are available and independent of a particular language or domain. The first contribution concerns the use of endogenous morphological and morphosyntactic resources for mono- and polylexical terms extraction from the corpus. The second contribution aims to use endogenous resources to identify translations for these terms. The third contribution concerns the construction of endogenous morphological families designed to enrich and populate the ontology. Ontologies Extraction terminologique Alignement bilingue de termes Corpus comparables Ressources endogènes Ontologies Terminology extraction Bilingual alignment of terms Comparable corpora Endogenous resources 005.13
12	L’extraction de phrases en relation de traduction dans Wikipédia Rebout, Lise 06 1900 (has links) Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique. / Working with comparable corpora can be useful to enhance bilingual parallel corpora. In fact, in such corpora, even if the documents in the target language are not the exact translation of those in the source language, one can still find translated words or sentences. The free encyclopedia Wikipedia is a multilingual comparable corpus of several millions of documents. Our task is to find a general endogenous method for extracting a maximum of parallel sentences from this source. We are working with the English-French language pair but our method -- which uses no external bilingual resources -- can be applied to any other language pair. It can best be described in two steps. The first one consists of detecting article pairs that are most likely to contain translations. This is achieved through a neural network trained on a small data set composed of sentence aligned articles. The second step is to perform the selection of sentence pairs through another neural network whose outputs are then re-interpreted by a combinatorial optimization algorithm and an extension heuristic. The addition of the 560~000 pairs of sentences extracted from Wikipedia to the training set of a baseline statistical machine translation system improves the quality of the resulting translations. We make both the aligned data and the extracted corpus available to the scientific community. Alignement de phrases Réseaux de neurones Corpus comparables Classifieurs Systèmes de traduction statistiques Algorithmes d'optimisation combinatoire Sentence alignment Neural networks Comparable corpora Classifiers Statistical machine translation Combinatorial optimization algorithms
13	La terminologie bilingue (Arabe-Français) de la surdité : analyse du discours textuelle et socioterminologique / The bilingual terminology (Arabic-French) of deafness discours analysis : textual and socioterminological Tajo, Kinda 18 December 2013 (has links) Le texte spécialisé dans le domaine de la surdité est un phénomène complexe où les termes ont une fonction sémantique très importante. Le discours actualise le sens des termes et donne suite à de nouvelles significations dynamiques. Le corpus bilingue (français, arabe) est représentatif de différents types de discours et de niveaux de spécialisation notamment lorsqu’il s’agit de comparer la terminologie de la surdité entre les pays arabes (Liban, Syrie et Jordanie). Les termes, qui sont responsables de transmettre les connaissances relatives à une spécialité, constituent aujourd'hui un objet d'étude central pour la terminologie. Leur extraction s’effectue non seulement par la méthode manuelle mais aussi à travers les nouveaux logiciels d’extraction automatique. Cette thèse prend en considération les besoins linguistiques des usagers qui sont dorénavant les vrais consommateurs de terminologie. Elle a pour objectif de faire une approche socioterminologique et textuelle du domaine de la surdité en mettant la lumière sur les phénomènes étudiés comme la synonymie, la variation terminologique, la vulgarisation, la métaphore, la traduction et autres. Sa retombée étant la constitution d’une base de données terminologique trilingue qui répond aux exigences des spécialistes et des non-spécialistes. / The specialized text in the domain of deafness is a complex phenomenon where terms have important semantic functions. The discourse updates the meaning of terms and brings up new dynamic significations. The bilingual corpus (French, Arabic) is representative of different types of discourse and levels of specialization especially when it comes to comparing the terminology of deafness in the three Arab countries (Lebanon, Syria, Jordan). Terms in charge of transmitting knowledge of special fields represent nowadays a central object of study for terminology. The extraction of terms can be made manually but also by means of new automatic term extraction software. Our doctoral thesis takes into consideration the linguistic needs of language users that are considered from now on the real consumers of terminology. This thesis is intended for socioterminological and textual approaches of the domain of deafness. It highlights the studied phenomena such as synonymy, terminology variation, scientific popularization, metaphor, translation and many other phenomena. The result of the thesis research being the construction of a trilingual terminological data base, it meets the requirements of specialists and non-specialists. Terminologie textuelle Socioterminologie Terminologie culturelle Vulgarisation Variante terminologique Corpus comparables Usager Contexte Extraction terminologique Textual terminology Socioterminology Cultural terminology Scientific popularization Terminology variation Comparable corpus Users Context Term extraction
14	L’extraction de phrases en relation de traduction dans Wikipédia Rebout, Lise 06 1900 (has links) Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique. / Working with comparable corpora can be useful to enhance bilingual parallel corpora. In fact, in such corpora, even if the documents in the target language are not the exact translation of those in the source language, one can still find translated words or sentences. The free encyclopedia Wikipedia is a multilingual comparable corpus of several millions of documents. Our task is to find a general endogenous method for extracting a maximum of parallel sentences from this source. We are working with the English-French language pair but our method -- which uses no external bilingual resources -- can be applied to any other language pair. It can best be described in two steps. The first one consists of detecting article pairs that are most likely to contain translations. This is achieved through a neural network trained on a small data set composed of sentence aligned articles. The second step is to perform the selection of sentence pairs through another neural network whose outputs are then re-interpreted by a combinatorial optimization algorithm and an extension heuristic. The addition of the 560~000 pairs of sentences extracted from Wikipedia to the training set of a baseline statistical machine translation system improves the quality of the resulting translations. We make both the aligned data and the extracted corpus available to the scientific community. Alignement de phrases Réseaux de neurones Corpus comparables Classifieurs Systèmes de traduction statistiques Algorithmes d'optimisation combinatoire Sentence alignment Neural networks Comparable corpora Classifiers Statistical machine translation Combinatorial optimization algorithms
15	Traduction assistée par ordinateur et corpus comparables : contributions à la traduction compositionnelle Delpech, Estelle 02 July 2013 (has links) (PDF) Notre travail concerne l'extraction de lexiques bilingues à partir de corpus comparables, avec une application à la traduction spécialisée. Nous avons d'abord évalué les méthodes classiques d'acquisition de lexiques en corpus comparables (basées l'hypothèse distributionnelle : plus deux termes apparaissent dans des contextes similaires, plus il y a de chances qu'ils soient des traductions) d'un point de vue applicatif. L'évaluation a montré que les traducteurs sont mal à l'aise avec les lexiques extraits : la traduction correcte est trop souvent noyée dans une liste de traductions candidates et ils préfèreraient utiliser un lexique plus petit mais plus précis. Partant de ce constat, nous nous sommes orientés vers une autre approche qui a fait récemment ses preuves pour l'exploitation des corpus comparables et produit des lexiques plus adaptés aux besoins des traducteurs : la traduction compositionnelle (la traduction du terme source est fonction de la traduction de ses parties). Nous nous sommes concentrés sur la traduction d'unités monolexicales : le terme source est découpé en morphèmes, les morphèmes sont traduits puis recomposés en un terme cible. Dans ce cadre, nous avons poursuivi trois axes de recherche : la génération de traductions fertiles (cas où le terme cible contient plus de mots lexicaux que le terme source), l'indépendance aux structures morphologiques et l'ordonnancement des traductions candidates. traduction assistée par ordinateur corpus comparables compositionnalité learning-to-rank évaluation centrée utilisateur morphologie computationnelle
16	Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social / Differential characterization of discussion forums on HIV in Vietnamese and French : Elements for behaviour mining on the social web Hô Dinh, Océane 22 December 2017 (has links) Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts. / The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments. Web social Discours institutionnel Corpus comparables Analyse contrastive Analyse de Données Textuelles Linguistique de corpus Sémantique Santé sexuelle Social Web Institutional Discourse Comparable Corpora Contrastive Analysis Textual Data Analysis Corpus Linguistics Semantics Sexual Health

Page generated in 0.0635 seconds