• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois. / Tools and environments for incremental improvement, contributive post-editing and continuous evaluation of MT systems. Application to French-Chinese MT.

Wang, Lingxiao 14 December 2015 (has links)
La thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTra et iMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JianDan-eval, une plate-forme de construction, déploiement et évaluation de systèmes de TA. / The thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.
2

Création et exploitation d'un corpus trilingue du tourisme (italien/français/anglais) en vue de la réalisation d'une base de données lexicale informatisée / Creation and exploitation of a trilingual tourism corpus (Italian, French, English) for the realisation of a lexical electronic stored database

Piccato, Mariangela 23 July 2012 (has links)
Au cours des dernières années, le secteur touristique a été caractérisé par toute une série de changements fondamentaux. L’un de ces changements, certainement le plus important, a été le fait d’être considéré aujourd’hui comme l’activité productive capable de faire tourner l’économie d’un pays entier.Notre mémoire de recherche se situe à l’intersection de la terminologie thématique, de la linguistique de corpus et du traitement automatique des langues.Dans le premier chapitre du travail que nous allons présenter, nous chercherons à introduire aux domaines d’études théoriques sur lesquels notre recherche s’appuie.Premièrement, on traitera de la linguistique de corpus et on examinera les différentes catégories de corpus existantes. On mettra l’accent sur deux notions fondamentales dans la conception de l’outil corpus en général et dans la création de notre corpus en particulier : représentativité et contexte. Au sein du discours touristique, la représentativité, d’un côté, se relie au caractère spécial de notre micro-langue ; le contexte, de l’autre, révèle la pluralité des sous-domaines qui composent ce technolecte à mi-chemin entre la langue générale et la langue spécialisée.Dans le deuxième chapitre, nous présenterons le corpus thématique trilingue (CTT) que nous avons créé préalablement à la rédaction de la thèse proprement dite.Avant tout, on fournira les indications théoriques et pragmatiques nécessaires pour réaliser un corpus trilingue en langue de spécialité : la collecte des textes, l’homogénéisation des échantillons textuels repérés et l’annotation. Au cours de ce chapitre, nous présenterons Alinea, l’instrument qu’on a utilisé pour l’alignement de textes recueillis et pour la consultation simultanée des traductions trilingues. Dans le troisième et dernier chapitre, on passera à l’interrogation du corpus créé. Sur la base d’un terme pris comme exemple, le terme ville, on lancera la recherche dans le CTT. Ensuite, on analysera les collocations les plus usitées contenant le mot ville.En guise de conclusion de notre mémoire, nous présenterons une annexe consacrée à notre glossaire trilingue comme résultat de notre exploration de la chaîne terminologique qu’on aura analysée précédemment. Pour conclure, l’objectif général de notre étude sera d’explorer la chaîne de gestion terminologique à travers la création d’un glossaire trilingue dans le domaine du tourisme. Notre orientation méthodologique de caractère sémasiologique impliquera ainsi au moins quatre objectifs spécifiques :• créer un corpus trilingue du tourisme (CTT), capable d’attester des usages en contexte des termes.• extraire des termes en utilisant des techniques diverses, telle que l’étude fréquentielle des éléments du corpus.• vérifier les données obtenues et les compléter à l’aide de ressources externes.• répertorier et décrire l’ensemble des termes sous forme d’un glossaire trilingue à sujet touristique (GTT). / Our study concerns the language of tourism from a lexicographical perspective.Exploiting the web we realized a corpus ad hoc. This corpus is composed by about 10.000 texts in three languages (French, Italian and English), aligned using “Alinea”.Starting from terminological extraction, we analysed some collocations at the aim to create a trilingual and tri-directional glossary.We chose this subject according to the increasing importance taken from tourism economy in the world.Our study fields are thematic terminology, corpus linguistics and automatic language treatment.The first chapter presents the study field of our research. First of all, we introduced to corpus linguistics presenting the different categories of corpus and pointing out our attention on two main notions: representativeness and context.Therefore, we explained the link between Language for Special Purposes and tourism discourse as a Specialized Discourse.In the second chapter, we showed the trilingual thematic corpus we created during our researches. We described the main steps to create a corpus: collection of texts, cleaning and annotation.In this chapter, we gave a particular attention to the presentation of “Alinea”.Finally, the third chapter is a study of frequent collocations with the term “town” (ville).The annexes present the glossary as well as the methodological principals we followed in the redaction.
3

Valorisation des analogies lexicales entre l'anglais et les langues romanes : étude prospective pour un dispositif plurilingue d'apprentissage du FLE dans le domaine de la santé / Emphasising lexical analogies between English and Romance languages : prospective study towards a plurilingual learning device of French for healthcare

Gilles, Fabrice 29 September 2017 (has links)
Cette étude lexicologique prospective s'inscrit dans la didactique des L3. L’objectif est d’élaborer un interlexique anglais-espagnol-français-italien-portugais composé des adjectifs, noms et verbes anglais fréquents dans les écrits scientifiques de la santé, et de leurs équivalents de traduction analogues en espagnol, français, italien et portugais. Deux mots sont analogues s’ils ont le même sens et une forme similaire.Les rapports entre les concepts d'analogie, de similarité et d'identité sont examinés, les types d'analogies intralinguistiques et interlinguistiques illustrés et les principales analogies et dissemblances entre l’anglais, le français et les langues romanes exposées. L'existence de celles-ci est justifiée par les origines indoeuropéennes et surtout d'intenses contacts de langues. Après avoir rappelé l’importance de l’analogie dans l’apprentissage, nous montrons le lien entre notre recherche et deux types d’approches didactiques des langues : l'intercompréhension, qui développe la compréhension de langues voisines, et les approches sur corpus qui permettent de mieux connaitre et faire connaitre la phraséologie scientifique.Les 2000 lemmes anglais les plus fréquents ont été extraits du corpus scientifique anglais de ScienText, leurs 2208 acceptions fréquentes délimitées sur la base du profil combinatoire et triées en deux catégories sémantiques : lexique de spécialité et lexique scientifique transdisciplinaire. Les lemmes anglais ont été traduits dans les quatre langues romanes, et la similarité mesurée en fonction de la sous-chaine maximale commune (SMC).L’interlexique contient 47 % des acceptions fréquentes. Par couples de langues, l’analogie est encore plus élevée : anglais – français, 66 %, anglais-italien, 65 %, anglais-espagnol, 63 %, anglais-portugais, 58 %. Ce lexique analogue pourrait donc servir comme base de transfert dans des activités de FLE L3 pour des professionnels de la santé, et l’anglais L2 semble être une passerelle possible vers les langues romanes. Des activités plurilingues sont construites sur des concordances extraites des corpus multilingues alignés EMEA et Europarl. Un questionnement métalinguistique en anglais sensibilise à des traits (morpho)syntaxiques du français ; les analogies des deux langues sont systématiquement mises en relief, et dans les cas d'opacité, celles des autres langues romanes avec l’anglais. / This prospective lexicological investigation belongs to the field of L3 French didactics. The purpose is to elaborate a French-Italian-Portuguese-Spanish interlexicon out of the frequent adjectives, nouns and verbs of the healthcare scientific writings, and their analogue translation equivalents in French, Italian, Portuguese and Spanish. Two words are analogue if they have the same meaning and a similar form.Related concepts of analogy, similarity and identity are discussed, types of intralinguistic and cross-linguistic analogies reviewed, and the main analogies and differences between English, French and Romance languages detailed. Their many analogies are justified by Indo-European origins and mostly by intense language contacts. Once the importance of analogy in learning procedures has been highlighted, we show how this research and two types of didactic approaches connect together: intercomprehension, which develops comprehension skills in neighbor languages, and corpus approaches which enable to get a closer insight into scientific phraseology.The 2000 most frequent English lemmas were extracted from the ScienText English scientific corpus, their 2208 frequent acceptions explored from their combinatory profile and sorted out in two semantic categories: healthcare subject-specific vocabulary and science specific trans-disciplinary vocabulary. The English lemmas were translated into the four Romance languages, and similarity measurements were carried out with the longest common substring method.The interlexicon contains 47% of the frequent acceptions. Analogy is even higher by language pairs: English – French, 66%, English – Italian, 65%, English - Spanish, 63%, English – Portuguese, 58%. Consequently, this analogue vocabulary could form a transfer basis in learning activities of L3 French for health care providers, and L2 English seems to be a possible bridge language toward Romance languages. Plurilingual activities are built on concordances extracted from multilingual aligned corpora (EMEA, Europarl). Metalinguistic questions in English point out (morpho)syntactic features of French; the analogies between both languages are systematically enhanced, and in case of lexical opacity, those between English and the other Romance languages.

Page generated in 0.0851 seconds