Global ETD Search

31	Mood : un cadre d'applications pour le développement de décodeurs en traduction statistique Patry, Alexandre January 2006 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Décodeur Intelligence artificielle Traduction automatique Traduction statistique
32	Neural machine translation architectures and applications / Traduction neuronale : architectures et applications Bérard, Alexandre 15 June 2018 (has links) Cette thèse est centrée sur deux principaux objectifs : l'adaptation de techniques de traduction neuronale à de nouvelles tâches, et la reproduction de travaux de recherche existants. Nos efforts pour la reproductibilité ont résulté en la création de deux ressources : MultiVec, un outil permettant l'utilisation de plusieurs techniques liées au word embeddings; ainsi qu'un outil proposant plusieurs modèles pour la traduction automatique et d’autres tâches similaires (par ex. post-édition automatique). Nous travaillons ensuite sur plusieurs tâches liées à la traduction : la Traduction Automatique (TA), Traduction Automatique de la Parole, et la Post-Édition Automatique. Pour la tâche de TA, nous répliquons des travaux fondateurs basés sur les réseaux de neurones, et effectuons une étude sur des TED Talks, où nous avançons l'état de l'art. La tâche suivante consiste à traduire la parole dans une langue vers le texte dans une autre langue. Dans cette thèse, nous nous concentrons sur le problème inexploré de traduction dite « end-to-end », qui ne passe pas par une transcription intermédiaire dans la langue source. Nous proposons le premier modèle end-to-end, et l'évaluons sur deux problèmes : la traduction de livres audio, et d'expressions de voyage. Notre tâche finale est la post-édition automatique, qui consiste à corriger les sorties d'un système de traduction dans un scénario « boîte noire », en apprenant à partir de données produites par des post-éditeurs humains. Nous étendons des résultats publiés dans le cadre des tâches de WMT 2016 et 2017, et proposons de nouveaux modèles pour la post-édition automatique dans un scénario avec peu de données. / This thesis is centered on two main objectives: adaptation of Neural Machine Translation techniques to new tasks and research replication. Our efforts towards research replication have led to the production of two resources: MultiVec, a framework that facilitates the use of several techniques related to word embeddings (Word2vec, Bivec and Paragraph Vector); and a framework for Neural Machine Translation that implements several architectures and can be used for regular MT, Automatic Post-Editing, and Speech Recognition or Translation. These two resources are publicly available and now extensively used by the research community. We extend our NMT framework to work on three related tasks: Machine Translation (MT), Automatic Speech Translation (AST) and Automatic Post-Editing (APE). For the machine translation task, we replicate pioneer neural-based work, and do a case study on TED talks where we advance the state-of-the-art. Automatic speech translation consists in translating speech from one language to text in another language. In this thesis, we focus on the unexplored problem of end-to-end speech translation, which does not use an intermediate source-language text transcription. We propose the first model for end-to-end AST and apply it on two benchmarks: translation of audiobooks and of basic travel expressions. Our final task is automatic post-editing, which consists in automatically correcting the outputs of an MT system in a black-box scenario, by training on data that was produced by human post-editors. We replicate and extend published results on the WMT 2016 and 2017 tasks, and propose new neural architectures for low-resource automatic post-editing. Traduction automatique de la parole Post-Édition automatique Modèles d’attention Plongements de mots 006.32
33	Utilité et utilisation de la traduction automatique dans l’environnement de traduction : une évaluation axée sur les traducteurs professionnels Rémillard, Judith 19 June 2018 (has links) L’arrivée de la traduction automatique (TA) bouleverse les pratiques dans l’industrie de la traduction et soulève par le fait même des questions sur l’utilité et l’utilisation de cette technologie. Puisque de nombreuses études ont déjà porté sur son utilisation dans un contexte où elle est imposée aux traducteurs, nous avons choisi d’adopter la perspective toute particulière des traducteurs pour examiner son utilité et son utilisation volontaire dans l’environnement de traduction (ET). Notre recherche visait à répondre à trois grandes questions : les traducteurs utilisent-ils la TA dans leurs pratiques? Les traducteurs croient-ils que les données de sortie sont utiles et utilisables? Les traducteurs utilisent-ils concrètement ces données de sortie dans le processus de traduction? Pour répondre à ces questions, nous avons d’abord diffusé un sondage à grande échelle afin de mesurer l’utilisation de la TA en tant qu’outil, de recueillir des données sur le profil des répondants et d’évaluer leur perception d’utilité par rapport aux données de sortie et aux divers types de phénomènes que nous avions identifiés au préalable avec l’aide de deux traducteurs professionnels. Ensuite, nous avons réalisé une expérience avec d’autres traducteurs professionnels où nous leur avons demandé de procéder à la traduction de courts segments et avons examiné s’ils utilisaient ou non ces données de sortie pour produire leur traduction. Notre analyse était fondée sur le principe que, dans un contexte d’utilisation volontaire, l’utilisation d’une donnée de sortie permet d’induire une perception d’utilité et d’examiner, par le fait même, l’utilité de la TA. Dans l’ensemble, nous avons trouvé que la TA n’est habituellement pas utilisée de façon volontaire, que les perceptions des traducteurs sont peu favorables à une telle utilisation, que la perception des traducteurs quant à l’utilité des données de sortie est aussi plutôt négative, mais que les données de sortie semblent être beaucoup plus utiles et utilisables que ce que ne pourraient le croire les traducteurs, car ils les ont généralement utilisées dans le processus de traduction. Nous avons aussi examiné les facteurs déterminants de l’utilité et de l’utilisation de la TA et des données de sortie. Postédition / post-editing perceptions / perceptions Utilisation / use Attitude / attitudes Évaluation / evaluation
34	Etudes et algorithmes liés à une nouvelle structure de données en T.A : les E-graphes Clemente-Salazar, Marco Antonio 17 May 1982 (has links) (PDF) Ce travail présente l'étude d'une structure de données qui s'efface d'allier souplesse de représentation et de traitement lors de la traduction automatique. On montre la formalisation de la structure (un réseau) et de ses notions principales (sous-structures, ordres, etc), puis on passe a l'analyse de quelques transformations de la structure. On décrit l'implémentation d'un prototype réduit programme en PROLOG et enfin on donne des algorithmes pour une programmation plus efficace de prototype traduction automatique structure de données graphes réseaux algorithmes PROLOG
35	TELA : Structure et algorithmes pour la traduction fondée sur la mémoire Planas, Emmanuel 07 July 1998 (has links) (PDF) Cette étude concerne les outils d'aide à la traduction fondée sur la mémoire (OTFM). La première partie offre un état de l'art de ces outils. Il est ensuite expliqué comment les OTFM de première génération, très utiles à l'industrie de la traduction, ne permettent toutefois pas de réaliser correctement certaines opérations basiques. On démontre alors que de ces faiblesses proviennent principalement du type de représentation des données, interne aux OTFM. Deux représentations complémentaires sont alors proposées : une représentation primaire fondée sur XML ou les données sont séquentielles, et une forme analytique composée d'un étagement de treillis liés : la structure "TELAM". Celle-ci permet d'éclater les données selon leur "nature" en autant de treillis. Cette seconde partie se termine par la présentation d'un modèle abstrait pour TELAM, appelé TELA. Une représentation objet d'une part et fondée sur le formalisme XML d'autre part, sont proposées pour TELA. La troisième partie propose des algorithmes pour manipuler les structures TELAM, et evalue leurs complexités statiques et dynamiques. La notion de similitude est proposée pour calculer les proximités de deux segments de traduction par le nombre d'opérations d'édition élementaires nécessaires pour passer de l'un à l'autre. Ces opérations s'appliquent sur chacun des étages des structures TELAM représentant chacun des segments. Deux algorithmes sont proposés à partir des travaux de Wagner et Fisher (1974) : l'algorithme X' pour évaluer la distance d'édition entre deux segments, et l'algorithme Y' pour donner l'une des suites d'opérations élementaires qui font passer de l'un à l'autre. On montre alors comment utiliser les structures TELAM et les algorithmes X' et Y' pour réaliser un nouveau système de traduction fondée sur la mémoire capable d'adapter et composer les unités de traduction. En outre, il devient alors possible de transférer les objets non textuels et la mise en forme depuis le segment d'entrée vers sa traduction. [INFO:INFO_OH] Computer Science/Other Traduction Automatique
36	Traduction automatique statistique et adaptation à un domaine spécialisé Rubino, Raphaël 30 November 2011 (has links) (PDF) Nous avons observé depuis plusieurs années l'émergence des approches statistiques pour la traduction automatique. Cependant, l'efficacité des modèles construits est soumise aux variabilités inhérentes au langage naturel. Des études ont montré la présence de vocabulaires spécifique et général composant les corpus de textes de domaines spécialisés. Cette particularité peut être prise en charge par des ressources terminologiques comme les lexiques bilingues.Toutefois, nous pensons que si le vocabulaire est différent entre des textes spécialisés ou génériques, le contenu sémantique et la structure syntaxique peuvent aussi varier. Dans nos travaux,nous considérons la tâche d'adaptation aux domaines spécialisés pour la traduction automatique statistique selon deux axes majeurs : l'acquisition de lexiques bilingues et l'édition a posteriori de traductions issues de systèmes automatiques. Nous évaluons l'efficacité des approches proposées dans un contexte spécialisé : le domaine médical. Nos résultats sont comparés aux travaux précédents concernant cette tâche. De manière générale, la qualité des traductions issues de systèmes automatiques pour le domaine médical est améliorée par nos propositions. Des évaluations en oracle tendent à montrer qu'il existe une marge de progression importante [INFO:INFO_OH] Computer Science/Other Traduction automatique statistique Domaine spécialisé Post-édition Lexique bilingue Terminologie
37	Modèle de traduction statistique à fragments enrichi par la syntaxe Nikoulina, Vassilina 19 March 2010 (has links) (PDF) Les modèles de traduction automatique probabiliste traditionnel ignorent la structure syntaxique des phrases source et cible. Le choix des unités lexicales cible et de leur ordre est contrôlé uniquement par des statistiques de surface sur le corpus d'entraînement. La connaissance de la structure linguistique peut-être bénéfique, car elle fournit des informations génériques compensant la pauvreté des données directement observables. Nos travaux ont pour but d'étudier l'impact des informations syntaxiques sur un modèle de traduction probabiliste de base, fondé sur des fragments, dans le cadre d'un analyseur dépendanciel particulier, XIP, dont la performance est bien adaptée à nos besoins. Nous étudions d'abord l'intégration des informations syntaxiques dans un but de reclassement des traductions proposées par le modèle de base? Nous définissons un ensemble de traits mesurant la similarité entre les structures de dépendance source et cible, et des traits de cohérence linguistique (basés sur l'analyse cible). L'apprentissage automatique des poids de ces traits permet de détecter leurs importance. L'évaluation manuelle des différents modèles de reclassement nous a permis de montrer le potentiel de ces traits pour améliorer la qualité des traductions proposées par le modèle de base. Ensuite, nous avons proposé un modèle pour réduire la taille du graphe des hypothèses exploré par le modèle de base à l'aide de connaissances sur la structure syntaxique source. Nous avons également proposé une procédure de décomposition d'une phrase source initiale en sous-phrases pour simplifier la tâche de traduction. Les évaluations initiales de ces modèles se sont montrées prometteuses. traduction automatique
38	Advanced Quality Measures for Speech Translation / Mesures de qualité avancées pour la traduction de la parole Le, Ngoc Tien 29 January 2018 (has links) Le principal objectif de cette thèse vise à estimer de manière automatique la qualité de la traduction de langue parlée (Spoken Language Translation ou SLT), appelée estimation de confiance (Confidence Estimation ou CE). Le système de SLT génère les hypothèses représentées par les séquences de mots pour l'audio qui contient parfois des erreurs. En raison de multiples facteurs, la sortie de SLT, ayant une qualité insatisfaisante, pourrait causer différents problèmes pour les utilisateurs finaux. Par conséquent, il est utile de savoir combien de confiance les tokens corrects pourraient être trouvés au sein de l'hypothèse. L'objectif de l'estimation de confiance consistait à obtenir des scores qui quantifient le niveau de confiance ou à annoter les tokens cibles en appliquant le seuil de décision (par exemple, seuil par défaut = 0,5). Dans le cadre de cette thèse, nous avons proposé un boîte à outils, qui consiste en un framework personnalisable, flexible et en une plate-forme portative, pour l'estimation de confiance au niveau de mots (Word-level Confidence Estimation ou WCE) de SLT.En premier lieu, les erreurs dans le SLT ont tendance à se produire sur les hypothèses de la reconnaissance automatique de la parole (Automatic Speech Recognition ou ASR) et sur celles de la traduction automatique (Machine Translation ou MT), qui sont représentées par des séquences de mots. Ce phénomène est étudié par l'estimation de confiance (CE) au niveau des mots en utilisant les modèles de champs aléatoires conditionnels (Conditional Random Fields ou CRF). Cette tâche, relativement nouvelle, est définie et formalisée comme un problème d'étiquetage séquentiel dans lequel chaque mot, dans l'hypothèse de SLT, est annoté comme bon ou mauvais selon un ensemble des traits importants. Nous proposons plusieurs outils servant d’estimer la confiance des mots (WCE) en fonction de notre évaluation automatique de la qualité de la transcription (ASR), de la qualité de la traduction (MT), ou des deux (combiner ASR et MT). Ce travail de recherche est réalisable parce que nous avons construit un corpus spécifique, qui contient 6.7k des énoncés pour lesquels un quintuplet est normalisé comme suit : (1) sortie d’ASR, (2) transcription en verbatim, (3) traduction textuelle, (4) traduction vocale et (5) post-édition de la traduction. La conclusion de nos multiples expérimentations, utilisant les traits conjoints entre ASR et MT pour WCE, est que les traits de MT demeurent les plus influents, tandis que les traits de ASR peuvent apporter des informations intéressantes complémentaires.En deuxième lieu, nous proposons deux méthodes pour distinguer des erreurs susceptibles d’ASR et de celles de MT, dans lesquelles chaque mot, dans l'hypothèse de SLT, est annoté comme good (bon), asr_error (concernant les erreurs d’ASR) ou mt_error (concernant les erreurs de MT). Nous contribuons donc à l’estimation de confiance au niveau de mots (WCE) pour SLT par trouver la source des erreurs au sein des systèmes de SLT.En troisième lieu, nous proposons une nouvelle métrique, intitulée Word Error Rate with Embeddings (WER-E), qui est exploitée afin de rendre cette tâche possible. Cette approche génère de meilleures hypothèses de SLT lors de l'optimisation de l'hypothèse de N-meilleure hypothèses avec WER-E.En somme, nos stratégies proposées pour l'estimation de la confiance se révèlent un impact positif sur plusieurs applications pour SLT. Les outils robustes d’estimation de la qualité pour SLT peuvent être utilisés dans le but de re-calculer des graphes de la traduction de parole ou dans le but de fournir des retours d’information aux utilisateurs dans la traduction vocale interactive ou des scénarios de parole aux textes assistés par ordinateur.Mots-clés: Estimation de la qualité, Estimation de confiance au niveau de mots (WCE), Traduction de langue parlée (SLT), traits joints, Sélection des traits. / The main aim of this thesis is to investigate the automatic quality assessment of spoken language translation (SLT), called Confidence Estimation (CE) for SLT. Due to several factors, SLT output having unsatisfactory quality might cause various issues for the target users. Therefore, it is useful to know how we are confident in the tokens of the hypothesis. Our first contribution of this thesis is a toolkit LIG-WCE which is a customizable, flexible framework and portable platform for Word-level Confidence Estimation (WCE) of SLT.WCE for SLT is a relatively new task defined and formalized as a sequence labelling problem where each word in the SLT hypothesis is tagged as good or bad accordingto a large feature set. We propose several word confidence estimators (WCE) based on our automatic evaluation of transcription (ASR) quality, translation (MT) quality,or both (combined/joint ASR+MT). This research work is possible because we built a specific corpus, which contains 6.7k utterances for which a quintuplet containing: ASRoutput, verbatim transcript, text translation, speech translation and post-edition of the translation is built. The conclusion of our multiple experiments using joint ASR and MT features for WCE is that MT features remain the most influent while ASR features can bring interesting complementary information.As another contribution, we propose two methods to disentangle ASR errors and MT errors, where each word in the SLT hypothesis is tagged as good, asr_error or mt_error.We thus explore the contributions of WCE for SLT in finding out the source of SLT errors.Furthermore, we propose a simple extension of WER metric in order to penalize differently substitution errors according to their context using word embeddings. For instance, the proposed metric should catch near matches (mainly morphological variants) and penalize less this kind of error which has a more limited impact on translation performance. Our experiments show that the correlation of the new proposed metric with SLT performance is better than the one of WER. Oracle experiments are also conducted and show the ability of our metric to find better hypotheses (to be translated) in the ASR N-best. Finally, a preliminary experiment where ASR tuning is based on our new metric shows encouraging results.To conclude, we have proposed several prominent strategies for CE of SLT that could have a positive impact on several applications for SLT. Robust quality estimators for SLT can be used for re-scoring speech translation graphs or for providing feedback to the user in interactive speech translation or computer-assisted speech-to-text scenarios.Keywords: Quality estimation, Word confidence estimation (WCE), Spoken Language Translation (SLT), Joint Features, Feature Selection. Mesures de confiance Traduction automatique Langage parlé Confidence measures Machine translation Spoken language 004
39	L’utilisation de la traduction automatique en contexte professionnel : étude de cas concernant les perceptions de la traduction automatique ainsi que son utilisation en contexte professionnel Lavigne, Pierre-Étienne January 2017 (has links) Résumé : La demande croissante du marché de la traduction n'est pas aisée à combler, ce qui pousse un certain nombre de traducteurs et de fournisseurs de services de traduction à chercher des outils d'aide à la traduction pouvant complémenter ou remplacer ceux liés aux mémoires de traduction (MT) (Lewis 1997 : 256; O'Brien 2002 : 99, 105-106; Saint-André 2015 : 1-8). Certains se sont tournés vers la traduction automatique (TA), qui paraît permettre certains gains de productivité lorsqu'elle est utilisée en combinaison avec un outil de MT (Guerberof 2009; Lewis 1997 : 256; O'Brien 2002 : 99, 105-106). Toutefois, la question de l’utilisation de la TA par des traducteurs en contexte organisationnel réel semble avoir été peu étudiée. La présente étude, menée en collaboration avec l’équipe de traduction des Instituts de recherche en santé du Canada (IRSC), a visé à évaluer si la combinaison d’outils de MT avec des outils de TA peut véritablement rehausser la productivité des traducteurs dans ce type de contexte. Pour ce faire, une analyse des perceptions des traducteurs en rapport aux outils de MT et de TA et une expérience dans le cadre de laquelle des textes ont été traduits à l’aide d’une MT seule ou à l’aide d’une MT et d’un système de TA ont été effectuées. Les données des deux volets de la recherche ont ensuite été analysées pour évaluer les perceptions des participants en rapport aux outils de MT et de TA, déterminer si l’utilisation d’outils de MT et de TA permettait d’atteindre des seuils de productivité plus élevés que l’utilisation d’outils de MT seuls, et vérifier si les perceptions des participants en rapport aux outils utilisés avaient influencé les seuils de productivité atteints. L’étude contribue ainsi à approfondir les connaissances en rapport à l’utilité de la TA en contexte organisationnel réel et en rapport aux perceptions des traducteurs quant aux outils d’aide à la traduction que constituent les MT et la TA. mémoires de traduction traduction automatique perceptions productivité translation memories machine translation perceptions productivity
40	Going beyond the sentence : Contextual Machine Translation of Dialogue / Au-delà de la phrase : traduction automatique de dialogue en contexte Bawden, Rachel 29 November 2018 (has links) Les systèmes de traduction automatique (TA) ont fait des progrès considérables ces dernières années. La majorité d'entre eux reposent pourtant sur l'hypothèse que les phrases peuvent être traduites indépendamment les unes des autres. Ces modèles de traduction ne s'appuient que sur les informations contenues dans la phrase à traduire. Ils n'ont accès ni aux informations présentes dans les phrases environnantes ni aux informations que pourrait fournir le contexte dans lequel ces phrases ont été produites. La TA contextuelle a pour objectif de dépasser cette limitation en explorant différentes méthodes d'intégration du contexte extra-phrastique dans le processus de traduction. Les phrases environnantes (contexte linguistique) et le contexte de production des énoncés (contexte extra-linguistique) peuvent fournir des informations cruciales pour la traduction, notamment pour la prise en compte des phénomènes discursifs et des mécanismes référentiels. La prise en compte du contexte est toutefois un défi pour la traduction automatique. Évaluer la capacité de telles stratégies à prendre réellement en compte le contexte et à améliorer ainsi la qualité de la traduction est également un problème délicat, les métriques d'évaluation usuelles étant pour cela inadaptées voire trompeuses. Dans cette thèse, nous proposons plusieurs stratégies pour intégrer le contexte, tant linguistique qu'extra-linguistique, dans le processus de traduction. Nos expériences s'appuient sur des méthodes d'évaluation et des jeux de données que nous avons développés spécifiquement à cette fin. Nous explorons différents types de stratégies: les stratégies par pré-traitement, où l'on utilise le contexte pour désambiguïser les données fournies en entrée aux modèles ; les stratégies par post-traitement, où l'on utilise le contexte pour modifier la sortie d'un modèle non-contextuel, et les stratégies où l'on exploite le contexte pendant la traduction proprement dite. Nous nous penchons sur de multiples phénomènes contextuels, et notamment sur la traduction des pronoms anaphoriques, la désambiguïsation lexicale, la cohésion lexicale et l'adaptation à des informations extra-linguistiques telles que l'âge ou le genre du locuteur. Nos expériences, qui relèvent pour certaines de la TA statistique et pour d'autres de la TA neuronale, concernent principalement la traduction de l'anglais vers le français, avec un intérêt particulier pour la traduction de dialogues spontanés. / While huge progress has been made in machine translation (MT) in recent years, the majority of MT systems still rely on the assumption that sentences can be translated in isolation. The result is that these MT models only have access to context within the current sentence; context from other sentences in the same text and information relevant to the scenario in which they are produced remain out of reach. The aim of contextual MT is to overcome this limitation by providing ways of integrating extra-sentential context into the translation process. Context, concerning the other sentences in the text (linguistic context) and the scenario in which the text is produced (extra-linguistic context), is important for a variety of cases, such as discourse-level and other referential phenomena. Successfully taking context into account in translation is challenging. Evaluating such strategies on their capacity to exploit context is also a challenge, standard evaluation metrics being inadequate and even misleading when it comes to assessing such improvement in contextual MT. In this thesis, we propose a range of strategies to integrate both extra-linguistic and linguistic context into the translation process. We accompany our experiments with specifically designed evaluation methods, including new test sets and corpora. Our contextual strategies include pre-processing strategies designed to disambiguate the data on which MT models are trained, post-processing strategies to integrate context by post-editing MT outputs and strategies in which context is exploited during translation proper. We cover a range of different context-dependent phenomena, including anaphoric pronoun translation, lexical disambiguation, lexical cohesion and adaptation to properties of the scenario such as speaker gender and age. Our experiments for both phrase-based statistical MT and neural MT are applied in particular to the translation of English to French and focus specifically on the translation of informal written dialogues. Traduction automatique Apprentissage automatique Dialogue Évaluation Contexte Discours Machine translation Machine learning Dialogue Evaluation Context Discourse

Search results