Return to search

Statistical Machine Translation of the Arabic Language / Traduction automatique statistique de la langue arabe

La traduction automatique de texte arabe a reçu beaucoup d'attention au cours de la dernière décennie. La langue arabe, langue officielle de plus de 25 pays, est parlée par plus de 290 millions de personnes. Les changements politiques engendrés par les révolutions arabes ont mis sur le devant de la scène cette langue et ses multiples dialectes. Ce travail s'inscrit dans le cadre du projet BOLT dont le but est d'améliorer les performances des systèmes de traduction arabe-anglais pour des domaines spécifiques (SMS, parole conversationnelle, etc.)Dans cette thèse, j'ai enrichi le système de traduction à base de segments du LIUM à maints égards. Les systèmes à base de segments fournissent actuellement les meilleures performances. Ces systèmes sont basés sur deux modèles statistiques : le modèle de traduction et le modèle de langage. Dans l'objectif d’améliorer la qualité de traduction de l'arabe, nous avons mis l'accent sur trois aspects. Le premier aspect est la réduction des mots inconnus dans la sortie de traduction. Le second aspect de mon travail de thèse est l'adaptation au domaine ou à la tâche de la table de traduction. Finalement, je me suis intéressé à l'amélioration de la modélisation linguistique avec des réseaux de neurones. Ces modèles sont utilisés pour re-évaluer les n-meilleures hypothèses de traduction.Toutes les techniques développées ont été minutieusement incorporées dans le système du LIUM et évaluées dans trois campagnes d’évaluation internationales dans le cadre du projet BOLT. / The Arabic language received a lot of attention in the machine translation community during the last decade. It is the official language of 25 countries and it is spoken by more than 380 million people. The interest in Arabic language and its dialects increased more after the Arab spring and the political change in the Arab countries. In this thesis, I worked on improving LIUM's machine translation system for Arabic-English in the frame-work of the BOLT project.In this thesis, I have extend LIUM's phrase-based statistical machine translation system in many ways. Phrase-based systems are considered to be one of the best performing approaches. Basically, two probabilistic models are used, a translation model and a language model.I have been working on improving the translation quality. This is done by focusing on three different aspects. The first aspect is reducing the number of unknown words in the translated output. Second, the entities like numbers or dates that can be translated efficiently by some transfer rules. Finally, I have been working on the transliteration of named entities. The second aspect of my work is the adaptation of the translation model to the domain or genre of the translation task.Finally, I have been working on improved language modeling, based on neural network language models, also called continuous space language models. They are used to rescore the n-best translation hypotheses.All the developed techniques have been thoroughly evaluated and I took part in three international evaluations of the BOLT project.

Identiferoai:union.ndltd.org:theses.fr/2015LEMA1018
Date23 September 2015
CreatorsAransa, Walid
ContributorsLe Mans, Schwenk, Holger, Barrault, Loïc
Source SetsDépôt national des thèses électroniques françaises
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0047 seconds