Cette thèse porte sur la constitution d'un corpus parallèle multilingue (JRC-Acquis) et son application à l'amélioration de l'alignement et de la traduction statistique par triangulation, processus de traduction d'une langue source vers une langue cible par le biais d'une langue tierce. Dans ce cadre, nous avons développé des approches basées sur l'utilisation de corpus parallèles multilingues alignés au niveau des phrases dans plusieurs langues dites ‘pivots'. Les deux méthodes principales proposées par notre étude permettent de générer un modèle de traduction par combinaison de plusieurs systèmes créés pour différentes langues pivots. Nous démontrons ainsi que des textes parallèles multilingues en vingt-deux langues peuvent améliorer sensiblement la traduction automatique.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00405733 |
Date | 16 June 2009 |
Creators | Ignat, Camelia |
Publisher | Université de Strasbourg |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0031 seconds