Bien que la recherche ait fait progresser la traduction automatique depuis plusieurs années, la sortie d’un système automatisé ne peut être généralement publiée sans avoir été révisée humainement au préalable, et corrigée le cas échéant. Forts de ce constat, nous avons voulu exploiter ces retours utilisateurs issus du processus de révision pour adapter notre système statistique dans le temps, au moyen d’une approche incrémentale.Dans le cadre de cette thèse Cifre-Défense, nous nous sommes donc intéressés à la postédition, un des champs de recherche les plus actifs du moment, et qui plus est très utilisé dans l’industrie de la traduction et de la localisation.L’intégration de retours utilisateurs n’est toutefois pas une tâche aussi évidente qu’il n’y paraît. D’une part, il faut être capable d’identifier l’information qui sera utile au système, parmi l’ensemble des modifications apportées par l’utilisateur. Pour répondre à cette problématique, nous avons introduit une nouvelle notion (les « Actions de Post-Édition »), et proposé une méthodologie d’analyse permettant l’identification automatique de cette information à partir de données post-éditées. D’autre part, concernant l’intégration continue des retours utilisateurs nous avons développé un algorithme d’adaptation incrémentale pour un système de traduction statistique, lequel obtient des performances supérieures à la procédure standard. Ceci est d’autant plus intéressant que le développement et l’optimisation d’un tel système de traduction estune tâche très coûteuse en ressources computationnelles, nécessitant parfois jusqu’à plusieurs jours de calcul.Conduits conjointement au sein de l’entreprise SYSTRAN et du LIUM, les travaux de recherche de cette thèse s’inscrivent dans le cadre du projet ANR COSMAT 1. En partenariat avec l’INRIA, ce projet avait pour objectif de fournir à la communauté scientifique un service collaboratif de traduction automatique de contenus scientifiques. Outre les problématiques liéesà ce type de contenu (adaptation au domaine, reconnaissance d’entités scientifiques, etc.), c’est l’aspect collaboratif de ce service avec la possibilité donnée aux utilisateurs de réviser les traductions qui donne un cadre applicatif à nos travaux de recherche. / Although machine translation research achieved big progress for several years, the output of an automated system cannot be published without prior revision by human annotators. Based on this fact, we wanted to exploit the user feedbacks from the review process in order to incrementally adapt our statistical system over time.As part of this thesis, we are therefore interested in the post-editing, one of the most active fields of research, and what is more widely used in the translation and localization industry.However, the integration of user feedbacks is not an obvious task. On the one hand, we must be able to identify the information that will be useful for the system, among all changes made by the user. To address this problem, we introduced a new concept (the “Post-Editing Actions”), and proposed an analysis methodology for automatic identification of this information from post-edited data. On the other hand, for the continuous integration of user feedbacks, we havedeveloped an algorithm for incremental adaptation of a statistical machine translation system, which gets higher performance than the standard procedure. This is even more interesting as both development and optimization of this type of translation system has a very computational cost, sometimes requiring several days of computing.Conducted jointly with SYSTRAN and LIUM, the research work of this thesis is part of the French Government Research Agency project COSMAT 2. This project aimed to provide a collaborative machine translation service for scientific content to the scientific community. The collaborative aspect of this service with the possibility for users to review the translations givesan application framework for our research.
Identifer | oai:union.ndltd.org:theses.fr/2013LEMA1034 |
Date | 23 September 2013 |
Creators | Blain, Frédéric |
Contributors | Le Mans, Schwenk, Holger |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.1387 seconds