Return to search

Conception et développement d'un outil d'aide à la traduction anglais/arabe basé sur des corpus parallèles / Conception and development of an English/Arabic translation aid tool based on parallel corpora

Dans cette thèse, nous abordons la réalisation d’un outil innovant d’aide à la traduction anglais/arabe pour répondre au besoin croissant en termes d’outils en ligne d’aide à la traduction centrés sur la langue arabe. Cet outil combine des dictionnaires adaptés aux spécificités de la langue arabe et un concordancier bilingue issu des corpus parallèles. Compte tenu de sa nature agglutinante et non voyellée, le mot arabe nécessite un traitement spécifique. C’est pourquoi, et pour construire nos ressources lexicales, nous nous sommes basés sur l’analyseur morphologique de Buckwalter qui, d’une part, permet une analyse morphologique en tenant compte de la composition complexe du mot arabe (proclitique, préfixe, radical, suffixe, enclitique), et qui, d’autre part, fournit des ressources traductionnelles permettant une réadaptation au sein d’un système de traduction. Par ailleurs, cet analyseur morphologique est compatible avec l’approche définie autour de la base de données DIINAR (DIctionnaire Informatisé de l’Arabe), qui a été construite, entre autres, par des membres de notre équipe de recherche. Pour répondre à la problématique du contexte dans la traduction, un concordancier bilingue a été développé à partir des corpus parallèles Ces derniers représentent une ressource linguistique très intéressante et ayant des usages multiples, en l’occurrence l’aide à la traduction. Nous avons donc étudié de près ces corpus, leurs méthodes d’alignement, et nous avons proposé une approche mixte qui améliore significativement la qualité d’alignement sous-phrastique des corpus parallèles anglais-arabes. Plusieurs technologies informatiques ont été utilisées pour la mise en œuvre de cet outil d’aide à la traduction qui est disponible en ligne (tarjamaan.com), et qui permet à l’utilisateur de chercher la traduction de millions de mots et d’expressions tout en visualisant leurs contextes originaux. Une évaluation de cet outil a été faite en vue de son optimisation et de son élargissement pour prendre en charge d’autres paires de langues. / We create an innovative English/Arabic translation aid tool to meet the growing need for online translation tools centered on the Arabic language. This tool combines dictionaries appropriate to the specificities of the Arabic language and a bilingual concordancer derived from parallel corpora. Given its agglutinative and unvoweled nature, Arabic words require specific treatment. For this reason, and to construct our dictionary resources, we base on Buckwalter's morphological analyzer which, on the one hand, allows a morphological analysis taking into account the complex composition of the Arabic word (proclitic, prefix, stem, suffix, enclitic), and on the other hand, provides translational resources enabling rehabilitation in a translation system. Furthermore, this morphological analyzer is compatible with the approach defined around the DIINAR database (DIctionnaire Informatisé de l’Arabe - Computerized Dictionary for Arabic), which was constructed, among others, by members of our research team. In response to the contextual issue in translation, a bilingual concordancer was developed from parallel corpora. The latter represent a novel linguistic resource with multiple uses, in this case aid for translation. We therefore closely analyse these corpora, their alignment methods, and we proposed a mixed approach that significantly improves the quality of sub-sentential alignment of English-Arabic corpora. Several technologies have been used for the implementation of this translation aid tool which have been made available online (tarjamaan.com) and which allow the user to search the translation of millions of words and expressions while visualizing their original contexts. An evaluation of this tool has been made with a view to its optimization and its enlargement to support other language pairs.

Identiferoai:union.ndltd.org:theses.fr/2017LYSE2042
Date29 May 2017
CreatorsYahiaoui, Abdelghani
ContributorsLyon, Dichy, Joseph, Larouk, Omar
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0023 seconds