Spelling suggestions: "subject:"corpus parallèle"" "subject:"corpus parallèlement""
1 |
Alignement de phrases parallèles dans des corpus bruitésLamraoui, Fethi 07 1900 (has links)
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention
de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art.
Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de
données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%.
Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la
procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que
de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur. / Current statistical machine translation systems require parallel corpora in large quantities, and typically obtain such corpora through automatic alignment at the sentence level: a text and its translation . The alignment of parallel corpora has received a lot of attention in the eighties and is largely considered to be a solved problem in the community. We show that this is not the case and propose an alignment technique that we compare to the state-of-the-art aligners.
Our technique is simple, fast and can handle large amounts of data. It often produces
better results than state-of-the-art. We analyze the robustness of our alignment technique across different text genres and noise level. For this, our experiments are divided into two main parts. In the first part, we measure the alignment quality on BAF corpus with up to 60% of noise. In the second part, we use the Europarl corpus and revisit the alignment procedure with which it has been prepared; we show that better SMT performance can be obtained using our alignment technique.
|
2 |
Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèlesZimina-Poirot, Maria 26 November 2004 (has links) (PDF)
Ce travail présente les résultats d'une série de recherches consacrées au développement d'une nouvelle famille d'outils d'exploration textométrique intertextuelle. De nombreuses méthodes de statistique textuelle ont été articulées et adaptées au cadre multilingue : la méthode des segments répétés, les spécificités, la topographie bi-textuelle, les cooccurrences multiples, l'analyse factorielle des correspondances, la classification automatique, etc. L'utilisation de chaque méthode dans le contexte multilingue est illustrée par des exemples d'applications concrètes, accompagnés d'échantillons de ressources traductionnelles obtenues à partir du corpus parallèle français/anglais de la Convention de sauvegarde des Droits de l'Homme. Les perspectives ouvertes par cette approche offrent aux traducteurs, enseignants en langues étrangères, terminologues, lexicographes, etc., des moyens automatisés pour explorer la structure des équivalences lexicales dans les corpus de traduction.
|
3 |
Alignement de phrases parallèles dans des corpus bruitésLamraoui, Fethi 07 1900 (has links)
La traduction statistique requiert des corpus parallèles en grande quantité. L’obtention
de tels corpus passe par l’alignement automatique au niveau des phrases. L’alignement des corpus parallèles a reçu beaucoup d’attention dans les années quatre vingt et cette étape est considérée comme résolue par la communauté. Nous montrons dans notre mémoire que ce n’est pas le cas et proposons un nouvel aligneur que nous comparons à des algorithmes à l’état de l’art.
Notre aligneur est simple, rapide et permet d’aligner une très grande quantité de
données. Il produit des résultats souvent meilleurs que ceux produits par les aligneurs les plus élaborés. Nous analysons la robustesse de notre aligneur en fonction du genre des textes à aligner et du bruit qu’ils contiennent. Pour cela, nos expériences se décomposent en deux grandes parties. Dans la première partie, nous travaillons sur le corpus BAF où nous mesurons la qualité d’alignement produit en fonction du bruit qui atteint les 60%.
Dans la deuxième partie, nous travaillons sur le corpus EuroParl où nous revisitons la
procédure d’alignement avec laquelle le corpus Europarl a été préparé et montrons que
de meilleures performances au niveau des systèmes de traduction statistique peuvent être obtenues en utilisant notre aligneur. / Current statistical machine translation systems require parallel corpora in large quantities, and typically obtain such corpora through automatic alignment at the sentence level: a text and its translation . The alignment of parallel corpora has received a lot of attention in the eighties and is largely considered to be a solved problem in the community. We show that this is not the case and propose an alignment technique that we compare to the state-of-the-art aligners.
Our technique is simple, fast and can handle large amounts of data. It often produces
better results than state-of-the-art. We analyze the robustness of our alignment technique across different text genres and noise level. For this, our experiments are divided into two main parts. In the first part, we measure the alignment quality on BAF corpus with up to 60% of noise. In the second part, we use the Europarl corpus and revisit the alignment procedure with which it has been prepared; we show that better SMT performance can be obtained using our alignment technique.
|
4 |
Conception et développement d'un outil d'aide à la traduction anglais/arabe basé sur des corpus parallèles / Conception and development of an English/Arabic translation aid tool based on parallel corporaYahiaoui, Abdelghani 29 May 2017 (has links)
Dans cette thèse, nous abordons la réalisation d’un outil innovant d’aide à la traduction anglais/arabe pour répondre au besoin croissant en termes d’outils en ligne d’aide à la traduction centrés sur la langue arabe. Cet outil combine des dictionnaires adaptés aux spécificités de la langue arabe et un concordancier bilingue issu des corpus parallèles. Compte tenu de sa nature agglutinante et non voyellée, le mot arabe nécessite un traitement spécifique. C’est pourquoi, et pour construire nos ressources lexicales, nous nous sommes basés sur l’analyseur morphologique de Buckwalter qui, d’une part, permet une analyse morphologique en tenant compte de la composition complexe du mot arabe (proclitique, préfixe, radical, suffixe, enclitique), et qui, d’autre part, fournit des ressources traductionnelles permettant une réadaptation au sein d’un système de traduction. Par ailleurs, cet analyseur morphologique est compatible avec l’approche définie autour de la base de données DIINAR (DIctionnaire Informatisé de l’Arabe), qui a été construite, entre autres, par des membres de notre équipe de recherche. Pour répondre à la problématique du contexte dans la traduction, un concordancier bilingue a été développé à partir des corpus parallèles Ces derniers représentent une ressource linguistique très intéressante et ayant des usages multiples, en l’occurrence l’aide à la traduction. Nous avons donc étudié de près ces corpus, leurs méthodes d’alignement, et nous avons proposé une approche mixte qui améliore significativement la qualité d’alignement sous-phrastique des corpus parallèles anglais-arabes. Plusieurs technologies informatiques ont été utilisées pour la mise en œuvre de cet outil d’aide à la traduction qui est disponible en ligne (tarjamaan.com), et qui permet à l’utilisateur de chercher la traduction de millions de mots et d’expressions tout en visualisant leurs contextes originaux. Une évaluation de cet outil a été faite en vue de son optimisation et de son élargissement pour prendre en charge d’autres paires de langues. / We create an innovative English/Arabic translation aid tool to meet the growing need for online translation tools centered on the Arabic language. This tool combines dictionaries appropriate to the specificities of the Arabic language and a bilingual concordancer derived from parallel corpora. Given its agglutinative and unvoweled nature, Arabic words require specific treatment. For this reason, and to construct our dictionary resources, we base on Buckwalter's morphological analyzer which, on the one hand, allows a morphological analysis taking into account the complex composition of the Arabic word (proclitic, prefix, stem, suffix, enclitic), and on the other hand, provides translational resources enabling rehabilitation in a translation system. Furthermore, this morphological analyzer is compatible with the approach defined around the DIINAR database (DIctionnaire Informatisé de l’Arabe - Computerized Dictionary for Arabic), which was constructed, among others, by members of our research team. In response to the contextual issue in translation, a bilingual concordancer was developed from parallel corpora. The latter represent a novel linguistic resource with multiple uses, in this case aid for translation. We therefore closely analyse these corpora, their alignment methods, and we proposed a mixed approach that significantly improves the quality of sub-sentential alignment of English-Arabic corpora. Several technologies have been used for the implementation of this translation aid tool which have been made available online (tarjamaan.com) and which allow the user to search the translation of millions of words and expressions while visualizing their original contexts. An evaluation of this tool has been made with a view to its optimization and its enlargement to support other language pairs.
|
5 |
Alignement automatique de textes parallèles Français-JaponaisNakamura-Delloye, Yayoi 17 December 2007 (has links) (PDF)
L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications.<br />La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique.<br />Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais.<br />Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition.<br />Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions.
|
6 |
Alignement automatique de textes parallèles français-japonaisNakamura-Delloye, Yayoi 17 December 2007 (has links) (PDF)
L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications.<br />La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique.<br />Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais.<br />Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition.<br />Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions.
|
7 |
La traduction automatique statistique factorisée : une application à la paire de langues français - roumain / Factored phrase based statistical machine translation : a French - Romanian applicationLaporte, Elena-Mirabela 13 June 2014 (has links)
Un premier objectif de cette thèse est la constitution de ressources linguistiques pour un système de traduction automatique statistique factorisée français - roumain. Un deuxième objectif est l’étude de l’impact des informations linguistiques exploitées dans le processus d’alignement lexical et de traduction. Cette étude est motivée, d’une part, par le manque de systèmes de traduction automatique pour la paire de langues étudiées et, d’autre part, par le nombre important d’erreurs générées par les systèmes de traduction automatique actuels. Les ressources linguistiques requises par ce système sont des corpus parallèles alignés au niveau propositionnel et lexical. Ces corpus sont également segmentés lexicalement, lemmatisés et étiquetés au niveau morphosyntaxique. / Our first aim is to build linguistic resources for a French - Romanian factored phrase - based statistical machine translation system. Our second aim is to study the impact of exploited linguistic information in the lexical alignment and translation process. On the one hand, this study is motivated by the lack of such systems for the studied languages. On the other hand, it is motivated by the high number of errors provided by the current machine translation systems. The linguistic resources required by the system are tokenized, lemmatized, tagged, word, and sentence - aligned parallel corpora.
|
Page generated in 0.0435 seconds