Global ETD Search

Return to search

Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielle

L'objectif de cette thèse est de montrer que, contrairement aux idées reçues, les mots de basses fréquences peuvent être mis à profit de façon efficace en traitement automatique des langues. Nous les mettons à contribution en alignement sous-phrastique, tâche qui constitue la première étape de la plupart des systèmes de traduction automatique fondée sur les données (traduction probabiliste ou par l'exemple). Nous montrons que les mots rares peuvent servir de fondement même dans la conception d'une méthode d'alignement sous-phrastique multilingue, à l'aide de techniques différentielles proches de celles utilisées en traduction automatique par l'exemple. Cette méthode est réellement multilingue, en ce sens qu'elle permet le traitement simultané d'un nombre quelconque de langues. Elle est de surcroît très simple, anytime, et permet un passage à l'échelle naturel. Nous comparons notre implémentation, Anymalign, à deux ténors statistiques du domaine sur des tâches bilingues. Bien qu'à l'heure actuelle ses résultats sont en moyenne légèrement en retrait par rapport à l'état de l'art en traduction automatique probabiliste par segments, nous montrons que la qualité propre des lexiques produits par notre méthode est en fait supérieure à celle de l'état de l'art.

traitement automatique des langues

hapax

multilinguisme

traduction automatique

alignement

événements rares

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00520787
Date	14 September 2010
Creators	Lardilleux, Adrien
Publisher	Université de Caen
Source Sets	CCSD theses-EN-ligne, France
Language	fra
Detected Language	French
Type	PhD thesis

Page generated in 0.002 seconds

Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielle

Description

Links & Downloads

Tags

Additional Fields