Ce travail de thèse s'inscrit dans le cadre de la traduction automatique. En étudiant les fondements de la traduction automatique par l'exemple, et plus particulièrement le système Aleph, nous mettons en évidence le problème de la sélection des exemples. Le système Aleph emploie exclusivement l'analogie afin de produire de nouvelles phrases et de nouvelles traductions. Le problème est de sélectionner les phrases dans un grand corpus d'exemples afin de produire de nouvelles phrases par analogie. Notre premier apport consiste en l'élaboration d'une méthode permettant d'énumérer l'intégralité des analogies entre chaînes d'un texte. Cette méthode nous permet ensuite de mettre en œuvre une étude statistique des analogies les plus fréquentes entre trigrammes de mots et de mettre en évidence les patrons d'analogie les plus fréquents. Ces résultats permettent alors de concevoir une nouvelle méthode de lissage d'un modèle de langue trigramme basé sur un petit nombre d'analogies. Nos expériences montrent que cette méthode est très compétitive vis-à-vis des méthodes classiques.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00700559 |
Date | 13 February 2012 |
Creators | Gosme, Julien |
Publisher | Université de Caen |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0031 seconds