Depuis quelques années, les applications intégrant un module de dialogues avancés sont en plein essor. En revanche, le processus d’universalisation de ces systèmes est rapidement décourageant : ceux-ci étant naturellement dépendants de la langue pour laquelle ils ont été conçus, chaque nouveau langage à intégrer requiert son propre temps de développement. Un constat qui ne s’améliore pas en considérant que la qualité est souvent tributaire de la taille de l’ensemble d’entraînement.
Ce projet cherche donc à accélérer le processus. Il rend compte de différentes méthodes permettant de générer des versions polyglottes d’un premier système fonctionnel, à l’aide de la traduction statistique. L’information afférente aux données sources est projetée afin de générer des données cibles parentes, qui diminuent d’autant le temps de développement subséquent.
En ce sens, plusieurs approches ont été expérimentées et analysées. Notamment, une méthode qui regroupe les données avant de réordonner les différents candidats de traduction permet d’obtenir de bons résultats. / For a few years now, there has been an increasing number of applications allowing advanced dialog interactions with the user. However, the universalization of those systems quickly becomes painful : since they are highly dependent on the original development language, each new language to integrate requires an additionnal and significative time investment. A matter that only gets worse considering quality usually rests on the size of training set.
This project tries to speed up the overall process. It presents various methods to generate multilingual versions of a first functionnal system, using statistical machine translation. Information from the source data is projected to another language in order to create similar target data, which then reduces the upcoming development time.
Many approaches were tested and analysed. In particular, a method that regroups data in clusters before reordering the associated translation candidates shows promising results.
Identifer | oai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMU.1866/10685 |
Date | 12 1900 |
Creators | Julien, Simon |
Contributors | Langlais, Philippe, Tremblay, Réal |
Source Sets | Library and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada |
Language | French |
Detected Language | French |
Type | Thèse ou Mémoire numérique / Electronic Thesis or Dissertation |
Page generated in 0.002 seconds