Spelling suggestions: "subject:"filtragem dde lla grammaticality"" "subject:"filtragem dde lla grammaticalized""
1 |
Méthodes en caractères pour le traitement automatique des languesDenoual, Etienne 21 September 2006 (has links) (PDF)
Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.<br />Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.<br /><br />Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.<br />Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.<br />Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.<br />Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.
|
Page generated in 0.1297 seconds