Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux « de référence », construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00105592 |
Date | 10 October 2006 |
Creators | Nguyen, Thi Minh Huyen |
Publisher | Université Henri Poincaré - Nancy I |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds