Cette thèse s'inscrit dans le domaine du traitement automatique des langues naturelles et plus spécifiquement dans celui du traitement du vietnamien. Le travail présenté dans la thèse porte sur la construction d'outils et de ressources linguistiques pour les tâches fondamentales de traitement automatique du vietnamien, notamment la construction d'une grammaire à large couverture et un analyseur syntaxique pour cette langue. Nous développons une chaîne modulaire de prétraitements pour le vietnamien dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Il s'agit d'un segmenteur en phrases, d'un segmenteur en unités lexicales, d'un reconnaisseur de mots redoublés et d'un étiqueteur morpho-syntaxique. Préalables nécessaires à une possible analyse, ces traitements peuvent également servir à préparer d'autres tâches. La modélisation de la grammaire vietnamienne est effectuée en utilisant le formalisme des grammaires d'arbres adjoints lexicalisées (Lexicalized Tree Adjoining Grammars ou LTAG). Nous développons un système qui extrait automatiquement une grammaire LTAG à partir d'un corpus arboré du vietnamien. Les arbres élémentaires de la grammaire forment les structures syntaxiques de la langue vietnamienne. Nous adaptons et enrichissons un analyseur syntaxique du français pour construire un analyseur syntaxique profond pour le vietnamien. Nous présentons les fondements théoriques des différents modules et systèmes, leurs évaluations quantitatives. Nos systèmes atteignent des performances prometteuses dans les tâches du traitement automatique du vietnamien à l'heure actuelle.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00529657 |
Date | 22 October 2010 |
Creators | Le-Hong, Phuong |
Publisher | Université Nancy II |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0162 seconds