Return to search

Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées

Ce travail de thèse porte sur la reconnaissance automatique de la parole des langues peu dotées et ayant un système d'écriture sans séparation explicite entre les mots. La spécificité des langues traitées dans notre contexte d'étude nécessite la segmentation automatique en mots pour rendre la modélisation du langage n-gramme applicable. Alors que le manque de données textuelles a un impact sur la performance des modèles de langage, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour tenter de pallier les problèmes, nos recherches sont axées principalement sur la modélisation du langage, et en particulier sur le choix des unités lexicales et sous-lexicales, utilisées par les systèmes de reconnaissance. Nous expérimentons l'utilisation des multiples unités au niveau des modèles du langage et au niveau des sorties de systèmes de reconnaissance. Nous validons ces approches de modélisation à base des multiples unités sur les systèmes de reconnaissance pour un groupe de langues peu dotées : le khmer, le vietnamien, le thaï et le laotien.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00646236
Date01 March 2010
CreatorsSeng, Sopheap
PublisherUniversité de Grenoble
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0021 seconds