Global ETD Search

Return to search

Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées

Ce travail de thèse porte sur la reconnaissance automatique de la parole des langues peu dotées et ayant un système d'écriture sans séparation explicite entre les mots. La spécificité des langues traitées dans notre contexte d'étude nécessite la segmentation automatique en mots pour rendre la modélisation du langage n-gramme applicable. Alors que le manque de données textuelles a un impact sur la performance des modèles de langage, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour tenter de pallier les problèmes, nos recherches sont axées principalement sur la modélisation du langage, et en particulier sur le choix des unités lexicales et sous-lexicales, utilisées par les systèmes de reconnaissance. Nous expérimentons l'utilisation des multiples unités au niveau des modèles du langage et au niveau des sorties de systèmes de reconnaissance. Nous validons ces approches de modélisation à base des multiples unités sur les systèmes de reconnaissance pour un groupe de langues peu dotées : le khmer, le vietnamien, le thaï et le laotien.

reconnaissance automatique de la parole

langue peu dotée

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00646236
Date	01 March 2010
Creators	Seng, Sopheap
Publisher	Université de Grenoble
Source Sets	CCSD theses-EN-ligne, France
Language	fra
Detected Language	French
Type	PhD thesis

Page generated in 0.0016 seconds

Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées

Description

Links & Downloads

Tags

Additional Fields