Cette thèse présente un système de retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés par inversion à partir de la voix d'un locuteur. Notre approche de ce problème d'inversion est basée sur des modèles statistiques élaborés à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique. Un premier système combine des techniques de reconnaissance acoustique de la parole et de synthèse articulatoire basées sur des modèles de Markov cachés (HMMs). Un deuxième système utilise des modèles de mélanges gaussiens (GMMs) pour estimer directement les trajectoires articulatoires à partir du signal acoustique. Pour généraliser le système mono-locuteur à un système multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR) que nous avons évaluée à l'aide un système de reconnaissance articulatoire de référence. Enfin, nous présentons un démonstrateur de retour articulatoire visuel.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00699008 |
Date | 26 October 2011 |
Creators | Ben Youssef, Atef |
Publisher | Université de Grenoble |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0018 seconds