Le langage parlé complété (LPC) est un système de communication visuel qui utilise des formes de main placés dans différentes positions près du visage, en combinaison avec le discours de la lecture labiale naturel, pour améliorer la perception de la parole à partir de l'entrée visuelle pour les personnes sourdes. Cependant l'un des défis importants est la question de la communication de la parole entre les personnes normo-entendant qui ne pratiquent pas LPC mais produisent discours acoustique et les personnes sourdes qui utilisent la lecture labiale complété par code LPC pour la perception de la parole sans audition résiduelle. Dans notre travail, nous appliquons la méthode de régression linéaire multiple (MLR) et modèle gaussien de mélange (GMM) approche pour mapper des paramètres spectraux acoustiques à la position de la main dans LPC et la forme de la lèvre d'accompagnement. Nous donc contribué à la mise au point d'un système de traduction automatique dans le cadre de la synthèse de la parole visuelle.Cela prouve que l'approche MLR est bonne pour l'estimation des paramètres pour les lèvres à partir des paramètres spectraux car il y a forte corrélation linéaire entre les paramètres des lèvres et des paramètres spectraux. Cependant, la performance de l'approche MLR pour estimer la position de la main est faible car il n'y a pas de relation entre les positions de la main et des paramètres spectraux. En introduisant un espace intermédiaire, il s'avère que la structure de topologie similaire est la clé de la MLR. Afin de libérer de la contrainte linéaire de l'approche MLR, nous appliquons la méthode de cartographie basée sur GMM qui possède à la fois les propriétés de classification et de régression. Les paramètres de GMM sont estimés par les méthodes de formation supervisées, non supervisées et semi- supervisés séparément dans la vue de la théorie de l'apprentissage de la machine. La méthode de formation supervisée montre une grande efficacité et une bonne robustesse. Le Minimum Mean Square Error (MMSE) et Maximum A Posteriori Probabilité (MAP) sont utilisés comme critères de régression séparément dans l'approche de la cartographie basée sur GMM. Cela prouve que l'approche MLR est un cas particulier de l'approche de GMM lorsque le nombre de gaussiennes est égal à un. Ainsi, l'approche de la cartographie sur GMM peut améliorer la performance significative en comparaison avec le MLR en augmentant le nombre de gaussiennes. Enfin, les différentes approches de cartographie utilisées dans ce travail sont comparées dans une transition continue. Il montre que l'approche sur GMM peut effectuer bien grâce à la propriété de classification lorsque les données source et cible n'a pas de " relation" comme dans le cas de l'estimation de la position de la main, et il peut également améliorer les performances par la propriété de régression local lorsque la source et les données cible a forte corrélation comme dans le cas du paramètre de lèvre estimation. En outre, une prédiction directe de la géométrie des lèvres comporte de l'image naturelle de la bouche région d'intérêt (ROI) sur la base de la 2D transformée en cosinus discrète (DCT) combinée à une analyse en composante principale (ACP) est proposé. Les résultats montrent la possibilité d'estimer les caractéristiques géométriques de la lèvre avec une bonne précision en utilisant un ensemble réduit de prédicteurs dérivés des coefficients DCT.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00935286 |
Date | 24 June 2013 |
Creators | Ming, Zuheng |
Publisher | Université de Grenoble |
Source Sets | CCSD theses-EN-ligne, France |
Language | fra |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0822 seconds