Return to search

Modélisation de la coarticulation labiale: mise en œuvre sur une tête parlante

Cette thèse s'inscrit dans une étude sur la modélisation d'une tête parlante destinée à améliorer l'intelligibilité du message transmis. A partir du signal sonore notre but est d'animer un visage synthétique afin par exemple de permettre la lecture labiale. Les mouvements des lèvres et de la mâchoire dépendent fortement du phénomène de coarticulation qui peut être anticipatif ou rétentif (progressif). Si beaucoup s'accordent à penser que rétentif est essentiellement inertiel, de nombreux modèle théoriques et expérimentaux rentrent en concurrence au sujet de l'anticipation. Afin d'essayer de clarifier ce phénomène, nous avons enregistré deux corpus audiovisuels (mono et multilocuteur) nous permettant d'obtenir des informations tridimensionnelles sur un ensemble de marqueurs peints sur le visage des locuteurs. Quatre paramètres articulatoires liés aux lèvres et à la mâchoire ont retenu notre attention. Après avoir analysé les variations intra et interlocuteur, nous avons défini un algorithme de prédiction de la coarticulatìon anticipatrice basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires à partir de l'algorithme de prédiction précédent. Notre solution permet d'estimer avec précision les mouvements des lèvres et de le mâchoire de n'importe quelle séquence en nous basant sur les informations contenues dans un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui sont soit extraites du corpus, soit obtenues par complétion. Une des originalités de notre méthode est le choix des sigmoïdes pour caractériser les mouvements articulatoires. Ceci a 1'avantage de réduire considérablement la taille du modèle construit et permet de s'adapter facilement à des vitesses d'é1ocution ou des stratégies articulatoires particulières. Un autre point fort de notre méthode est de prendre en considération à la fois l'effet paradigmatique qui correspond aux caractéristiques intrinsèques des sons, mais aussi l'effet syntagmatique qui permet de conserver les contrastes entre les sons dans un énoncé. Afin d'estimer la qualité de notre synthèse coarticulatoire, nous avons ensuite mesuré les différences entre les signaux réels et les signaux synthétisés sur 1'ensemble des phrases de notre corpus. Nous avons également comparé nos résultats avec ceux obtenus après synthèse avec la technique de prédiction de la coarticulatíon de Cohen et Massaro qui avait obtenu les meilleurs scores statistiques selon une ancienne étude comparative. Si la méthode de Cohen et Massaro obtient globalement de meilleurs résultats que notre solution, nous avons montré que ce n'est pas le cas pour toutes les séquences. En particulier, notre synthèse est meilleure pour les VCCV où l'anticipation est davantage marquée.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00579879
Date12 November 2008
CreatorsRobert, Vincent
PublisherUniversité Henri Poincaré - Nancy I
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.002 seconds