Return to search

Extraction semi-automatique des mouvements du tractus vocal à partir de données cinéradiographiques

Le travail présenté dans cette thèse est basé sur deux observations. D'abord il existe de longues séquences cinéradiographiques du conduit vocal en parole naturelle qui sont sous exploitées à cause du travail laborieux qu'implique le marquage manuel des images de ces séquences. Ensuite la cinéradiographie est une technique généralement bien cadrée qui se prête à l'application d'un algorithme dit de rétro-marquage. Le principe est d'associer des paramètres implicites et extraits du signal vidéo à des paramètres géométriques contrôlés et définis a posteriori, plutôt que d'extraire directement des données géométriques à l'aide de marqueurs. La méthode semi-automatique d'extraction de contours du conduit vocal que nous proposons est une adaptation de cet algorithme et permet de minimiser l'intervention manuelle. Pour une séquence et un articulateur donnés, une première étape consiste à marquer manuellement, sur un nombre limité d'images clefs, quelques degrés de liberté définissant le contour de l'articulateur. Dans un deuxième temps, ces marques géométriques sont associées à chaque image de la séquence via un index calculé à partir des coefficients DCT basses fréquences des images : on associe à chaque image l'index de l'image clef la plus proche. Cette technique, en une passe, permet ainsi de reconstruire des données géométriques dynamiques. Chaque articulateur (langue, vélum, lèvres...) est d'abord estimé de manière indépendante par la méthode, puis les contours extraits sont combinés pour récupérer la forme du conduit vocal complet. De là, les distances médio-sagittales du tractus vocal et les fonctions d'aire associées sont calculées pour la séquence entière.<br /><br />La première partie de ce manuscrit présente la méthode développée et l'évaluation de l'erreur de marquage. La seconde partie tente de valider phonétiquement les configurations géométriques estimées. Une première étude basée sur les voyelles permet de retrouver des résultats classiques en phonétique en fonction des différentes classes vocaliques. Les fréquences caractéristiques des voyelles, ou formants, estimées à partir des contours sont ensuite considérées, avec l'utilisation d'un modèle d'association linéaire d'une part et celle d'un modèle acoustique d'autre part. A l'aide de ce dernier, la synthèse d'un signal de parole intelligible est réalisée à partir des contours extraits, en estimant de façon complémentaire, depuis le signal audio, la source et la modulation d'amplitude en 2 sous-bandes. Enfin, nous prolongeons l'étude dynamique par deux observations : l'une sur la production des consonnes et l'autre sur les mouvements du vélum. L'ensemble de ces résultats montre que la méthode proposée peut être utilisée pour exploiter, d'un point de vue phonétique, ces longues séquences cinéradiographiques.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00203082
Date08 December 2006
CreatorsFontecave, Julie
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.002 seconds