Global ETD Search

11	Synthèse Acoustico-Visuelle de la Parole par Séléction d'Unités Bimodales Musti, Utpala 21 February 2013 (has links) (PDF) Ce travail porte sur la synthèse de la parole audio-visuelle. Dans la littérature disponible dans ce domaine, la plupart des approches traite le problème en le divisant en deux problèmes de synthèse. Le premier est la synthèse de la parole acoustique et l'autre étant la génération d'animation faciale correspondante. Mais, cela ne garantit pas une parfaite synchronisation et cohérence de la parole audio-visuelle. Pour pallier implicitement l'inconvénient ci-dessus, nous avons proposé une approche de synthèse de la parole acoustique-visuelle par la sélection naturelle des unités synchrones bimodales. La synthèse est basée sur le modèle de sélection d'unité classique. L'idée principale derrière cette technique de synthèse est de garder l'association naturelle entre la modalité acoustique et visuelle intacte. Nous décrivons la technique d'acquisition de corpus audio-visuelle et la préparation de la base de données pour notre système. Nous présentons une vue d'ensemble de notre système et nous détaillons les différents aspects de la sélection d'unités bimodales qui ont besoin d'être optimisées pour une bonne synthèse. L'objectif principal de ce travail est de synthétiser la dynamique de la parole plutôt qu'une tête parlante complète. Nous décrivons les caractéristiques visuelles cibles que nous avons conçues. Nous avons ensuite présenté un algorithme de pondération de la fonction cible. Cet algorithme que nous avons développé effectue une pondération de la fonction cible et l'élimination de fonctionnalités redondantes de manière itérative. Elle est basée sur la comparaison des classements de coûts cible et en se basant sur une distance calculée à partir des signaux de parole acoustiques et visuels dans le corpus. Enfin, nous présentons l'évaluation perceptive et subjective du système de synthèse final. Les résultats montrent que nous avons atteint l'objectif de synthétiser la dynamique de la parole raisonnablement bien. synthèse de la parole audio-visuelle sélection d'unités coût cible
12	Parole Multimodale : de la parole articulatoire à la parole audiovisuelle Ouni, Slim 29 November 2013 (has links) (PDF) La communication parlée est par essence multimodale. Le signal acoustique véhicule la modalité auditive, et l'image la modalité visuelle et gestuelle (déformations du visage). Le signal de parole est en effet la conséquence des déformations du conduit vocal sous l'effet du mouvement de la mâchoire, des lèvres, de la langue, etc.. pour moduler le signal d'excitation produit par les cordes vocales ou les turbulences aérodynamiques. Ces déformations sont visibles au niveau du visage (lèvres, joues, mâchoire) grâce à la coordination des différents muscles orofaciaux et de la déformation de la peau induite par ces derniers. La modalité visuelle permet de fournir des informations complémentaires au signal acoustique, et elle devient indispensable dans le cas où le signal acoustique est dégradé, comme c'est le cas chez les malentendants, ou en milieu bruité. D'autres modalités peuvent être liées à la parole, comme les mouvements des sourcils et les différents gestes qui expriment l'émotion. Cette dernière modalité suprasegmentale peut, comme la modalité visuelle, compléter le message acoustique ou acoustique-visuel. Cet exposé présentera les travaux que je mène sur la parole multimodale. Ce caractère multimodal de la communication parlée est traité de deux façons différentes : (1) étudier les deux composantes articulatoire et acoustique de la parole. En effet, je m'intéresse à la caractérisation articulatoire des sons et à l'étude du lien entre l'espace articulatoire et l'espace acoustique. En particulier, je m'intéresse à la récupération de l'évolution temporelle du conduit vocal à partir du signal acoustique (aussi appelée inversion acoustique-articulatoire) et à l'étude de la caractérisation articulatoire de la parole par l'analyse de corpus de données articulatoires. (2) étudier les deux composantes acoustique et visuelle. Dans ce cadre, je m'intéresse à l'effet de la déformation du conduit vocal sur l'apparence du visage qui véhicule le message visuel. La synthèse acoustique-visuelle est un cadre qui permet d'étudier cet aspect. De plus, l'étude de l'intelligibilité audiovisuelle permet de mieux comprendre les mécanismes de la communication audiovisuelle, mais également d'évaluer le système de synthèse acoustique-visuelle. Enfin, je présenterai mon programme de recherche qui porte sur la parole multimodale expressive que je propose d'étudier globalement, c.-à-d. en considérant les composantes articulaire, acoustique et visuelle ainsi que l'expressivité intrinsèque de celles-ci, simultanément. Je propose en particulier d'aborder la modélisation de la dynamique articulatoire et faciale de la parole pour produire de la parole combinée avec les expressions faciales. Parole acoustique articulatoire production de la parole synthèse de la parole audiovisuelle inversion acoustique articulatoire

Search results

Synthèse Acoustico-Visuelle de la Parole par Séléction d'Unités Bimodales

Parole Multimodale : de la parole articulatoire à la parole audiovisuelle