• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Modélisation de la coarticulation labiale : mise en oeuvre sur une tête parlante / Modeling labial coarticulation : implementation for a talking head

Robert, Vincent 12 November 2008 (has links)
Cette thèse s'inscrit dans une étude sur l’élaboration d'une tête parlante. Nous nous intéressons tout particulièrement à la prédiction du mouvement de coarticulation des lèvres et de la mâchoire. Après avoir analysé les variations intra et interlocuteur des paramètres labiaux de deux corpora audiovisuels, nous avons conçu un algorithme de prédiction de la coarticulation basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires des lèvres et de la mâchoire en utilisant un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui ont été jugées pertinentes par notre algorithme de prédiction phonétique, et qui sont soit extraites du corpus, soit obtenues par complétion. Nous avons modélisé les mouvements articulatoires par des sigmoïdes qui offrent l'avantage de réduire considérablement la taille du modèle construit et permettent de s'adapter facilement à des vitesses d'élocution ou des stratégies articulatoires particulières tout en conservant les contrastes distinctifs entre les sons successifs et leurs caractéristiques intrinsèques. Afin d'estimer la qualité de notre synthèse, nous avons mesuré les différences entre les signaux réels et synthétisés sur l'ensemble des phrases du corpus et nous avons comparé notre solution avec l’algorithme de Cohen et Massaro. Nous avons montré que notre synthèse est meilleure pour certaines séquences spécifiques de type VCCV où l'anticipation est plus complexe. / This thesis comes within the scope of talking heads. We are particularly interested in the prediction of labial and jaw coarticulation movements. After analyzing intra and inter speaker variability using two corpora, we defined a prediction algorithm for anticipatory coarticulation based on phonetic rules which takes into account interactions between articulators. We then proposed a solution to estimate labial and jaw movements using a one speaker corpus. It consists in concatenating elementary VC...CV sequences selected by our prediction algorithm and either extracted from the corpus or rebuilt by completion. We modeled articulatory movements using sigmoids which offer the advantage of considerably reducing the model size and which are adaptable to speaking rate or articulatory strategies. Additionally, sigmoids are able to keep distinctive contrasts between neighboring segments as well as intrinsic characteristics of the sounds. With the aim of estimating the quality of our synthesis process, we measured differences between real and predicted data for all the sentences of the corpus et we compared our solution with Cohen and Massaro 's algorithm. It turns out that our solution is better for specific VCCV sequences in which anticipation is more complex.
2

Modélisation de la coarticulation labiale: mise en œuvre sur une tête parlante

Robert, Vincent 12 November 2008 (has links) (PDF)
Cette thèse s'inscrit dans une étude sur la modélisation d'une tête parlante destinée à améliorer l'intelligibilité du message transmis. A partir du signal sonore notre but est d'animer un visage synthétique afin par exemple de permettre la lecture labiale. Les mouvements des lèvres et de la mâchoire dépendent fortement du phénomène de coarticulation qui peut être anticipatif ou rétentif (progressif). Si beaucoup s'accordent à penser que rétentif est essentiellement inertiel, de nombreux modèle théoriques et expérimentaux rentrent en concurrence au sujet de l'anticipation. Afin d'essayer de clarifier ce phénomène, nous avons enregistré deux corpus audiovisuels (mono et multilocuteur) nous permettant d'obtenir des informations tridimensionnelles sur un ensemble de marqueurs peints sur le visage des locuteurs. Quatre paramètres articulatoires liés aux lèvres et à la mâchoire ont retenu notre attention. Après avoir analysé les variations intra et interlocuteur, nous avons défini un algorithme de prédiction de la coarticulatìon anticipatrice basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires à partir de l'algorithme de prédiction précédent. Notre solution permet d'estimer avec précision les mouvements des lèvres et de le mâchoire de n'importe quelle séquence en nous basant sur les informations contenues dans un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui sont soit extraites du corpus, soit obtenues par complétion. Une des originalités de notre méthode est le choix des sigmoïdes pour caractériser les mouvements articulatoires. Ceci a 1'avantage de réduire considérablement la taille du modèle construit et permet de s'adapter facilement à des vitesses d'é1ocution ou des stratégies articulatoires particulières. Un autre point fort de notre méthode est de prendre en considération à la fois l'effet paradigmatique qui correspond aux caractéristiques intrinsèques des sons, mais aussi l'effet syntagmatique qui permet de conserver les contrastes entre les sons dans un énoncé. Afin d'estimer la qualité de notre synthèse coarticulatoire, nous avons ensuite mesuré les différences entre les signaux réels et les signaux synthétisés sur 1'ensemble des phrases de notre corpus. Nous avons également comparé nos résultats avec ceux obtenus après synthèse avec la technique de prédiction de la coarticulatíon de Cohen et Massaro qui avait obtenu les meilleurs scores statistiques selon une ancienne étude comparative. Si la méthode de Cohen et Massaro obtient globalement de meilleurs résultats que notre solution, nous avons montré que ce n'est pas le cas pour toutes les séquences. En particulier, notre synthèse est meilleure pour les VCCV où l'anticipation est davantage marquée.
3

Parole d'homme – Parole de clone<br />Vers une machine parlante anthropomorphique : Données et modèles en production de parole

Badin, Pierre 18 April 2002 (has links) (PDF)
La parole, un signal biologique de communication<br />Le signal de parole est un signal destiné à la communication orale entre humains, et donc à encoder des messages linguistiques. Il possède un certain nombre de propriétés qui en font un type de signal très particulier. C'est un signal produit par un système biologique, l'appareil phonatoire humain, et qui reflète donc les propriétés biomécaniques des articulateurs. C'est un signal audiovisuel, puisqu'il fait simultanément intervenir le son et l'image du visage du locuteur, pour ne pas mentionner le toucher. C'est un signal redondant, aussi bien au niveau du son qu'au niveau de la complémentarité entre les canaux acoustiques et visuels, ce qui lui confère des qualités de robustesse indispensables à un signal de communication. Son degré de redondance est adaptable en fonction des conditions environnementales de bruit et de la quantité d'information contenue dans le message à transmettre (liée en particulier au degré de prédictibilité). Cette adaptabilité en fait un signal très variable.<br />Ainsi, le signal de parole est extrêmement complexe du point de vue de sa structure, mais cette complexité peut être lue et interprétée plus facilement si l'on fait référence aux gestes des articulateurs qui l'ont produit. Les mécanismes de production de parole font intervenir la coordination des gestes des différents articulateurs – mâchoire, langue et lèvres – qui modulent la forme du conduit vocal et du visage au cours du temps ; les sources d'excitation acoustiques générées par l'écoulement de l'air issu des poumons à travers le conduit vocal sont alors filtrées par les résonances de ce conduit et finalement rayonnées vers l'extérieur. Depuis mon arrivée à l'ICP en 1979, mon travail de recherche a été essentiellement consacré, selon une approche anthropomorphique, à modéliser les signaux de parole en tant que conséquences de ces mécanismes biomécaniques et aéroacoustiques qui se produisent dans le conduit vocal humain.<br /><br />Données, modèles, et tête parlante audiovisuelle<br />Notre principale approche en modélisation consiste à développer des modèles fonctionnels à partir de données expérimentales, et, dans une moindre mesure, à mettre en œuvre des modèles physiques basés sur des théories pré-établies, en les confrontant aux données. Ainsi, dans tous les cas, modèles et données jouent des rôles fondamentaux et complémentaires.<br /><br />Données acoustiques et articulatoires – dispositifs expérimentaux. Nous avons utilisé ou développé un certain nombre de techniques expérimentales de mesure de paramètres liés à la production de la parole : banc de mesure de la fonction de transfert acoustique du conduit vocal, masque pneumotachométrique pour la mesure de l'écoulement et des pressions de l'air dans le conduit vocal, cinéradiographie et articulographie électromagnétique pour l'étude du mouvement, imagerie IRM pour la caractérisation tridimensionnelle des articulateurs, vidéo pour les mesures tridimensionnelles de lèvres et de visage. Un ensemble précieux de données articulatoires et acoustiques complémentaires a ainsi été recueilli, sur quelques sujets de référence prononçant, dans des conditions maîtrisées, les mêmes corpus représentatifs de l'ensemble des articulations de la langue. Cette démarche orientée sujet offre ainsi la possibilité de disposer, pour le même phénomène (un sujet et une articulation), de données qui ne peuvent être acquises qu'avec des dispositifs expérimentaux impossibles à mettre en œuvre au cours d'une même expérience, comme par exemple la cinéradiographie et le masque pneumo¬tachographique.<br /><br />Modèles articulatoires et acoustiques. <br />Nous avons ainsi développé des modèles articulatoires linéaires de conduit vocal, de langue ou de velum, médiosagittaux ou tridimensionnels, pilotés par les degrés de liberté articulatoires extraits par analyse en composantes linéaires des données. Des degrés de liberté tout à fait similaires ont pu être identifiés pour les différents locuteurs, même si ces locuteurs utilisent des stratégies de contrôle parfois assez différentes. La décomposition selon ces degrés de liberté des gestes articulatoires présents dans certaines séquences Voyelle – Consonne – Voyelle (VCV) a dévoilé des stratégies de compensation entre articulateurs qui n'auraient pas été lisibles directement sur les contours sagittaux bruts. Des stratégies de synergies entre langue et mâchoire ont également pu être mises en évidence. Par ailleurs, nous avons mis en œuvre un ensemble de modèles d'écoulement d'air, de sources acoustiques de voisement et de bruit de friction, et de propagation et rayonnement acoustique dans les domaines temporels et/ou fréquentiels. Nous avons ainsi pu étudier la coordination précise des gestes glotte / constriction orale nécessaire à la production des consonnes fricatives, en liaison avec les interactions entre sources et conduit vocal.<br /><br />Tête parlante audiovisuelle et synthèse articulatoire<br />Nous avons intégré les modèles mentionnés ci-dessus dans un robot articulatoire anthropomorphique : une tête parlante. Cette tête parlante est donc contrôlée par des paramètres articulatoires supra-laryngés qui pilotent le modèle articulatoire et par des paramètres de contrôle glottique qui déterminent les sources acoustiques en interaction avec le conduit vocal ; elle est finalement capable de fournir un signal audio-visuel de parole cohérent. Nous avons par ailleurs développé des procédures d'inversion, basées sur le concept de robotique de la parole, qui nous ont permis de reconstruire avec une bonne fiabilité les trajectoires des paramètres de contrôle articulatoire à partir de l'acoustique, même si ce problème d'inversion est un problème mal posé a priori. Nous avons ainsi pu réaliser une synthèse articulatoire de séquences VCV contenant les fricatives du français.<br /><br />Perspectives<br />D'un côté, il sera nécessaire de poursuivre le développement et l'amélioration des différents modèles qui constituent la tête parlante. D'autre part, le temps est venu de nous tourner de manière plus approfondie dans le cadre du développement des STIC (Sciences et Technologies de l'Information et de la Communication) et du 6e Programme cadre européen de recherche et de développement technologique européen, vers des applications comme la synthèse articulatoire audiovisuelle, les clones pour les télécommunications, ou encore l'aide à l'apprentissage des langues. <br /><br />Données et modèles en production de parole<br />Le développement de la tête parlante continuera à être basé sur des données expérimentales, l'objectif étant de modéliser tous les articulateurs, afin de générer des fonctions d'aire tridimensionnelles complètes. L'approche de modélisation linéaire sera conservée, en explorant ses limites, mais sans exclure des modèles locaux non-linéaires capables de prendre en compte la déformation des organes qui entrent en contact les uns avec les autres. Cette approche orientée sujet sera par ailleurs étendue à plusieurs locuteurs afin de comparer les stratégies individuelles, et d'en tirer des principes plus généraux. La nécessaire normalisation inter-sujets sera explorée à deux niveaux : conformation anatomique, et stratégies de synergie / compensation articulatoires. Les modèles aérodynamiques et acoustiques devront être développés pour prendre en compte les modes transversaux nécessaires pour les consonnes fricatives, le couplage avec les cavités nasales pour les voyelles et consonnes nasales, et la génération des bruits de relâchement pour les consonnes occlusives. Par ailleurs, nous explorerons les degrés de liberté des articulateurs en relation avec l'anatomie, et nous déterminerons les espaces de réalisation des différents phonèmes sous forme d'espaces de réalisation de cibles spatio-temporelles aux niveaux articulatoire, géométrique, aérodynamique, et acoustique, pour différentes conditions d'élocution, ce qui nous permettra d'aborder l'étude de la variabilité de la parole.<br /><br />Têtes parlantes et applications<br />Un certain nombre d'applications des têtes parlantes peuvent être envisagées. L'un des intérêt de la tête parlante réside dans la possibilité de réalité augmentée qu'elle offre : en affichant la peau et certains articulateurs de manière semi-transparente, ou en utilisant des techniques d'écorché, il est possible de montrer des articulateurs cachés dans des conditions normales d'élocution. L'apprentissage de la prononciation des langues étrangères pourrait bénéficier de ces propriétés : en effet montrer à un apprenant les mouvements articulatoires qu'il doit effectuer pour produire un son fait partie des stratégies pédagogiques intéressantes ; il sera donc nécessaire d'évaluer la tête parlante à ce niveau, en déterminant les modes de présentation les plus efficaces. De manière similaire, nous envisageons d'utiliser la tête parlante dans le cadre de la réhabilitation des déficients auditifs. Par ailleurs, la tête parlante et l'ensemble des données articulatoires et acoustiques qui ont été progressivement accumulées permettent d'envisager le développement d'un système de synthèse articulatoire audiovisuelle à partir du texte. Enfin, dans le domaine des télécommunications, il sera possible à tout locuteur auquel un clone aura été adapté à partir d'un clone générique d'intervenir dans une visioconférence par l'intermédiaire de ce clone, avec les avantages d'une réduction considérable de la bande passante nécessaire à l'image et d'une représentation complète tridimensionnelle de la tête du locuteur.

Page generated in 0.0679 seconds