Global ETD Search

1	Inversion acoustique-articulatoire avec contraintes Potard, Blaise 23 October 2008 (has links) (PDF) Cette thèse porte sur 1'ínversion acoustique-articulatoire, c'est-à-dire la récupération des mouvements des articulateurs de la parole à partir du signal sonore. Nous présentons dans ce mémoire une évolution importante des méthodes de tabulation à codebooks utilisant une table de correspondants acoustique-articulatoire précalculée à l'aide d'un modèle de synthèse acoustique. En dehors de la méthode d'inversion proprement dite, nous présentons également l'introduction de deux types de contraintes : des contraintes phonétiques génériques, issues de l'analyse par des experts humains de l'invariance articulatoire des voyelles, et des contraintes visuelles, c'est-à-dire des contraintes obtenues automatiquement à partir de l'enregistrement et l'analyse d'images en stéréovision du locuteur. parole articulatoire analyse de la parole
2	Les émotions : une étude articulatoire, acoustique et perceptive Thibeault, Mélanie 10 1900 (has links) (PDF) Les théories psychologiques modernes considèrent les émotions comme des épisodes relativement brefs en réaction à l'évaluation d'un événement interne ou externe considéré comme important pour l'organisme. Les émotions impliquent, en plus de l'impression subjective ressentie par le sujet, des changements physiologiques et l'expression motrice. L'encodage vocal des émotions est complexe puisque des informations linguistiques sont communiquées simultanément aux informations émotives. Jusqu'à maintenant, peu de travaux se sont intéressés au volet articulatoire du phénomène. Néanmoins, ces quelques études suffisent à convaincre de la forte influence des émotions sur l'articulation de la parole. Toutefois, les études concluent tantôt à une influence globale des émotions sur l'articulation et tantôt à une influence locale, variable selon le substrat phonémique. L'examen détaillé des études articulatoires effectuées à ce jour nous amène plutôt à proposer que les deux systèmes agissent de façon coordonnée : les émotions influencent principalement les articulateurs étant peu ou pas recrutés pour la production d'un phonème. Dans le cadre de cette thèse, en plus de détailler les caractéristiques articulatoires et acoustiques associées à six émotions (colère froide, dégoût, joie euphorique, peur panique, surprise et tristesse mélancolique), nous vérifions cette hypothèse. Pour ce faire, nous avons enregistré, à l'aide d'un articulographe AG500 et d'un micro-casque, dix acteurs professionnels ayant le français québécois comme langue maternelle alors qu'ils prononçaient une phrase standardisée placée dans différents scénarios propres à susciter les émotions ciblées et le neutre. Afin d'évaluer la qualité des émotions produites, les stimuli ont été soumis à un test d'identification auprès de locuteurs natifs du français québécois. Des analyses statistiques nous ont permis de déterminer qu'effectivement les articulateurs sont davantage influencés par les émotions quand ils ne sont pas recrutés pour la production de phonèmes. Nos résultats indiquent donc que les émotions influencent la position de base des articulateurs plutôt que le degré de tension des différents muscles. De plus, nous avons observé qu'il y a invariance sur le plan articulatoire, mais non sur le plan acoustique. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Phonétique articulatoire, phonétique acoustique, émotions, prosodie. Émotion Parole Relation Phonétique acoustique Phonétique articulatoire Prosodie
3	Inversion acoustique articulatoire à partir de coefficients cepstraux / Acoustic-to-articulatory inversion from cepstral coefficients Busset, Julie 25 March 2013 (has links) L'inversion acoustique-articulatoire de la parole consiste à récupérer la forme du conduit vocal à partir d'un signal de parole. Ce problème est abordé à l'aide d'une méthode d'analyse par synthèse reposant sur un modèle physique de production de la parole contrôlé par un petit nombre de paramètres décrivant la forme du conduit vocal : l'ouverture de la mâchoire, la forme et la position de la langue et la position des lèvres et du larynx. Afin de s'approcher de la géométrie de notre locuteur, le modèle articulatoire est construit à l'aide de contours articulatoires issus d'images cinéradiographiques présentant une vue sagittale du conduit vocal. Ce synthétiseur articulatoire nous permet de créer une table formée de couples associant un vecteur articulatoire au vecteur acoustique correspondant. Nous n'utiliserons pas les formants (fréquences de résonance du conduit vocal) comme vecteur acoustique car leur extraction n'est pas toujours fiable provoquant des erreurs lors de l'inversion. Les coefficients cepstraux sont utilisés comme vecteur acoustique. De plus, l'effet de la source et les disparités entre le conduit vocal du locuteur et le modèle articulatoire sont pris en compte explicitement en comparant les spectres naturels à ceux produits par le synthétiseur car nous disposons des deux signaux / The acoustic-to-articulatory inversion of speech consist in the recovery of the vocal tract shape from the speech signal. This problem is tackled with an analysis-by-synthesis method depending on a physical model of speech production controlled by a small number of parameters describing the vocal tract shape: the jaw opening, the shape and the position of the tongue and the position of lips and larynx. In order to approach the geometry of the speaker, the articulatory model is built with articulatory contours from cineradiographic images of the sagittal view of the vocal tract. This articulatory synthesizer allows us to create a table made up with couples associating a articulatory vector with the corresponding acoustic vector. The formants (resonance frequency of the vocal tract shape) are not used as acoustic vector because their extraction is not always reliable causing errors during inversion. The cepstral coefficients are used as acoustic vector. Moreover, the source effect and the mismatch between the speaker vocal tract and the articulatory model are considered explicitly comparing the natural spectrum with those produced by the synthesizer because we have the both signals Inversion Acoustique Articulatoire Analyse par synthèse Coefficients cepstraux Modèle articulatoire Inversion Acoustic Articulatory Analysis-by-synthesis Cepstral coefficients Articulatory model 006.454
4	Inversion acoustique articulatoire à partir de coefficients cepstraux Busset, Julie 25 March 2013 (has links) (PDF) L'inversion acoustique-articulatoire de la parole consiste à récupérer la forme du conduit vocal à partir d'un signal de parole. Ce problème est abordé à l'aide d'une méthode d'analyse par synthèse reposant sur un modèle physique de production de la parole contrôlé par un petit nombre de paramètres décrivant la forme du conduit vocal : l'ouverture de la mâchoire, la forme et la position de la langue et la position des lèvres et du larynx. Afin de s'approcher de la géométrie de notre locuteur, le modèle articulatoire est construit à l'aide de contours articulatoires issus d'images cinéradiographiques présentant une vue sagittale du conduit vocal. Ce synthétiseur articulatoire nous permet de créer une table formée de couples associant un vecteur articulatoire au vecteur acoustique correspondant. Nous n'utiliserons pas les formants (fréquences de résonance du conduit vocal) comme vecteur acoustique car leur extraction n'est pas toujours fiable provoquant des erreurs lors de l'inversion. Les coefficients cepstraux sont utilisés comme vecteur acoustique. De plus, l'effet de la source et les disparités entre le conduit vocal du locuteur et le modèle articulatoire sont pris en compte explicitement en comparant les spectres naturels à ceux produits par le synthétiseur car nous disposons des deux signaux. Inversion acoustique articulatoire analyse par synthèse coefficients cepstraux modèle articulatoire
5	Parole d'homme – Parole de clone<br />Vers une machine parlante anthropomorphique : Données et modèles en production de parole Badin, Pierre 18 April 2002 (has links) (PDF) La parole, un signal biologique de communication<br />Le signal de parole est un signal destiné à la communication orale entre humains, et donc à encoder des messages linguistiques. Il possède un certain nombre de propriétés qui en font un type de signal très particulier. C'est un signal produit par un système biologique, l'appareil phonatoire humain, et qui reflète donc les propriétés biomécaniques des articulateurs. C'est un signal audiovisuel, puisqu'il fait simultanément intervenir le son et l'image du visage du locuteur, pour ne pas mentionner le toucher. C'est un signal redondant, aussi bien au niveau du son qu'au niveau de la complémentarité entre les canaux acoustiques et visuels, ce qui lui confère des qualités de robustesse indispensables à un signal de communication. Son degré de redondance est adaptable en fonction des conditions environnementales de bruit et de la quantité d'information contenue dans le message à transmettre (liée en particulier au degré de prédictibilité). Cette adaptabilité en fait un signal très variable.<br />Ainsi, le signal de parole est extrêmement complexe du point de vue de sa structure, mais cette complexité peut être lue et interprétée plus facilement si l'on fait référence aux gestes des articulateurs qui l'ont produit. Les mécanismes de production de parole font intervenir la coordination des gestes des différents articulateurs – mâchoire, langue et lèvres – qui modulent la forme du conduit vocal et du visage au cours du temps ; les sources d'excitation acoustiques générées par l'écoulement de l'air issu des poumons à travers le conduit vocal sont alors filtrées par les résonances de ce conduit et finalement rayonnées vers l'extérieur. Depuis mon arrivée à l'ICP en 1979, mon travail de recherche a été essentiellement consacré, selon une approche anthropomorphique, à modéliser les signaux de parole en tant que conséquences de ces mécanismes biomécaniques et aéroacoustiques qui se produisent dans le conduit vocal humain.<br /><br />Données, modèles, et tête parlante audiovisuelle<br />Notre principale approche en modélisation consiste à développer des modèles fonctionnels à partir de données expérimentales, et, dans une moindre mesure, à mettre en œuvre des modèles physiques basés sur des théories pré-établies, en les confrontant aux données. Ainsi, dans tous les cas, modèles et données jouent des rôles fondamentaux et complémentaires.<br /><br />Données acoustiques et articulatoires – dispositifs expérimentaux. Nous avons utilisé ou développé un certain nombre de techniques expérimentales de mesure de paramètres liés à la production de la parole : banc de mesure de la fonction de transfert acoustique du conduit vocal, masque pneumotachométrique pour la mesure de l'écoulement et des pressions de l'air dans le conduit vocal, cinéradiographie et articulographie électromagnétique pour l'étude du mouvement, imagerie IRM pour la caractérisation tridimensionnelle des articulateurs, vidéo pour les mesures tridimensionnelles de lèvres et de visage. Un ensemble précieux de données articulatoires et acoustiques complémentaires a ainsi été recueilli, sur quelques sujets de référence prononçant, dans des conditions maîtrisées, les mêmes corpus représentatifs de l'ensemble des articulations de la langue. Cette démarche orientée sujet offre ainsi la possibilité de disposer, pour le même phénomène (un sujet et une articulation), de données qui ne peuvent être acquises qu'avec des dispositifs expérimentaux impossibles à mettre en œuvre au cours d'une même expérience, comme par exemple la cinéradiographie et le masque pneumo¬tachographique.<br /><br />Modèles articulatoires et acoustiques. <br />Nous avons ainsi développé des modèles articulatoires linéaires de conduit vocal, de langue ou de velum, médiosagittaux ou tridimensionnels, pilotés par les degrés de liberté articulatoires extraits par analyse en composantes linéaires des données. Des degrés de liberté tout à fait similaires ont pu être identifiés pour les différents locuteurs, même si ces locuteurs utilisent des stratégies de contrôle parfois assez différentes. La décomposition selon ces degrés de liberté des gestes articulatoires présents dans certaines séquences Voyelle – Consonne – Voyelle (VCV) a dévoilé des stratégies de compensation entre articulateurs qui n'auraient pas été lisibles directement sur les contours sagittaux bruts. Des stratégies de synergies entre langue et mâchoire ont également pu être mises en évidence. Par ailleurs, nous avons mis en œuvre un ensemble de modèles d'écoulement d'air, de sources acoustiques de voisement et de bruit de friction, et de propagation et rayonnement acoustique dans les domaines temporels et/ou fréquentiels. Nous avons ainsi pu étudier la coordination précise des gestes glotte / constriction orale nécessaire à la production des consonnes fricatives, en liaison avec les interactions entre sources et conduit vocal.<br /><br />Tête parlante audiovisuelle et synthèse articulatoire<br />Nous avons intégré les modèles mentionnés ci-dessus dans un robot articulatoire anthropomorphique : une tête parlante. Cette tête parlante est donc contrôlée par des paramètres articulatoires supra-laryngés qui pilotent le modèle articulatoire et par des paramètres de contrôle glottique qui déterminent les sources acoustiques en interaction avec le conduit vocal ; elle est finalement capable de fournir un signal audio-visuel de parole cohérent. Nous avons par ailleurs développé des procédures d'inversion, basées sur le concept de robotique de la parole, qui nous ont permis de reconstruire avec une bonne fiabilité les trajectoires des paramètres de contrôle articulatoire à partir de l'acoustique, même si ce problème d'inversion est un problème mal posé a priori. Nous avons ainsi pu réaliser une synthèse articulatoire de séquences VCV contenant les fricatives du français.<br /><br />Perspectives<br />D'un côté, il sera nécessaire de poursuivre le développement et l'amélioration des différents modèles qui constituent la tête parlante. D'autre part, le temps est venu de nous tourner de manière plus approfondie dans le cadre du développement des STIC (Sciences et Technologies de l'Information et de la Communication) et du 6e Programme cadre européen de recherche et de développement technologique européen, vers des applications comme la synthèse articulatoire audiovisuelle, les clones pour les télécommunications, ou encore l'aide à l'apprentissage des langues. <br /><br />Données et modèles en production de parole<br />Le développement de la tête parlante continuera à être basé sur des données expérimentales, l'objectif étant de modéliser tous les articulateurs, afin de générer des fonctions d'aire tridimensionnelles complètes. L'approche de modélisation linéaire sera conservée, en explorant ses limites, mais sans exclure des modèles locaux non-linéaires capables de prendre en compte la déformation des organes qui entrent en contact les uns avec les autres. Cette approche orientée sujet sera par ailleurs étendue à plusieurs locuteurs afin de comparer les stratégies individuelles, et d'en tirer des principes plus généraux. La nécessaire normalisation inter-sujets sera explorée à deux niveaux : conformation anatomique, et stratégies de synergie / compensation articulatoires. Les modèles aérodynamiques et acoustiques devront être développés pour prendre en compte les modes transversaux nécessaires pour les consonnes fricatives, le couplage avec les cavités nasales pour les voyelles et consonnes nasales, et la génération des bruits de relâchement pour les consonnes occlusives. Par ailleurs, nous explorerons les degrés de liberté des articulateurs en relation avec l'anatomie, et nous déterminerons les espaces de réalisation des différents phonèmes sous forme d'espaces de réalisation de cibles spatio-temporelles aux niveaux articulatoire, géométrique, aérodynamique, et acoustique, pour différentes conditions d'élocution, ce qui nous permettra d'aborder l'étude de la variabilité de la parole.<br /><br />Têtes parlantes et applications<br />Un certain nombre d'applications des têtes parlantes peuvent être envisagées. L'un des intérêt de la tête parlante réside dans la possibilité de réalité augmentée qu'elle offre : en affichant la peau et certains articulateurs de manière semi-transparente, ou en utilisant des techniques d'écorché, il est possible de montrer des articulateurs cachés dans des conditions normales d'élocution. L'apprentissage de la prononciation des langues étrangères pourrait bénéficier de ces propriétés : en effet montrer à un apprenant les mouvements articulatoires qu'il doit effectuer pour produire un son fait partie des stratégies pédagogiques intéressantes ; il sera donc nécessaire d'évaluer la tête parlante à ce niveau, en déterminant les modes de présentation les plus efficaces. De manière similaire, nous envisageons d'utiliser la tête parlante dans le cadre de la réhabilitation des déficients auditifs. Par ailleurs, la tête parlante et l'ensemble des données articulatoires et acoustiques qui ont été progressivement accumulées permettent d'envisager le développement d'un système de synthèse articulatoire audiovisuelle à partir du texte. Enfin, dans le domaine des télécommunications, il sera possible à tout locuteur auquel un clone aura été adapté à partir d'un clone générique d'intervenir dans une visioconférence par l'intermédiaire de ce clone, avec les avantages d'une réduction considérable de la bande passante nécessaire à l'image et d'une représentation complète tridimensionnelle de la tête du locuteur. Production de parole modélisation articulatoire modélisation acoustique conduit vocal tête parlante
6	Modélisation tridimensionnelle des organes de la parole à partir d'images IRM pour la production de nasales - Caractérisation articulatori-acoustique des mouvements du voile du palais. Serrurier, Antoine 08 December 2006 (has links) (PDF) Ce travail a pour objectif la caractérisation articulatori-acoustique de la nasalité: nature des mouvements du port vélopharyngé, caractéristiques acoustiques liées. La construction d'un modèle articulatoire linéaire 3D monosujet du conduit nasal à partir d'images IRM et CT a fait émerger deux degrés de liberté parmi les mouvements du voile du palais et de la paroi nasopharyngée. Le premier, prédominant, correspond à un mouvement conjoint vertical oblique du voile et horizontal de la paroi pharyngée, traduisant l'effet de sphincter du port vélopharyngé, et le second à un petit mouvement horizontal du voile seul, modifiant sensiblement l'aire de couplage nasal. L'espace des mouvements du modèle décrit exactement celui d'un point du voile obtenu par articulographie électromagnétique. Les fonctions d'aire réalistes du conduit nasal déduites du modèle ont permis de déterminer les fonctions de transfert acoustiques de sept voyelles et l'influence acoustique des mouvements du voile. Production de la parole Modélisation articulatoire 3D Voile du palais Nasal Acoustique IRM Conduit vocal
7	Percevoir la parole quand elle est produite différemment : étude des mécanismes de familiarisation multimodale/multisensorielle entre locuteurs tout-venants et locuteurs présentant un trouble de l'articulation / Perceiving speech when it is produced differently : study of the multimodal/multisensory familiarisation mechanisms between ordinary speakers and speakers with articulatory impairments Hennequin, Alexandre 26 June 2019 (has links) La parole est le moyen de communication le plus utilisé par l’Homme. Elle permet d’exprimer ses besoins, d’échanger ses pensées avec autrui et contribue à la construction de l’identité sociale. C’est aussi un canal de communication complexe impliquant un contrôle moteur élaboré en production et la capacité à analyser des séquences sonores produites par une grande variété de locuteurs en perception. Cette complexité fait qu’elle est souvent le mode de communication le plus altéré ou difficile à acquérir pour des personnes dont les systèmes sensori-moteurs impliqués sont perturbés. C’est en particulier le cas des personnes avec trisomie 21 (T21), syndrome d’origine génétique induisant des difficultés motrices orofaciales complexes et des altérations des sphères auditives et somatosensorielles. Si parler est possible pour la plupart de ces personnes, leur intelligibilité est toujours touchée. Améliorer leur communication orale est un enjeu clinique et d’intérêt social. L’étude de la production de la parole par des personnes avec T21 et de sa perception par des auditeurs tout-venant présente aussi un intérêt théorique, en particulier relativement aux questions fondamentales de la perception multimodale de la parole et de l’implication du système moteur de l’auditeur dans sa perception.Dans cette thèse, nous repositionnons le trouble de l’intelligibilité des personnes avec T21 dans un cadre qui conçoit la parole comme un acte coopératif entre locuteur et auditeur. En contre-pied de l’attention traditionnellement portée sur le locuteur dans la recherche appliquée, nous nous intéressons aux recours de l’auditeur pour mieux percevoir la parole en partant de deux observations : (1) la parole T21 est peu intelligible auditivement ; (2) son intelligibilité est meilleure pour des interlocuteurs familiers que non familiers. Ces observations sont mises en relation avec deux résultats importants de la recherche sur la perception de la parole. Primo, en situation de communication face-à-face, en plus de l’information auditive, l’auditeur utilise aussi l’information visuelle produite par le locuteur. Cette dernière permet notamment de mieux percevoir la parole quand l’information auditive est altérée. Deuxio, la familiarisation à un type de parole spécifique entraîne une meilleure perception de celle-ci. Cet effet est augmenté par l’imitation de la parole perçue, qui activerait davantage les représentations motrices internes de l’auditeur.Cette mise en relation des difficultés spécifiques des personnes avec T21 avec la recherche sur la perception de la parole nous amène à formuler les questions suivantes. Compte-tenu des spécificités anatomiques orofaciales du locuteur avec T21 impactant ses gestes moteurs articulatoires, l’auditeur tout-venant bénéficie-t-il de la présence de l’information visuelle ? L’implication du système moteur dans la familiarisation à cette parole spécifique peut-elle aider à mieux la percevoir ? Pour répondre à ces questions, nous avons mené deux études expérimentales. Dans la première, en utilisant un paradigme classique de perception audio-visuelle de la parole dans le bruit, nous montrons que voir le visage du locuteur avec T21 améliore l’intelligibilité de ses consonnes de manière comparable à des locuteurs tout-venant. L’information visuelle semble donc relativement préservée malgré les spécificités anatomiques et physiologiques. Dans une deuxième étude, nous adaptons un paradigme de familiarisation avec et sans imitation pour évaluer si l’imitation lors de la perception auditive de mots produits par un locuteur avec T21 peut aider à mieux les percevoir. Nos résultats suggèrent que c’est le cas. Ce travail ouvre des perspectives cliniques et théoriques : l’étude de la perception de la parole produite par des personnes avec un conduit vocal et des mécanismes de contrôle atypiques permet d’évaluer la généralité des mécanismes de perception mis en avant avec des locuteurs typiques et d’en délimiter les contours. / Speech is the most widely used means of communication by humans. It allows people to express their needs, exchange thoughts with others and contributes to the construction of social identity. It is also a complex communication channel involving elaborate motor control in production and the ability to analyze sound sequences produced by a wide variety of speakers in perception. This complexity results in speech being often the most altered or difficult to acquire mode of communication for people whose sensorimotor systems are impaired. This is particularly the case for people with trisomy 21 (T21), a genetic syndrome inducing complex orofacial motor difficulties and alterations in the auditory and somatosensory spheres. While speaking is possible for most of these people, their intelligibility is always affected. Improving their oral communication is a clinical and social issue. The study of speech production by people with T21 and its perception by typical listeners is also of theoretical interest, particularly with regard to the fundamental issues of multimodal perception of speech and the involvement of the auditor's motor system in this perception.In this thesis, we reposition the intelligibility disorder of people with T21 in a framework that conceives speech as a cooperative act between speaker and listener. In contrast to the traditional focus on the speaker in applied research, we are interested in the listener's means to better perceive speech, based on two observations: (1) T21 speech is not very intelligible auditorily; (2) its intelligibility is better for familiar than unfamiliar interlocutors. These observations are linked to two important research results on speech perception. First, in a situation of face-to-face communication, in addition to auditory information, the listener also uses the visual information produced by the speaker. In particular, the latter makes it possible to better perceive speech when auditory information is altered. Secondly, familiarization with a specific type of speech leads to a better perception of it. This effect is increased by the imitation of the speech perceived, which would further activate the listener’s internal motor representations.This connection between the specific difficulties of people with T21 and research on speech perception leads to the following questions. Given the anatomical orofacial specificities of the speaker with T21 impacting his articulatory motor gestures, does the typical listener benefit from the presence of visual information? Can the involvement of the motor system in familiarizing oneself with this specific speech help to better perceive it? To answer these questions, we conducted two experimental studies. In the first one, we show that seeing the face of the speaker with T21 improves the intelligibility of his consonants in a way comparable to typical speakers, using a classical paradigm of audio-visual perception of speech in noise. Visual information therefore seems to be relatively preserved despite anatomical and physiological specificities. In a second study, we adapt a familiarization paradigm with and without imitation to assess whether imitation during the auditory perception of words produced by a speaker with T21 can help improve their perception. Our results suggest that this is the case. This work opens up clinical and theoretical perspectives: the study of the perception of speech produced by people with atypical vocal tract and control mechanisms makes it possible to evaluate the generality of the perception mechanisms put forward with typical speakers and to delimit their contours. Parole Familiarisation Perception Trouble articulatoire Multimodalité Multisensorialité Speech Familiarisation Perception Articulatory impairment Multomodality Multisensoriality 400
8	Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage Ben Youssef, Atef 26 October 2011 (has links) (PDF) Cette thèse présente un système de retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés par inversion à partir de la voix d'un locuteur. Notre approche de ce problème d'inversion est basée sur des modèles statistiques élaborés à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique. Un premier système combine des techniques de reconnaissance acoustique de la parole et de synthèse articulatoire basées sur des modèles de Markov cachés (HMMs). Un deuxième système utilise des modèles de mélanges gaussiens (GMMs) pour estimer directement les trajectoires articulatoires à partir du signal acoustique. Pour généraliser le système mono-locuteur à un système multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR) que nous avons évaluée à l'aide un système de reconnaissance articulatoire de référence. Enfin, nous présentons un démonstrateur de retour articulatoire visuel. [INFO:INFO_LG] Computer Science/Learning retour articulatoire visuel inversion acoustique-articulatoire articulographe électromagnétique modèles de Markov cachées modèles de mélanges gaussiens adaptation au locuteur
9	La Langue Française Parlée Complétée: Production et Perception Attina, Virginie 25 November 2005 (has links) (PDF) La LPC ou Cued Speech est un augment manuel qui permet au sourd de désambiguïser l'information phonologique visible sur le visage. L'efficacité de ce système pour l'acquisition de la phonologie de la langue est bien établie. Mais la production du code LPC n'avait jamais été étudiée, et nous l'avons fait par une technique de suivi des mouvements labiaux et manuels de quatre codeuses professionnelles. Notre résultat comportemental majeur est que le geste de la main - contre toute attente - précède le geste des lèvres. Cette anticipation donne un rôle inattendu à la parole visible: celui de venir désambiguïser le geste manuel, conçu au départ pour désambiguïser la parole... Notre hypothèse est que le système de Cornett a été recodé en termes neuralement compatibles pourle contrôle des gestes des voyelles et des consonnes dans la LPC et la parole. Ainsi le contrôle des contavts vocaliques manuels va se trouver en phase avec celui des contacts consonantiques visibles. Ce phasage est assez précis pour que, quelles que soient les variations de la durée de l aproduction de la syllabe CV, l'aboutissement de la détente (stroke) du système main-bras se produise dans la phase de tenue de l'attaque consonantique. L'icorporation de la main et de la face dans un espace de contrôle neural commun peut être ainsi pleinement réalisée dans la LPC. [INFO] Computer Science Code LPC Cued Speech Langue Française Parlée Complétée surdité production de parole perception/intégration
10	CONCEPTION ET EVALUATION D'UN SYSTEME DE SUIVI AUTOMATIQUE DES GESTES LABIAUX EN PAROLE Reveret, Lionel 28 May 1999 (has links) (PDF) Cette thèse présente un système de suivi automatique des gestes labiaux à partir d'une séquence vidéo d'un locuteur. Le système combine une analyse ascendante et descendante de la forme des lèvres. Une première étape d'analyse chromatique, basée sur un apprentissage statistique, fournit une image en niveaux de gris où le contraste entre lèvres et peau est rehaussé. Parallèlement, un modèle linéaire 3D des gestes labiaux est appris pour un locuteur à partir de formes clés phonétiquement pertinentes. Le modèle est alors synthétisé et projeté sur l'image imposant a priori les caractéristiques de la forme des lèvres. Il est adapté sur l'image rehaussée des lèvres par optimisation de ses paramètres de contrôle. Ce système combine ainsi de manière hybride la précision de l'analyse chromatique et la robustesse imposée par le modèle. Ce système est évalué sous divers aspects : ses capacités à s'adapter à la morphologie labiale et aux stratégies articulatoire de plusieurs locuteurs, la qualité des mesures géométriques délivrées et sa rapidité d'analyse. Le système complet a été implanté et testé en langage C sur une station de travail monoprocesseur. L'exécution est évaluée en nombre d'instructions à partir du code machine généré par le compilateur du système de la station. Ces résultats ont permis d'identifier les zones critiques de traitement pour lesquels des optimisations sont proposées. Compte tenu de ces optimisations, il apparaît que la cadence de 50 images par seconde est alors accessible sans avoir recours à une implantation matérielle spécialisée. parole audiovisuelle suivi automatique des lèvres analyse chromatique modélisation articulatoire analyse / synthèse de modèle 3D temps réel

Search results