• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 4
  • Tagged with
  • 9
  • 9
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Étude d'un modèle continu des cordes vocales sous forme de deux poutres bi-articulées : premières simulations.

Perrier, Pascal, January 1900 (has links)
Th. doct.-ing.--Électronique--Grenoble--I.N.P., 1982. N°: DI 313.
2

Étude du fonctionnement et simulation en temps réel d'un modèle de la source vocale : étude des interactions source-cavité subglottique et source-conduit vocal.

Ansari, Adnanal, January 1900 (has links)
Th. doct.-ing.--Électronique--Grenoble--I.N.P.G., 1981. N°: DI 246.
3

Parole d'homme – Parole de clone<br />Vers une machine parlante anthropomorphique : Données et modèles en production de parole

Badin, Pierre 18 April 2002 (has links) (PDF)
La parole, un signal biologique de communication<br />Le signal de parole est un signal destiné à la communication orale entre humains, et donc à encoder des messages linguistiques. Il possède un certain nombre de propriétés qui en font un type de signal très particulier. C'est un signal produit par un système biologique, l'appareil phonatoire humain, et qui reflète donc les propriétés biomécaniques des articulateurs. C'est un signal audiovisuel, puisqu'il fait simultanément intervenir le son et l'image du visage du locuteur, pour ne pas mentionner le toucher. C'est un signal redondant, aussi bien au niveau du son qu'au niveau de la complémentarité entre les canaux acoustiques et visuels, ce qui lui confère des qualités de robustesse indispensables à un signal de communication. Son degré de redondance est adaptable en fonction des conditions environnementales de bruit et de la quantité d'information contenue dans le message à transmettre (liée en particulier au degré de prédictibilité). Cette adaptabilité en fait un signal très variable.<br />Ainsi, le signal de parole est extrêmement complexe du point de vue de sa structure, mais cette complexité peut être lue et interprétée plus facilement si l'on fait référence aux gestes des articulateurs qui l'ont produit. Les mécanismes de production de parole font intervenir la coordination des gestes des différents articulateurs – mâchoire, langue et lèvres – qui modulent la forme du conduit vocal et du visage au cours du temps ; les sources d'excitation acoustiques générées par l'écoulement de l'air issu des poumons à travers le conduit vocal sont alors filtrées par les résonances de ce conduit et finalement rayonnées vers l'extérieur. Depuis mon arrivée à l'ICP en 1979, mon travail de recherche a été essentiellement consacré, selon une approche anthropomorphique, à modéliser les signaux de parole en tant que conséquences de ces mécanismes biomécaniques et aéroacoustiques qui se produisent dans le conduit vocal humain.<br /><br />Données, modèles, et tête parlante audiovisuelle<br />Notre principale approche en modélisation consiste à développer des modèles fonctionnels à partir de données expérimentales, et, dans une moindre mesure, à mettre en œuvre des modèles physiques basés sur des théories pré-établies, en les confrontant aux données. Ainsi, dans tous les cas, modèles et données jouent des rôles fondamentaux et complémentaires.<br /><br />Données acoustiques et articulatoires – dispositifs expérimentaux. Nous avons utilisé ou développé un certain nombre de techniques expérimentales de mesure de paramètres liés à la production de la parole : banc de mesure de la fonction de transfert acoustique du conduit vocal, masque pneumotachométrique pour la mesure de l'écoulement et des pressions de l'air dans le conduit vocal, cinéradiographie et articulographie électromagnétique pour l'étude du mouvement, imagerie IRM pour la caractérisation tridimensionnelle des articulateurs, vidéo pour les mesures tridimensionnelles de lèvres et de visage. Un ensemble précieux de données articulatoires et acoustiques complémentaires a ainsi été recueilli, sur quelques sujets de référence prononçant, dans des conditions maîtrisées, les mêmes corpus représentatifs de l'ensemble des articulations de la langue. Cette démarche orientée sujet offre ainsi la possibilité de disposer, pour le même phénomène (un sujet et une articulation), de données qui ne peuvent être acquises qu'avec des dispositifs expérimentaux impossibles à mettre en œuvre au cours d'une même expérience, comme par exemple la cinéradiographie et le masque pneumo¬tachographique.<br /><br />Modèles articulatoires et acoustiques. <br />Nous avons ainsi développé des modèles articulatoires linéaires de conduit vocal, de langue ou de velum, médiosagittaux ou tridimensionnels, pilotés par les degrés de liberté articulatoires extraits par analyse en composantes linéaires des données. Des degrés de liberté tout à fait similaires ont pu être identifiés pour les différents locuteurs, même si ces locuteurs utilisent des stratégies de contrôle parfois assez différentes. La décomposition selon ces degrés de liberté des gestes articulatoires présents dans certaines séquences Voyelle – Consonne – Voyelle (VCV) a dévoilé des stratégies de compensation entre articulateurs qui n'auraient pas été lisibles directement sur les contours sagittaux bruts. Des stratégies de synergies entre langue et mâchoire ont également pu être mises en évidence. Par ailleurs, nous avons mis en œuvre un ensemble de modèles d'écoulement d'air, de sources acoustiques de voisement et de bruit de friction, et de propagation et rayonnement acoustique dans les domaines temporels et/ou fréquentiels. Nous avons ainsi pu étudier la coordination précise des gestes glotte / constriction orale nécessaire à la production des consonnes fricatives, en liaison avec les interactions entre sources et conduit vocal.<br /><br />Tête parlante audiovisuelle et synthèse articulatoire<br />Nous avons intégré les modèles mentionnés ci-dessus dans un robot articulatoire anthropomorphique : une tête parlante. Cette tête parlante est donc contrôlée par des paramètres articulatoires supra-laryngés qui pilotent le modèle articulatoire et par des paramètres de contrôle glottique qui déterminent les sources acoustiques en interaction avec le conduit vocal ; elle est finalement capable de fournir un signal audio-visuel de parole cohérent. Nous avons par ailleurs développé des procédures d'inversion, basées sur le concept de robotique de la parole, qui nous ont permis de reconstruire avec une bonne fiabilité les trajectoires des paramètres de contrôle articulatoire à partir de l'acoustique, même si ce problème d'inversion est un problème mal posé a priori. Nous avons ainsi pu réaliser une synthèse articulatoire de séquences VCV contenant les fricatives du français.<br /><br />Perspectives<br />D'un côté, il sera nécessaire de poursuivre le développement et l'amélioration des différents modèles qui constituent la tête parlante. D'autre part, le temps est venu de nous tourner de manière plus approfondie dans le cadre du développement des STIC (Sciences et Technologies de l'Information et de la Communication) et du 6e Programme cadre européen de recherche et de développement technologique européen, vers des applications comme la synthèse articulatoire audiovisuelle, les clones pour les télécommunications, ou encore l'aide à l'apprentissage des langues. <br /><br />Données et modèles en production de parole<br />Le développement de la tête parlante continuera à être basé sur des données expérimentales, l'objectif étant de modéliser tous les articulateurs, afin de générer des fonctions d'aire tridimensionnelles complètes. L'approche de modélisation linéaire sera conservée, en explorant ses limites, mais sans exclure des modèles locaux non-linéaires capables de prendre en compte la déformation des organes qui entrent en contact les uns avec les autres. Cette approche orientée sujet sera par ailleurs étendue à plusieurs locuteurs afin de comparer les stratégies individuelles, et d'en tirer des principes plus généraux. La nécessaire normalisation inter-sujets sera explorée à deux niveaux : conformation anatomique, et stratégies de synergie / compensation articulatoires. Les modèles aérodynamiques et acoustiques devront être développés pour prendre en compte les modes transversaux nécessaires pour les consonnes fricatives, le couplage avec les cavités nasales pour les voyelles et consonnes nasales, et la génération des bruits de relâchement pour les consonnes occlusives. Par ailleurs, nous explorerons les degrés de liberté des articulateurs en relation avec l'anatomie, et nous déterminerons les espaces de réalisation des différents phonèmes sous forme d'espaces de réalisation de cibles spatio-temporelles aux niveaux articulatoire, géométrique, aérodynamique, et acoustique, pour différentes conditions d'élocution, ce qui nous permettra d'aborder l'étude de la variabilité de la parole.<br /><br />Têtes parlantes et applications<br />Un certain nombre d'applications des têtes parlantes peuvent être envisagées. L'un des intérêt de la tête parlante réside dans la possibilité de réalité augmentée qu'elle offre : en affichant la peau et certains articulateurs de manière semi-transparente, ou en utilisant des techniques d'écorché, il est possible de montrer des articulateurs cachés dans des conditions normales d'élocution. L'apprentissage de la prononciation des langues étrangères pourrait bénéficier de ces propriétés : en effet montrer à un apprenant les mouvements articulatoires qu'il doit effectuer pour produire un son fait partie des stratégies pédagogiques intéressantes ; il sera donc nécessaire d'évaluer la tête parlante à ce niveau, en déterminant les modes de présentation les plus efficaces. De manière similaire, nous envisageons d'utiliser la tête parlante dans le cadre de la réhabilitation des déficients auditifs. Par ailleurs, la tête parlante et l'ensemble des données articulatoires et acoustiques qui ont été progressivement accumulées permettent d'envisager le développement d'un système de synthèse articulatoire audiovisuelle à partir du texte. Enfin, dans le domaine des télécommunications, il sera possible à tout locuteur auquel un clone aura été adapté à partir d'un clone générique d'intervenir dans une visioconférence par l'intermédiaire de ce clone, avec les avantages d'une réduction considérable de la bande passante nécessaire à l'image et d'une représentation complète tridimensionnelle de la tête du locuteur.
4

Modélisation tridimensionnelle des organes de la parole à partir d'images IRM pour la production de nasales - Caractérisation articulatori-acoustique des mouvements du voile du palais.

Serrurier, Antoine 08 December 2006 (has links) (PDF)
Ce travail a pour objectif la caractérisation articulatori-acoustique de la nasalité: nature des mouvements du port vélopharyngé, caractéristiques acoustiques liées. La construction d'un modèle articulatoire linéaire 3D monosujet du conduit nasal à partir d'images IRM et CT a fait émerger deux degrés de liberté parmi les mouvements du voile du palais et de la paroi nasopharyngée. Le premier, prédominant, correspond à un mouvement conjoint vertical oblique du voile et horizontal de la paroi pharyngée, traduisant l'effet de sphincter du port vélopharyngé, et le second à un petit mouvement horizontal du voile seul, modifiant sensiblement l'aire de couplage nasal. L'espace des mouvements du modèle décrit exactement celui d'un point du voile obtenu par articulographie électromagnétique. Les fonctions d'aire réalistes du conduit nasal déduites du modèle ont permis de déterminer les fonctions de transfert acoustiques de sept voyelles et l'influence acoustique des mouvements du voile.
5

Enquêtes de l'acoustique du conduit vocal et des plis vocaux in vivo, ex vivo et in vitro / Investigations of the acoustics of the vocal tract and vocal folds in vivo, ex vivo and in vitro

Hanna, Noël 17 December 2014 (has links)
La parole et le chant ont une importance capitale dans la culture humaine. Cependant les phénomènes physiques de production et de contrôle de la voix sont encore mal compris, et leurs paramètres mal connus, principalement en raison de la difficulté d'y accéder in vivo. Dans le modèle source-filtre simplifié, la source sonore est produite par l'oscillation des plis vocaux à une fréquence fondamentale et ses multiples ; les résonances du conduit vocal filtrent l'enveloppe spectrale du signal pour produire des voyelles. Dans cette thèse, les propriétés de la source et du filtre sont étudiées et une expérience in vitro examine l'influence du filtre sur la source. L'influence des paramètres de contrôle aérodynamiques ou mécaniques sur la fréquence fondamentale est étudiée ex vivo en utilisant des larynx humains excisés. Quatre types de discontinuités ou d'hystérésis sont observés. En dehors de ces zones de bifurcation, la fréquence fondamentale est approximativement proportionnelle à la racine carrée de la pression sous-glottique, ce qui a des implications pour le chant et de la parole, en particulier dans les langues tonales. De plus, le flux d'air qui traverse la glotte provoque un rétrécissement du conduit aryépiglottique sous l'effet de forces de pression aérodynamique, et peut initier l'oscillation des plis ventriculaires et/ou aryépiglottiques sans contrôle musculaire. L'impédance acoustique de conduits vocaux fut mesurée in vivo sur un intervalle de9 octaves en fréquence et de 80 dB en amplitude, avec la glotte fermée puis pendant la phonation. Les fréquences, amplitudes et largeurs de bande des résonances acoustiques et des résonances mécaniques des tissus autour du conduit vocal sont estimées. Lorsque la glotte est fermée, les largeurs de bande et les pertes d'énergie correspondantes dans le conduit vocal sont largement supérieures aux pertes viscothermiques d'un cylindre rigide lisse, et sont encore plus importantes pendant la phonation. En utilisant un modèle simple de conduit vocal et les mesures effectuées en inspirant, des résonances acoustiques du système sous-glottique sont également estimées. Les effets possibles de la charge aéroacoustique du filtre sur la source sont mis en évidence dans une expérience sur une maquette de plis vocaux constituée de boudins de latex remplis d'eau couplés à un tuyau rigide. La modification de la charge acoustique en aval des plis vocaux, par insertion d'une paille à l'extrémité du conduit, modifie la fréquence fondamentale de vibration des plis. Ce résultat est discuté dans le contexte des méthodes de rééducation orthophonique à la paille couramment utilisées en thérapie de la parole. / Speech and singing are of enormous importance to human culture, yet the physics that underlies the production and control of the voice is incompletely understood, and its parameters not well known, mainly due to the difficulty of accessing them in vivo. In the simplified but well-accepted source-filter model, non-linear vocal fold oscillation produces a sound source at a fundamental frequency and its multiples, the resonances of the vocal tract filter the spectral envelope of the sound to produce voice formants. In this thesis, both source and tract properties are studied experimentally and an in vitro experiment investigates how the filter can affect the source. The control of fundamental frequency by either air supply or mechanical control parameters is investigated ex vivo using excised human larynges. All else equal, and excluding the four types of discontinuity or hysteresis observed, the fundamental frequency was found to be proportional to the square root of subglottal pressure, which has implications for singing and speech production, particularly in tonal languages. Additionally, airflow through the glottis causes a narrowing of the aryepiglottic tube and can initiate ventricular and/or aryepiglottic fold oscillation without muscular control. The acoustic impedance of the vocal tract was measured in vivo over a range of 9 octaves and 80 dB dynamic range with the glottis closed and during phonation. The frequencies, magnitudes and bandwidths were measured for the acoustic and for the mechanical resonances of the surrounding tissues. The bandwidths and the energy losses in the vocal tract that cause them were found to be five-fold higher than the viscothermal losses of a dry, smooth rigid cylinder, and to increase during phonation. Using a simple vocal tract model and measurements during inhalation, the subglottal system resonances were also estimated. The possible effects of the filter on the source are demonstrated in an experiment on a water-filled latex vocal fold replica: changing the aero-acoustic load of the model tract by inserting a straw at the model lips changes the fundamental frequency. This result is discussed in the context of straw phonation used in speech therapy.
6

Étude d'un modèle continu des cordes vocales sous forme de deux poutres bi-articulées : premières simulations

Perrier, Pascal 08 December 1982 (has links) (PDF)
.
7

Adaptation de clones orofaciaux à la morphologie et aux stratégies de contrôle de locuteurs cibles pour l'articulation de la parole

Valdes, Julian 28 June 2013 (has links) (PDF)
La capacité de production de la parole est apprise et maintenue au moyen d'une boucle de perception-action qui permet aux locuteurs de corriger leur propre production en fonction du retour perceptif reçu. Ce retour est auditif et proprioceptif, mais pas visuel. Ainsi, les sons de parole peuvent être complétés par l'affichage des articulateurs sur l'écran de l'ordinateur, y compris ceux qui sont habituellement cachés tels que la langue ou le voile du palais, ce qui constitue de la parole augmentée. Ce type de système a des applications dans des domaines tels que l'orthophonie, la correction phonétique et l'acquisition du langage. Ce travail a été mené dans le cadre du développement d'un système de retour articulatoire visuel, basé sur la morphologie et les stratégies articulatoires d'un locuteur de référence, qui anime automatiquement une tête parlante 3D à partir du son de la parole. La motivation de cette recherche était d'adapter ce système à plusieurs locuteurs. Ainsi, le double objectif de cette thèse était d'acquérir des connaissances sur la variabilité inter-locuteur, et de proposer des modèles pour adapter un clone de référence, composé de modèles des articulateurs de la parole (lèvres, langue, voile du palais, etc.), à d'autres locuteurs qui peuvent avoir des morphologies et des stratégies articulatoires différentes. Afin de construire des modèles articulatoires pour différents contours du conduit vocal, nous avons d'abord acquis des données qui couvrent l'espace articulatoire dans la langue française. Des Images médio-sagittales obtenues par Résonance Magnétique (IRM) pour onze locuteurs francophones prononçant 63 articulations ont été recueillis. L'un des principaux apports de cette étude est une base de données plus détaillée et plus grande que celles disponibles dans la littérature. Cette base contient, pour plusieurs locuteurs, les tracés de tous les articulateurs du conduit vocal, pour les voyelles et les consonnes, alors que les études précédentes dans la littérature sont principalement basées sur les voyelles. Les contours du conduit vocal visibles dans l'IRM ont été tracés à la main en suivant le même protocole pour tous les locuteurs. Afin d'acquérir de la connaissance sur la variabilité inter-locuteur, nous avons caractérisé nos locuteurs en termes des stratégies articulatoires des différents articulateurs tels que la langue, les lèvres et le voile du palais. Nous avons constaté que chaque locuteur a sa propre stratégie pour produire des sons qui sont considérées comme équivalents du point de vue de la communication parlée. La variabilité de la langue, des lèvres et du voile du palais a été décomposé en une série de mouvements principaux par moyen d'une analyse en composantes principales (ACP). Nous avons remarqué que ces mouvements sont effectués dans des proportions différentes en fonction du locuteur. Par exemple, pour un déplacement donné de la mâchoire, la langue peut globalement se déplacer dans une proportion qui dépend du locuteur. Nous avons également remarqué que la protrusion, l'ouverture des lèvres, l'influence du mouvement de la mâchoire sur les lèvres, et la stratégie articulatoire du voile du palais peuvent également varier en fonction du locuteur. Par exemple, certains locuteurs replient le voile du palais contre la langue pour produire la consonne /ʁ/. Ces résultats constituent également une contribution importante à la connaissance de la variabilité inter-locuteur dans la production de la parole. Afin d'extraire un ensemble de patrons articulatoires communs à différents locuteurs dans la production de la parole (normalisation), nous avons basé notre approche sur des modèles linéaires construits à partir de données articulatoires. Des méthodes de décomposition linéaire multiple ont été appliquées aux contours de la langue, des lèvres et du voile du palais. L'évaluation de nos modèles repose sur deux critères: l'explication de la variance et l'erreur quadratique moyenne. Les modèles ont également été évalués en utilisant une procédure de validation croisée. Le but de l'utilisation de telle procédure était de vérifier la capacité de généralisation des modèles en évaluant leurs performances sur des données qui n'ont pas été utilisées pour leur construction. Afin de modéliser la langue, les lèvres et le voile du palais avec un ensemble commun de composantes pour tous les locuteurs, plusieurs méthodes de décomposition linéaires multiple ont été utilisées et comparées. L'ACP conjointe a donné les meilleurs résultats. En conclusion, nous avons constaté une réduction considérable en termes de nombre de composantes nécessaires lors de l'utilisation d'ACP conjointe, par rapport au nombre total de composantes nécessaires par les modèles ACP individuels de tous les locuteurs. Ces résultats de modélisation constituent une extension importante des études disponibles dans la littérature, à des locuteurs plus nombreux, incluant de plus nombreuses articulations (en particulier les consonnes) et de plus nombreux articulateurs (lèvres, voile du palais).
8

Theoretical and experimental study of vocal tract acoustics / Étude théorique et expérimental de l'acoustique du conduit vocal

Blandin, Rémi 27 October 2016 (has links)
L'acoustique du conduit vocal est souvent décrite avec de simples modèles ondes planes à une dimension. Cependant, cela n'est pas satisfaisant quand à haute fréquence (à partir d'environ 5 kHz) des variations tridimensionnelles du champ acoustique sont présentes. La théorie acoustique multimodale a été implémentée pour prendre en compte les aspects tridimensionnels de l'acoustique du conduit vocal.Un système expérimental a été conçu pour mesurer avec précision des fonctions de transfert, des champs de pression et des diagrammes de directivité sur des maquettes de conduits vocaux. Les données expérimentales obtenues ont été comparées avec les simulations réalisées avec la théorie implémentée et avec la méthode des éléments finis. Le champ acoustique tridimensionnel et les diagrammes de directivité ont été prédit avec succès par les deux méthodes de simulation. Il a été observé que la propagation de mode acoustique d'ordre supérieur induit des variations tridimensionnelles du champ acoustique, génère des antirésonances et des résonances additionnelles et affecte la directivité du son rayonné de façon significative. L'excentricité de la forme du conduit vocal apparaît comme critique pour l'excitation et la propagation des modes d'ordre supérieur.Il est conclu qu'à haute fréquence (au-delà de 5 kHz), la fonction de transfert du conduit vocal peut avoir des variations significatives dans des intervalles de fréquences petit (de l'ordre de 100 Hz) et dans des régions angulaires restreintes (de l'ordre de 30°) qui nécessitent d'être prise en compte dans les études de la parole qui se focalisent sur les hautes fréquences. / The vocal tract acoustics is often described witha simple one dimensional plane wave approach.However, this is not satisfying when at high frequency(from about 5 kHz) three dimensional variations ofthe acoustic fieldare present. The multimodal acoustic theory has beenimplemented in order to account for the threedimensional aspects ofthe vocal tract acoustics.An experimental setup has been designed to measure accuratelytransfer functions, pressure field maps and directivitypatterns of vocal tract replicas.The experimental data obtained have been compared withsimulations performed with the implemented theory andwith a finite element method.The three dimensional acoustic fields and the directivitypatterns were successfully predicted by both simulationmethods.It has been observed that the propagation of higher orderacoustical modes, induces three dimensional variations ofthe acoustic field, generates anti-resonances andadditional resonances, and significantly affects the directivityof the radiated sound.The eccentricity of thevocal tract shape appears as critical for the excitation and thepropagation of the higher order acoustical modes.It is concluded thatat high frequency (above 5 kHz), the transfer functionof the vocal tract can have significant variationswithin short frequency intervals (of the order of 100Hz) and within small angular regions (of the order of30°) which need to be taken into account inthe studies of speech which focus on high frequencies.
9

Adaptation de clones orofaciaux à la morphologie et aux stratégies de contrôle de locuteurs cibles pour l'articulation de la parole / Adaptation of orofacial clones to the morphology and control strategies of target speakers for speech articulation

Valdés Vargas, Julian Andrés 28 June 2013 (has links)
La capacité de production de la parole est apprise et maintenue au moyen d'une boucle de perception-action qui permet aux locuteurs de corriger leur propre production en fonction du retour perceptif reçu. Ce retour est auditif et proprioceptif, mais pas visuel. Ainsi, les sons de parole peuvent être complétés par l'affichage des articulateurs sur l'écran de l'ordinateur, y compris ceux qui sont habituellement cachés tels que la langue ou le voile du palais, ce qui constitue de la parole augmentée. Ce type de système a des applications dans des domaines tels que l'orthophonie, la correction phonétique et l'acquisition du langage. Ce travail a été mené dans le cadre du développement d'un système de retour articulatoire visuel, basé sur la morphologie et les stratégies articulatoires d'un locuteur de référence, qui anime automatiquement une tête parlante 3D à partir du son de la parole. La motivation de cette recherche était d'adapter ce système à plusieurs locuteurs. Ainsi, le double objectif de cette thèse était d'acquérir des connaissances sur la variabilité inter-locuteur, et de proposer des modèles pour adapter un clone de référence, composé de modèles des articulateurs de la parole (lèvres, langue, voile du palais, etc.), à d'autres locuteurs qui peuvent avoir des morphologies et des stratégies articulatoires différentes. Afin de construire des modèles articulatoires pour différents contours du conduit vocal, nous avons d'abord acquis des données qui couvrent l'espace articulatoire dans la langue française. Des Images médio-sagittales obtenues par Résonance Magnétique (IRM) pour onze locuteurs francophones prononçant 63 articulations ont été recueillis. L'un des principaux apports de cette étude est une base de données plus détaillée et plus grande que celles disponibles dans la littérature. Cette base contient, pour plusieurs locuteurs, les tracés de tous les articulateurs du conduit vocal, pour les voyelles et les consonnes, alors que les études précédentes dans la littérature sont principalement basées sur les voyelles. Les contours du conduit vocal visibles dans l'IRM ont été tracés à la main en suivant le même protocole pour tous les locuteurs. Afin d'acquérir de la connaissance sur la variabilité inter-locuteur, nous avons caractérisé nos locuteurs en termes des stratégies articulatoires des différents articulateurs tels que la langue, les lèvres et le voile du palais. Nous avons constaté que chaque locuteur a sa propre stratégie pour produire des sons qui sont considérées comme équivalents du point de vue de la communication parlée. La variabilité de la langue, des lèvres et du voile du palais a été décomposé en une série de mouvements principaux par moyen d'une analyse en composantes principales (ACP). Nous avons remarqué que ces mouvements sont effectués dans des proportions différentes en fonction du locuteur. Par exemple, pour un déplacement donné de la mâchoire, la langue peut globalement se déplacer dans une proportion qui dépend du locuteur. Nous avons également remarqué que la protrusion, l'ouverture des lèvres, l'influence du mouvement de la mâchoire sur les lèvres, et la stratégie articulatoire du voile du palais peuvent également varier en fonction du locuteur. Par exemple, certains locuteurs replient le voile du palais contre la langue pour produire la consonne /ʁ/. Ces résultats constituent également une contribution importante à la connaissance de la variabilité inter-locuteur dans la production de la parole. Afin d'extraire un ensemble de patrons articulatoires communs à différents locuteurs dans la production de la parole (normalisation), nous avons basé notre approche sur des modèles linéaires construits à partir de données articulatoires. Des méthodes de décomposition linéaire multiple ont été appliquées aux contours de la langue, des lèvres et du voile du palais ... / The capacity of producing speech is learned and maintained by means of a perception-action loop that allows speakers to correct their own production as a function of the perceptive feedback received. This auto feedback is auditory and proprioceptive, but not visual. Thus, speech sounds may be complemented by augmented speech systems, i.e. speech accompanied by the virtual display of speech articulators shapes on a computer screen, including those that are typically hidden such as tongue or velum. This kind of system has applications in domains such as speech therapy, phonetic correction or language acquisition in the framework of Computer Aided Pronunciation Training (CAPT). This work has been conducted in the frame of development of a visual articulatory feedback system, based on the morphology and articulatory strategies of a reference speaker, which automatically animates a 3D talking head from the speech sound. The motivation of this research was to make this system suitable for several speakers. Thus, the twofold objective of this thesis work was to acquire knowledge about inter-speaker variability, and to propose vocal tract models to adapt a reference clone, composed of models of speech articulator's contours (lips, tongue, velum, etc), to other speakers that may have different morphologies and different articulatory strategies. In order to build articulatory models of various vocal tract contours, we have first acquired data that cover the whole articulatory space in the French language. Midsagittal Magnetic Resonance Images (MRI) of eleven French speakers, pronouncing 63 articulations, have been collected. One of the main contributions of this study is a more detailed and larger database compared to the studies in the literature, containing information of several vocal tract contours, speakers and consonants, whereas previous studies in the literature are mostly based on vowels. The vocal tract contours visible in the MRI were outlined by hand following the same protocol for all speakers. In order to acquire knowledge about inter-speaker variability, we have characterised our speakers in terms of the articulatory strategies of various vocal tract contours like: tongue, lips and velum. We observed that each speaker has his/her own strategy to achieve sounds that are considered equivalent, among different speakers, for speech communication purposes. By means of principal component analysis (PCA), the variability of the tongue, lips and velum contours was decomposed in a set of principal movements. We noticed that these movements are performed in different proportions depending on the speaker. For instance, for a given displacement of the jaw, the tongue may globally move in a proportion that depends on the speaker. We also noticed that lip protrusion, lip opening, the influence of the jaw movement on the lips, and the velum's articulatory strategy can also vary according to the speaker. For example, some speakers roll up their uvulas against the tongue to produce the consonant /ʁ/ in vocalic contexts. These findings also constitute an important contribution to the knowledge of inter-speaker variability in speech production. In order to extract a set of common articulatory patterns that different speakers employ when producing speech sounds (normalisation), we have based our approach on linear models built from articulatory data. Multilinear decomposition methods have been applied to the contours of the tongue, lips and velum. The evaluation of our models was based in two criteria: the variance explanation and the Root Mean Square Error (RMSE) between the original and recovered articulatory coordinates. Models were also assessed using a leave-one-out cross validation procedure ...

Page generated in 0.0669 seconds