• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 38
  • 9
  • 7
  • 1
  • 1
  • Tagged with
  • 57
  • 30
  • 23
  • 15
  • 13
  • 12
  • 11
  • 11
  • 11
  • 10
  • 10
  • 9
  • 9
  • 9
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Convergence phonétique en interaction Phonetic convergence in interaction / Phonetic convergence in interaction

Lelong, Amélie 03 July 2012 (has links)
Le travail présenté dans cette thèse est basé sur l’étude d’un phénomène appelé convergence phonétique qui postule que deux interlocuteurs en interaction vont avoir tendance à adapter leur façon de parler à leur interlocuteur dans un but communicatif. Nous avons donc mis en place un paradigme appelé « Dominos verbaux » afin de collecter un corpus large pour caractériser ce phénomène, le but final étant de doter un agent conversationnel animé de cette capacité d’adaptation afin d’améliorer la qualité des interactions homme-machine.Nous avons mené différentes études pour étudier le phénomène entre des paires d’inconnus, d’amis de longue date, puis entre des personnes provenant de la même famille. On s’attend à ce que l’amplitude de la convergence soit liée à la distance sociale entre les deux interlocuteurs. On retrouve bien ce résultat. Nous avons ensuite étudié l’impact de la connaissance de la cible linguistique sur l’adaptation. Pour caractériser la convergence phonétique, nous avons développé deux méthodes : la première basée sur une analyse discriminante linéaire entre les coefficients MFCC de chaque locuteur, la seconde utilisant la reconnaissance de parole. La dernière méthode nous permettra par la suite d’étudier le phénomène en condition moins contrôlée.Finalement, nous avons caractérisé la convergence phonétique à l’aide d’une mesure subjective en utilisant un nouveau test de perception basé sur la détection « en ligne » d’un changement de locuteur. Le test a été réalisé à l’aide signaux extraits des interactions mais également avec des signaux obtenus avec une synthèse adaptative basé sur la modélisation HNM. Nous avons obtenus des résultats comparables démontrant ainsi la qualité de notre synthèse adaptative. / The work presented in this manuscript is based on the study of a phenomenon called phonetic convergence which postulates that two people in interaction will tend to adapt how they talk to their partner in a communicative purpose. We have developed a paradigm called “Verbal Dominoes“ to collect a large corpus to characterize this phenomenon, the ultimate goal being to fill a conversational agent of this adaptability in order to improve the quality of human-machine interactions.We have done several studies to investigate the phenomenon between pairs of unknown people, good friends, and between people coming from the same family. We expect that the amplitude of convergence is proportional to the social distance between the two speakers. We found this result. Then, we have studied the knowledge of the linguistic target impact on adaptation. To characterize the phonetic convergence, we have developed two methods: the first one is based on a linear discriminant analysis between the MFCC coefficients of each speaker and the second one used speech recognition techniques. The last method will allow us to study the phenomenon in less controlled conditions.Finally, we characterized the phonetic convergence with a subjective measurement using a new perceptual test called speaker switching. The test was performed using signals coming from real interactions but also with synthetic data obtained with the harmonic plus
22

Adaptation de clones orofaciaux à la morphologie et aux stratégies de contrôle de locuteurs cibles pour l'articulation de la parole / Adaptation of orofacial clones to the morphology and control strategies of target speakers for speech articulation

Valdés Vargas, Julian Andrés 28 June 2013 (has links)
La capacité de production de la parole est apprise et maintenue au moyen d'une boucle de perception-action qui permet aux locuteurs de corriger leur propre production en fonction du retour perceptif reçu. Ce retour est auditif et proprioceptif, mais pas visuel. Ainsi, les sons de parole peuvent être complétés par l'affichage des articulateurs sur l'écran de l'ordinateur, y compris ceux qui sont habituellement cachés tels que la langue ou le voile du palais, ce qui constitue de la parole augmentée. Ce type de système a des applications dans des domaines tels que l'orthophonie, la correction phonétique et l'acquisition du langage. Ce travail a été mené dans le cadre du développement d'un système de retour articulatoire visuel, basé sur la morphologie et les stratégies articulatoires d'un locuteur de référence, qui anime automatiquement une tête parlante 3D à partir du son de la parole. La motivation de cette recherche était d'adapter ce système à plusieurs locuteurs. Ainsi, le double objectif de cette thèse était d'acquérir des connaissances sur la variabilité inter-locuteur, et de proposer des modèles pour adapter un clone de référence, composé de modèles des articulateurs de la parole (lèvres, langue, voile du palais, etc.), à d'autres locuteurs qui peuvent avoir des morphologies et des stratégies articulatoires différentes. Afin de construire des modèles articulatoires pour différents contours du conduit vocal, nous avons d'abord acquis des données qui couvrent l'espace articulatoire dans la langue française. Des Images médio-sagittales obtenues par Résonance Magnétique (IRM) pour onze locuteurs francophones prononçant 63 articulations ont été recueillis. L'un des principaux apports de cette étude est une base de données plus détaillée et plus grande que celles disponibles dans la littérature. Cette base contient, pour plusieurs locuteurs, les tracés de tous les articulateurs du conduit vocal, pour les voyelles et les consonnes, alors que les études précédentes dans la littérature sont principalement basées sur les voyelles. Les contours du conduit vocal visibles dans l'IRM ont été tracés à la main en suivant le même protocole pour tous les locuteurs. Afin d'acquérir de la connaissance sur la variabilité inter-locuteur, nous avons caractérisé nos locuteurs en termes des stratégies articulatoires des différents articulateurs tels que la langue, les lèvres et le voile du palais. Nous avons constaté que chaque locuteur a sa propre stratégie pour produire des sons qui sont considérées comme équivalents du point de vue de la communication parlée. La variabilité de la langue, des lèvres et du voile du palais a été décomposé en une série de mouvements principaux par moyen d'une analyse en composantes principales (ACP). Nous avons remarqué que ces mouvements sont effectués dans des proportions différentes en fonction du locuteur. Par exemple, pour un déplacement donné de la mâchoire, la langue peut globalement se déplacer dans une proportion qui dépend du locuteur. Nous avons également remarqué que la protrusion, l'ouverture des lèvres, l'influence du mouvement de la mâchoire sur les lèvres, et la stratégie articulatoire du voile du palais peuvent également varier en fonction du locuteur. Par exemple, certains locuteurs replient le voile du palais contre la langue pour produire la consonne /ʁ/. Ces résultats constituent également une contribution importante à la connaissance de la variabilité inter-locuteur dans la production de la parole. Afin d'extraire un ensemble de patrons articulatoires communs à différents locuteurs dans la production de la parole (normalisation), nous avons basé notre approche sur des modèles linéaires construits à partir de données articulatoires. Des méthodes de décomposition linéaire multiple ont été appliquées aux contours de la langue, des lèvres et du voile du palais ... / The capacity of producing speech is learned and maintained by means of a perception-action loop that allows speakers to correct their own production as a function of the perceptive feedback received. This auto feedback is auditory and proprioceptive, but not visual. Thus, speech sounds may be complemented by augmented speech systems, i.e. speech accompanied by the virtual display of speech articulators shapes on a computer screen, including those that are typically hidden such as tongue or velum. This kind of system has applications in domains such as speech therapy, phonetic correction or language acquisition in the framework of Computer Aided Pronunciation Training (CAPT). This work has been conducted in the frame of development of a visual articulatory feedback system, based on the morphology and articulatory strategies of a reference speaker, which automatically animates a 3D talking head from the speech sound. The motivation of this research was to make this system suitable for several speakers. Thus, the twofold objective of this thesis work was to acquire knowledge about inter-speaker variability, and to propose vocal tract models to adapt a reference clone, composed of models of speech articulator's contours (lips, tongue, velum, etc), to other speakers that may have different morphologies and different articulatory strategies. In order to build articulatory models of various vocal tract contours, we have first acquired data that cover the whole articulatory space in the French language. Midsagittal Magnetic Resonance Images (MRI) of eleven French speakers, pronouncing 63 articulations, have been collected. One of the main contributions of this study is a more detailed and larger database compared to the studies in the literature, containing information of several vocal tract contours, speakers and consonants, whereas previous studies in the literature are mostly based on vowels. The vocal tract contours visible in the MRI were outlined by hand following the same protocol for all speakers. In order to acquire knowledge about inter-speaker variability, we have characterised our speakers in terms of the articulatory strategies of various vocal tract contours like: tongue, lips and velum. We observed that each speaker has his/her own strategy to achieve sounds that are considered equivalent, among different speakers, for speech communication purposes. By means of principal component analysis (PCA), the variability of the tongue, lips and velum contours was decomposed in a set of principal movements. We noticed that these movements are performed in different proportions depending on the speaker. For instance, for a given displacement of the jaw, the tongue may globally move in a proportion that depends on the speaker. We also noticed that lip protrusion, lip opening, the influence of the jaw movement on the lips, and the velum's articulatory strategy can also vary according to the speaker. For example, some speakers roll up their uvulas against the tongue to produce the consonant /ʁ/ in vocalic contexts. These findings also constitute an important contribution to the knowledge of inter-speaker variability in speech production. In order to extract a set of common articulatory patterns that different speakers employ when producing speech sounds (normalisation), we have based our approach on linear models built from articulatory data. Multilinear decomposition methods have been applied to the contours of the tongue, lips and velum. The evaluation of our models was based in two criteria: the variance explanation and the Root Mean Square Error (RMSE) between the original and recovered articulatory coordinates. Models were also assessed using a leave-one-out cross validation procedure ...
23

L'insécurité linguistique des professeurs de langues étrangères non natifs : le cas des professeurs grecs de français

Roussi, Maria 02 September 2009 (has links) (PDF)
La notion d'insécurité linguistique a été régulièrement explorée depuis les années 1960: les recherches ont été initialement centrées autour des questions de prononciation dans différents milieux sociaux ; ensuite un cadre d'analyse a été organisé autour des communautés francophones dites " périphériques " ; elle a enfin été abordée dans des contextes plurilingues. La présente recherche examine la notion d'insécurité linguistique comme elle est vécue par les professeurs non natifs de langues étrangères, et notamment des professeurs grecs de français. Ce groupe socioprofessionnel joue un rôle de premier plan dans la diffusion des langues : l'enjeu est de trouver des moyens d'atténuer les éventuels effets négatifs de l'insécurité linguistique inhérents à leur contexte professionnel. Pour ce faire, nous avons construit un corpus pour une étude qualitative. La méthodologie retenue a été celle d'entretiens individuels, semi dirigés, permettant à des répondants présentant des profils divers en termes d'âge, de sexe, de formation, de lieux et de contextes professionnels, de s'exprimer sur leur conception de l'insécurité linguistique et sur les stratégies mobilisées pour y faire face. De manière assez constante, émerge la question de la légitimité d'enseigner une langue dont on n'est pas locuteur natif et les difficultés que cela pose dans le contexte professionnel. Pourtant, au terme d'un processus plus ou moins long, ces personnes parviennent, en redéfinissant leur rôle dans la classe et parfois leurs objectifs en tant qu'enseignants, à gagner en assurance. Elles reconstruisent une légitimité qui articule acceptation, remédiation des imperfections et compétence professionnelle.
24

L'échange des assistants de langue vivante entre la France et l'Allemagne avant la Seconde Guerre mondiale : les "directeurs de conversation" et la "langue de l'ennemi / The exchange of foreign language assistants between France and Germany before the Second World War : the 'conversation teachers' and the "language of the Enemy"

Rival, Sébastien 29 November 2012 (has links)
Cette étude a pour but de comprendre comment l'échange d'assistants de langue vivante entre la France et l'Allemagne, l'un des premiers programmes d'échanges encadrés par une convention signée entre deux États, a pu naître dès 1905, et se maintenir dans la première moitié du XXème siècle en dépit de relations diplomatiques tendues entre les deux pays et de plusieurs conflits armés. Dans cette perspective, cette analyse tente de révéler les différents facteurs politiques et éducatifs ayant contribué à la naissance et à la pérennité de l'échange, en interrogeant notamment le sens que les acteurs de l'échange, c'est-à-dire les assistants, les enseignants mais aussi les institutions, assignaient à celui-ci. / The aim of this Ph D thesis is to understand how the exchange of foreign language assistants between France and Germany - one of the first exchange programmes framed by a convention between the two states, already in 1905 - could possibly be created and maintained during the first half of the twentieth century. This in spite of strong tensions between the two neighbour states as well as their armed conflicts. Considering these questions, our study seeks to reveal different political and educative factors, which contribute towards generating the exchange programme and keeping it alive. We particularly question its purpose and functions according to the viewpoints of assistants, teachers and institutions.
25

Réseaux Bayésiens Dynamiques pour la Vérification du Locuteur

Sanchez-Soto, Eduardo 10 May 2005 (has links) (PDF)
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d'approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré.
26

Evolution d'une société artificielle d'agents de parole : un modèle pour l'émergence des structures phonétiques

Berrah, Ahmed-Réda 12 June 1998 (has links) (PDF)
Un des grands enjeux de l'étude de la Communication Parlée est la justification des tendances universelles des systèmes phonologiques des langues du monde. En effet, il s'agit d'expliquer les principes gouvernant la distribution des briques de base qui permettent la construction du langage. Ces éléments sonores sont désignés par le nom de phonèmes. Les travaux présentés dans cette thèse s'inscrivent dans ce cadre de recherche. Nous avons utilisé une approche novatrice qui consiste en la simulation d'une société d'agents communicants. Le but est d'analyser dans quelle mesure un code linguistique commun est établi dans une telle société par le jeu de la communication parlée, et dans quelle mesure également les inventaires phonétiques émergent des principes d'interaction entre agents communicants. Nous avons développé un modèle d'échanges perceptifs de voyelles au sein d'une communauté d'agents de parole. Ce modèle, appelé ESPECE, a été validé à l'issue d'une application à la prédiction des systèmes vocaliques. Les résultats des simulations se sont avérés encourageants suite à leur confrontation aux données connues sur les inventaires phonétiques des langues du monde. En outre, le cadre de simulation ESPECE a été étendu en vue de la mise en oeuvre du principe du MUAF (Maximum Use of Available distinctive Features). Ce principe permet d'expliquer l'apparition de traits supplémentaires dans les larges systèmes vocaliques.
27

Modèles acoustiques à structure temporelle renforcée pour la vérification du locuteur embarquée

Larcher, Anthony 24 September 2009 (has links) (PDF)
La vérification automatique du locuteur est une tâche de classification qui vise à confirmer ou infirmer l'identité d'un individu d'après une étude des caractéristiques spécifiques de sa voix. L'intégration de systèmes de vérification du locuteur sur des appareils embarqués impose de respecter deux types de contraintes, liées à cet environnement : - les contraintes matérielles, qui limitent fortement les ressources disponibles en termes de mémoire de stockage et de puissance de calcul disponibles ; - les contraintes ergonomiques, qui limitent la durée et le nombre des sessions d'entraînement ainsi que la durée des sessions de test. En reconnaissance du locuteur, la structure temporelle du signal de parole n'est pas exploitée par les approches état-de-l'art. Nous proposons d'utiliser cette information, à travers l'utilisation de mots de passe personnels, afin de compenser le manque de données d'apprentissage et de test. Une première étude nous a permis d'évaluer l'influence de la dépendance au texte sur l'approche état-de-l'art GMM/UBM (Gaussian Mixture Model/ Universal Background Model). Nous avons montré qu'une contrainte lexicale imposée à cette approche, généralement utilisée pour la reconnaissance du locuteur indépendante du texte, permet de réduire de près de 30% (en relatif) le taux d'erreurs obtenu dans le cas où les imposteurs ne connaissent pas le mot de passe des clients. Dans ce document, nous présentons une architecture acoustique spécifique qui permet d'exploiter à moindre coût la structure temporelle des mots de passe choisis par les clients. Cette architecture hiérarchique à trois niveaux permet une spécialisation progressive des modèles acoustiques. Un modèle générique représente l'ensemble de l'espace acoustique. Chaque locuteur est représenté par une mixture de Gaussiennes qui dérive du modèle du monde générique du premier niveau. Le troisième niveau de notre architecture est formé de modèles de Markov semi-continus (SCHMM), qui permettent de modéliser la structure temporelle des mots de passe tout en intégrant l'information spécifique au locuteur, modélisée par le modèle GMM du deuxième niveau. Chaque état du modèle SCHMM d'un mot de passe est estimé, relativement au modèle indépendant du texte de ce locuteur, par adaptation des paramètres de poids des distributions Gaussiennes de ce GMM. Cette prise en compte de la structure temporelle des mots de passe permet de réduire de 60% le taux d'égales erreurs obtenu lorsque les imposteurs prononcent un énoncé différent du mot de passe des clients. Pour renforcer la modélisation de la structure temporelle des mots de passe, nous proposons d'intégrer une information issue d'un processus externe au sein de notre architecture acoustique hiérarchique. Des points de synchronisation forts, extraits du signal de parole, sont utilisés pour contraindre l'apprentissage des modèles de mots de passe durant la phase d'enrôlement. Les points de synchronisation obtenus lors de la phase de test, selon le même procédé, permettent de contraindre le décodage Viterbi utilisé, afin de faire correspondre la structure de la séquence avec celle du modèle testé. Cette approche a été évaluée sur la base de données audio-vidéo MyIdea grâce à une information issue d'un alignement phonétique. Nous avons montré que l'ajout d'une contrainte de synchronisation au sein de notre approche acoustique permet de dégrader les scores imposteurs et ainsi de diminuer le taux d'égales erreurs de 20% (en relatif) dans le cas où les imposteurs ignorent le mot de passe des clients tout en assurant des performances équivalentes à celles des approches état-de-l'art dans le cas où les imposteurs connaissent les mots de passe. L'usage de la modalité vidéo nous apparaît difficilement conciliable avec la limitation des ressources imposée par le contexte embarqué. Nous avons proposé un traitement simple du flux vidéo, respectant ces contraintes, qui n'a cependant pas permis d'extraire une information pertinente. L'usage d'une modalité supplémentaire permettrait néanmoins d'utiliser les différentes informations structurelles pour déjouer d'éventuelles impostures par play-back. Ce travail ouvre ainsi de nombreuses perspectives, relatives à l'utilisation d'information structurelle dans le cadre de la vérification du locuteur et aux approches de reconnaissance du locuteur assistée par la modalité vidéo
28

archéologie, traditions orales et ethnographie au nord du Cameroun: histoire de la région du Faro durant le dernier millénaire/archaeology, ethnography and oral traditions in northern Cameroon: history of the settlement in the region of Faro in the last millennium

Mezop Temgoua, Alice 19 May 2011 (has links)
A la limite entre le Cameroun et le Nigéria, la région du Faro est une zone d’extraordinaire diversité, tant du point de vue des populations que de la topographie. Pas moins de 13 groupes ethnolinguistiques y sont documentés, qui appartiennent à 3 grands ensembles linguistiques et se répartissent dans la plaine et les montagnes. Les données de la linguistique indiquent que les représentants des langues adamaoua seraient présents dans la plaine de la Bénoué et du Faro depuis environ quatre mille ans. Au niveau de l'ethnohistoire, on sait que les habitants des plaines sous soumis à l’autorité des Foulbé depuis deux siècles. Mais au delà de cette période, de nombreuses zones d'ombre demeurent. L’histoire des populations de cette partie du bassin de la Bénoué avant le 19ème siècle semblait donc hors d’atteinte, car la région du Faro restait vierge du point de vue archéologique. Dans ce travail, j’apporte par le biais d'une approche historique et comparative des éléments susceptible d’expliquer, d’une part la complexité qui caractérise le peuplement du Faro et, d’autre part, la façon dont le peuplement de cette région a évolué au cours du dernier millénaire. Il est également question de faire progresser la réflexion méthodologique, en évaluant la façon dont les modèles obtenus par l’archéologie peuvent être confrontés avec ceux qui se basent sur les traditions orales, les éléments de la culture matérielle actuelle et la linguistique. L’étude des traditions orales a permis de classer par ordre chronologique les éléments historiques importants et d’établir une histoire du peuplement durant ces derniers siècles. Elle confirme qu’il est possible de reconnaître des racines remontant au delà du 19ème siècle à la plupart des groupes qui peuplent encore la région aujourd’hui, ainsi que de nombreuses ruptures dans l’histoire du peuplement du Faro. Contrairement aux travaux antérieurs, la plus importante de ces fractures date du début du 19ème siècle, avec l’occupation des conquérants foulbé, qui ont provoqué l’insécurité généralisée, la division de la région en deux et les plus importantes déportations de populations des plaines vers les montagnes refuges. L’approche archéologique a permis d’établir la première séquence chrono-culturelle du Faro au cours du dernier millénaire. Si la présence d’un peuplement ancien dans la plaine était envisagée, l’étude archéologique apporte la preuve que des communautés humaines vivent dans le Faro depuis environ 1000 ans. A partir du 15ème siècle, des modifications surviennent. Celles-ci se manifestent surtout par l’apparition d’une nouvelle poterie ornée au Blepharis sp. Lorsque l’on compare la carte de distribution des sites associés à cette céramique, au trajet suivi par les Bata, qui remontent le cours du Faro en implantant des villages et à l’aire d’extension des langues tchadiques au Faro, il semble plausible que de nouvelles populations occupent la région vers le milieu du dernier millénaire de notre ère. Pour le 19ème siècle bien documenté par les traditions orales, les données archéologiques viennent renforcer l’idée d’une profonde rupture durant cette période. En abordant l’histoire du peuplement du Faro, il était nécessaire d’examiner le concept de l’ethnicité comme il est classiquement employé dans la région. D’une manière générale, l’étude conforte l’idée qu’il est très difficile d’aborder la profondeur historique des identités des groupes actuels. La confrontation entre les faits des cultures vivantes et les résultats archéologiques a permis d’évaluer les potentialités de raisonnements historique et comparatif. On ne peut que constater, dans cet exemple concret, le grand intérêt qu’il y a à fonder la reconstitution du passé sur de multiples sources.
29

Analyse acoustique de la voix émotionnelle de locuteurs lors d’une interaction humain-robot / Acoustic analysis of speakers emotional voices during a human-robot interaction

Tahon, Marie 15 November 2012 (has links)
Mes travaux de thèse s'intéressent à la voix émotionnelle dans un contexte d'interaction humain-robot. Dans une interaction réaliste, nous définissons au moins quatre grands types de variabilités : l'environnement (salle, microphone); le locuteur, ses caractéristiques physiques (genre, âge, type de voix) et sa personnalité; ses états émotionnels; et enfin le type d'interaction (jeu, situation d'urgence ou de vie quotidienne). A partir de signaux audio collectés dans différentes conditions, nous avons cherché, grâce à des descripteurs acoustiques, à imbriquer la caractérisation d'un locuteur et de son état émotionnel en prenant en compte ces variabilités.Déterminer quels descripteurs sont essentiels et quels sont ceux à éviter est un défi complexe puisqu'il nécessite de travailler sur un grand nombre de variabilités et donc d'avoir à sa disposition des corpus riches et variés. Les principaux résultats portent à la fois sur la collecte et l'annotation de corpus émotionnels réalistes avec des locuteurs variés (enfants, adultes, personnes âgées), dans plusieurs environnements, et sur la robustesse de descripteurs acoustiques suivant ces quatre variabilités. Deux résultats intéressants découlent de cette analyse acoustique: la caractérisation sonore d'un corpus et l'établissement d'une liste "noire" de descripteurs très variables. Les émotions ne sont qu'une partie des indices paralinguistiques supportés par le signal audio, la personnalité et le stress dans la voix ont également été étudiés. Nous avons également mis en oeuvre un module de reconnaissance automatique des émotions et de caractérisation du locuteur qui a été testé au cours d'interactions humain-robot réalistes. Une réflexion éthique a été menée sur ces travaux. / This thesis deals with emotional voices during a human-robot interaction. In a natural interaction, we define at least, four kinds of variabilities: environment (room, microphone); speaker, its physic characteristics (gender, age, voice type) and personality; emotional states; and finally the kind of interaction (game scenario, emergency, everyday life). From audio signals collected in different conditions, we tried to find out, with acoustic features, to overlap speaker and his emotional state characterisation taking into account these variabilities.To find which features are essential and which are to avoid is hard challenge because it needs to work with a high number of variabilities and then to have riche and diverse data to our disposal. The main results are about the collection and the annotation of natural emotional corpora that have been recorded with different kinds of speakers (children, adults, elderly people) in various environments, and about how reliable are acoustic features across the four variabilities. This analysis led to two interesting aspects: the audio characterisation of a corpus and the drawing of a black list of features which vary a lot. Emotions are ust a part of paralinguistic features that are supported by the audio channel, other paralinguistic features have been studied such as personality and stress in the voice. We have also built automatic emotion recognition and speaker characterisation module that we have tested during realistic interactions. An ethic discussion have been driven on our work.
30

Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole / Acoustic model structuring for improving automatic speech recognition performance

Gorin, Arseniy 26 November 2014 (has links)
Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit) / This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)

Page generated in 0.0415 seconds