Global ETD Search

241	Traitement de l'incertitude pour la reconnaissance de la parole robuste au bruit / Uncertainty learning for noise robust ASR Tran, Dung Tien 20 November 2015 (has links) Cette thèse se focalise sur la reconnaissance automatique de la parole (RAP) robuste au bruit. Elle comporte deux parties. Premièrement, nous nous focalisons sur une meilleure prise en compte des incertitudes pour améliorer la performance de RAP en environnement bruité. Deuxièmement, nous présentons une méthode pour accélérer l'apprentissage d'un réseau de neurones en utilisant une fonction auxiliaire. Dans la première partie, une technique de rehaussement multicanal est appliquée à la parole bruitée en entrée. La distribution a posteriori de la parole propre sous-jacente est alors estimée et représentée par sa moyenne et sa matrice de covariance, ou incertitude. Nous montrons comment propager la matrice de covariance diagonale de l'incertitude dans le domaine spectral à travers le calcul des descripteurs pour obtenir la matrice de covariance pleine de l'incertitude sur les descripteurs. Le décodage incertain exploite cette distribution a posteriori pour modifier dynamiquement les paramètres du modèle acoustique au décodage. La règle de décodage consiste simplement à ajouter la matrice de covariance de l'incertitude à la variance de chaque gaussienne. Nous proposons ensuite deux estimateurs d'incertitude basés respectivement sur la fusion et sur l'estimation non-paramétrique. Pour construire un nouvel estimateur, nous considérons la combinaison linéaire d'estimateurs existants ou de fonctions noyaux. Les poids de combinaison sont estimés de façon générative en minimisant une mesure de divergence par rapport à l'incertitude oracle. Les mesures de divergence utilisées sont des versions pondérées des divergences de Kullback-Leibler (KL), d'Itakura-Saito (IS) ou euclidienne (EU). En raison de la positivité inhérente de l'incertitude, ce problème d'estimation peut être vu comme une instance de factorisation matricielle positive (NMF) pondérée. De plus, nous proposons deux estimateurs d'incertitude discriminants basés sur une transformation linéaire ou non linéaire de l'incertitude estimée de façon générative. Cette transformation est entraînée de sorte à maximiser le critère de maximum d'information mutuelle boosté (bMMI). Nous calculons la dérivée de ce critère en utilisant la règle de dérivation en chaîne et nous l'optimisons par descente de gradient stochastique. Dans la seconde partie, nous introduisons une nouvelle méthode d'apprentissage pour les réseaux de neurones basée sur une fonction auxiliaire sans aucun réglage de paramètre. Au lieu de maximiser la fonction objectif, cette technique consiste à maximiser une fonction auxiliaire qui est introduite de façon récursive couche par couche et dont le minimum a une expression analytique. Grâce aux propriétés de cette fonction, la décroissance monotone de la fonction objectif est garantie / This thesis focuses on noise robust automatic speech recognition (ASR). It includes two parts. First, we focus on better handling of uncertainty to improve the performance of ASR in a noisy environment. Second, we present a method to accelerate the training process of a neural network using an auxiliary function technique. In the first part, multichannel speech enhancement is applied to input noisy speech. The posterior distribution of the underlying clean speech is then estimated, as represented by its mean and its covariance matrix or uncertainty. We show how to propagate the diagonal uncertainty covariance matrix in the spectral domain through the feature computation stage to obtain the full uncertainty covariance matrix in the feature domain. Uncertainty decoding exploits this posterior distribution to dynamically modify the acoustic model parameters in the decoding rule. The uncertainty decoding rule simply consists of adding the uncertainty covariance matrix of the enhanced features to the variance of each Gaussian component. We then propose two uncertainty estimators based on fusion to nonparametric estimation, respectively. To build a new estimator, we consider a linear combination of existing uncertainty estimators or kernel functions. The combination weights are generatively estimated by minimizing some divergence with respect to the oracle uncertainty. The divergence measures used are weighted versions of Kullback-Leibler (KL), Itakura-Saito (IS), and Euclidean (EU) divergences. Due to the inherent nonnegativity of uncertainty, this estimation problem can be seen as an instance of weighted nonnegative matrix factorization (NMF). In addition, we propose two discriminative uncertainty estimators based on linear or nonlinear mapping of the generatively estimated uncertainty. This mapping is trained so as to maximize the boosted maximum mutual information (bMMI) criterion. We compute the derivative of this criterion using the chain rule and optimize it using stochastic gradient descent. In the second part, we introduce a new learning rule for neural networks that is based on an auxiliary function technique without parameter tuning. Instead of minimizing the objective function, this technique consists of minimizing a quadratic auxiliary function which is recursively introduced layer by layer and which has a closed-form optimum. Based on the properties of this auxiliary function, the monotonic decrease of the new learning rule is guaranteed. Reconnaissance automatique de la parole Robustesse au bruit Rehaussement de la parole Propagation de l’incertitude Automatic speech recognition Noise robustness Speech enhancement Uncertainty propagation 006.454 621.399
242	Analyse et modèle génératif de l'expressivité : application à la Parole et à l'Interprétation musicale Beller, Grégory 24 June 2009 (has links) (PDF) Cette thèse s'inscrit dans les recherches actuelles sur les émotions et les réactions émotionnelles, sur la modélisation et la transformation de la parole, ainsi que sur l'interprétation musicale. Il semble que la capacité d'exprimer, de simuler et d'identiﬁer des émotions, des humeurs, des intentions ou des attitudes, est fondamentale dans la communication humaine. La facilité avec laquelle nous comprenons l'état d'un personnage, à partir de la seule observation du comportement des acteurs et des sons qu'ils émettent, montre que cette source d'information est essentielle et, parfois même, suffisante dans nos relations sociales. Si l'état émotionnel présente la particularité d'être idiosyncrasique, c'est-à-dire particulier à chaque individu, il n'en va pas de même de la réaction associée qui se manifeste par le geste (mouvement, posture, visage, ...), le son (voix, musique, ...), et qui, elle, est observable par autrui. Ce qui nous permet de penser qu'il est possible de transformer cette réaction dans le but de modiﬁer la perception de l'émotion associée. C'est pourquoi le paradigme d'analyse-transformation-synthèse des réactions émotionnelles est, peu à peu, introduit dans les domaines thérapeutique, commercial, scientiﬁque et artistique. Cette thèse s'inscrit dans ces deux derniers domaines et propose plusieurs contributions. D'un point de vue théorique, cette thèse propose une déﬁnition de l'expressivité (et de l'expression neutre), un nouveau mode de représentation de l'expressivité, ainsi qu'un ensemble de catégories expressives communes à la parole et à la musique. Elle situe l'expressivité parmi le recensement des niveaux d'information disponibles dans l'interprétation qui peut être vu comme un modèle de la performance artistique. Elle propose un modèle original de la parole et de ses constituants, ainsi qu'un nouveau modèle prosodique hiérarchique. D'un point de vue expérimental, cette thèse fournit un protocole pour l'acquisition de données expressives interprétées. Collatéralement, elle rend disponible trois corpus pour l'observation de l'expressivité. Elle fournit une nouvelle mesure statistique du degré d'articulation ainsi que plusieurs résultats d'analyses concernant l'inﬂuence de l'expressivité sur la parole. D'un point de vue technique, elle propose un algorithme de traitement du signal permettant la modiﬁcation du degré d'articulation. Elle présente un système de gestion de corpus novateur qui est, d'ores et déjà, utilisé par d'autres applications du traitement automatique de la parole, nécessitant la manipulation de corpus. Elle montre l'établissement d'un réseau bayésien en tant que modèle génératif de paramètres de transformation dépendants du contexte. D'un point de vue technologique, un système expérimental de transformation, de haute qualité, de l'expressivité d'une phrase neutre, en français, synthétique ou enregistrée, a été produit, ainsi qu'une interface web pour la réalisation d'un test perceptif en ligne. Enﬁn et surtout, d'un point de vue prospectif, cette thèse propose différentes pistes de recherche pour l'avenir, tant sur les plans théorique, expérimental, technique que technologique. Parmi celles-ci, la confrontation des manifestations de l'expressivité dans les interprétations verbales et musicales semble être une voie prometteuse. Emotions expressivité performance artistique interprétation musicale parole prosodie transformation du signal de parole modélisation générative apprentissage réseau bayésien
243	Evaluating systemic change in the Virginia Department of Corrections : creating agents of change / Mayles, Philip Andrew. January 2009 (has links) (PDF) Project (Ed.S.)--James Madison University, 2009. / Includes bibliographical references.
244	Approches empiriques et modélisation statistique de la parole Gilles, Adda 14 November 2011 (has links) (PDF) Ce document décrit à la fois un parcours en modélisation statistique du langage et son application aux systèmes multilingues de traitement de la langue, où je relate mes travaux de recherches sur 28 années, en une présentation diachronique selon quelques grandes rubriques, et une prise de position pour la mise en place d'un cadre théorique et pratique permettant de faire émerger une science empirique de la parole. Cette science doit se fonder sur l'apport de toutes les sciences, du traitement automatique ou de la linguistique, dont l'objet d'étude est la parole. Au coeur de ce rapprochement se trouve l'idée que les systèmes automatiques peuvent être utilisés comme des instruments afin d'explorer les très grandes quantités de données à notre disposition et d'en tirer des connaissances nouvelles qui, en retour, permettront d'améliorer les modélisations utilisées en traitement automatique. Après une mise en perspective historique, où est rappelé en particulier la mise en place du paradigme de l'évaluation et le développement de la modélisation statistique de la parole, issue de la théorie de l'information, ainsi que les critiques que ces deux faits majeurs ont engendrées, nous aborderons quelques points théoriques et pratiques. Certaines questions épistémologiques concernant cette science empirique de la parole sont abordées : quel est le statut de la connaissance que nous produisons, comment la qualifier par rapport à d'autres sciences ? est-il possible d'autonomiser les sciences du langage en une véritable science, en essayant de trouver à la fois quel est son observable et le moyen d'améliorer la manière de l'observer, et d'en tirer des connaissances généralisables ? Nous détaillons en particulier la définition de l'observable, et l'étude du résiduel en tant que diagnostic de l'écart entre la modélisation et la réalité. Des propositions pratiques sont ensuite exposées concernant la structuration de la production scientifique et le développement de centres instrumentaux permettant la mutualisation du développement et de la maintenance de ces instruments complexes que sont les systèmes de traitement automatique de la parole. reconnaissance de la parole modélisation du langage étude épistémologique analyse d'erreurs structuration de la recherche en parole
245	Corrélats cérébraux de l'adaptation de la parole après exérèse de la cavité orale Acher, Audrey 17 July 2014 (has links) (PDF) Ce travail étudie les corrélats cérébraux de l'adaptation de la parole et de la motricité oro-faciale après l'exérèse chirurgicale d'une tumeur intra-orale. Une attention particulière est portée à la recherche de corrélats révélant une redéfinition des buts de la tâche, une réorganisation de la coordination motrice, et une modification des représentations internes du système moteur.Trois tâches ont été étudiées : production de mouvements oro-faciaux silencieux ; production de voyelles ; production de syllabes. Les activités cérébrales ont été mesurées par IRM fonctionnelle au cours de 4 sessions, en pré-opératoire, puis 1 mois, 3 mois et 9 mois après la chirurgie. Onze patients et onze sujets sains ont été enregistrés. Pour les patients, trois types de données informant sur leur récupération motrice ont été acquis aux mêmes périodes : données praxiques ; signal acoustique de parole ; auto-évaluation de la qualité de parole. Trois analyses statistiques ont été menées sur les données cérébrales : (1) une analyse " cerveau entier " sur les amplitudes des activations ; (2) une analyse de la localisation de l'activation principale dans le cortex moteur primaire ; (3) une analyse en régions d'intérêt dans le réseau cérébral de la parole, via un modèle linéaire général dans lequel le facteur Groupe (Patients/Sains) a été remplacé par une covariable continue, l'" Indice d'Adaptation Motrice " ou " IAM ", mesurant le niveau de dégradation de la parole, puis son amélioration dans les mois suivants l'opération. Les effets et les interactions des facteurs Groupe (ou IAM), Session et Tâche sur la variable dépendante ont ainsi été mesurés. Toutes tâches et toutes sessions confondues, les patients se distinguent des sujets sains par une activité cérébrale plus faible dans les zones sensori-motrices oro-faciales. Des effets de la session sont observés pour toutes les tâches, pour les patients et les sujets sains. Seules les tâches de motricité silencieuse et de production des voyelles révèlent des effets de la session sur l'activité cérébrale significativement différents pour les patients et les sujets sains. Ainsi, pour la motricité silencieuse, 1 mois après l'opération, les patients montrent, pour la tâche linguale, une forte activité dans le Lobule Pariétal Supérieur (LPS) et dans le Cortex Pré-Frontal Dorso-Latéral (CPFDL). Pour les voyelles, 3 mois après la chirurgie, l'activité cérébrale des patients décroît dans le cervelet et croît fortement dans le Lobule Pariétal Inférieur ; de 3 à 9 mois après la chirurgie, l'activité croît dans les zones motrices (Cortex Moteur Primaire et Aire Motrice Supplémentaire) et elle décroît dans le Gyrus Temporal Supérieur. Les patients montrent aussi 1 mois après l'opération, tous articulateurs confondus, une localisation plus dorsale de l'activité dans le Cortex Moteur Primaire. Pour des tâches motrices silencieuses, nos observations suggèrent que, immédiatement après l'opération, les patients pourraient réactualiser leur modèle interne du système moteur (activité dans le LPS), devenu imprécis, tout en ré-élaborant leurs stratégies de coordination (activité dans le CPFDL). Pour la production des voyelles, tâche plus complexe et plus précise, nos résultats suggèrent que 3 mois après l'opération, les patients utiliseraient moins les modèles internes devenus trop imprécis. Le retour à une activation forte dans les zones motrices 9 mois après l'intervention suggère que l'adaptation de la production des voyelles est quasiment achevée, et la baisse concomitante de l'activation dans le cortex auditif est cohérente avec l'hypothèse qu'il existerait de nouveau une adéquation entre la copie d'efférence auditive et le feedback auditif externe. Pour la production de syllabes, les résultats sont les moins pertinents parmi les 3 tâches. Une réorganisation plus tardive, au-delà de 9 mois, due à la plus grande complexité de la tâche, pourrait en être une explication potentielle. Adaptation de la production de la parole Glossectomie IRM fonctionnelle Pathologies de la parole Neurophonétique Chirurgie de la cavité orale
246	Rhythm typology: acoustic and perceptive studies Mairano, Paolo 14 March 2011 (has links) (PDF) Cette thèse traite la typologie rythmique, c'est-à-dire la catégorisation des langues en différentes classes sur la base de phénomènes rythmiques. Les études de ce domaine ont débuté avec Pike (1945) et Abercrombie (1967), qui ont introduit la célèbre dichotomie de langues à isochronie accentuelle (ou isoaccentuelles) et à isochronie syllabique (ou isosyllabiques). Depuis que de nombreuses études ont démenti les hypothèses d'isochronie syllabique et accentuelle, il a été proposé (cf. Bertinetto, 1981, et Dauer 1983) que l'impression perceptuelle d'isochronie soit issue des propriétés structurelles de chaque langue, comme par exemple la présence/absence de clusters consonantiques complexes et de réduction vocalique. Plus récemment, certains auteurs ont élaboré des corrélats acoustiques de ces propriétés (cf. Ramus, Nespor & Mehler, 1999, Grabe & Low, 2002, etc.) basés sur des mesures de durée des séquences vocaliques et consonantiques. Les recherches présentées dans cette thèse se situent exactement dans ce cadre. On présente certaines expériences basées essentiellement sur un corpus d'échantillons sonores comparables de 61 locuteurs de 21 langues, récoltés et segmentés manuellement dans ce but. La structure de la thèse est plutôt atypique, dans les sens où elle n'est pas divisée en deux parties nettement séparées, une présentant l'état de l'art, l'autre exposant les expériences, mais s'efforce de fondre ces deux aspects. Chaque chapitre se concentre sur une ou plusieurs problématiques liées au rythme des langues et contient une discussion des études sur le sujet ainsi qu'une analyse des expériences menées. La recherche dans le domaine de la typologie rythmique, du début jusqu'aux approches plus modernes, est exposée dans le chapitre 2 en suivant le leitmotiv de la dichotomie traditionnelle qui oppose les langues isosyllabique et isoaccentuelles. Ce chapitre présente également une expérience inspirée par des publications récentes (cf. Wagner & Dellwo, 2004, et Asu & Nolan, 2006): la distance entre attaques syllabiques (une mesure abandonnée dans les approches modernes mais qui a été au centre de l'attention dans le passé) est utilisée comme indice de complexité syllabique. Cette mesure fournit des valeurs encourageantes sur des échantillons dans 5 langues par un locuteur multilingue (donc dans des conditions extrêmement contrôlées), mais les résultats sont moins convaincants lorsqu'ils sont appliqués à des données de plusieurs locuteurs et plusieurs langues. Le chapitre 3 se concentre plus spécifiquement sur les corrélats du rythme. Les principales études dans ce domaine sont exposées avec une discussion des formules et des problématiques pratiques et méthodologiques, comme la normalisation de la vitesse d'élocution et les critères utilisés lors de la segmentation. Sont ensuite présentées et analysées les valeurs des nombreux corrélats du rythme (notamment %V, ΔC, ΔV, varcoC, varcoV, rPVI, nPVI, cCCI et vCCI) pour le corpus entier de 21 langues. Les différents corrélats produisent parfois des valeurs différentes pour des langues spécifiques, mais le cadre générale reste à peu près inaltéré: les langues dites isoaccentuelles tendent à avoir une plus grande variabilité de durées vocaliques et consonantiques par rapport aux langues dites isosyllabiques et isomoraïques. Une expérience finale fournit un point de départ pour avancer des hypothèses à propos de l'inclusion de fo et intensité dans les modèles du rythme. L'implémentation et le fonctionnement de Correlatore sont illustrés dans le chapitre 4. Ce logiciel a été développé dans le cadre de la thèse avec le but d'automatiser le calcul des corrélats du rythme et se révèle un outil extrêmement utile. Le chapitre 5 introduit le thème de la variation et de la variabilité du rythme. Après une analyse des rares études dans ce domaine, on présente les résultats des corrélats sur des données spécifiques selon une approche qui ouvre des perspectives intéressantes. Il est démontré que la variabilité des valeurs des corrélats n'indique pas simplement une instabilité de ceux-ci, mais suit un schéma cohérent, avec des valeurs croissantes de variabilité selon l'échelle intra-locuteur / inter- locuteur / inter-dialecte et inter-langue. Finalement, le focus se déplace au niveau de la perception, puisque la capacité présumée de catégoriser des stimuli linguistiques sur la base du rythme de la part d'auditeurs naïfs a été peu étudiée jusqu'à présent. A la suite d'une discussion concernant les différentes procédures de dé-lexicalisation, on présente un test perceptif administré à 43 participants. Les résultats mettent en doute l'affirmation que la dichotomie de langues isoaccentuelles et isosyllabiques soit enracinée dans la perception. Les conclusions discutent l'efficacité des corrélats rythmiques et la possibilité d'inclure fo et intensité dans un modèle du rythme. On argumente à la fin l'exigence de passer à une représentation scalaire et bipolaire du rythme des langues. rythme de la parole métriques rythmiques corrélats acoustiques typologie rythmique perception du rythme de la parole variation rythmique variabilité rythmique PVI CCI
247	Production & Perception in a second language the case of French learners of German : evidence from large speech corpora, electroencephalography, and teaching / La production et la perception de l'allemand chez les apprenants francophones : analyse de corpus de parole, électroéxncephalographie et enseignement Wottawa, Jane 11 December 2017 (has links) Ce projet de recherche vise à étudier la production et la perception de la parole chez les apprenants francophones de l’allemand. Un corpus de parole de 7 heures correspondant à trois tâches (imitation, lecture, description) a été enregistré. Il comprend des germanophones natifs et des apprenants francophones. Nous avons analysée les productions des segments intéressants d'après le cadre du SLM. Une étude de perception en EEG utilisant [h-ʔ], [ʃ-ç] et les voyelles courtes et longues a été réalisée sur des germanophones natifs et des apprenants francophones. Enfin, l'impact de l'enseignement sur l'amélioration des production et perception a été examiné à travers une étude longitudinale. L'étude de production montre que, suivant les tâches, les apprenants produisent le [h] en début de mot sans problème majeur. De même, ils peuvent produire des voyelles de durée contrastive. Cependant, pour les trois tâches, les apprenants ont plus de difficultés pour la production de la qualité vocalique, de [ç] et [ŋ]. Fait notable, la perception ne reflète pas toujours la production. Les apprenants tendent à ne pas percevoir le [h] en début de mot alors que la production de ce segment en répétition est bonne. À l'inverse, les apprenants perçoivent le contraste [ʃ-ç] mais sa production reste difficile. Seulement dans les voyelles courtes et longues, la perception reflète la production.L'étude d'enseignement montre que la conscience linguistique affecte différemment perception et production : une conscience linguistique accrue permet d'affiner la perception de phonèmes à contenu acoustique complexe et la production des phonèmes faciles à produire du point de vue articulatoire. / This research project proposes to investigate the production and perception of German speech in French learners of German. A 7h speech corpus containing three production tasks (imitation, reading, description) produced by German natives and French learners was recorded. Segmental productions of challenging vowels and consonants were analysed according to the SLM. A perception experiment involving [h-ʔ], [ʃ-ç] and short and long vowels using EEG was carried out on German natives and French learners. Finally, the impact of pronunciation teaching on improved speech production and perception was investigated. Undergraduates following a stand-alone pronunciation class were recorded and performed perception tests before and at the end of the course. The production study showed that French learners may produce word-initial [h] faithfully. With regard to short and long vowels, contrasting vowel duration is produced. However, French learners encounter more difficulties with respect to vowel quality. This holds for the production of [ç] and [ŋ]. Interestingly, perception does not always mirror production. The EEG results showed that the perception of word-initial [h] is poor in French learners whereas production accuracy is good. On the contrary, French learners perceive the [ʃ-ç] contrast but its production remains difficult. Only in short and long vowels, perception mirrored production. The teaching study showed that the increased linguistic awareness may affect non-native speech perception and production in different ways: phones that are easy to produce from an articulatory point of view can benefit from teaching. Increased awareness helps to better perceive phones with rich acoustic information. Allemand comme langue étrangère Eeg Enseignement de la proninciation Apprenants francophones Production de la parole Perception de la parole German L2 Eer Pronunciation teaching French learners Speech production Speech perception
248	Vers une interface cerveau-machine pour la restauration de la parole / Toward a brain-computer interface for speech restoration Bocquelet, Florent 24 April 2017 (has links) Restorer la faculté de parler chez des personnes paralysées et aphasiques pourrait être envisagée via l’utilisation d’une interface cerveau-machine permettant de contrôler un synthétiseur de parole en temps réel. L’objectif de cette thèse était de développer trois aspects nécessaires à la mise au point d’une telle preuve de concept.Premièrement, un synthétiseur permettant de produire en temps-réel de la parole intelligible et controlé par un nombre raisonable de paramètres est nécessaire. Nous avons choisi de synthétiser de la parole à partir des mouvements des articulateurs du conduit vocal. En effet, des études récentes ont suggéré que l’activité neuronale du cortex moteur de la parole pourrait contenir suffisamment d’information pour décoder la parole, et particulièrement ses propriété articulatoire (ex. l’ouverture des lèvres). Nous avons donc développé un synthétiseur produisant de la parole intelligible à partir de données articulatoires. Dans un premier temps, nous avons enregistré un large corpus de données articulatoire et acoustiques synchrones chez un locuteur. Ensuite, nous avons utilisé des techniques d’apprentissage automatique, en particulier des réseaux de neurones profonds, pour construire un modèle permettant de convertir des données articulatoires en parole. Ce synthétisuer a été construit pour fonctionner en temps réel. Enfin, comme première étape vers un contrôle neuronal de ce synthétiseur, nous avons testé qu’il pouvait être contrôlé en temps réel par plusieurs locuteurs, pour produire de la parole inetlligible à partir de leurs mouvements articulatoires dans un paradigme de boucle fermée.Deuxièmement, nous avons étudié le décodage de la parole et de ses propriétés articulatoires à partir d’activités neuronales essentiellement enregistrées dans le cortex moteur de la parole. Nous avons construit un outil permettant de localiser les aires corticales actives, en ligne pendant des chirurgies éveillées à l’hôpital de Grenoble, et nous avons testé ce système chez deux patients atteints d’un cancer du cerveau. Les résultats ont montré que le cortex moteur exhibe une activité spécifique pendant la production de parole dans les bandes beta et gamma du signal, y compris lors de l’imagination de la parole. Les données enregistrées ont ensuite pu être analysées pour décoder l’intention de parler du sujet (réelle ou imaginée), ainsi que la vibration des cordes vocales et les trajectoires des articulateurs principaux du conduit vocal significativement au dessus du niveau de la chance.Enfin, nous nous sommes intéressés aux questions éthiques qui accompagnent le développement et l’usage des interfaces cerveau-machine. Nous avons en particulier considéré trois niveaux de réflexion éthique concernant respectivement l’animal, l’humain et l’humanité. / Restoring natural speech in paralyzed and aphasic people could be achieved using a brain-computer interface controlling a speech synthesizer in real-time. The aim of this thesis was thus to develop three main steps toward such proof of concept.First, a prerequisite was to develop a speech synthesizer producing intelligible speech in real-time with a reasonable number of control parameters. Here we chose to synthesize speech from movements of the speech articulators since recent studies suggested that neural activity from the speech motor cortex contains relevant information to decode speech, and especially articulatory features of speech. We thus developed a speech synthesizer that produced intelligible speech from articulatory data. This was achieved by first recording a large dataset of synchronous articulatory and acoustic data in a single speaker. Then, we used machine learning techniques, especially deep neural networks, to build a model able to convert articulatory data into speech. This synthesizer was built to run in real time. Finally, as a first step toward future brain control of this synthesizer, we tested that it could be controlled in real-time by several speakers to produce intelligible speech from articulatory movements in a closed-loop paradigm.Second, we investigated the feasibility of decoding speech and articulatory features from neural activity essentially recorded in the speech motor cortex. We built a tool that allowed to localize active cortical speech areas online during awake brain surgery at the Grenoble Hospital and tested this system in two patients with brain cancer. Results show that the motor cortex exhibits specific activity during speech production in the beta and gamma bands, which are also present during speech imagination. The recorded data could be successfully analyzed to decode speech intention, voicing activity and the trajectories of the main articulators of the vocal tract above chance.Finally, we addressed ethical issues that arise with the development and use of brain-computer interfaces. We considered three levels of ethical questionings, dealing respectively with the animal, the human being, and the human species. Interface cerveau-Machine Parole Restauration Reconnaissance formes Bci Synthèse parole Brain-Computer interface Speech Restoration Bci Speech synthesis Machine learning 620
249	Corrélats cérébraux de l'adaptation de la parole après exérèse de la cavité orale / Cerebral correlates of speech adaptation after surgery of the intraoral cavity Acher, Audrey 17 July 2014 (has links) Ce travail étudie les corrélats cérébraux de l’adaptation de la parole et de la motricité oro-faciale après l’exérèse chirurgicale d’une tumeur intra-orale. Une attention particulière est portée à la recherche de corrélats révélant une redéfinition des buts de la tâche, une réorganisation de la coordination motrice, et une modification des représentations internes du système moteur.Trois tâches ont été étudiées : production de mouvements oro-faciaux silencieux ; production de voyelles ; production de syllabes. Les activités cérébrales ont été mesurées par IRM fonctionnelle au cours de 4 sessions, en pré-opératoire, puis 1 mois, 3 mois et 9 mois après la chirurgie. Onze patients et onze sujets sains ont été enregistrés. Pour les patients, trois types de données informant sur leur récupération motrice ont été acquis aux mêmes périodes : données praxiques ; signal acoustique de parole ; auto-évaluation de la qualité de parole. Trois analyses statistiques ont été menées sur les données cérébrales : (1) une analyse « cerveau entier » sur les amplitudes des activations ; (2) une analyse de la localisation de l’activation principale dans le cortex moteur primaire ; (3) une analyse en régions d’intérêt dans le réseau cérébral de la parole, via un modèle linéaire général dans lequel le facteur Groupe (Patients/Sains) a été remplacé par une covariable continue, l’« Indice d’Adaptation Motrice » ou « IAM », mesurant le niveau de dégradation de la parole, puis son amélioration dans les mois suivants l’opération. Les effets et les interactions des facteurs Groupe (ou IAM), Session et Tâche sur la variable dépendante ont ainsi été mesurés. Toutes tâches et toutes sessions confondues, les patients se distinguent des sujets sains par une activité cérébrale plus faible dans les zones sensori-motrices oro-faciales. Des effets de la session sont observés pour toutes les tâches, pour les patients et les sujets sains. Seules les tâches de motricité silencieuse et de production des voyelles révèlent des effets de la session sur l’activité cérébrale significativement différents pour les patients et les sujets sains. Ainsi, pour la motricité silencieuse, 1 mois après l’opération, les patients montrent, pour la tâche linguale, une forte activité dans le Lobule Pariétal Supérieur (LPS) et dans le Cortex Pré-Frontal Dorso-Latéral (CPFDL). Pour les voyelles, 3 mois après la chirurgie, l’activité cérébrale des patients décroît dans le cervelet et croît fortement dans le Lobule Pariétal Inférieur ; de 3 à 9 mois après la chirurgie, l’activité croît dans les zones motrices (Cortex Moteur Primaire et Aire Motrice Supplémentaire) et elle décroît dans le Gyrus Temporal Supérieur. Les patients montrent aussi 1 mois après l’opération, tous articulateurs confondus, une localisation plus dorsale de l’activité dans le Cortex Moteur Primaire. Pour des tâches motrices silencieuses, nos observations suggèrent que, immédiatement après l’opération, les patients pourraient réactualiser leur modèle interne du système moteur (activité dans le LPS), devenu imprécis, tout en ré-élaborant leurs stratégies de coordination (activité dans le CPFDL). Pour la production des voyelles, tâche plus complexe et plus précise, nos résultats suggèrent que 3 mois après l’opération, les patients utiliseraient moins les modèles internes devenus trop imprécis. Le retour à une activation forte dans les zones motrices 9 mois après l’intervention suggère que l’adaptation de la production des voyelles est quasiment achevée, et la baisse concomitante de l’activation dans le cortex auditif est cohérente avec l’hypothèse qu’il existerait de nouveau une adéquation entre la copie d’efférence auditive et le feedback auditif externe. Pour la production de syllabes, les résultats sont les moins pertinents parmi les 3 tâches. Une réorganisation plus tardive, au-delà de 9 mois, due à la plus grande complexité de la tâche, pourrait en être une explication potentielle. / This thesis investigates the cerebral correlates of the adaptation of speech production and orofacial motor skills after the exeresis of a tumor in the intraoral cavity. A special focus has been given to searching for correlates associated with a redefinition of the task’s goals, a reorganization of motor coordination, or a change in the internal representations of the peripheral motor system. Three tasks were investigated: non-audible oro-facial movements, vowel production, and syllable production. Brain activity was measured using fMRI longitudinally across 4 sessions: before surgery, and at 1, 3 and 9 months after surgery. Eleven patients and eleven healthy subjects were recorded. For the patients only, 3 additional kinds of data were collected in parallel to the fMRI, in order to assess, at each stage of the clinical process, the improvement of oro-facial motor skills: scores assessing orofacial praxis, acoustic speech signal, and a self-evaluation of speech production quality. Three statistical analyses were run on the fMRI data: (1) a “whole brain” analysis, which is based on brain activity amplitudes; (2) an analysis of the localization of the strongest activity in the primary motor cortex; (3) an analysis of Regions of Interest located in the speech production/perception cerebral network, using a General Linear Model. In this third analysis, the independent “Group” factor has been replaced by a continuous covariable, called “Motor Adaptation Index” (MAI), that quantitatively measures the degradation of speech production 1 month after surgery, and then its improvement in the subsequent months. The main effects of the “Group” (or MAI), “Session” and “Task” factors have been estimated, together with their interactions.All the tasks and all the sessions taken together, patients show significantly lower activity than healthy subjects in the orofacial sensorimotor regions. Significant main effects of the “Session” factor are also observed for all the tasks, for the patients as well as for the healthy subjects. Only non-audible motor tasks and vowel production tasks show for the “Session” factor effects that are significantly different for the patients and the healthy subjects. For non-audible lingual movements, 1 month after surgery, the patients show a high level of activity in the Superior Parietal Lobule (SPL) and DorsoLateral PreFrontal Cortex (DLPFC). For patients’ vowel production, 3 months after surgery activity decreases in the cerebellum and strongly increases in the Inferior Parietal Lobule (IPL), while from 3 to 9 months after surgery, the activity increases in the motor regions (Primary Motor Cortex, Supplementary Motor Area), and decreases in the Superior Temporal Gyrus (STG). In addition, 1 month after the surgery, patients show, for all tasks, Primary Motor Cortex activity located more dorsally than in the other sessions.For non-audible oro-facial motor tasks, our results suggest that immediately after surgery patients might have to re-tune their internal model of the peripheral motor system (SPL activity), which is no longer accurate, while redefining their coordination strategies (DLPFC activity). For vowel production, a more skilled and demanding task, stronger modifications of the patients’ internal model could be necessary 3 months after surgery. Nine months after surgery, the simultaneous increase of activity in the motor regions and decrease of activity in the STG suggest for vowel production that the adaptation has almost been achieved, with regained consistency between the efferent copy and auditory feedback. Syllable production tasks show no significant patient specific changes across sessions, possibly due to the greater complexity of the task as compared to the other two. Adaptation de la production de la parole Glossectomie IRM fonctionnelle Pathologies de la parole Neurophonétique Chirurgie de la cavité orale Adaptation of speech production Glossectomy Speech disorders Neurophonetics Intraoral surgery
250	Génération de parole expressive dans le cas des langues à tons / Generation the expressive speech in case of tonal languages Mac, Dang Khoa 15 June 2012 (has links) De plus en plus, l'interaction entre personne et machine se rapproche du naturel afin de ressembler à l'interaction entre humains, incluant l'expressivité (en particulier les émotions et les attitudes). Dans la communication parlée, les attitudes, et plus généralement les affects sociaux, sont véhiculés principalement par la prosodie. Pour les langues tonales, la prosodie est utilisée aussi pour coder l'information sémantique dans les variations de tons. Ce travail de thèse présente une étude des affects sociaux du vietnamien, une langue à tons et une langue peu dotée, afin d'appliquer les résultats obtenus à un système de synthèse de haute qualité capable de produire la parole « expressive » pour le vietnamien. Le premier travail de cette thèse consiste en la construction du premier corpus audio-visuel des attitudes vietnamiennes, qui contient seize attitudes. Ce corpus est ensuite utilisé pour étudier la perception audio-visuelle et interculturelle des attitudes vietnamiennes. Pour cela, une série de tests perceptifs a été effectuée avec des auditeurs natifs et non-natifs (des auditeurs francophones pour les non-natifs). Les résultats de ces tests montrent que les facteurs influant sur la perception des attitudes sont l'expression de l'attitude elle-même et la modalité de présentation (audio, visuelle et audio-visuelle). Ces résultats nous ont ainsi permis de trouver des affects sociaux communs ou interculturels entre le vietnamien et le français. Puis, un autre test de perception a été réalisé sur des phrases avec tons afin d'explorer l'effet du système tonal du vietnamien sur la perception des attitudes. Les résultats montrent que les juges non-natifs peuvent traiter et séparer les indices tonals locaux et les traits saillants prosodiques de portée globale. Après une présentation de nos études sur les affects sociaux en vietnamien, nous décrivons notre modélisation de la prosodie des attitudes en vue de la synthèse de la parole expressive en vietnamien. En nous basant sur le modèle de superposition des contours fonctionnels, nous proposons une méthode pour modéliser et générer de la prosodie expressive en vietnamien. Cette méthode est ensuite appliquée pour générer de la parole expressive en vietnamien, puis évaluée par des tests de perception sur les énoncés synthétiques. Les résultats de perception valident bien la performance de notre modèle et confirment que l'approche de superposition de contours fonctionnels peut être utilisée pour modéliser une prosodie complexe comme dans le cas de la parole expressive d'une langue à tons. / Today, the human-computer interaction is reaching the naturalness and is increasingly similar to the human-human interaction, including the expressiveness (especially emotions and attitudes). In spoken communication, attitudes or social affects are mainly transferred through prosody. For tonal languages, prosody is also used to encode semantic information via tones. This thesis presents a study of social affects in Vietnamese, a tonal and under-resourced language, in order to apply the results to Vietnamese expressive speech synthesis task. The first task of this thesis concerns the construction of a first audio-visual corpus of Vietnamese attitudes which contains sixteen attitudes. This corpus is then used to study the audio-visual and intercultural perceptions of the Vietnamese attitudes. A series of perceptual tests was carried out with native and non-native listeners (French for non-native listeners). Experimental results reveal the fact that the influential factors on the perception of attitudes include the modality of presentation (audio, visual and audio-visual) and the attitudinal expression itself. These results also allow us to investigate the common specificities and cross-cultural specificities between Vietnamese and French attitudes. Another perception test was carried out using sentences with tonal variation to study the influence of Vietnamese tones on the perception of attitudes. The results show that non-native listeners can process the local prosodic cues of tones, together with the global cues of attitude patterns. After presenting our studies on Vietnamese social affects, we describe our work on attitude modelling to apply it to Vietnamese expressive speech synthesis. Based on the concept of prosodic contour superposition, a prosodic model was proposed to encode the attitudinal function of prosody for Vietnamese attitudes. This model was applied to generate the Vietnamese expressive speech and then evaluated in a perceptual experiment with synthetic utterances. The results validate the ability of applying our proposed model in generating the prosody of attitudes for a tonal language such as Vietnamese. Parole expressive Synthese de la parole Vietnamienne Affects sociaux Contours prosodiques Modélisation de la prosodie Expressive speech Speech synthesis Vietnamese Social affects Prosodic contours Prosody modeling

Search results