Spelling suggestions: "subject:"parole."" "subject:"carole.""
241 |
Rhythm typology: acoustic and perceptive studiesMairano, Paolo 14 March 2011 (has links) (PDF)
Cette thèse traite la typologie rythmique, c'est-à-dire la catégorisation des langues en différentes classes sur la base de phénomènes rythmiques. Les études de ce domaine ont débuté avec Pike (1945) et Abercrombie (1967), qui ont introduit la célèbre dichotomie de langues à isochronie accentuelle (ou isoaccentuelles) et à isochronie syllabique (ou isosyllabiques). Depuis que de nombreuses études ont démenti les hypothèses d'isochronie syllabique et accentuelle, il a été proposé (cf. Bertinetto, 1981, et Dauer 1983) que l'impression perceptuelle d'isochronie soit issue des propriétés structurelles de chaque langue, comme par exemple la présence/absence de clusters consonantiques complexes et de réduction vocalique. Plus récemment, certains auteurs ont élaboré des corrélats acoustiques de ces propriétés (cf. Ramus, Nespor & Mehler, 1999, Grabe & Low, 2002, etc.) basés sur des mesures de durée des séquences vocaliques et consonantiques. Les recherches présentées dans cette thèse se situent exactement dans ce cadre. On présente certaines expériences basées essentiellement sur un corpus d'échantillons sonores comparables de 61 locuteurs de 21 langues, récoltés et segmentés manuellement dans ce but. La structure de la thèse est plutôt atypique, dans les sens où elle n'est pas divisée en deux parties nettement séparées, une présentant l'état de l'art, l'autre exposant les expériences, mais s'efforce de fondre ces deux aspects. Chaque chapitre se concentre sur une ou plusieurs problématiques liées au rythme des langues et contient une discussion des études sur le sujet ainsi qu'une analyse des expériences menées. La recherche dans le domaine de la typologie rythmique, du début jusqu'aux approches plus modernes, est exposée dans le chapitre 2 en suivant le leitmotiv de la dichotomie traditionnelle qui oppose les langues isosyllabique et isoaccentuelles. Ce chapitre présente également une expérience inspirée par des publications récentes (cf. Wagner & Dellwo, 2004, et Asu & Nolan, 2006): la distance entre attaques syllabiques (une mesure abandonnée dans les approches modernes mais qui a été au centre de l'attention dans le passé) est utilisée comme indice de complexité syllabique. Cette mesure fournit des valeurs encourageantes sur des échantillons dans 5 langues par un locuteur multilingue (donc dans des conditions extrêmement contrôlées), mais les résultats sont moins convaincants lorsqu'ils sont appliqués à des données de plusieurs locuteurs et plusieurs langues. Le chapitre 3 se concentre plus spécifiquement sur les corrélats du rythme. Les principales études dans ce domaine sont exposées avec une discussion des formules et des problématiques pratiques et méthodologiques, comme la normalisation de la vitesse d'élocution et les critères utilisés lors de la segmentation. Sont ensuite présentées et analysées les valeurs des nombreux corrélats du rythme (notamment %V, ΔC, ΔV, varcoC, varcoV, rPVI, nPVI, cCCI et vCCI) pour le corpus entier de 21 langues. Les différents corrélats produisent parfois des valeurs différentes pour des langues spécifiques, mais le cadre générale reste à peu près inaltéré: les langues dites isoaccentuelles tendent à avoir une plus grande variabilité de durées vocaliques et consonantiques par rapport aux langues dites isosyllabiques et isomoraïques. Une expérience finale fournit un point de départ pour avancer des hypothèses à propos de l'inclusion de fo et intensité dans les modèles du rythme. L'implémentation et le fonctionnement de Correlatore sont illustrés dans le chapitre 4. Ce logiciel a été développé dans le cadre de la thèse avec le but d'automatiser le calcul des corrélats du rythme et se révèle un outil extrêmement utile. Le chapitre 5 introduit le thème de la variation et de la variabilité du rythme. Après une analyse des rares études dans ce domaine, on présente les résultats des corrélats sur des données spécifiques selon une approche qui ouvre des perspectives intéressantes. Il est démontré que la variabilité des valeurs des corrélats n'indique pas simplement une instabilité de ceux-ci, mais suit un schéma cohérent, avec des valeurs croissantes de variabilité selon l'échelle intra-locuteur / inter- locuteur / inter-dialecte et inter-langue. Finalement, le focus se déplace au niveau de la perception, puisque la capacité présumée de catégoriser des stimuli linguistiques sur la base du rythme de la part d'auditeurs naïfs a été peu étudiée jusqu'à présent. A la suite d'une discussion concernant les différentes procédures de dé-lexicalisation, on présente un test perceptif administré à 43 participants. Les résultats mettent en doute l'affirmation que la dichotomie de langues isoaccentuelles et isosyllabiques soit enracinée dans la perception. Les conclusions discutent l'efficacité des corrélats rythmiques et la possibilité d'inclure fo et intensité dans un modèle du rythme. On argumente à la fin l'exigence de passer à une représentation scalaire et bipolaire du rythme des langues.
|
242 |
Production & Perception in a second language the case of French learners of German : evidence from large speech corpora, electroencephalography, and teaching / La production et la perception de l'allemand chez les apprenants francophones : analyse de corpus de parole, électroéxncephalographie et enseignementWottawa, Jane 11 December 2017 (has links)
Ce projet de recherche vise à étudier la production et la perception de la parole chez les apprenants francophones de l’allemand. Un corpus de parole de 7 heures correspondant à trois tâches (imitation, lecture, description) a été enregistré. Il comprend des germanophones natifs et des apprenants francophones. Nous avons analysée les productions des segments intéressants d'après le cadre du SLM. Une étude de perception en EEG utilisant [h-ʔ], [ʃ-ç] et les voyelles courtes et longues a été réalisée sur des germanophones natifs et des apprenants francophones. Enfin, l'impact de l'enseignement sur l'amélioration des production et perception a été examiné à travers une étude longitudinale. L'étude de production montre que, suivant les tâches, les apprenants produisent le [h] en début de mot sans problème majeur. De même, ils peuvent produire des voyelles de durée contrastive. Cependant, pour les trois tâches, les apprenants ont plus de difficultés pour la production de la qualité vocalique, de [ç] et [ŋ]. Fait notable, la perception ne reflète pas toujours la production. Les apprenants tendent à ne pas percevoir le [h] en début de mot alors que la production de ce segment en répétition est bonne. À l'inverse, les apprenants perçoivent le contraste [ʃ-ç] mais sa production reste difficile. Seulement dans les voyelles courtes et longues, la perception reflète la production.L'étude d'enseignement montre que la conscience linguistique affecte différemment perception et production : une conscience linguistique accrue permet d'affiner la perception de phonèmes à contenu acoustique complexe et la production des phonèmes faciles à produire du point de vue articulatoire. / This research project proposes to investigate the production and perception of German speech in French learners of German. A 7h speech corpus containing three production tasks (imitation, reading, description) produced by German natives and French learners was recorded. Segmental productions of challenging vowels and consonants were analysed according to the SLM. A perception experiment involving [h-ʔ], [ʃ-ç] and short and long vowels using EEG was carried out on German natives and French learners. Finally, the impact of pronunciation teaching on improved speech production and perception was investigated. Undergraduates following a stand-alone pronunciation class were recorded and performed perception tests before and at the end of the course. The production study showed that French learners may produce word-initial [h] faithfully. With regard to short and long vowels, contrasting vowel duration is produced. However, French learners encounter more difficulties with respect to vowel quality. This holds for the production of [ç] and [ŋ]. Interestingly, perception does not always mirror production. The EEG results showed that the perception of word-initial [h] is poor in French learners whereas production accuracy is good. On the contrary, French learners perceive the [ʃ-ç] contrast but its production remains difficult. Only in short and long vowels, perception mirrored production. The teaching study showed that the increased linguistic awareness may affect non-native speech perception and production in different ways: phones that are easy to produce from an articulatory point of view can benefit from teaching. Increased awareness helps to better perceive phones with rich acoustic information.
|
243 |
Vers une interface cerveau-machine pour la restauration de la parole / Toward a brain-computer interface for speech restorationBocquelet, Florent 24 April 2017 (has links)
Restorer la faculté de parler chez des personnes paralysées et aphasiques pourrait être envisagée via l’utilisation d’une interface cerveau-machine permettant de contrôler un synthétiseur de parole en temps réel. L’objectif de cette thèse était de développer trois aspects nécessaires à la mise au point d’une telle preuve de concept.Premièrement, un synthétiseur permettant de produire en temps-réel de la parole intelligible et controlé par un nombre raisonable de paramètres est nécessaire. Nous avons choisi de synthétiser de la parole à partir des mouvements des articulateurs du conduit vocal. En effet, des études récentes ont suggéré que l’activité neuronale du cortex moteur de la parole pourrait contenir suffisamment d’information pour décoder la parole, et particulièrement ses propriété articulatoire (ex. l’ouverture des lèvres). Nous avons donc développé un synthétiseur produisant de la parole intelligible à partir de données articulatoires. Dans un premier temps, nous avons enregistré un large corpus de données articulatoire et acoustiques synchrones chez un locuteur. Ensuite, nous avons utilisé des techniques d’apprentissage automatique, en particulier des réseaux de neurones profonds, pour construire un modèle permettant de convertir des données articulatoires en parole. Ce synthétisuer a été construit pour fonctionner en temps réel. Enfin, comme première étape vers un contrôle neuronal de ce synthétiseur, nous avons testé qu’il pouvait être contrôlé en temps réel par plusieurs locuteurs, pour produire de la parole inetlligible à partir de leurs mouvements articulatoires dans un paradigme de boucle fermée.Deuxièmement, nous avons étudié le décodage de la parole et de ses propriétés articulatoires à partir d’activités neuronales essentiellement enregistrées dans le cortex moteur de la parole. Nous avons construit un outil permettant de localiser les aires corticales actives, en ligne pendant des chirurgies éveillées à l’hôpital de Grenoble, et nous avons testé ce système chez deux patients atteints d’un cancer du cerveau. Les résultats ont montré que le cortex moteur exhibe une activité spécifique pendant la production de parole dans les bandes beta et gamma du signal, y compris lors de l’imagination de la parole. Les données enregistrées ont ensuite pu être analysées pour décoder l’intention de parler du sujet (réelle ou imaginée), ainsi que la vibration des cordes vocales et les trajectoires des articulateurs principaux du conduit vocal significativement au dessus du niveau de la chance.Enfin, nous nous sommes intéressés aux questions éthiques qui accompagnent le développement et l’usage des interfaces cerveau-machine. Nous avons en particulier considéré trois niveaux de réflexion éthique concernant respectivement l’animal, l’humain et l’humanité. / Restoring natural speech in paralyzed and aphasic people could be achieved using a brain-computer interface controlling a speech synthesizer in real-time. The aim of this thesis was thus to develop three main steps toward such proof of concept.First, a prerequisite was to develop a speech synthesizer producing intelligible speech in real-time with a reasonable number of control parameters. Here we chose to synthesize speech from movements of the speech articulators since recent studies suggested that neural activity from the speech motor cortex contains relevant information to decode speech, and especially articulatory features of speech. We thus developed a speech synthesizer that produced intelligible speech from articulatory data. This was achieved by first recording a large dataset of synchronous articulatory and acoustic data in a single speaker. Then, we used machine learning techniques, especially deep neural networks, to build a model able to convert articulatory data into speech. This synthesizer was built to run in real time. Finally, as a first step toward future brain control of this synthesizer, we tested that it could be controlled in real-time by several speakers to produce intelligible speech from articulatory movements in a closed-loop paradigm.Second, we investigated the feasibility of decoding speech and articulatory features from neural activity essentially recorded in the speech motor cortex. We built a tool that allowed to localize active cortical speech areas online during awake brain surgery at the Grenoble Hospital and tested this system in two patients with brain cancer. Results show that the motor cortex exhibits specific activity during speech production in the beta and gamma bands, which are also present during speech imagination. The recorded data could be successfully analyzed to decode speech intention, voicing activity and the trajectories of the main articulators of the vocal tract above chance.Finally, we addressed ethical issues that arise with the development and use of brain-computer interfaces. We considered three levels of ethical questionings, dealing respectively with the animal, the human being, and the human species.
|
244 |
Corrélats cérébraux de l'adaptation de la parole après exérèse de la cavité orale / Cerebral correlates of speech adaptation after surgery of the intraoral cavityAcher, Audrey 17 July 2014 (has links)
Ce travail étudie les corrélats cérébraux de l’adaptation de la parole et de la motricité oro-faciale après l’exérèse chirurgicale d’une tumeur intra-orale. Une attention particulière est portée à la recherche de corrélats révélant une redéfinition des buts de la tâche, une réorganisation de la coordination motrice, et une modification des représentations internes du système moteur.Trois tâches ont été étudiées : production de mouvements oro-faciaux silencieux ; production de voyelles ; production de syllabes. Les activités cérébrales ont été mesurées par IRM fonctionnelle au cours de 4 sessions, en pré-opératoire, puis 1 mois, 3 mois et 9 mois après la chirurgie. Onze patients et onze sujets sains ont été enregistrés. Pour les patients, trois types de données informant sur leur récupération motrice ont été acquis aux mêmes périodes : données praxiques ; signal acoustique de parole ; auto-évaluation de la qualité de parole. Trois analyses statistiques ont été menées sur les données cérébrales : (1) une analyse « cerveau entier » sur les amplitudes des activations ; (2) une analyse de la localisation de l’activation principale dans le cortex moteur primaire ; (3) une analyse en régions d’intérêt dans le réseau cérébral de la parole, via un modèle linéaire général dans lequel le facteur Groupe (Patients/Sains) a été remplacé par une covariable continue, l’« Indice d’Adaptation Motrice » ou « IAM », mesurant le niveau de dégradation de la parole, puis son amélioration dans les mois suivants l’opération. Les effets et les interactions des facteurs Groupe (ou IAM), Session et Tâche sur la variable dépendante ont ainsi été mesurés. Toutes tâches et toutes sessions confondues, les patients se distinguent des sujets sains par une activité cérébrale plus faible dans les zones sensori-motrices oro-faciales. Des effets de la session sont observés pour toutes les tâches, pour les patients et les sujets sains. Seules les tâches de motricité silencieuse et de production des voyelles révèlent des effets de la session sur l’activité cérébrale significativement différents pour les patients et les sujets sains. Ainsi, pour la motricité silencieuse, 1 mois après l’opération, les patients montrent, pour la tâche linguale, une forte activité dans le Lobule Pariétal Supérieur (LPS) et dans le Cortex Pré-Frontal Dorso-Latéral (CPFDL). Pour les voyelles, 3 mois après la chirurgie, l’activité cérébrale des patients décroît dans le cervelet et croît fortement dans le Lobule Pariétal Inférieur ; de 3 à 9 mois après la chirurgie, l’activité croît dans les zones motrices (Cortex Moteur Primaire et Aire Motrice Supplémentaire) et elle décroît dans le Gyrus Temporal Supérieur. Les patients montrent aussi 1 mois après l’opération, tous articulateurs confondus, une localisation plus dorsale de l’activité dans le Cortex Moteur Primaire. Pour des tâches motrices silencieuses, nos observations suggèrent que, immédiatement après l’opération, les patients pourraient réactualiser leur modèle interne du système moteur (activité dans le LPS), devenu imprécis, tout en ré-élaborant leurs stratégies de coordination (activité dans le CPFDL). Pour la production des voyelles, tâche plus complexe et plus précise, nos résultats suggèrent que 3 mois après l’opération, les patients utiliseraient moins les modèles internes devenus trop imprécis. Le retour à une activation forte dans les zones motrices 9 mois après l’intervention suggère que l’adaptation de la production des voyelles est quasiment achevée, et la baisse concomitante de l’activation dans le cortex auditif est cohérente avec l’hypothèse qu’il existerait de nouveau une adéquation entre la copie d’efférence auditive et le feedback auditif externe. Pour la production de syllabes, les résultats sont les moins pertinents parmi les 3 tâches. Une réorganisation plus tardive, au-delà de 9 mois, due à la plus grande complexité de la tâche, pourrait en être une explication potentielle. / This thesis investigates the cerebral correlates of the adaptation of speech production and orofacial motor skills after the exeresis of a tumor in the intraoral cavity. A special focus has been given to searching for correlates associated with a redefinition of the task’s goals, a reorganization of motor coordination, or a change in the internal representations of the peripheral motor system. Three tasks were investigated: non-audible oro-facial movements, vowel production, and syllable production. Brain activity was measured using fMRI longitudinally across 4 sessions: before surgery, and at 1, 3 and 9 months after surgery. Eleven patients and eleven healthy subjects were recorded. For the patients only, 3 additional kinds of data were collected in parallel to the fMRI, in order to assess, at each stage of the clinical process, the improvement of oro-facial motor skills: scores assessing orofacial praxis, acoustic speech signal, and a self-evaluation of speech production quality. Three statistical analyses were run on the fMRI data: (1) a “whole brain” analysis, which is based on brain activity amplitudes; (2) an analysis of the localization of the strongest activity in the primary motor cortex; (3) an analysis of Regions of Interest located in the speech production/perception cerebral network, using a General Linear Model. In this third analysis, the independent “Group” factor has been replaced by a continuous covariable, called “Motor Adaptation Index” (MAI), that quantitatively measures the degradation of speech production 1 month after surgery, and then its improvement in the subsequent months. The main effects of the “Group” (or MAI), “Session” and “Task” factors have been estimated, together with their interactions.All the tasks and all the sessions taken together, patients show significantly lower activity than healthy subjects in the orofacial sensorimotor regions. Significant main effects of the “Session” factor are also observed for all the tasks, for the patients as well as for the healthy subjects. Only non-audible motor tasks and vowel production tasks show for the “Session” factor effects that are significantly different for the patients and the healthy subjects. For non-audible lingual movements, 1 month after surgery, the patients show a high level of activity in the Superior Parietal Lobule (SPL) and DorsoLateral PreFrontal Cortex (DLPFC). For patients’ vowel production, 3 months after surgery activity decreases in the cerebellum and strongly increases in the Inferior Parietal Lobule (IPL), while from 3 to 9 months after surgery, the activity increases in the motor regions (Primary Motor Cortex, Supplementary Motor Area), and decreases in the Superior Temporal Gyrus (STG). In addition, 1 month after the surgery, patients show, for all tasks, Primary Motor Cortex activity located more dorsally than in the other sessions.For non-audible oro-facial motor tasks, our results suggest that immediately after surgery patients might have to re-tune their internal model of the peripheral motor system (SPL activity), which is no longer accurate, while redefining their coordination strategies (DLPFC activity). For vowel production, a more skilled and demanding task, stronger modifications of the patients’ internal model could be necessary 3 months after surgery. Nine months after surgery, the simultaneous increase of activity in the motor regions and decrease of activity in the STG suggest for vowel production that the adaptation has almost been achieved, with regained consistency between the efferent copy and auditory feedback. Syllable production tasks show no significant patient specific changes across sessions, possibly due to the greater complexity of the task as compared to the other two.
|
245 |
Génération de parole expressive dans le cas des langues à tons / Generation the expressive speech in case of tonal languagesMac, Dang Khoa 15 June 2012 (has links)
De plus en plus, l'interaction entre personne et machine se rapproche du naturel afin de ressembler à l'interaction entre humains, incluant l'expressivité (en particulier les émotions et les attitudes). Dans la communication parlée, les attitudes, et plus généralement les affects sociaux, sont véhiculés principalement par la prosodie. Pour les langues tonales, la prosodie est utilisée aussi pour coder l'information sémantique dans les variations de tons. Ce travail de thèse présente une étude des affects sociaux du vietnamien, une langue à tons et une langue peu dotée, afin d'appliquer les résultats obtenus à un système de synthèse de haute qualité capable de produire la parole « expressive » pour le vietnamien. Le premier travail de cette thèse consiste en la construction du premier corpus audio-visuel des attitudes vietnamiennes, qui contient seize attitudes. Ce corpus est ensuite utilisé pour étudier la perception audio-visuelle et interculturelle des attitudes vietnamiennes. Pour cela, une série de tests perceptifs a été effectuée avec des auditeurs natifs et non-natifs (des auditeurs francophones pour les non-natifs). Les résultats de ces tests montrent que les facteurs influant sur la perception des attitudes sont l'expression de l'attitude elle-même et la modalité de présentation (audio, visuelle et audio-visuelle). Ces résultats nous ont ainsi permis de trouver des affects sociaux communs ou interculturels entre le vietnamien et le français. Puis, un autre test de perception a été réalisé sur des phrases avec tons afin d'explorer l'effet du système tonal du vietnamien sur la perception des attitudes. Les résultats montrent que les juges non-natifs peuvent traiter et séparer les indices tonals locaux et les traits saillants prosodiques de portée globale. Après une présentation de nos études sur les affects sociaux en vietnamien, nous décrivons notre modélisation de la prosodie des attitudes en vue de la synthèse de la parole expressive en vietnamien. En nous basant sur le modèle de superposition des contours fonctionnels, nous proposons une méthode pour modéliser et générer de la prosodie expressive en vietnamien. Cette méthode est ensuite appliquée pour générer de la parole expressive en vietnamien, puis évaluée par des tests de perception sur les énoncés synthétiques. Les résultats de perception valident bien la performance de notre modèle et confirment que l'approche de superposition de contours fonctionnels peut être utilisée pour modéliser une prosodie complexe comme dans le cas de la parole expressive d'une langue à tons. / Today, the human-computer interaction is reaching the naturalness and is increasingly similar to the human-human interaction, including the expressiveness (especially emotions and attitudes). In spoken communication, attitudes or social affects are mainly transferred through prosody. For tonal languages, prosody is also used to encode semantic information via tones. This thesis presents a study of social affects in Vietnamese, a tonal and under-resourced language, in order to apply the results to Vietnamese expressive speech synthesis task. The first task of this thesis concerns the construction of a first audio-visual corpus of Vietnamese attitudes which contains sixteen attitudes. This corpus is then used to study the audio-visual and intercultural perceptions of the Vietnamese attitudes. A series of perceptual tests was carried out with native and non-native listeners (French for non-native listeners). Experimental results reveal the fact that the influential factors on the perception of attitudes include the modality of presentation (audio, visual and audio-visual) and the attitudinal expression itself. These results also allow us to investigate the common specificities and cross-cultural specificities between Vietnamese and French attitudes. Another perception test was carried out using sentences with tonal variation to study the influence of Vietnamese tones on the perception of attitudes. The results show that non-native listeners can process the local prosodic cues of tones, together with the global cues of attitude patterns. After presenting our studies on Vietnamese social affects, we describe our work on attitude modelling to apply it to Vietnamese expressive speech synthesis. Based on the concept of prosodic contour superposition, a prosodic model was proposed to encode the attitudinal function of prosody for Vietnamese attitudes. This model was applied to generate the Vietnamese expressive speech and then evaluated in a perceptual experiment with synthetic utterances. The results validate the ability of applying our proposed model in generating the prosody of attitudes for a tonal language such as Vietnamese.
|
246 |
La spécificité du spectacle vivant en Algérie à travers l'analyse des paradigmes "action" et "parole" / The specificity of performance in Algeria through the analysis of paradigms "action" and "speech"Medjekane, Youcef 14 December 2016 (has links)
L’esthétique de théâtre en Algérie est analysée à travers le prisme des deux paradigmes « action » et « parole », deux dimensions essentielles pour comprendre « le théâtre de parole » et le théâtre dramatique ; deux variantes dynamiques de la présente thèse qui, en rupture avec les études antérieures qui ont tendance à privilégier la perspective historique dans les études théâtrales, réaffirme la valeur esthétique du théâtre algérien, aussi bien au niveau de l’écriture scénique que de l’écriture théâtrale. Le théâtre de parole s’accorde avec le style oral de la société algérienne, une société portée sur l’oralité que l’écriture. La parole est déterminante dans les modalités d’échange, et de transmission des valeurs sociales. Il existe une proximité entre le théâtre de parole et le style oral. La dimension de discours théâtral prend le pas sur l’action théâtrale. La dramaturgie texto-centrée est remise en cause, donnant ainsi une perspective au spectacle joué, au jeu de l’acteur-performer, au conteur performer d’autrefois qui sillonnait les contrées d’Algérie. La dimension de jeu est analysée, à la lumière des théories des auteurs tels que Stanislavski, Brecht, Vassiliev ou Grotowski. L’acteur rhapsodique s’inscrit dans le jeu « médian » ; il n’est pas dans la dimension d’incarnation, mais dans la dimension de représentation du rôle. / The aesthetics of theater in Algeria is analyzed through the prism of two paradigms namely "action" and "speech". "Action" is related to the theater of drama and "speech" is related to what is called "the theater of speech". The notion of speech is predominant in an Algerian society that has developed an oral tradition more than writing. Speech is the determining factor in the modalities of exchange and the transmission of social values. Unlike previous studies in Algerian theater, having given major privileges to the historical perspective, this thesis focuses on the various theatrical expressions written by Algerian writers who have led the Algerian theater since the 1920s till today. The notion of action is investigated through the theories developed by Brecht and Stanislavsky among others. In addition, we study the reception of the Algerian public, an active and dynamic public who like to listen to theatrical discourse.
|
247 |
GCC-NMF : séparation et rehaussement de la parole en temps-réel à faible latence / GCC-NMF: low latency real-time speech separation and enhancementWood, Sean January 2017 (has links)
Le phénomène du cocktail party fait référence à notre remarquable capacité à nous concentrer sur une seule voix dans des environnements bruyants. Dans cette thèse, nous concevons, implémentons et évaluons une approche computationnelle nommée GCC-NMF pour résoudre ce problème. GCC-NMF combine l’apprentissage automatique non supervisé par la factorisation matricielle non négative (NMF) avec la méthode de localisation spatiale à corrélation croisée généralisée (GCC). Les atomes du dictionnaire NMF sont attribués au locuteur cible ou à l’interférence à chaque instant en fonction de leurs emplacements spatiaux estimés. Nous commençons par étudier GCC-NMF dans le contexte hors ligne, où des mélanges de 10 secondes sont traités à la fois. Nous développons ensuite une variante temps réel de GCC-NMF et réduisons par la suite sa latence algorithmique inhérente de 64 ms à 2 ms avec une méthode asymétrique de transformée de Fourier de courte durée (STFT). Nous montrons que des latences aussi faibles que 6 ms, dans la plage des délais tolérables pour les aides auditives, sont possibles sur les plateformes embarquées actuelles.
Nous évaluons la performance de GCC-NMF sur des données publiquement disponibles de la campagne d’évaluation de séparation des signaux SiSEC. La qualité de séparation objective est quantifiée avec les méthodes PEASS, estimant les évaluations subjectives humaines, ainsi que BSS Eval basée sur le rapport signal sur bruit (SNR) traditionnel. Bien que GCC-NMF hors ligne ait moins bien performé que d’autres méthodes du défi SiSEC en termes de métriques SNR, ses scores PEASS sont comparables aux meilleurs résultats. Dans le cas de GCC-NMF en ligne, alors que les métriques basées sur le SNR favorisent à nouveau d’autres méthodes, GCC-NMF surpasse toutes les approches précédentes sauf une en termes de scores PEASS globaux, obtenant des résultats comparables au masque binaire idéale. Nous montrons que GCC-NMF augmente la qualité objective et les métriques d’intelligibilité STOI et ESTOI sur une large gamme de SNR d’entrée de -30 à 20 dB, avec seulement des réductions mineures pour les SNR d’entrée supérieurs à 20 dB.
GCC-NMF présente plusieurs caractéristiques souhaitables lorsqu’on le compare aux approches existantes. Contrairement aux méthodes d’analyse de scène auditive computationnelle (CASA), GCC-NMF ne nécessite aucune connaissance préalable sur la nature des signaux d’entrée et pourrait donc convenir aux applications de séparation et de débruitage de source dans un grand nombre de domaines. Dans le cas de GCC-NMF en ligne, seule une petite quantité de données non étiquetées est nécessaire pour apprendre le dictionnaire NMF. Cela se traduit par une plus grande flexibilité et un apprentissage beaucoup plus rapide par rapport aux approches supervisées, y compris les solutions basées sur NMF et les réseaux neuronaux profonds qui reposent sur de grands ensembles de données étiquetées. Enfin, contrairement aux méthodes de séparation de source aveugle (BSS) qui reposent sur des statistiques de signal accumulées, GCC-NMF fonctionne indépendamment pour chaque trame, ce qui permet des applications en temps réel à faible latence. / Abstract: The cocktail party phenomenon refers to our remarkable ability to focus on a single voice in noisy environments. In this thesis, we design, implement, and evaluate a computational approach to solving this problem named GCC-NMF. GCC-NMF combines unsupervised machine learning via non-negative matrix factorization (NMF) with the generalized cross-correlation (GCC) spatial localization method. Individual NMF dictionary atoms are attributed to the target speaker or background interference at each point in time based on their estimated spatial locations. We begin by studying GCC-NMF in the offline context, where entire 10-second mixtures are treated at once. We then develop an online, instantaneous variant of GCC-NMF and subsequently reduce its inherent algorithmic latency from 64 ms to 2 ms with an asymmetric short-time Fourier transform (STFT) windowing method. We show that latencies as low as 6 ms, within the range of tolerable delays for hearing aids, are possible on current hardware platforms. We evaluate the performance of GCC-NMF on publicly available data from the Signal Separation Evaluation Campaign (SiSEC), where objective separation quality is quantified using the signal-to-noise ratio (SNR)-based BSS Eval and perceptually-motivated PEASS toolboxes. Though offline GCC-NMF underperformed other methods from the SiSEC challenge in terms of the SNR-based metrics, its PEASS scores were comparable with the best results. In the case of online GCC-NMF, while SNR-based metrics again favoured other methods, GCC-NMF outperformed all but one of the previous approaches in terms of overall PEASS scores, achieving comparable results to the ideal binary mask (IBM) baseline. Furthermore, we show that GCC-NMF increases objective speech quality and the STOI and ETOI speech intelligibility metrics over a wide range of input SNRs from -30 dB to 20 dB, with only minor reductions for input SNRs greater than 20 dB. GCC-NMF exhibits a number of desirable characteristics when compared existing approaches. Unlike computational auditory scene analysis (CASA) methods, GCC-NMF requires no prior knowledge about the nature of the input signals, and may thus be suitable for source separation and denoising applications in a wide range of fields. In the case of online GCC-NMF, only a small amount of unlabeled data is required to pre-train the NMF dictionary. This results in much greater flexibility and significantly faster training when compared to supervised approaches including NMF and deep neural network-based solutions that rely on large, supervised datasets. Finally, in contrast with blind source separation (BSS) methods that rely on accumulated signal statistics, GCC-NMF operates independently for each time frame, allowing for low latency, real-time applications.
|
248 |
Etude des effets des entraînements auditifs sur la perception catégorielle du délai d'établissement du voisement: implications chez l'adulte, l'enfant et dans les troubles d'acquisition du langage / Auditory training effects on categorical perception of voice onset time: data from adults, children and language learning impairmentCollet, Gregory 21 May 2012 (has links)
L’objectif général de cette thèse était de déterminer dans quelle mesure les entraînements auditifs pouvaient conduire à une modification de la perception du voisement en français en termes d’identification, de discrimination et de perception catégorielle (PC). L’originalité de notre méthodologie reposait sur l’étude à la fois des effets entraînements sur la perception d’un contraste particulier (e.g. +15/+45 ms DEV) mais également sur la perception catégorielle de stimuli variant le long d’un continuum (e.g. +75, +45, +15, -15, -45 et -75 ms DEV). En effet, la majorité des études de la littérature se limitent à étudier les effets des entraînements sur un contraste bien particulier (e.g. Golestani & Zatorre, 2004 ;Tremblay et al. 1998 ;Tremblay et al. 2001). Grâce à notre paradigme, il nous était possible de quantifier l’apprentissage sur un contraste spécifique mais aussi d’en étudier les éventuels effets de généralisation sur l’ensemble du continuum.<p><p>Dans une première étude, nous avons tenté d’évaluer les limites du système perceptif en matière d’extraction de l’information statistique en travaillant sur de fines différences acoustiques (Etude 1). Au fil des années, une partie de plus en plus importante de la littérature s’est développée, soutenant que la formation des catégories phonologiques reposait sur l’extraction des régularités statistiques existant dans la production des phonèmes. Cependant, en aucun cas la question des limites que pouvait imposer le système perceptif n’a été posée. Pour ce faire, nous avons décidé de déterminer dans quelle mesure l’exposition à une grande variabilité de stimuli séparés par de fines différences acoustiques pouvait conduire à l’amélioration des capacités de discrimination d’un contraste spécifique.<p><p>Par la suite, nous avons sommes concentrés sur la question des modifications de la PC suite à un entraînement. L’idée principale était de déterminer dans quelle mesure un entraînement centré sur une valeur particulière du continuum et mettant en jeu un contraste (i.e. opposition entre deux stimuli) pouvait avoir un impact sur la PC. Pour ce faire, nous avons commencé par entraîner des participants à identifier (Etude 2) des stimuli autour de trois frontières non-phonologiques (-30, -45 et -60 ms DEV). <p><p>Ensuite, nous avons entraîné d’autres participants à discriminer (Etude 3) des stimuli autour de deux frontières non-phonologiques (-30 et -45 ms DEV). Les modifications perceptives étaient évaluées sur différents paramètres qui caractérisent la PC (voir Introduction – La Perception Catégorielle) chez des adultes normo-entendant. Nos hypothèses reposaient sur l’idée selon laquelle, plus on s’éloigne de la frontière phonologique, plus les modifications perceptives seraient difficiles. Toutefois, les discontinuités perceptives pourraient interagir, facilitant ainsi les changements.<p>Sur base des résultats de ces études, nous nous sommes intéressés à la malléabilité de la perception catégorielle chez des enfants de troisième maternelle et de deuxième primaire (Etude 4). Dans ce cas, nous avons décidé d’entraîner les enfants à identifier des stimuli autour de la frontière phonologique du français (0 ms DEV) et autour d’une frontière non-phonologique (-30 ms DEV). L’idée sous-jacente était que les enfants, et plus particulièrement ceux qui n’avaient pas encore appris à lire, puissent être plus sensibles aux modifications perceptives imposées par leur environnement.<p><p>Par la suite, la question des entraînements auditifs comme source de changements chez les enfants et adultes normo-entendant s’est élargie aux pathologies et notamment dans les troubles spécifiques du langage (Etude 5). En effet, il est reconnu que ces enfants présentent des difficultés dans la perception des sons de parole et notamment du voisement. Dans cette étude, nous avons donc tenté de restructurer la PC au moyen d’un entraînement basé sur une tâche de discrimination. Malgré leur difficulté sévère à traiter le matériel auditif, ces enfants ne présentent pas des troubles de l’audition. Nous nous attendions donc à une amélioration de leurs habilités à percevoir le voisement.<p><p>Enfin, nous nous sommes interrogés sur les facteurs qui pouvaient contribuer, en plus des séances d’entraînement, à la consolidation des représentations phonologiques en mémoire. Parmi ceux-ci, la littérature dans le domaine visuel et moteur indique que le sommeil contribue à consolider ce qui a été appris. Nous avons donc décidé de nous intéresser aux rôles et aux bénéfices du sommeil dans la consolidation des apprentissages auditif chez des adultes normo-entendant (Etude 6).<p> / Doctorat en Sciences Psychologiques et de l'éducation / info:eu-repo/semantics/nonPublished
|
249 |
Analyse du tremblement vocal et application à des locuteurs parkinsoniens / Analysis of vocal tremor and application to parkinsonian speakersCnockaert, Laurence 13 February 2008 (has links)
L'analyse quantitative de la parole est pratiquée couramment en milieu clinique. Il s'agit d'un moyen d'évaluation non-invasif en vue de la documentation quantitative de la qualité de voix, et de son suivi au cours du temps. En milieu clinique, les méthodes d'analyse de signaux de parole doivent être fiables pour traiter des signaux de parole de locuteurs dysphoniques et âgés. De plus, les résultats de ces analyses doivent pouvoir se résumer à un faible nombre d'indices acoustiques pertinents et interprétables par les cliniciens.<p><p><p>Dans le cadre de cette thèse, nous nous sommes intéressés à la caractérisation des modulations basse-fréquence du signal de parole, et à son application à des locuteurs atteints de la maladie de Parkinson et à des locuteurs normophoniques. <p><p>Nous avons étudié d'une part l'estimation des modulations de la fréquence phonatoire, qui est la fréquence fondamentale du signal de parole. D'autre part, nous avons examiné les méthodes de caractérisation des modulations des fréquences des formants, qui sont les effets des résonances du conduit vocal dans le signal de parole. Nous avons développé des méthodes basées sur des transformées en ondelettes continues pour analyser ces modulations. Nous nous sommes également intéressés à l'application de méthodes d'estimation d'un conduit vocal acoustiquement équivalent à partir du signal de parole. <p><p>Nous avons appliqué ces méthodes à des signaux de parole de trois corpora. Le premier corpus est composé de locuteurs atteints de la maladie de Parkinson et de locuteurs normophoniques, le deuxième de locuteurs parkinsoniens enregistrés dans deux états pharmacologiques, et le troisième de locuteurs parkinsoniens enregistrés avant et après une thérapie vocale. Des analyses statistiques ont montré des différences significatives entre les indices de modulation en fonction de l'état de santé, en fonction de l'état pharmacologique, et au cours de la thérapie vocale. / Doctorat en Sciences de l'ingénieur / info:eu-repo/semantics/nonPublished
|
250 |
Study of unit selection text-to-speech synthesis algorithms / Étude des algorithmes de sélection d’unités pour la synthèse de la parole à partir du texteGuennec, David 22 September 2016 (has links)
La synthèse de la parole par corpus (sélection d'unités) est le sujet principal de cette thèse. Tout d'abord, une analyse approfondie et un diagnostic de l'algorithme de sélection d'unités (algorithme de recherche dans le treillis d'unités) sont présentés. L'importance de l'optimalité de la solution est discutée et une nouvelle mise en œuvre de la sélection basée sur un algorithme A* est présenté. Trois améliorations de la fonction de coût sont également présentées. La première est une nouvelle façon – dans le coût cible – de minimiser les différences spectrales en sélectionnant des séquences d'unités minimisant un coût moyen au lieu d'unités minimisant chacune un coût cible de manière absolue. Ce coût est testé pour une distance sur la durée phonémique mais peut être appliqué à d'autres distances. Notre deuxième proposition est une fonction de coût cible visant à améliorer l'intonation en se basant sur des coefficients extraits à travers une version généralisée du modèle de Fujisaki. Les paramètres de ces fonctions sont utilisés au sein d'un coût cible. Enfin, notre troisième contribution concerne un système de pénalités visant à améliorer le coût de concaténation. Il pénalise les unités en fonction de classes reposant sur une hiérarchie du degré de risque qu'un artefact de concaténation se produise lors de la concaténation sur un phone de cette classe. Ce système est différent des autres dans la littérature en cela qu'il est tempéré par une fonction floue capable d'adoucir le système de pénalités pour les unités présentant des coûts de concaténation parmi les plus bas de leur distribution. / This PhD thesis focuses on the automatic speech synthesis field, and more specifically on unit selection. A deep analysis and a diagnosis of the unit selection algorithm (lattice search algorithm) is provided. The importance of the solution optimality is discussed and a new unit selection implementation based on a A* algorithm is presented. Three cost function enhancements are also presented. The first one is a new way – in the target cost – to minimize important spectral differences by selecting sequences of candidate units that minimize a mean cost instead of an absolute one. This cost is tested on a phonemic duration distance but can be applied to others. Our second proposition is a target sub-cost addressing intonation that is based on coefficients extracted through a generalized version of Fujisaki's command-response model. This model features gamma functions modeling F0 called atoms. Finally, our third contribution concerns a penalty system that aims at enhancing the concatenation cost. It penalizes units in function of classes defining the risk a concatenation artifact occurs when concatenating on a phone of this class. This system is different to others in the literature in that it is tempered by a fuzzy function that allows to soften penalties for units presenting low concatenation costs.
|
Page generated in 0.0554 seconds