Spelling suggestions: "subject:"disfluences."" "subject:"disfluency.""
1 |
Um and Uh, and the expression of stance in conversational speech / Um et Uh, et l'expression de la prise de position dans le discours conversationnelLe Grézause, Esther 23 May 2017 (has links)
Le chapitre 1 sert d’introduction à la thèse, pose les problématiques et les méthodes, remet en perspective les enjeux et annonce le plan suivi. Le chapitre 2 définit les principaux types de disfluences (cliniques et naturelles), résume les études principales conduites sur les disfluences, et présente les différents points de vue sur leur rôle dans le discours. Le chapitre 3 dresse l’état de la question sur le statut des deux pauses pleines (fillers) um et uh et montre comment plusieurs études récentes accréditent l’idée d’une différence pragmatique, voire fonctionnelle, entre ces deux "fillers", qu’il convient donc d’envisager comme des marqueurs. Le chapitre 4 revient sommairement sur le concept de "stance" (prise de position, évaluation), établit sa définition dans cette thèse et dans le corpus ATAROS, puis présente l’état de la question quant à la détection automatique de "stance" dans les corpus oraux. Le chapitre 5 caractérise les deux corpus étudiés, ATAROS et Switchboard (SWB), et établit leurs contributions. Ce chapitre présente les méthodologies d’annotation des corpus, les deux versions de SWB, ainsi que la méthode suivie pour construire une interopérabilité de ces deux corpus pour l’analyse de um et uh. Le chapitre 6 analyse la distribution et la durée des deux marqueurs dans SWB et ATAROS en fonction du genre des interlocuteurs, de l’authenticité de la conversation, et du nombre de conversations auxquelles les sujets participent. Ce chapitre montre que um et uh ont des durées et des distributions différentes et indique que les marqueurs ne sont pas utilisés au hasard. Le chapitre 7 se penche sur la production de um et uh dans SWB, et sur la perception des deux marqueurs en comparant les deux versions des transcriptions du corpus. Les principaux résultats montrent que um et uh sont plus souvent oublis que d’autres mots fréquents tels que les mots fonctionnels, et que les transcripteurs de SWB font plus d’erreurs sur uh que sur um, suggérant que um joue un rôle discursif plus important que uh. Le chapitre 8 interroge la relation entre la prise de position ("stance") d’une unité de parole et la présence et la position des marqueurs dans une phrase, et révèle que ces deux dimensions sont dépendantes. Le chapitre 9 évalue la relation entre la prise de position d’une unité de parole et la réalisation acoustique de la voyelle des marqueurs, comparé à la même voyelle dans d’autres mots monosyllabiques. Les résultats indiquent que les valeurs de "stance" affectent avec différents degrés la réalisation acoustique des marqueurs. Le chapitre 10 incorpore les résultats des expériences précédentes dans plusieurs taches de classification qui testent les traits les plus importants pour prédire automatiquement les valeurs de "stance" en fonction des paramètres correspondants à um et uh (traits lexicaux, positionnels et acoustiques). Ces expériences montrent que les traits pertinents aux marqueurs affectent la performance du système et que les meilleurs résultats de la classification sont obtenus lorsque les traits lexicaux um et uh sont présents, et lorsque leur position est prise en compte. Les résultats aussi indiquent que différentes propriétés acoustiques améliorent les scores de prédictions. Le chapitre 11 conclut la thèse en résumant les résultats des chapitres 6 à 10, en soulignant les impacts de cette recherche, et en indiquant les futures pistes de recherche. / Chapter 1 introduces the dissertation, establishes the research questions and the methodology, questions the stakes of studying the markers um and uh, and lays out the study organization. Chapter 2 defines the main types of disfluencies, clinical and naturally occurring, summarizes the state of the art on the topic, and presents the different positions on their discourse role. Chapter 3 establishes the challenges regarding the fillers um and uh and summarizes studies that support the idea of different pragmatic and functional roles, suggesting that they are markers rather than just fillers. Chapter 4 introduces the concept of ÔstanceÕ (i.e., evaluation, opinion), establishes the definition used in this study and in the ATAROS corpus, and briefly summarizes the state of the art on automatic stance recognition in spoken speech. Chapter 5 introduces the two corpora used in this dissertation, ATAROS and Switchboard (SWB), and establishes their contribution. This chapter presents the methodologies for the annotations, the two versions of SWB, as well as the methodology adopted to construct an interoperability between the corpora to analyze um and uh. Chapter 6 analyzes the distribution and the duration of the two markers in SWB and ATAROS depending on speaker and dyad gender, on the conversationÕs naturalness, and on speaker participation. This chapter shows that um and uh are different from each other, that they have different distribution and duration cues depending on the variables, and therefore indicates that they are not used randomly. Chapter 7 focuses on the production of um and uh in SWB, and on the perception of the two markers by comparing two transcription versions of the corpus. The results of this chapter show that um and uh are more often missed than other frequent words such as function words, and that SWB transcribers make more transcription errors on uh than on um, suggesting that um plays a more important role in discourse than uh. Chapter 8 investigates the relationship between stance and the presence and the position of um and uh in an utterance, and reveals that the presence and the position of the two markers is dependent with stance. Chapter 9 looks at the relationship between stance and the acoustic realization of the vowel of the markers, compared to the vowel of other monosyllabic words. The results indicate that the stance values affect the vowel realization to different extents. Chapter 10 consists of a classification experiment that incorporates the findings from previous experiments to find out which features pertinent to um and uh (lexical, position, and acoustics) improve the systemÕs performance. The experiments show that the features associated to the two markers impact the systemÕs performance and that the best results are obtained when the word unigrams um and uh are not filtered, and when their position is included. The results also indicate that different acoustic features improve the scores. Chapter 11 concludes the dissertation by summarizing the results from chapters 6 through 10, underlying the impact of this study, and addressing the future directions of this project.
|
2 |
Pronunciation and disfluency modeling for expressive speech synthesis / Modélisation de la prononciation et des disfluences pour la synthèse de la parole expressiveQader, Raheel 31 March 2017 (has links)
Dans la première partie de cette thèse, nous présentons une nouvelle méthode de production de variantes de prononciations qui adapte des prononciations standards, c'est-à-dire issues d'un dictionnaire, à un style spontané. Cette méthode utilise une vaste gamme d'informations linguistiques, articulatoires et acoustiques, ainsi qu'un cadre probabiliste d'apprentissage automatique, à savoir les champs aléatoires conditionnels (CAC) et les modèles de langage. Nos expériences poussées sur le corpus Buckeye démontrent l'efficacité de l'approche à travers des évaluations objectives et perceptives. Des tests d'écoutes sur de la parole synthétisée montrent que les prononciations adaptées sont jugées plus spontanées que les prononciations standards, et même que celle réalisées par les locuteurs du corpus étudié. Par ailleurs, nous montrons que notre méthode peut être étendue à d'autres tâches d'adaptation, par exemple pour résoudre des problèmes d'incohérences entre les différentes séquences de phonèmes manipulées par un système de synthèse. La seconde partie de la thèse explore une nouvelle approche de production automatique de disfluences dans les énoncés en entrée d'un système de synthèse de la parole. L'approche proposée offre l'avantage de considérer plusieurs types de disfluences, à savoir des pauses, des répétitions et des révisions. Pour cela, nous présentons une formalisation novatrice du processus de production de disfluences à travers un mécanisme de composition de ces disfluences. Nous présentons une première implémentation de notre processus, elle aussi fondée sur des CAC et des modèles de langage, puis conduisons des évaluations objectives et perceptives. Celles-ci nous permettent de conclure à la bonne fonctionnalité de notre proposition et d'en discuter les pistes principales d'amélioration. / In numerous domains, the usage of synthetic speech is conditioned upon the ability of speech synthesis systems to generate natural and expressive speech. In this frame, we address the problem of expressivity in TTS by incorporating two phenomena with a high impact on speech: pronunciation variants and speech disfluencies. In the first part of this thesis, we present a new pronunciation variant generation method which works by adapting standard i.e., dictionary-based, pronunciations to a spontaneous style. Its strength and originality lie in exploiting a wide range of linguistic, articulatory and acoustic features and to use a probabilistic machine learning framework, namely conditional random fields (CRFs) and language models. Extensive experiments on the Buckeye corpus demonstrate the effectiveness of this approach through objective and subjective evaluations. Listening tests on synthetic speech show that adapted pronunciations are judged as more spontaneous than standard ones, as well as those realized by real speakers. Furthermore, we show that the method can be extended to other adaptation tasks, for instance, to solve the problem of inconsistency between phoneme sequences handled in TTS systems. The second part of this thesis explores a novel approach to automatic generation of speech disfluencies for TTS. Speech disfluencies are one of the most pervasive phenomena in spontaneous speech, therefore being able to automatically generate them is crucial to have more expressive synthetic speech. The proposed approach provides the advantage of generating several types of disfluencies: pauses, repetitions and revisions. To achieve this task, we formalize the problem as a theoretical process, where transformation functions are iteratively composed. We present a first implementation of the proposed process using CRFs and language models, before conducting objective and perceptual evaluations. These experiments lead to the conclusion that our proposition is effective to generate disfluencies, and highlights perspectives for future improvements.
|
Page generated in 0.0436 seconds