Global ETD Search

1	HMM-based Vietnamese Text-To-Speech : Prosodic Phrasing Modeling, Corpus Design System Design, and Evaluation / Text-To-Speech à base de HMM (Hidden Markov Model) pour le vietnamien : modélisation de la segmentation prosodique, la conception du corpus, la conception du système, et l’évaluation perceptive Nguyen, Thi Thu Trang 24 September 2015 (has links) L’objectif de cette thèse est de concevoir et de construire, un système Text-To-Speech (TTS) haute qualité à base de HMM (Hidden Markov Model) pour le vietnamien, une langue tonale. Le système est appelé VTED (Vietnamese TExt-to-speech Development system). Au vu de la grande importance de tons lexicaux, un tonophone” – un allophones dans un contexte tonal – a été proposé comme nouvelle unité de la parole dans notre système de TTS. Un nouveau corpus d’entraînement, VDTS (Vietnamese Di-Tonophone Speech corpus), a été conçu à partir d’un grand texte brut pour une couverture de 100% de di-phones tonalisés (di-tonophones) en utilisant l’algorithme glouton. Un total d’environ 4000 phrases ont été enregistrées et pré-traitées comme corpus d’apprentissage de VTED.Dans la synthèse de la parole sur la base de HMM, bien que la durée de pause puisse être modélisée comme un phonème, l’apparition de pauses ne peut pas être prédite par HMM. Les niveaux de phrasé ne peuvent pas être complètement modélisés avec des caractéristiques de base. Cette recherche vise à obtenir un découpage automatique en groupes intonatifs au moyen des seuls indices de durée. Des blocs syntaxiques constitués de phrases syntaxiques avec un nombre borné de syllabes (n), ont été proposés pour prévoir allongement final (n = 6) et pause apparente (n = 10). Des améliorations pour allongement final ont été effectuées par des stratégies de regroupement des blocs syntaxiques simples. La qualité du modèle prédictive J48-arbre-décision pour l’apparence de pause à l’aide de blocs syntaxiques, combinée avec lien syntaxique et POS (Part-Of-Speech) dispose atteint un F-score de 81,4 % (Précision = 87,6 %, Recall = 75,9 %), beaucoup mieux que le modèle avec seulement POS (F-score=43,6%) ou un lien syntaxique (F-score=52,6%).L’architecture du système a été proposée sur la base de l’architecture HTS avec une extension d’une partie traitement du langage naturel pour le Vietnamien. L’apparence de pause a été prédit par le modèle proposé. Les caractéristiques contextuelles incluent les caractéristiques d’identité de “tonophones”, les caractéristiques de localisation, les caractéristiques liées à la tonalité, et les caractéristiques prosodiques (POS, allongement final, niveaux de rupture). Mary TTS a été choisi comme plateforme pour la mise en oeuvre de VTED. Dans le test MOS (Mean Opinion Score), le premier VTED, appris avec les anciens corpus et des fonctions de base, était plutôt bonne, 0,81 (sur une échelle MOS 5 points) plus élevé que le précédent système – HoaSung (lequel utilise la sélection de l’unité non-uniforme avec le même corpus) ; mais toujours 1,2-1,5 point de moins que le discours naturel. La qualité finale de VTED, avec le nouveau corpus et le modèle de phrasé prosodique, progresse d’environ 1,04 par rapport au premier VTED, et son écart avec le langage naturel a été nettement réduit. Dans le test d’intelligibilité, le VTED final a reçu un bon taux élevé de 95,4%, seulement 2,6% de moins que le discours naturel, et 18% plus élevé que le premier. Le taux d’erreur du premier VTED dans le test d’intelligibilité générale avec le carré latin test d’environ 6-12% plus élevé que le langage naturel selon des niveaux de syllabe, de ton ou par phonème. Le résultat final ne s’écarte de la parole naturelle que de 0,4-1,4%. / The thesis objective is to design and build a high quality Hidden Markov Model (HMM-)based Text-To-Speech (TTS) system for Vietnamese – a tonal language. The system is called VTED (Vietnamese TExt-tospeech Development system). In view of the great importance of lexical tones, a “tonophone” – an allophone in tonal context – was proposed as a new speech unit in our TTS system. A new training corpus, VDTS (Vietnamese Di-Tonophone Speech corpus), was designed for 100% coverage of di-phones in tonal contexts (i.e. di-tonophones) using the greedy algorithm from a huge raw text. A total of about 4,000 sentences of VDTS were recorded and pre-processed as a training corpus of VTED.In the HMM-based speech synthesis, although pause duration can be modeled as a phoneme, the appearanceof pauses cannot be predicted by HMMs. Lower phrasing levels above words may not be completely modeled with basic features. This research aimed at automatic prosodic phrasing for Vietnamese TTS using durational clues alone as it appeared too difficult to disentangle intonation from lexical tones. Syntactic blocks, i.e. syntactic phrases with a bounded number of syllables (n), were proposed for predicting final lengthening (n = 6) and pause appearance (n = 10). Improvements for final lengthening were done by some strategies of grouping single syntactic blocks. The quality of the predictive J48-decision-tree model for pause appearance using syntactic blocks combining with syntactic link and POS (Part-Of-Speech) features reached F-score of 81.4% Precision=87.6%, Recall=75.9%), much better than that of the model with only POS (F-score=43.6%)or syntactic link (F-score=52.6%) alone.The architecture of the system was proposed on the basis of the core architecture of HTS with an extension of a Natural Language Processing part for Vietnamese. Pause appearance was predicted by the proposed model. Contextual feature set included phone identity features, locational features, tone-related features, and prosodic features (i.e. POS, final lengthening, break levels). Mary TTS was chosen as a platform for implementing VTED. In the MOS (Mean Opinion Score) test, the first VTED, trained with the old corpus and basic features, was rather good, 0.81 (on a 5 point MOS scale) higher than the previous system – HoaSung (using the non-uniform unit selection with the same training corpus); but still 1.2-1.5 point lower than the natural speech. The quality of the final VTED, trained with the new corpus and prosodic phrasing model, progressed by about 1.04 compared to the first VTED, and its gap with the natural speech was much lessened. In the tone intelligibility test, the final VTED received a high correct rate of 95.4%, only 2.6% lower than the natural speech, and 18% higher than the initial one. The error rate of the first VTED in the intelligibility test with the Latin square design was about 6-12% higher than the natural speech depending on syllable, tone or phone levels. The final one diverged about only 0.4-1.4% from the natural speech. Text-to-speech Vietnamien Langue tonale Modélisation de phrasé prosodique Text-to-speech Vietnamese Tonal language Prosodic phrasing modeling
2	Les locuteurs d’une langue tonale sont-ils de meilleurs musiciens? Effet potentiel de la connaissance native d’une langue à tons sur la perception du contraste du pitch Li, Na 11 1900 (has links) Ce mémoire consiste à offre un survol des études neuropsychologiques et électrophysiologiques concernant l’interaction possible entre le traitement du langage et la musique. Le but principal est de déterminer les raisons possibles pour lesquelles des locuteurs d’une langue à tons auraient une meilleure capacité dans la perception du contraste du pitch en musique par rapport aux individus qui ont pour langue maternelle une langue à intonation. Dans un premier temps, nous discutons du traitement neuronal de la prosodie et de la musique, tentant de montrer le chevauchement du traitement cérébral des deux domaines. Ensuite, nous présentons des notions d’une langue tonale ainsi que le traitement neuronal des tons lexicaux. Après, nous discutons des effets de transfert de la capacité du traitement du pitch en linguistique et en musique, en nous focalisant sur l’influence de la connaissance native d’une langue tonale sur la perception musicale. Pour ce faire, l’encodage du pitch et la localisation hémisphérique du traitement des tons lexicaux et la musique serons discutés. / This thesis gives an overview of neuropsychological and electrophysiological studies about the possible interaction between the processing of language and music. Our main purpose is to examine the possible reasons for which tone language speakers have a better capacity in perceiving pitch contrast in music than native speakers of an intonational language. First, we discuss the neural processing of prosody and music, attempting to show an overlap between the two domains. Next, we present the concept of a tone langue and the neural processing of lexical tones. Afterwards, we discuss the transfer effects of the processing capacity of pitch in linguistic and music by focusing on the influence of a knowledge of a tone language on the musical perception. To do this, the encoding of pitch and the hemispheric specialization will be discussed. encodage du pitch langue tonale localisation hémisphérique musique prosodie traitement neuronal encoding of pitch tone language hemispheric specialization music prosody neural processing
3	Une monographie du Bisu - Tome 1& Tome 2 Beaudouin, Patrick 20 December 1991 (has links) (PDF) Les Bisu, regroupés avec les Mpi, les Phou Noy, les Pyen et les Côông dans la famille Bisoïde, appartiennent à la division Lolo de la famille des langues tibéto-birmanes. Ils représentent, au nord de la Thaïlande, une population d'environ 500 individus répartis en 4 villages, dans un rayon de 80 km au sud de Chiang Raï. Fortement intégrés, les Bisu, que les Thaï considèrent comme des Lua (Lawa), ont abandonné la quasi-totalité de leurs traditions, adoptant le mode de vie des Yuan, les Thaï du nord. Le seul indice de leur identité à avoir, jusque-là, survécu est leur langue, déjà bien métissée d'emprunts au Thaï et dont l'extinction est prévisible à court terme. "Une monographie du Bisu" présente, en 2 tomes, la description du peuple Bisu et de sa langue. Le tome 1 comprend quatre parties distinctes : - une présentation ethnographique du peuple Bisu - une étude phonologique de la langue - l'analyse de la grammaire - Six textes retranscrivant les traditions Bisu. Le tome 2 est un dictionnaire de 1600 mots. Linguistique Descriptivisme Phonologie comparée Langue tonale Thaïlande Sino-tibétain Tibéto-birman Bisoïde Bisu
4	Normalisation de l’évaluation du potentiel musical auprès d’enfants d’âge scolaire Caron-Caplette, Émilie 08 1900 (has links) Cette étude introduit un nouvel outil d’évaluation des troubles liés à la perception et la mémoire de la musique pour les enfants âgés entre six et huit ans. La batterie d’évaluation proposée est une adaptation de la batterie de Montréal de l'évaluation de l’amusie (MBEA) afin qu’elle puisse être utilisée chez les enfants, et ce, peu importe leur langue maternelle et leur culture. Dans l'expérience 1, la batterie, qui évalue les composantes musicales suivantes : la tonalité, le contour, l’intervalle, le rythme ainsi que la mémoire incidente, a été administrée auprès de 258 enfants à Montréal et 91 à Pékin. Dans l'expérience 2, une version abrégée de la batterie a été administrée à 86 enfants à Montréal. Les deux versions ont démontré une sensibilité aux différences individuelles et à la formation musicale. Il ne semble pas y avoir une influence de l'apprentissage de la lecture et de l’écriture sur les performances, mais plutôt un effet de la culture. Effectivement, les enfants qui ont comme langue maternelle le Mandarin (une langue tonale) ont obtenu de meilleurs résultats aux tâches de discrimination liées à la composante mélodique en comparaison à leurs homologues canadiens. Pour les deux groupes d’enfants, ceux qui ont été identifiés comme potentiellement amusiques ont principalement, mais pas exclusivement, des difficultés à percevoir de fines variations de hauteurs. Le caractère prédominant du déficit lié au traitement mélodique est moins distinctif avec la version abrégée. Par ailleurs, les résultats suggèrent différentes trajectoires de développement pour le traitement de la mélodie, du rythme et de la mémoire. De ce fait, la version de la MBEA adaptée à l’enfant, renommée la batterie de Montréal d'évaluation du potentiel musical (MBEMP), est un nouvel outil qui permet d’identifier les troubles liés au traitement musical chez les enfants tout en permettant d'examiner le développement typique et atypique des habiletés musicales et leur relation présumée à d'autres fonctions cognitives. / The present study introduces a novel tool for the comprehensive assessment of musical disorders and potential in 6- to 8-year-old children. The tool is an adaptation of the Montreal Battery of Evaluation of Amusia (MBEA) for use with children from a range of language and cultural backgrounds. In Experiment 1, the battery, comprising tests of memory and of scale, contour, interval and rhythm discrimination, was administered to 258 children in Montreal and 91 in Bejing. In Experiment 2, an abbreviated version of the battery was administered to 86 Montreal children. Both versions were sensitive to individual differences and to musical education. There was little apparent influence of literacy, but there was an effect of culture. Children who spoke Mandarin (a tone language) showed enhanced melodic pitch discrimination relative to their Canadian counterparts, who mostly spoke French (a non-tone language). In both cultures, children designated as amusic were impaired primarily but not exclusively in musical pitch processing. The results also suggest distinctive developmental trajectories for melody, rhythm and memory processing. Thus, the child version of the MBEA, which should be renamed the Montreal Battery of Evaluation of Musical Potential (MBEMP), provides a means of identifying musical disorders in childhood as well as a means of examining the typical and atypical developmental course of musical abilities and their putative relation to other cognitive functions. Habiletés musicales durant l'enfance Amusie congénitale Troubles d'apprentissage Potentiel musical Mélodie Rythme Mémoire Langue tonale Musical abilities in childhood Amusia Tests of musical abilities Learning deficits Musical potential Melody Rhythm Memory Tone language
5	Normalisation de l’évaluation du potentiel musical auprès d’enfants d’âge scolaire Caron-Caplette, Émilie 08 1900 (has links) Cette étude introduit un nouvel outil d’évaluation des troubles liés à la perception et la mémoire de la musique pour les enfants âgés entre six et huit ans. La batterie d’évaluation proposée est une adaptation de la batterie de Montréal de l'évaluation de l’amusie (MBEA) afin qu’elle puisse être utilisée chez les enfants, et ce, peu importe leur langue maternelle et leur culture. Dans l'expérience 1, la batterie, qui évalue les composantes musicales suivantes : la tonalité, le contour, l’intervalle, le rythme ainsi que la mémoire incidente, a été administrée auprès de 258 enfants à Montréal et 91 à Pékin. Dans l'expérience 2, une version abrégée de la batterie a été administrée à 86 enfants à Montréal. Les deux versions ont démontré une sensibilité aux différences individuelles et à la formation musicale. Il ne semble pas y avoir une influence de l'apprentissage de la lecture et de l’écriture sur les performances, mais plutôt un effet de la culture. Effectivement, les enfants qui ont comme langue maternelle le Mandarin (une langue tonale) ont obtenu de meilleurs résultats aux tâches de discrimination liées à la composante mélodique en comparaison à leurs homologues canadiens. Pour les deux groupes d’enfants, ceux qui ont été identifiés comme potentiellement amusiques ont principalement, mais pas exclusivement, des difficultés à percevoir de fines variations de hauteurs. Le caractère prédominant du déficit lié au traitement mélodique est moins distinctif avec la version abrégée. Par ailleurs, les résultats suggèrent différentes trajectoires de développement pour le traitement de la mélodie, du rythme et de la mémoire. De ce fait, la version de la MBEA adaptée à l’enfant, renommée la batterie de Montréal d'évaluation du potentiel musical (MBEMP), est un nouvel outil qui permet d’identifier les troubles liés au traitement musical chez les enfants tout en permettant d'examiner le développement typique et atypique des habiletés musicales et leur relation présumée à d'autres fonctions cognitives. / The present study introduces a novel tool for the comprehensive assessment of musical disorders and potential in 6- to 8-year-old children. The tool is an adaptation of the Montreal Battery of Evaluation of Amusia (MBEA) for use with children from a range of language and cultural backgrounds. In Experiment 1, the battery, comprising tests of memory and of scale, contour, interval and rhythm discrimination, was administered to 258 children in Montreal and 91 in Bejing. In Experiment 2, an abbreviated version of the battery was administered to 86 Montreal children. Both versions were sensitive to individual differences and to musical education. There was little apparent influence of literacy, but there was an effect of culture. Children who spoke Mandarin (a tone language) showed enhanced melodic pitch discrimination relative to their Canadian counterparts, who mostly spoke French (a non-tone language). In both cultures, children designated as amusic were impaired primarily but not exclusively in musical pitch processing. The results also suggest distinctive developmental trajectories for melody, rhythm and memory processing. Thus, the child version of the MBEA, which should be renamed the Montreal Battery of Evaluation of Musical Potential (MBEMP), provides a means of identifying musical disorders in childhood as well as a means of examining the typical and atypical developmental course of musical abilities and their putative relation to other cognitive functions. Habiletés musicales durant l'enfance Amusie congénitale Troubles d'apprentissage Potentiel musical Mélodie Rythme Mémoire Langue tonale Musical abilities in childhood Amusia Tests of musical abilities Learning deficits Musical potential Melody Rhythm Memory Tone language

1

Page generated in 0.0389 seconds