Cette thèse a pour objet la modélisation de la prosodie dans le cadre de la synthèse de la parole. Nous présenterons MeLos : un système complet d'analyse et de modélisation de la prosodie, "la musique de la parole". L'objectif de cette thèse est de modéliser la stratégie, les alternatives, et le style de parole d'un locuteur pour permettre une synthèse de parole naturelle, expressive, et variée. Nous présenterons un système unifié fondé sur des modèles de Markov cachés (HMMs) à observation discrète/continue pour modéliser les caractéristiques symbolique et acoustique de la prosodie : 1) Une chaîne de traitement linguistique de surface et profonde sera introduite pour enrichir la description des caractéristiques du texte. 2) Un modèle segmental associé à la fusion de Dempster-Shafer sera utilisé pour combiner les contraintes linguistique et métrique dans la production des pauses. 3) Un modèle de trajectoire basé sur la stylisation des contours prosodiques sera présenté pour permettre de modéliser simultanément les variations à court et long terme de la F0. Le système proposé est utilisé pour modéliser les stratégies et le style d'un locuteur, et est étendu à la modélisation du style de parole par des méthodes de modélisation en contexte partagé et de normalisation du locuteur.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00694687 |
Date | 23 June 2011 |
Creators | Obin, Nicolas |
Publisher | Université Pierre et Marie Curie - Paris VI |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0018 seconds