Global ETD Search

1	Contrôle gestuel de la prosodie et de la qualité vocale Le Beux, Sylvain 11 December 2009 (has links) (PDF) La synthèse de parole expressive constitue aujourd'hui un nouveau défi . Un moyen direct de rendre la synthèse expressive consiste à la contrôler en temps réel par les gestes d'un opérateur. Notre recherche s'est donc déroulée selon deux axes : d'une part la modi fication prosodique (hauteur et durée) de la parole enregistrée, et d'autre part la synthèse de voyelles à partir d'un modèle de source glottique. Concernant la modifi cation prosodique, nous avons implémenté un algorithme temps réel permettant la modifi cation conjointe de la hauteur et de la durée d'une phrase enregistrée. Grâce à cet outil, nous avons mené des expériences visant à valider la possibilité de modi fier la prosodie grâce au geste. Nos expériences ont montré la possibilité de reproduire avec précision une intonation donnée grâce au geste manuel. Le second axe de notre recherche s'est focalisé sur la réalisation d'un synthétiseur de voyelles, dont on peut modi fier la qualité vocale. La première étape a consisté à implémenter une version temps réel de la synthèse de l'onde de débit glottique, ainsi que des apériodicités de la source vocale. Nous pouvons ainsi contrôler la fréquence fondamentale, l'eff ort vocal, la tension, le souffle, les apériodicités structurelles et les di fférents mécanismes laryngés. Une attention particulière a été apportée à la réalisation du phonétogramme, ainsi qu'aux correspondances perceptives entre les paramètres du modèle et les dimensions vocales. Notre étude permet d'envisager à terme la modifi cation conjointe, interactive, des composantes prosodiques et de qualité vocale. [SHS] Humanities and Social Sciences synthèse vocale contrôle gestuel prosodie qualité vocale expressivité temps réel applications musicales
2	Diagnostic et évaluation automatique de la qualité vocale à partir d'indicateurs hybride Leman, Adrien 07 June 2011 (has links) (PDF) Les opérateurs de télécommunications ont besoin de superviser en temps réel la qualité vocale des services qu'ils proposent. La qualité vocale peut être évaluée par tests subjectifs auprès d'utilisateurs; mais ces méthodes sont très coûteuses et peu adaptées à la supervision. Des modèles objectifs sont ainsi proposés afin de prédire la qualité vocale à moindre coût. Cette thèse propose un modèle de diagnostic et d'évaluation utilisant les informations disponibles au point de mesure : le modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators). Il se distingue des modèles existants par deux caractéristiques principales. La première concerne la structure du cœur du modèle. Il est montré que la qualité vocale peut être représentée comme un phénomène multidimensionnel faisant intervenir trois dimensions perceptives correspondant à bruyance, codage de la parole et continuité. Cette structure permet de diagnostiquer la qualité vocale en identifiant les principales causes perceptives de sa dégradation. La deuxième caractéristique concerne le type d'indicateur utilisé pour représenter ces dimensions perceptives, à savoir l'utilisation d'indicateurs basés sur le signal et paramétriques. Les indicateurs basés sur le signal utilisent les informations numériques pour représenter les caractéristiques du signal (par exemple le rapport signal sur bruit qui donne une estimation du niveau sonore du bruit de fond). Les indicateurs paramétriques sont issus des statistiques du réseau (par exemple le pourcentage de pertes de paquets qui fournit une indication sur le niveau de discontinuité du signal de parole). L'utilisation d'indicateurs hybrides utilisant à la fois les informations du signal numérique et les statistiques du réseau permet d'améliorer les performances globales de la prédiction de la qualité vocale, comparativement aux modèles uniquement basés sur le signal (p. ex. modèle P.563) et aux modèles utilisant les indicateurs paramétriques (p. ex. modèle E). [SPI:OTHER] Engineering Sciences/Other Acoustique appliquée Qualité vocale Perception du son Perception sonore Indicateurs Modele DESQHI
3	Annulation d'écho acoustique pour terminaux mobiles à un et deux microphones / Acoustic echo cancellation for single- and dual-microphone devices : application to mobile devices Yemdji Tchassi, Christelle 18 June 2013 (has links) Mobile terminals are arguably the most popular telecommunications device of the present day. With the expectation of use anytime, anywhere, mobile terminals are increasingly used in adverse scenarios such as in hands-free mode and in noisy environments. Speech quality is commonly degraded in such cases by the presence of acoustic echo and ambient noise. In consequence, mobile terminals are generally equipped with speech signal processing algorithms in order to assure acceptable speech quality. Classical approaches to speech signal processing involve independent acoustic echo cancellation, noise suppression and post-filtering. While performance is generally acceptable, degradations are noticeable at low signal-to-echo ratios (hands-free scenarios) and computational complexity can be high. Furthermore, while mobile terminals are increasingly equipped with multiple microphones, they are generally exploited for noise suppression alone, even if there is natural potential for combined noise suppression and echo control. This thesis presents new combination and synchronization architecture for acoustic echo cancellation for single- and dual-microphone devices. It moves beyond the current state-of-the-art by reducing computational complexity while improving performance in low signal-to-echo conditions. The thesis also presents the first dual-microphone solution to double-talk detection. These contributions pave the way for further applied research in speech processing; the novel architecture is readily extendible to multiple-microphone scenarios while respecting levels of computational efficiency required for integration in current mobile terminals. / Les téléphones mobiles sont sans aucun doute les terminaux de télécommunication le plus populaire de nos jours. Le besoin de mobilité étant toujours croissant, les téléphones mobiles sont parfois utilisés dans des conditions très adverses : mains-libres ou environnements bruités. Dans ces conditions, la qualité de la parole est perturbée par la présence de l'écho acoustique et du bruit ambiant. Les terminaux sont généralement équipés d'algorithmes de traitement de la parole afin de garantir une qualité de la parole acceptable. Composés d’un annuleur d’écho adaptatif, d’une réduction de bruit et d’une suppression d’écho résiduel, les chaines de traitement de parole classiques fournissent en général une qualité de la parole acceptable moyennant une complexité de calcul importante. Néanmoins, lorsque le rapport signal à écho est faible on peut noter des dégradations du signal utile. Les terminaux mobiles récents sont de plus en plus équipés de plusieurs microphones qui ne sont alors utilisés que pour la réduction de bruit bien qu’ils présentent un indéniable intérêt pour les systèmes de réduction conjointe de bruit et d’écho résiduel. Cette thèse présente une nouvelle architecture combinée d’annulation d’écho pour terminaux mobiles à un ou deux microphones. L’architecture proposée réduit efficacement la complexité de calcul tout en améliorant la qualité de la parole dans les scénarios défavorables. Nous présentons également la première solution bi-microphones de détection de double parole. Enfin, nos techniques bi-microphones peuvent facilement être appliquées aux terminaux multi-microphones et tout en ayant une capacité calculatoire acceptable pour les téléphones mobiles. Qualité vocale Echo acoustique Multi-microphones Speech quality Acoustic echo Multi-microphones
4	Diagnostic et évaluation automatique de la qualité vocale à partir d'indicateurs hybride / Automatic speech quality evaluation and diagnostic from hybrid indicators Leman, Adrien 07 June 2011 (has links) Les opérateurs de télécommunications ont besoin de superviser en temps réel la qualité vocale des services qu'ils proposent. La qualité vocale peut être évaluée par tests subjectifs auprès d'utilisateurs; mais ces méthodes sont très coûteuses et peu adaptées à la supervision. Des modèles objectifs sont ainsi proposés afin de prédire la qualité vocale à moindre coût. Cette thèse propose un modèle de diagnostic et d’évaluation utilisant les informations disponibles au point de mesure : le modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators). Il se distingue des modèles existants par deux caractéristiques principales. La première concerne la structure du cœur du modèle. Il est montré que la qualité vocale peut être représentée comme un phénomène multidimensionnel faisant intervenir trois dimensions perceptives correspondant à bruyance, codage de la parole et continuité. Cette structure permet de diagnostiquer la qualité vocale en identifiant les principales causes perceptives de sa dégradation. La deuxième caractéristique concerne le type d’indicateur utilisé pour représenter ces dimensions perceptives, à savoir l’utilisation d’indicateurs basés sur le signal et paramétriques. Les indicateurs basés sur le signal utilisent les informations numériques pour représenter les caractéristiques du signal (par exemple le rapport signal sur bruit qui donne une estimation du niveau sonore du bruit de fond). Les indicateurs paramétriques sont issus des statistiques du réseau (par exemple le pourcentage de pertes de paquets qui fournit une indication sur le niveau de discontinuité du signal de parole). L’utilisation d’indicateurs hybrides utilisant à la fois les informations du signal numérique et les statistiques du réseau permet d’améliorer les performances globales de la prédiction de la qualité vocale, comparativement aux modèles uniquement basés sur le signal (p. ex. modèle P.563) et aux modèles utilisant les indicateurs paramétriques (p. ex. modèle E). / With increasing development of new technologies (RTC, RNIS, GSM, VoIP), tele-communication services are becoming more and more diversified. To this end, telecommunication operators need to supervise in real-time the speech quality of the services they offer. Speech quality is usually evaluated from subjective experiments.. Nevertheless, such experiments are time consuming and do not allow any supervisory control. So, accurate objective models are useful to estimate the speech quality.This thesis proposes a non-intrusive model for diagnosing and evaluating speech quality using information available at the measurement point: the DESQHI model (Diagnostic and Evaluation of Speech Quality using Hybrid Indicators). It differs from existing models in terms in two main characteristics. The first one concerns the structure of the model. It is shown that speech quality can be represented as a multidimensional phenomenon incorporating three perceptual dimensions related to noisiness, speech codec and continuity. This multidimensional structure allows for a diagnostic of speech quality based on identifying the principal features affecting speech qual-ity. The second characteristic concerns the nature of indicators (signal-based and parametric) used to represent the three perceptual dimensions. Signal-based indicators use numeric information to represent the characteristics of the signal, for example, the loudness of the speech signal. Parametric indicators are obtained from the network statistics, for example, the percentage of packet loss, which gives information about the level of the discontinuity in the speech signal. This work proposes hybrid indicators (using both signal-based and parametric metrics). It is shown that they are better speech quality predictors than existing models, either parametric only (e.g. ITU-T Recommendation G.107, also known as the E-model) or signal-based only (e.g. ITU-T Recommendation P.563 model). Acoustique appliquée Qualité vocale Perception du son Perception sonore Indicateurs Modele DESQHI Acoustic measures Sound characteristic Desqhi Sound 620.210 72
5	Evaluation objective de la qualité vocale en contexte de conversation Guéguin, Marie 04 December 2006 (has links) (PDF) La qualité vocale des systèmes de télécommunications est évaluée par les opérateurs pour satisfaire leurs usagers. Les méthodes subjectives permettent de connaître le jugement humain mais sont coûteuses : les méthodes objectives représentent une alternative. Un modèle objectif est proposé pour évaluer la qualité en contexte de conversation à partir des qualités d'écoute, de locution et d'interaction. Il est divisé en deux parties : la partie intégration combine les notes de qualité d'écoute, de locution et d'interaction pour estimer une note de qualité de conversation et la partie mesure fournit les notes objectives de qualité à la partie intégration en se basant sur les modèles existants de qualité vocale dans les différents contextes. Quatre tests subjectifs étudiant différentes dégradations de la qualité de conversation sont utilisés pour construire et valider la partie intégration du modèle. Les performances du modèle sont vérifiées en l'appliquant à des signaux réels. qualité vocale évaluation test subjectif modèle objectif systèmes de télécommunications téléphonie modélisation
6	Etude de la source glottique en voix parlée et chantée : modélisation et estimation, mesures acoustiques et électroglottographiques, perception Henrich, Nathalie 30 November 2001 (has links) (PDF) Les relations entre les paramètres de source glottique et la qualité vocale sont étudiées en voix parlée et chantée, par étude spectrale des modèles de signaux, par mesures acoustiques et électroglottographiques et par détermination des seuils différentiels. Les corrélats spectraux de ces paramètres sont évalués à partir des expressions analytiques temporelles et spectrales des modèles de signaux. Une augmentation de l'amplitude de voisement ou de la vitesse de fermeture entraîne une amplification spectrale globale. Le quotient ouvert et le coefficient d'asymétrie sont corrélés à la fréquence et la largeur de bande du formant glottique, ainsi qu'à l'amplitude de la pente spectrale. Le quotient de phase de retour affecte la pente spectrale en haute fréquence. L'estimation du quotient ouvert à partir de la différence spectrale entre les deux premiers harmoniques, H1-H2, est étudiée de façon théorique et expérimentale. Elle n'est pas adaptée aux signaux de voix chantée, où l'interaction entre source et filtre devient importante. L'utilisation des signaux électroglottographiques dérivés, qui permettent de détecter les instants d'ouverture et de fermeture glottique indépendamment du système supraglottique, est explorée et des méthodes de mesure de la fréquence fondamentale et du quotient ouvert sont proposées. Une base de données a été constituée, par enregistrement simultané des signaux acoustiques et électroglottographiques de 18 chanteurs entraînés sur des voyelles tenues, des sons filés ou des phrases parlées et chantées. Le quotient ouvert est analysé en fonction de l'intensité vocale et de la fréquence fondamentale, dans les deux principaux mécanismes laryngés de production vocale. Il présente des valeurs plus élevées en mécanisme II (0.5 < Oq < 0.95) qu'en mécanisme I (0.3 < Oq < 0.8) et la transition entre mécanismes s'accompagne d'un saut marqué de quotient ouvert. Il est fortement corrélé à l'intensité vocale en mécanisme I et à la fréquence fondamentale en mécanisme II et dépend de l'ouverture de la voyelle émise. Les seuils différentiels associés au quotient ouvert et au coefficient d'asymétrie sont mesurés. Le seuil différentiel relatif DOq/Oq est de l'ordre de 14 % pour 20 sujets non-entraînés et 10 % pour 10 sujets entraînés. Il ne varie pas lors d'un changement de voyelle ou de fréquence fondamentale, mais dépend du paramètre d'amplitude et de la présence ou non d'un vibrato. voix source glottique qualité vocale électroglottographie quotient ouvert mécanismes laryngés synthèse de voix chantée perception
7	Développement d'une méthode de diagnostic technique des dégradations de qualité vocale perçue des communications téléphoniques à partir d'une analyse du signal de parole / Development of a technical diagnostic method for voice quality impairments perceived in telephone communications, based on an analysis of speech signal Tiemounou, Sibiri 17 February 2014 (has links) Les opérateurs de télécommunications se doivent de maîtriser et d'évaluer la qualité des services qu'ils offrent à leurs clients, dans un contexte en perpétuelle évolution. Comme alternative rapide et à moindre coût aux évaluations fondées sur l'interrogation d'utilisateurs, des outils de mesure ont été développés, qui intègrent des modèles permettant de prédire la qualité perçue. Cette thèse avait pour but de concevoir un outil de diagnostic de qualité vocale (applicable aux services de téléphonie), complémentaire à de tels modèles objectifs, afin d'obtenir des informations spécifiques sur la nature des défauts présents sur le signal audio et d'orienter vers des causes potentielles de ces défauts. En partant de l'hypothèse que la qualité vocale est multidimensionnelle, nous avons fondé l'outil de diagnostic sur la modélisation des quatre dimensions identifiées dans la littérature : la Bruyance, représentative des bruits de fond, la Continuité, relative à la perception des discontinuités dans le signal, la Coloration, liée aux distorsions du spectre de la voix, et la Sonie, traduisant la perception du niveau sonore. Chacune de ces dimensions est quantifiée à l'aide d'indicateurs de qualité issus de l'analyse du signal audio. Notre démarche a consisté, dans un premier temps, à rechercher dans des modèles objectifs récents (notamment la norme P.863 de l'UIT-T) des indicateurs de qualité et à en développer d'autres pour caractériser parfaitement chaque dimension. S'est ensuivie une étude de performances de ces indicateurs, les plus pertinents devant être intégrés dans notre outil de diagnostic. Finalement, pour chaque dimension, nous avons développé un module de classification automatique de défauts perçus en fonction de la nature du défaut identifié dans le signal, ainsi qu'un module supplémentaire estimant l'impact du défaut sur la qualité vocale. L'outil proposé couvre les trois bandes audio (bande étroite, bande élargie et bande super-élargie) couramment utilisées dans les systèmes de télécommunications avec, toutefois, une priorité pour les signaux en bande super-élargie, plus représentatifs des contenus audio qu'on sera amené à rencontrer dans les futurs services de télécommunications. / Quality of service is a huge issue for telecommunications operators since they have to master and evaluate it in order to satisfy their customers. To replace expensive and time-consuming human judgment methods, objective methods, integrating objective models providing a prediction of the perceived quality, have been conceived. Our research aimed at developing a technical diagnostic method, complementary to objective voice quality models, which provides specific information about the nature of the perceived voice quality impairments and identifies the underlying technical causes. Assuming that speech quality is a multidimensional phenomenon, our technical diagnostic method is built on the modelling of the four perceptual dimensions identified in the literature: “Noisiness” relative to the perceived background noise, “Continuity” linked to discontinuity, “Coloration” related to frequency–response degradations and “Loudness” corresponding to the impact of the speech level, each one being quantified by quality degradation indicators based on audio signal analysis. A crucial step of our research was to find and/or to develop relevant quality degradation indicators to perfectly characterize each dimension. To do so, we identified quality degradation indicators in the most recent objective voice quality models (particularly the ITU-T P.863 recommendation, known as POLQA) and we analysed the performance of identified indicators. Then, the most relevant indicators have been considered in our diagnostic method. Finally, for each dimension, we proposed a detection block which automatically classifies a perceived degradation according to the nature of the defect detected in the audio signal, and an additional block providing information about the impact of degradations on speech quality. The proposed technical diagnostic method is designed to cover three bandwidths (Narrowband, Wideband and Super Wideband) used in telecommunications systems with a priority investigation to Super Wideband speech signals which remain very useful for future telephony applications. Diagnostic Qualité vocale Dimension perceptive Indicateur de qualité Bande super-Élargie Diagnostic Speech quality Perceptual dimension Quality degradation indicator Super wideband bandwidth
8	Analyse de la qualité vocale appliquée à la parole expressive Sturmel, Nicolas 02 March 2011 (has links) (PDF) L'analyse des signaux de parole permet de comprendre le fonctionnement de l'appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l'expressivité et l'intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s'axe donc autour de la segmentation et la décomposition des signaux vocaux et de l'estimation des paramètres du modèle de production vocale : Tout d'abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d'y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l'énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l'observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d'analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d'estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l'estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d'estimations sont appliquées à un grand nombre de fichiers d'une base de données comportant différents styles d'élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l'émergence très nette de groupes de styles. [PHYS] Physics [INFO] Computer Science Analyse de la parole Qualité vocale Ondelettes Filtrage inverse Lpc Zzt Décomposition périodique/apériodique Jitter Shimmer Modèle LF Parole expressive Interactions source/filtre
9	Analyse de la qualité vocale appliquée à la parole expressive / Voice quality analysis applied to expressive speech Sturmel, Nicolas 02 March 2011 (has links) L’analyse des signaux de parole permet de comprendre le fonctionnement de l’appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l’expressivité et l’intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s’axe donc autour de la segmentation et la décomposition des signaux vocaux et de l’estimation des paramètres du modèle de production vocale : Tout d’abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d’y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l’énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l’observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d’analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d’estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l’estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d’estimations sont appliquées à un grand nombre de fichiers d’une base de données comportant différents styles d’élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l’émergence très nette de groupes de styles. / Analysis of speech signals is a good way of understanding how the voice is produced, but it is also important as a way of describing new parameters in order to define the perception of voice quality. This study focuses on expressive speech, where voice quality varies a lot and is explicitly linked to the expressivity or intention of the speaker. In order to define those links, one has to be able to estimate a high number of parameters of the speech production model, but also be able to decompose the speech signal into each parts that contributes to this model. The work presented in this thesis addresses the segmentation of speech signals, their decomposition and the estimation of the voice production model parameters. At first, multi-scale analysis of speech signals is studied. Using the LoMA method that traces lines across scales from one maximum to the other on the time domain response of a wavelet filter bank, it is possible to detect a number of features on voiced speech, namely : the glottal closing instants, the energy associated to each glottal cycle, the open quotient (by estimating the time delay of the first harmonic). This method is then tested on both synthetic and real speech. Secondly, harmonic plus noise decomposition of speech signals is studied. An existing method (PAPD standing for Periodic/Aperiodic Decomposition) is modified to dynamically adapt the analysis window length to the fundamental frequency (F0) of the signal. The new method is then tested on synthetic speech where the sensibility to the estimation error on F0 is also discussed. Decomposition on real speech, along with their audio files, are also discussed. Results shows that this new method provides better quality of decomposition. Thirdly, the problem of source/filter deconvolution is addressed. The ZZT (Zeros of the Z Transform) method is compared to classical methods based on linear prediction. ZZT is then used for the estimation of the glottal flow parameters with a simple but robust method based on the joint estimation of both the open quotient and the asymmetry. The later method is then combined to the estimation of the open quotient using wavelet analysis. Finally, the three estimation methods developed in this thesis are used to analyze a large number of files from a database presenting different speaking styles. Results are discussed in order to characterize the link between style, model parameters and voice quality. We especially notice the neat appearance of speaking style groups Analyse de la parole Qualité vocale Ondelettes Filtrage inverse Lpc Zzt Décomposition périodique/apériodique Jitter Shimmer Modèle LF Parole expressive Interactions source/filtre Speech analysis Voice quality Wavelets Inverse filtering Lpc Zzt Periodic/aperiodic decomposition Jitter Shimmer LF model Expressive speech Source/filter interactions

Search results