• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 6
  • 1
  • Tagged with
  • 7
  • 7
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Analysis of vocal tremor and application to parkinsonian speakers / Analyse du tremblement vocal et application à des locuteurs parkinsoniens

Cnockaert, Laurence 13 February 2008 (has links)
L'analyse quantitative de la parole est pratiquée couramment en milieu clinique. Il s'agit d'un moyen d'évaluation non-invasif en vue de la documentation quantitative de la qualité de voix, et de son suivi au cours du temps. En milieu clinique, les méthodes d'analyse de signaux de parole doivent être fiables pour traiter des signaux de parole de locuteurs dysphoniques et âgés. De plus, les résultats de ces analyses doivent pouvoir se résumer à un faible nombre d'indices acoustiques pertinents et interprétables par les cliniciens. Dans le cadre de cette thèse, nous nous sommes intéressés à la caractérisation des modulations basse-fréquence du signal de parole, et à son application à des locuteurs atteints de la maladie de Parkinson et à des locuteurs normophoniques. Nous avons étudié d'une part l'estimation des modulations de la fréquence phonatoire, qui est la fréquence fondamentale du signal de parole. D'autre part, nous avons examiné les méthodes de caractérisation des modulations des fréquences des formants, qui sont les effets des résonances du conduit vocal dans le signal de parole. Nous avons développé des méthodes basées sur des transformées en ondelettes continues pour analyser ces modulations. Nous nous sommes également intéressés à l'application de méthodes d'estimation d'un conduit vocal acoustiquement équivalent à partir du signal de parole. Nous avons appliqué ces méthodes à des signaux de parole de trois corpora. Le premier corpus est composé de locuteurs atteints de la maladie de Parkinson et de locuteurs normophoniques, le deuxième de locuteurs parkinsoniens enregistrés dans deux états pharmacologiques, et le troisième de locuteurs parkinsoniens enregistrés avant et après une thérapie vocale. Des analyses statistiques ont montré des différences significatives entre les indices de modulation en fonction de l'état de santé, en fonction de l'état pharmacologique, et au cours de la thérapie vocale.
2

Inversion acoustique-articulatoire avec contraintes

Potard, Blaise 23 October 2008 (has links) (PDF)
Cette thèse porte sur 1'ínversion acoustique-articulatoire, c'est-à-dire la récupération des mouvements des articulateurs de la parole à partir du signal sonore. Nous présentons dans ce mémoire une évolution importante des méthodes de tabulation à codebooks utilisant une table de correspondants acoustique-articulatoire précalculée à l'aide d'un modèle de synthèse acoustique. En dehors de la méthode d'inversion proprement dite, nous présentons également l'introduction de deux types de contraintes : des contraintes phonétiques génériques, issues de l'analyse par des experts humains de l'invariance articulatoire des voyelles, et des contraintes visuelles, c'est-à-dire des contraintes obtenues automatiquement à partir de l'enregistrement et l'analyse d'images en stéréovision du locuteur.
3

Adaptive Sinusoidal Models for Speech with Applications in Speech Modifications and Audio Analysis / Modèles adaptifs sinusoïdaux de parole avec des applications sur la modification de la parole et l'analyse audio

Kafentzis, George 20 June 2014 (has links)
La modélisation sinusoïdale est une des méthodes les plus largement utilisés paramétriques pour la parole et le traitement des signaux audio. Inspiré par le récemment introduit Modèle aQHM et Modèle aHM, nous la vue d’ensemble de la théorie de l’ adaptation sinusoïdale modélisation et nous proposons un modèle nommé la Modèle eaQHM, qui est un non modèle paramétrique de mesure d’ajuster les amplitudes et les phases instantanées de ses fonctions de base aux caractéristiques variant dans le temps de sous-jacents du signal de parole, ainsi atténuer significativement la dite hypothèse de stationnarité locale. Le eaQHM est montré à surperformer aQHM dans l’analyse et la resynthèse de la parole voisée. Sur la base de la eaQHM , un système hybride d’analyse / synthèse de la parole est présenté (eaQHNM), et aussi d’ une version hybride de l’ aHM (aHNM). En outre, nous présentons la motivation pour une représentation pleine bande de la parole en utilisant le eaQHM, c’est, représentant toutes les parties du discours comme haute résolution des sinusoıdes AM-FM. Les expériences montrent que l’adaptation et la quasi-harmonicité est suffisante pour fournir une qualité de transparence dans la parole non voisée resynthèse. La pleine bande analyse eaQHM et système de synthèse est présenté à côté, ce qui surpasse l’état de l’art des systèmes, hybride ou pleine bande, dans la reconstruction de la parole, offrant une qualité transparente confirmé par des évaluations objectives et subjectives. En ce qui concerne les applications, le eaQHM et l’ aHM sont appliquées sur les modifications de la parole (de temps et pas mise à l’échelle). Les modifications qui en résultent sont de haute qualité, et suivent des règles très simples, par rapport à d’autres systèmes de modification état de l’art. Les résultats montrent que harmonicité est préféré au quasi- harmonicité de modifications de la parole du fait de la simplicité de la représentation intégrée. En outre, la pleine bande eaQHM est appliquée sur le problème de la modélisation des signaux audio, et en particulier d’instrument de musique retentit. Le eaQHM est évaluée et comparée à des systèmes à la pointe de la technologie, et leur est montré surpasser en termes de qualité de resynthèse, représentant avec succès l’attaque , transitoire, et une partie stationnaire d’un son d’instruments de musique. Enfin, une autre application est suggéré, à savoir l’analyse et la classification des discours émouvant. Le eaQHM est appliqué sur l’analyse des discours émouvant, offrant à ses paramètres instantanés comme des caractéristiques qui peuvent être utilisés dans la reconnaissance et la quantification vectorielle à base classification du contenu émotionnel de la parole. Bien que les modèles sinusoidaux sont pas couramment utilisés dans ces tâches, les résultats sont prometteurs. / Sinusoidal Modeling is one of the most widely used parametric methods for speech and audio signal processing. The accurate estimation of sinusoidal parameters (amplitudes, frequencies, and phases) is a critical task for close representation of the analyzed signal. In this thesis, based on recent advances in sinusoidal analysis, we propose high resolution adaptive sinusoidal models for analysis, synthesis, and modifications systems of speech. Our goal is to provide systems that represent speech in a highly accurate and compact way. Inspired by the recently introduced adaptive Quasi-Harmonic Model (aQHM) and adaptive Harmonic Model (aHM), we overview the theory of adaptive Sinusoidal Modeling and we propose a model named the extended adaptive Quasi-Harmonic Model (eaQHM), which is a non-parametric model able to adjust the instantaneous amplitudes and phases of its basis functions to the underlying time-varying characteristics of the speech signal, thus significantly alleviating the so-called local stationarity hypothesis. The eaQHM is shown to outperform aQHM in analysis and resynthesis of voiced speech. Based on the eaQHM, a hybrid analysis/synthesis system of speech is presented (eaQHNM), along with a hybrid version of the aHM (aHNM). Moreover, we present motivation for a full-band representation of speech using the eaQHM, that is, representing all parts of speech as high resolution AM-FM sinusoids. Experiments show that adaptation and quasi-harmonicity is sufficient to provide transparent quality in unvoiced speech resynthesis. The full-band eaQHM analysis and synthesis system is presented next, which outperforms state-of-the-art systems, hybrid or full-band, in speech reconstruction, providing transparent quality confirmed by objective and subjective evaluations. Regarding applications, the eaQHM and the aHM are applied on speech modifications (time and pitch scaling). The resulting modifications are of high quality, and follow very simple rules, compared to other state-of-the-art modification systems. Results show that harmonicity is preferred over quasi-harmonicity in speech modifications due to the embedded simplicity of representation. Moreover, the full-band eaQHM is applied on the problem of modeling audio signals, and specifically of musical instrument sounds. The eaQHM is evaluated and compared to state-of-the-art systems, and is shown to outperform them in terms of resynthesis quality, successfully representing the attack, transient, and stationary part of a musical instrument sound. Finally, another application is suggested, namely the analysis and classification of emotional speech. The eaQHM is applied on the analysis of emotional speech, providing its instantaneous parameters as features that can be used in recognition and Vector-Quantization-based classification of the emotional content of speech. Although the sinusoidal models are not commonly used in such tasks, results are promising.
4

Analyse du tremblement vocal et application à des locuteurs parkinsoniens / Analysis of vocal tremor and application to parkinsonian speakers

Cnockaert, Laurence 13 February 2008 (has links)
L'analyse quantitative de la parole est pratiquée couramment en milieu clinique. Il s'agit d'un moyen d'évaluation non-invasif en vue de la documentation quantitative de la qualité de voix, et de son suivi au cours du temps. En milieu clinique, les méthodes d'analyse de signaux de parole doivent être fiables pour traiter des signaux de parole de locuteurs dysphoniques et âgés. De plus, les résultats de ces analyses doivent pouvoir se résumer à un faible nombre d'indices acoustiques pertinents et interprétables par les cliniciens.<p><p><p>Dans le cadre de cette thèse, nous nous sommes intéressés à la caractérisation des modulations basse-fréquence du signal de parole, et à son application à des locuteurs atteints de la maladie de Parkinson et à des locuteurs normophoniques. <p><p>Nous avons étudié d'une part l'estimation des modulations de la fréquence phonatoire, qui est la fréquence fondamentale du signal de parole. D'autre part, nous avons examiné les méthodes de caractérisation des modulations des fréquences des formants, qui sont les effets des résonances du conduit vocal dans le signal de parole. Nous avons développé des méthodes basées sur des transformées en ondelettes continues pour analyser ces modulations. Nous nous sommes également intéressés à l'application de méthodes d'estimation d'un conduit vocal acoustiquement équivalent à partir du signal de parole. <p><p>Nous avons appliqué ces méthodes à des signaux de parole de trois corpora. Le premier corpus est composé de locuteurs atteints de la maladie de Parkinson et de locuteurs normophoniques, le deuxième de locuteurs parkinsoniens enregistrés dans deux états pharmacologiques, et le troisième de locuteurs parkinsoniens enregistrés avant et après une thérapie vocale. Des analyses statistiques ont montré des différences significatives entre les indices de modulation en fonction de l'état de santé, en fonction de l'état pharmacologique, et au cours de la thérapie vocale. / Doctorat en Sciences de l'ingénieur / info:eu-repo/semantics/nonPublished
5

Analyse de la qualité vocale appliquée à la parole expressive

Sturmel, Nicolas 02 March 2011 (has links) (PDF)
L'analyse des signaux de parole permet de comprendre le fonctionnement de l'appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l'expressivité et l'intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s'axe donc autour de la segmentation et la décomposition des signaux vocaux et de l'estimation des paramètres du modèle de production vocale : Tout d'abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d'y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l'énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l'observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d'analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d'estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l'estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d'estimations sont appliquées à un grand nombre de fichiers d'une base de données comportant différents styles d'élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l'émergence très nette de groupes de styles.
6

Analyse de la qualité vocale appliquée à la parole expressive / Voice quality analysis applied to expressive speech

Sturmel, Nicolas 02 March 2011 (has links)
L’analyse des signaux de parole permet de comprendre le fonctionnement de l’appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l’expressivité et l’intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s’axe donc autour de la segmentation et la décomposition des signaux vocaux et de l’estimation des paramètres du modèle de production vocale : Tout d’abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d’y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l’énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l’observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d’analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d’estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l’estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d’estimations sont appliquées à un grand nombre de fichiers d’une base de données comportant différents styles d’élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l’émergence très nette de groupes de styles. / Analysis of speech signals is a good way of understanding how the voice is produced, but it is also important as a way of describing new parameters in order to define the perception of voice quality. This study focuses on expressive speech, where voice quality varies a lot and is explicitly linked to the expressivity or intention of the speaker. In order to define those links, one has to be able to estimate a high number of parameters of the speech production model, but also be able to decompose the speech signal into each parts that contributes to this model. The work presented in this thesis addresses the segmentation of speech signals, their decomposition and the estimation of the voice production model parameters. At first, multi-scale analysis of speech signals is studied. Using the LoMA method that traces lines across scales from one maximum to the other on the time domain response of a wavelet filter bank, it is possible to detect a number of features on voiced speech, namely : the glottal closing instants, the energy associated to each glottal cycle, the open quotient (by estimating the time delay of the first harmonic). This method is then tested on both synthetic and real speech. Secondly, harmonic plus noise decomposition of speech signals is studied. An existing method (PAPD standing for Periodic/Aperiodic Decomposition) is modified to dynamically adapt the analysis window length to the fundamental frequency (F0) of the signal. The new method is then tested on synthetic speech where the sensibility to the estimation error on F0 is also discussed. Decomposition on real speech, along with their audio files, are also discussed. Results shows that this new method provides better quality of decomposition. Thirdly, the problem of source/filter deconvolution is addressed. The ZZT (Zeros of the Z Transform) method is compared to classical methods based on linear prediction. ZZT is then used for the estimation of the glottal flow parameters with a simple but robust method based on the joint estimation of both the open quotient and the asymmetry. The later method is then combined to the estimation of the open quotient using wavelet analysis. Finally, the three estimation methods developed in this thesis are used to analyze a large number of files from a database presenting different speaking styles. Results are discussed in order to characterize the link between style, model parameters and voice quality. We especially notice the neat appearance of speaking style groups
7

Objective assessment of disordered connected speech / Evaluation objective des troubles de la voix dans la parole connectée

Alpan, Ali 07 February 2012 (has links)
Within the context of the assessment of laryngeal function, acoustic analysis has an important place because the speech signal may be recorded non-invasively and it forms the base on which the perceptual assessment of voice is founded. Given the limitations of perceptual ratings, one has investigated vocal cues of disordered voices that are clinically relevant, summarize properties of speech signals and report on a speaker's phonation in general and voice in particular. Ideally, the acoustic descriptors should also be correlates of auditory-perceptual ratings of voice. Generally speaking, the goal of acoustic analysis is to document quantitatively the degree of severity of a voice disorder and monitor the evolution of the voice of dysphonic speakers.<p><p><p>The first part of this thesis is devoted to the analysis of disordered connected speech. The aim is to investigate vocal cues that are clinically relevant and correlated with auditory-perceptual ratings. Two approaches are investigated. The variogram-based method in the temporal domain is addressed first. The second approach is in the cepstral domain. In particular, the first rahmonic amplitude is used as an acoustic cue to describe voice quality. A multi-dimensional approach combining temporal and spectral aspects is also investigated. The goal is to check whether acoustic cues in both domains report complementary information when predicting perceptual scores.<p><p><p>Both methods are tested first on a corpus of synthetic sound stimuli that has been obtained by means of a synthesizer of disordered voices. The purpose is to learn about the link between the signal properties (fixed by the synthesis parameters) and acoustic cues.<p>In this study, we had the opportunity to use two large natural speech corpora. One of them has been perceptually rated. <p><p><p>The final part of the text is devoted to the automatic classification of voice with regard to perceived voice quality. Many studies have proposed a binary (normal/pathological) classification of voice samples. An automatic categorization according to perceived degrees of hoarseness appears, however, to be more attractive to both clinicians and technologists and more likely to be clinically relevant. Indeed, one way to reduce inter-rater variability of an auditory-perceptual evaluation is to ask several experts to participate and then to average the perceptual scores. However, auditory-perceptual evaluation of a corpus by several judges is a very laborious, time-consuming and costly task. Making this perceptual evaluation task automatic is therefore desirable. <p>The aim of this study is to exploit the support vector machine classifier that has become, over the last years, a popular tool for classification, to carry out categorization of voices according to perceived degrees of hoarseness. / Doctorat en Sciences de l'ingénieur / info:eu-repo/semantics/nonPublished

Page generated in 0.1095 seconds