• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 1
  • Tagged with
  • 5
  • 5
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Expressive sampling synthesis. Learning extended source-filter models from instrument sound databases for expressive sample manipulations / Synthèse et transformation des sons basés sur les modèles de type source-filtre étendu pour les instruments de musique

Hahn, Henrik 30 September 2015 (has links)
Dans cette thèse un système de synthèse sonore imitative sera présenté, applicable à la plupart des instruments de quasi-harmoniques. Le système se base sur les enregistrements d’une note unique qui représentent une version quantifiée de l'espace de timbre possible d'un instrument par rapport à sa hauteur et son intensité. Une méthode de transformation permet alors de générer des signaux sonores de valeurs continues des paramètres de contrôle d'expression qui sont perceptuellement cohérent avec ses équivalents acoustiques. Un modèle paramétrique de l'instrument se présente donc basé sur un modèle de filtre de source étendu avec des manipulations distinctes sur les harmoniques d’un signal et ses composantes résiduelles. Une procédure d'évaluation subjective sera présentée afin d’évaluer une variété de résultats de transformation par une comparaison directe avec des enregistrements non modifiés, afin de comparer la perception entre les résultats synthétiques et leurs équivalents acoustiques. / Within this thesis an imitative sound synthesis system will be introduced that is applicable to most quasi-harmonic instruments. The system bases upon single-note recordings that represent a quantized version of an instrument's possible timbre space with respect to its pitch and intensity dimension. A transformation method then allows to render sound signals with continuous values of the expressive control parameters which are perceptually coherent with its acoustic equivalents. A parametric instrument model is therefore presented based on an extended source-filter model with separate manipulations of a signal’s harmonic and residual components. A subjective evaluation procedure will be shown to assess a variety of transformation results by a direct comparison with unmodified recordings to determine how perceptually close the synthesis results are regarding their respective acoustic correlates.
2

Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

Durrieu, Jean-Louis 07 May 2010 (has links) (PDF)
Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores.
3

Analyse de la qualité vocale appliquée à la parole expressive

Sturmel, Nicolas 02 March 2011 (has links) (PDF)
L'analyse des signaux de parole permet de comprendre le fonctionnement de l'appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l'expressivité et l'intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s'axe donc autour de la segmentation et la décomposition des signaux vocaux et de l'estimation des paramètres du modèle de production vocale : Tout d'abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d'y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l'énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l'observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d'analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d'estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l'estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d'estimations sont appliquées à un grand nombre de fichiers d'une base de données comportant différents styles d'élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l'émergence très nette de groupes de styles.
4

Production de la voix : exploration, modèles et analyse/synthèse

Hézard, Thomas 09 December 2013 (has links) (PDF)
Ce travail porte sur l'étude de la production de la voix. L'objectif principal est de proposer des solutions pour son analyse-synthèse qui permettent une large représentation de la diversité des signaux biométriques (observés en pratique) dans le cadre du paradigme source-filtre ou de modèles physiques simplifiés. L'étude est menée selon trois axes : l'exploration de l'activité laryngée, la modélisation de la phonation et l'analyse-synthèse sonore. Après une description de l'appareil phonatoire et de modèles d'analyse-synthèse actuels, la première partie s'intéresse à l'exploration de signaux biométriques. A partir du recensement des dispositifs actuels, nous proposons un outil de synchronisation qui révèle la complexité du mouvement 3D des plis vocaux. Une étude comparative avec un système acoustique à valve humaine similaire (lèvres d'un tromboniste) est menée et le développement d'un nouvel outil combinant deux techniques récentes d'imagerie électrique est proposé. Dans la deuxième partie, deux algorithmes d'analyse sont proposés pour un modèle source-filtre fondé sur une représentation tous-pôles causale-anticausale du signal vocal. Un calcul du cepstre complexe est proposé, garantissant l'holomorphie sur une couronne de convergence dans le domaine en Z. Cet outil est alors exploité pour la séparation de la source et du filtre. Enfin, des représentations paramétriques des signaux d'aire glottique sont exploitées pour piloter des modèles à géométrie forcée. Un modèle de synthèse, inspiré du modèle source-filtre mais intégrant l'effet du couplage entre la glotte et le conduit vocal, et des avancées sur la modélisation de conduit vocal à profil régulier sont présentées.
5

Analyse de la qualité vocale appliquée à la parole expressive / Voice quality analysis applied to expressive speech

Sturmel, Nicolas 02 March 2011 (has links)
L’analyse des signaux de parole permet de comprendre le fonctionnement de l’appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l’expressivité et l’intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s’axe donc autour de la segmentation et la décomposition des signaux vocaux et de l’estimation des paramètres du modèle de production vocale : Tout d’abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d’y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l’énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l’observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d’analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d’estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l’estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d’estimations sont appliquées à un grand nombre de fichiers d’une base de données comportant différents styles d’élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l’émergence très nette de groupes de styles. / Analysis of speech signals is a good way of understanding how the voice is produced, but it is also important as a way of describing new parameters in order to define the perception of voice quality. This study focuses on expressive speech, where voice quality varies a lot and is explicitly linked to the expressivity or intention of the speaker. In order to define those links, one has to be able to estimate a high number of parameters of the speech production model, but also be able to decompose the speech signal into each parts that contributes to this model. The work presented in this thesis addresses the segmentation of speech signals, their decomposition and the estimation of the voice production model parameters. At first, multi-scale analysis of speech signals is studied. Using the LoMA method that traces lines across scales from one maximum to the other on the time domain response of a wavelet filter bank, it is possible to detect a number of features on voiced speech, namely : the glottal closing instants, the energy associated to each glottal cycle, the open quotient (by estimating the time delay of the first harmonic). This method is then tested on both synthetic and real speech. Secondly, harmonic plus noise decomposition of speech signals is studied. An existing method (PAPD standing for Periodic/Aperiodic Decomposition) is modified to dynamically adapt the analysis window length to the fundamental frequency (F0) of the signal. The new method is then tested on synthetic speech where the sensibility to the estimation error on F0 is also discussed. Decomposition on real speech, along with their audio files, are also discussed. Results shows that this new method provides better quality of decomposition. Thirdly, the problem of source/filter deconvolution is addressed. The ZZT (Zeros of the Z Transform) method is compared to classical methods based on linear prediction. ZZT is then used for the estimation of the glottal flow parameters with a simple but robust method based on the joint estimation of both the open quotient and the asymmetry. The later method is then combined to the estimation of the open quotient using wavelet analysis. Finally, the three estimation methods developed in this thesis are used to analyze a large number of files from a database presenting different speaking styles. Results are discussed in order to characterize the link between style, model parameters and voice quality. We especially notice the neat appearance of speaking style groups

Page generated in 0.0267 seconds