Spelling suggestions: "subject:"conversion dde voix"" "subject:"conversion dde noix""
1 |
Conversion de voix pour la synthèse de la paroleEN-NAJJARY, Taoufik 08 April 2005 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des travaux de recherche entrepris par la division R&D de France Telecom dans le domaine de la synthèse de la parole à partir du texte. Elle concerne plus particulièrement le domaine de la conversion de voix, technologie visant à transformer le signal de parole d'un locuteur de référence dit locuteur source, de telle façon qu'il semble, à l'écoute, avoir été prononcé par un autre locuteur cible, identifié au préalable, dit locuteur cible. Le but de cette thèse est donc la diversification de voix de synthèse via la conception et le développement d'un système de conversion de voix de haute qualité. Les approches étudiées dans cette thèse se basent sur des techniques de classification par GMM (Gaussian Mixture Model) et une modélisation du signal de parole par HNM (Harmonic plus Noise Model). Dans un premier temps, l'influence de la paramétrisation spectrale sur la performance de conversion de voix par GMM est analysée. Puis, la dépendance entre l'enveloppe spectrale et la fréquence fondamentale est mise en évidence. Deux méthodes de conversion exploitant cette dépendance sont alors proposées et évaluées favorablement par rapport à l'état de l'art existant. Les problèmes liés à la mise en oeuvre de la conversion de voix sont également abordés. Le premier problème est la complexité élevée du processus de conversion par rapport au processus de synthèse lui-même (entre 1,5 et 2 fois le coût de calcul de la synthèse elle-même). Pour cela, une technique de conversion a été développée et conduit à une réduction de la complexité d'un facteur compris entre 45 et 130. Le deuxième problème concerne la mise en oeuvre de la conversion de voix lorsque les corpus d'apprentissage source et cible sont différents. Une méthodologie a ainsi été proposée rendant possible l'apprentissage de la fonction de transformation à partir d'enregistrements quelconques.
|
2 |
Communication silencieuse: conversion de la parole chuchotée en parole claireTran, Viet-Anh 28 January 2010 (has links) (PDF)
La parole silencieuse ou murmurée est définie comme la production articulée de sons, avec très peu de vibration des cordes vocales dans le cas du chuchotement, et aucune vibration dans le cas du murmure, produite par les mouvements et les interactions des organes de la parole tels que la langue, le voile du palais, les lèvres, etc., dans le but d'éviter d'être entendue par plusieurs personnes. La parole silencieuse ou murmurée est utilisée généralement pour la communication privée et confidentielle ou peut être employée par les personnes présentant un handicap laryngé et qui ne peuvent pas parler normalement. Cependant, il est difficile d'employer directement la parole silencieuse (murmurée) pour la communication face à face ou avec un téléphone portable parce que le contenu linguistique et l'information paralinguistique dans le message prononcé sont dégradés fortement quand le locuteur murmure ou chuchote. Une piste récente de recherche est donc celle de la conversion de la parole silencieuse (ou murmurée) en voix claire afin d'avoir une voix plus intelligible et plus naturelle. Avec une telle conversion, des applications potentielles telles que la téléphonie silencieuse " ou des systèmes d'aides robustes pour les handicaps laryngés deviendraient envisageables. Notre travail dans cette thèse se concentre donc sur cette piste.
|
3 |
Transformation automatique de la parole - Etude des transformations acoustiquesMesbahi, Larbi 28 October 2010 (has links) (PDF)
Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique.
|
4 |
Détection du fondamental de la parole en temps réel : application aux voix pathologiquesBahja, Fadoua 15 June 2013 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des travaux de recherche qui visent la détermination de la fréquence fondamentale du signal de parole. La première contribution est relative au développement d'algorithmes de détection du pitch en temps réel à partir d'une autocorrélation circulaire du signal d'excitation glottique. Parmi tous les algorithmes de détection du pitch, décrits dans la littérature, rares sont ceux qui peuvent résoudre correctement tous les problèmes li'es au suivi du contour du pitch. Pour cette raison, nous avons élargi notre champ d'investigation et avons proposé de nouveaux algorithmes fondés sur la transformation en ondelettes. Pour évaluer les performances des algorithmes proposés, nous avons utilisé deux bases de données : Bagshaw et Keele. Les résultats que nous avons obtenus montrent clairement que nos algorithmes surclassent les meilleurs algorithmes de référence décrits dans la littérature. La deuxième contribution de cette thèse concerne la réalisation d'un système de conversion de voix dans le but d'améliorer la voix pathologique. Nous parlons dans ce cas d'un système de correction de voix. Notre principal apport, concernant la conversion vocale, consiste en la prédiction des coefficients cepstraux de Fourier relatifs au signal d'excitation glottique. Grâce à ce nouveau type de prédiction, nous avons pu réaliser des systèmes de conversion de voix dont les résultats, qu'ils soient objectifs ou subjectifs, valident l'approche proposée.
|
Page generated in 0.0845 seconds