• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Estimation de fréquences fondamentales multiples en vue de la séparation de signaux de parole mélangés dans un même canal

Signol, François 14 December 2009 (has links) (PDF)
Cette thèse propose un algorithme d'estimation de F0 multiples (AEP) pour la parole superposée. Il s'appuie sur deux familles de peignes spectraux nommées Peignes à Dents Négatives (PDN) et Peignes à Dents Manquantes (PDM). Le produit scalaire entre un spectre d'amplitude et un peigne spectral produit une fonction de pitch qui quanti fie la force de la structure harmonique d'une fréquence donnée. Les fonctions de pitch contiennent des pics parasites provoquant des erreurs d'estimation de F0. La combinaison des fonctions de pitch de chaque PDN et PDM permet d'atténuer ces pics parasites. Cette combinaison est nommée principe de Peigne à Suppression Harmonique (PSH). Deux implémentations du principe de PSH sont décrites dont une est évaluée de manière comparative à d'autres algorithmes existant dans les situations monopitch et bipitch. Quatre méthodologies sont proposées. Les performances obtenues sont largement à la hauteur de l'état de l'art (10% d'erreurs grossières en bipitch). Cette évaluation a permis de mettre en évidence l'influence critique de la décision voisé/non-voisé sur les taux d'erreurs.
2

Structuration automatique en locuteurs par approche acoustique

Zhu, Xuan 15 October 2007 (has links) (PDF)
Cette thèse porte sur la structuration en locuteurs de différents types d'enregistrements audio, en particulier des journaux télévisés ou radiophoniques et des réunions. La structuration en locuteurs a pour objectif de répondre à la question ''qui a parlé quand'' dans un document audio donné. Cette thèse fait l'hypothèse qu'aucune connaissance a priori sur la voix de locuteurs ou sur leur nombre n'est disponible. La principale originalité du système de structuration en locuteurs pour des journaux télévisés ou radiophoniques présenté est de combiner deux étapes de regroupement en locuteurs: la première étape se fonde sur le Critère d'Information Bayesien (BIC) avec des Gaussiennes à matrice de covariance pleine et la deuxième étape de regroupement recombine les classes résultant en utilisant des techniques proposées pour l'identification du locuteur et utilisant des modèle de mélange de Gaussiennes (GMM) adaptés à partir d'un modèle générique. Ce système a été validé dans l'évaluation internationale NIST RT-04F (Rich Transcription 2004 Fall) et l'évaluation française ESTER 2005 du projet Technolangue EVALDA. Il a obtenu les meilleurs résultats dans les deux évaluations. Le système de structuration en locuteurs conçu pour les journaux télévisés a également été adapté aux réunions. Il intègre un nouveau détecteur de parole fondé sur le rapport de log-vraisemblance. Diverses techniques de normalisation des paramètres acoustiques et différentes représentations acoustiques ont été testées au cours de cette adaptation. Dans la dernière évaluation du NIST sur de réunions, le système adapté a eu un taux d'erreur de 26% environ sur les données de conférences et séminaires.

Page generated in 0.0752 seconds