Global ETD Search

Return to search

Structuration automatique en locuteurs par approche acoustique

Cette thèse porte sur la structuration en locuteurs de différents types d'enregistrements audio, en particulier des journaux télévisés ou radiophoniques et des réunions. La structuration en locuteurs a pour objectif de répondre à la question ''qui a parlé quand'' dans un document audio donné. Cette thèse fait l'hypothèse qu'aucune connaissance a priori sur la voix de locuteurs ou sur leur nombre n'est disponible. La principale originalité du système de structuration en locuteurs pour des journaux télévisés ou radiophoniques présenté est de combiner deux étapes de regroupement en locuteurs: la première étape se fonde sur le Critère d'Information Bayesien (BIC) avec des Gaussiennes à matrice de covariance pleine et la deuxième étape de regroupement recombine les classes résultant en utilisant des techniques proposées pour l'identification du locuteur et utilisant des modèle de mélange de Gaussiennes (GMM) adaptés à partir d'un modèle générique. Ce système a été validé dans l'évaluation internationale NIST RT-04F (Rich Transcription 2004 Fall) et l'évaluation française ESTER 2005 du projet Technolangue EVALDA. Il a obtenu les meilleurs résultats dans les deux évaluations. Le système de structuration en locuteurs conçu pour les journaux télévisés a également été adapté aux réunions. Il intègre un nouveau détecteur de parole fondé sur le rapport de log-vraisemblance. Diverses techniques de normalisation des paramètres acoustiques et différentes représentations acoustiques ont été testées au cours de cette adaptation. Dans la dernière évaluation du NIST sur de réunions, le système adapté a eu un taux d'erreur de 26% environ sur les données de conférences et séminaires.

[INFO] Computer Science

structuration en locuteurs

document audio

segmentation en locuteurs

regroupement en locuteurs

approche acoustique

détection de la parole superposée

maximum de vraisemblance

le critère d'Information Bayesien (BIC)

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00624061
Date	15 October 2007
Creators	Zhu, Xuan
Publisher	Université Paris Sud - Paris XI
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.002 seconds

Structuration automatique en locuteurs par approche acoustique

Description

Links & Downloads

Tags

Additional Fields