Global ETD Search

Return to search

Indexation de documents audio : Cas des grands volumes de données

Cette thèse est consacrée à l'élaboration et l'évaluation des techniques visant à renforcer la robustesse des systèmes d'indexation de documents audio au sens du locuteur. L'indexation audio au sens du locuteur consiste à reconnaître l'identité des locuteurs ainsi que leurs interventions dans un ux continu audio ou dans une base de données d'archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classication en locuteurs. La technique utilisée repose sur l'extraction des coefficients mel-cepstrales, suivi par l'apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d'hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d'indexation permet d'effectuer la mise à jour des modèles MMG de locuteur à l'aide de l'algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enn, à travers de deux études utilisant des structures arborescentes binaire ou n'aire, une réexion est conduite an de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réexions sur l'apport de l'analyse vidéo sont discutées et les besoins futurs sont explorés.

reconnaissance de locuteur

modélisation probabiliste

passage à l'échelle

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00450812
Date	16 July 2008
Creators	Rougui, Jamal
Publisher	Université de Nantes
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0204 seconds

Indexation de documents audio : Cas des grands volumes de données

Description

Links & Downloads

Tags

Additional Fields