Global ETD Search

Return to search

Segmentation parole/musique pour la transcription automatique de parole continue

Dans cette thèse, nous étudions la segmentation d'un flux audio en parole, musique et parole sur musique (P/M). Cette étape est fondamentale pour toute application basée sur la transcription automatique de flux radiophoniques et plus généralement multimédias. L'application visée ici est un système de détection de mots clés dans les émissions radiophoniques. Les performances de ce système dépendront de la bonne segmentation du signal fournie par le système de discrimination parole/musique. En effet, une mauvaise classification du signal peut provoquer des omissions de mots clés ou des fausses alarmes. Afin d'améliorer la discrimination parole/musique, nous proposons une nouvelle méthode de paramétrisation du signal. Nous utilisons la décomposition en ondelettes qui permet une analyse des signaux non stationnaires dont la musique est un exemple. Nous calculons différentes énergies sur les coefficients d'ondelettes pour construire nos vecteurs de paramètres. Le signal est alors segmenté en quatre classes : parole (P), non-parole (NP), musique (M) et non-musique (NM) grâce à deux systèmes disjoints de classification HMM classe/non-classe. Cette architecture a été choisie car elle permet de trouver les meilleurs paramètres indépendamment pour chaque tâche P/NP et M/NM. Une fusion des sorties des classifieurs est alors effectuée pour obtenir la décision finale : parole, musique ou parole sur musique. Les résultats obtenus sur un corpus réel d'émissions de radio montrent que notre paramétrisation en ondelettes apporte une nette amélioration des performances en discrimination M/NM et P/M par rapport à la paramétrisation de référence fondée sur les coefficients cepstraux.

[INFO:INFO_OH] Computer Science/Other

discrimination parole/musique

ondelettes

paramètres statiques et dynamiques

paramètres à long-terme

fusion de classifieurs

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00187941
Date	13 November 2007
Creators	Didiot, Emmanuel
Publisher	Université Henri Poincaré - Nancy I
Source Sets	CCSD theses-EN-ligne, France
Language	French
Detected Language	French
Type	PhD thesis

Page generated in 0.0021 seconds

Segmentation parole/musique pour la transcription automatique de parole continue

Description

Links & Downloads

Tags

Additional Fields