Dans cette thèse, nous étudions la segmentation d'un flux audio en parole, musique et parole sur musique (P/M). Cette étape est fondamentale pour toute application basée sur la transcription automatique de flux radiophoniques et plus généralement multimédias. L'application visée ici est un système de détection de mots clés dans les émissions radiophoniques. Les performances de ce système dépendront de la bonne segmentation du signal fournie par le système de discrimination parole/musique. En effet, une mauvaise classification du signal peut provoquer des omissions de mots clés ou des fausses alarmes. Afin d'améliorer la discrimination parole/musique, nous proposons une nouvelle méthode de paramétrisation du signal. Nous utilisons la décomposition en ondelettes qui permet une analyse des signaux non stationnaires dont la musique est un exemple. Nous calculons différentes énergies sur les coefficients d'ondelettes pour construire nos vecteurs de paramètres. Le signal est alors segmenté en quatre classes : parole (P), non-parole (NP), musique (M) et non-musique (NM) grâce à deux systèmes disjoints de classification HMM classe/non-classe. Cette architecture a été choisie car elle permet de trouver les meilleurs paramètres indépendamment pour chaque tâche P/NP et M/NM. Une fusion des sorties des classifieurs est alors effectuée pour obtenir la décision finale : parole, musique ou parole sur musique. Les résultats obtenus sur un corpus réel d'émissions de radio montrent que notre paramétrisation en ondelettes apporte une nette amélioration des performances en discrimination M/NM et P/M par rapport à la paramétrisation de référence fondée sur les coefficients cepstraux.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00187941 |
Date | 13 November 2007 |
Creators | Didiot, Emmanuel |
Publisher | Université Henri Poincaré - Nancy I |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0021 seconds