Nous présentons ici un système de classification audio parole/musique tirant parti des excellentes propriétés statistiques des Machines à Vecteurs de Support. Ce problème pose les trois questions suivantes : comment exploiter efficacement les SVM, méthode d'essence discriminatoire, sur un problème à plus de deux classes, comment caractériser un signal audio de manière pertinente, et enfin comment traiter l'aspect temporel du problème ? Nous proposons un système hybride de classification multi-classes tirant parti des approches un-contre-un et par dendogramme, et permettant l'estimation de probabilités a posteriori. Ces dernières sont exploitées pour l'application de méthodes de post-traitement prenant en compte les interdépendances entre trames voisines. Nous proposons ainsi une méthode de classification par l'application de Modèles de Markov Cachés (HMM) sur les probabilités a posteriori, ainsi qu'une approche basée sur la détection de rupture entre segments au contenu acoustique "homogène". Par ailleurs, la caractérisation du signal audio étant opérée par une grande collection des descripteurs audio, nous proposons de nouveaux algorithmes de sélection de descripteurs basés sur le récent critère d'Alignement du noyau ; critère que nous avons également exploité pour la sélection de noyau dans le processus de classification. Les algorithmes proposés sont comparés aux méthodes les plus efficaces de l'état de l'art auxquelles elles constituent une alternative pertinente en termes de coût de calcul et de stockage. Le système construit sur ces contributions a fait l'objet d'une participation à la campagne d'évaluation ESTER 2, que nous présentons, accompagnée de nos résultats.
Identifer | oai:union.ndltd.org:CCSD/oai:pastel.archives-ouvertes.fr:pastel-00529331 |
Date | 21 June 2010 |
Creators | Ramona, Mathieu |
Publisher | Télécom ParisTech |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0025 seconds