Mes travaux de recherche portent sur le traitement des sons et de la musique, dont ils visent à extraire une représentation révélant leurs structures temporelles et spectrales. Diverses applications musicales ont été abordées, allant de la transcription automatique de musique à la séparation de sources, en passant par le codage audio. Une partie importante de ces recherches a été menée dans le cadre du projet ANR DESAM (Décompositions en Éléments Sonores et Applications Musicales), que j'ai coordonné de novembre 2006 à février 2010. Analyse spectrale à haute résolution. La première partie de mes travaux a été initiée dans le cadre de ma thèse, démarrée en septembre 2001 et soutenue en avril 2005, dont la finalité a été l'application des méthodes d'analyse spectrale à haute résolution au traitement des signaux audio et musicaux. Nous avons d'abord généralisé le modèle de signal sous-jacent et la méthode d'estimation et proposé une nouvelle technique de sélection de l'ordre du modèle. Par ailleurs, le nombre élevé de composantes fréquentielles et la forte dynamique spectrale des signaux audio ont nécessité de mettre en oeuvre des prétraitements adéquats et leur non-stationnarité a exigé de développer des méthodes adaptatives permettant de suivre les variations temporelles de chaque composante, en utilisant des algorithmes de poursuite de sous-espace. Ces outils ont été intégrés à la boîte à outils Matlab du projet DESAM et appliqués à la représentation temps-fréquence à haute résolution de signaux audio, à la séparation des composantes tonales et bruitées et à la synthèse avec effets sonores. A la suite de ma thèse, diverses applications musicales de ces méthodes ont été réalisées dans le cadre de collaborations avec des chercheurs et doctorants de laboratoires français ou étrangers : estimation de hauteur de notes de piano (thèse de Valentin Emiya à Télécom ParisTech), estimation de tempo musical (thèse de Miguel Alonso à Télécom ParisTech), analyse des modes couplés d'une harpe de concert (thèse de Jean-Loïc Le Carrou au LAUM, Le Mans) et codage audio (projet DESAM, collaboration avec le LMA, Marseille). D'autres applications ont également été réalisées, comme l'estimation de canal dans le domaine des communications numériques (collaboration avec l'université de Mondragón en Espagne) ou la factorisation de tenseurs structurés (collaboration avec le LSS, Gif-sur-Yvette). Décompositions non-négatives. La deuxième partie de mes travaux constitue une thématique nouvelle de- puis ma thèse, dont les différents aspects ont notamment été abordés avec les cinq doctorants que j'ai co-encadrés (Valentin Emiya, Nancy Bertin, Romain Hennequin, Benoît Fuentes et Antoine Liutkus). Elle s'intéresse à la décomposition de signaux audio à partir d'une représentation spectrale ou d'une représentation temps-fréquence, dans le but d'en extraire des éléments sonores possédant un sens musical, comme des notes de musique ou des accords. Ces décompositions prennent en compte différents critères : non-négativité de la représentation et des éléments sonores, critères psycho-acoustiques, harmonicité du spectre, régularité de l'enveloppe spectrale, régularité de l'enveloppe temporelle, variations temporelles de l'enveloppe spectrale, variations temporelles de la fréquence fondamentale. Elles s'appuient sur des extensions de la factorisation en matrices non-négatives, exprimées dans le formalisme de l'estimation bayésienne, qui permet de contraindre la décomposition en introduisant des modèles paramétriques appropriés ou des distributions a priori des paramètres. Les décompositions sont calculées à l'aide d'algorithmes multiplicatifs, dont nous avons étudié et amélioré les propriétés de convergence, ou d'algorithmes de type espérance-maximisation. Ces outils ont été appliqués à l'estimation de fréquences fondamentales multiples et à la transcription automatique de la musique. Ils ont également été intégrés à la boîte à outils Matlab du projet DESAM et leur évaluation a conduit au développement de la base de données MAPS (MIDI aligned piano sounds). Ils ont enfin été appliqués à la séparation informée des différentes sources sonores mixées dans un enregistrement stéréophonique.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00945245 |
Date | 30 November 2010 |
Creators | Badeau, Roland |
Publisher | Université Pierre et Marie Curie - Paris VI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | habilitation ࠤiriger des recherches |
Page generated in 0.0019 seconds