Return to search

Méthodes Computationnelles en Géométrie de l'Information et Applications Temps Réel au Traitement du Signal Audio

Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. Dans ce contexte, nous traitons en parallèle les problèmes applicatifs de la segmentation audio en temps réel, et de la transcription de musique polyphonique en temps réel. Nous abordons ces applications par le développement respectif de cadres théoriques pour la détection séquentielle de ruptures dans les familles exponentielles, et pour la factorisation en matrices non négatives avec des divergences convexes-concaves. D'une part, la détection séquentielle de ruptures est étudiée par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons notamment un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples à l'aide de rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. En particulier, nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes. Ces contributions apportent des pistes de réflexion et des perspectives de recherche intéressantes dans le domaine du traitement du signal audio, et plus généralement de l'apprentissage automatique et du traitement du signal, dans le champ relativement jeune mais néanmoins fécond de la géométrie de l'information computationnelle.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00768524
Date13 December 2012
CreatorsDessein, Arnaud
PublisherUniversité Pierre et Marie Curie - Paris VI
Source SetsCCSD theses-EN-ligne, France
LanguageEnglish
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0034 seconds