Return to search

Séparation de sources pour l’audition des robots / Source separation for robot audition

Cette thèse propose des algorithmes de séparation aveugle de sources audio en utilisant un réseau de capteurs. L'application finale de ces algorithmes est l'audition des robots dans le cadre du projet ROMEO. Dans cette thèse, nous avons développé des algorithmes de séparation aveugle de sources audio basés sur des critères de parcimonie. Nous montrons que la minimisation de la norme l1 avec une technique d'optimisation du gradient naturel permet d’élaborer un algorithme se situant au niveau de l’état de l’art. Nous montrons qu’un critère basé sur la paramétrisation de la pseudo-norme lp, avec 0<p<1 en améliore les performances. Ceci revient à rendre la contrainte de parcimonie plus dure au fur et à mesure que l'algorithme avance dans ses itérations. Pour exploiter l'aspect multicapteurs de notre application (16 capteurs sont fixés autour de la tête de l'humanoïde), nous avons proposé des algorithmes de séparation avec une étape de prétraitement de formation de voies fixe. Dans le cas de l'audition des robots, les capteurs sont souvent placés sur la tête de l'humanoïde. Afin de tenir compte de l'influence de la tête sur le champ sonore proche, nous avons construit les filtres de formation en utilisant les fonctions de transfert de tête (HRTF) du robot. L'étape de formation de voies améliore les résultats de séparation par rapport à l'utilisation d'un algorithme de séparation seule de minimum 10dB. Cette thèse propose aussi les versions adaptatives de ces algorithmes. Dans le scénario réel où le nombre de sources présentes dans l'environnement du robot est inconnu et change au cours du temps, nous montrons comment détecter et suivre le nombre de sources. / This thesis proposes blind audio source separation algorithms using a microphone array. The final application of these algorithms is robot audition through the ROMEO project. In this thesis, we developed blind source separation algorithms based on a sparcity criterion. We show that l1 minimization using the natural gradient optimization technique has the same performance that the state of the art. We show that a criterion based on the parametrization of the quazi-norm lp, with 0<p<1, improves the previous results: the sparsity criterion gets harder through the iterations of the algorithm. Then, we exploited the multisensor aspect of our application (16 sensors are fixed in the head of the humanoid) and we proposed a separation algorithms with a fixed beamforming preprocessing step. In the robot audition case, the sensors are often placed on the head of the humanoid. To take into account the influence of the head in the near sound manifold, we built the beamforming filters using the head related transfer functions (HRTF) of the robot. The beamforming step improves the separation results compared to the use of a blind source separation only. This thesis also proposes the adaptive versions of those algorithms. In the real scenario where the number of sources is unknown and changes, we show how to detect and follow the number of sources.

Identiferoai:union.ndltd.org:theses.fr/2012ENST0016
Date04 May 2012
CreatorsMaazaoui, Mounira
ContributorsParis, ENST, Grenier, Yves, Abed-Meraim, Karim
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageEnglish
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0019 seconds