Global ETD Search

1	Méthodes Computationnelles en Géométrie de l'Information et Applications Temps Réel au Traitement du Signal Audio Dessein, Arnaud 13 December 2012 (has links) (PDF) Cette thèse propose des méthodes computationnelles nouvelles en géométrie de l'information, avec des applications temps réel au traitement du signal audio. Dans ce contexte, nous traitons en parallèle les problèmes applicatifs de la segmentation audio en temps réel, et de la transcription de musique polyphonique en temps réel. Nous abordons ces applications par le développement respectif de cadres théoriques pour la détection séquentielle de ruptures dans les familles exponentielles, et pour la factorisation en matrices non négatives avec des divergences convexes-concaves. D'une part, la détection séquentielle de ruptures est étudiée par l'intermédiaire de la géométrie de l'information dualement plate liée aux familles exponentielles. Nous développons notamment un cadre statistique générique et unificateur, reposant sur des tests d'hypothèses multiples à l'aide de rapports de vraisemblance généralisés exacts. Nous appliquons ce cadre à la conception d'un système modulaire pour la segmentation audio temps réel avec des types de signaux et de critères d'homogénéité arbitraires. Le système proposé contrôle le flux d'information audio au fur et à mesure qu'il se déroule dans le temps pour détecter des changements. D'autre part, nous étudions la factorisation en matrices non négatives avec des divergences convexes-concaves sur l'espace des mesures discrètes positives. En particulier, nous formulons un cadre d'optimisation générique et unificateur pour la factorisation en matrices non négatives, utilisant des bornes variationnelles par le biais de fonctions auxiliaires. Nous mettons ce cadre à profit en concevant un système temps réel de transcription de musique polyphonique avec un contrôle explicite du compromis fréquentiel pendant l'analyse. Le système développé décompose le signal musical arrivant au cours du temps sur un dictionnaire de modèles spectraux de notes. Ces contributions apportent des pistes de réflexion et des perspectives de recherche intéressantes dans le domaine du traitement du signal audio, et plus généralement de l'apprentissage automatique et du traitement du signal, dans le champ relativement jeune mais néanmoins fécond de la géométrie de l'information computationnelle. [INFO:INFO_SD] Computer Science/Sound [INFO:INFO_SD] Informatique/Son [STAT:AP] Statistics/Applications [STAT:AP] Statistiques/Applications [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning méthodes computationnelles géométrie de l'information applications temps réel traitement du signal audio détection de ruptures familles exponentielles factorisation en matrices non négatives divergences convexes-concaves segmentation audio transcription de musique polyphonique
2	Reconnaissance des sons de l'environnement dans un contexte domotique SEHILI, Mohamed El Amine 05 July 2013 (has links) (PDF) Dans beaucoup de pays du monde, on observe une importante augmentation du nombre de personnes âgées vivant seules. Depuis quelques années, un nombre significatif de projets de recherche sur l'assistance aux personnes âgées ont vu le jour. La plupart de ces projets utilisent plusieurs modalités (vidéo, son, détection de chute, etc.) pour surveiller l'activité de la personne et lui permettre de communiquer naturellement avec sa maison "intelligente", et, en cas de danger, lui venir en aide au plus vite. Ce travail a été réalisé dans le cadre du projet ANR VERSO de recherche industrielle, Sweet-Home. Les objectifs du projet sont de proposer un système domotique permettant une interaction naturelle (par commande vocale et tactile) avec la maison, et procurant plus de sécurité à l'habitant par la détection des situations de détresse. Dans ce cadre, l'objectif de ce travail est de proposer des solutions pour la reconnaissance des sons de la vie courante dans un contexte réaliste. La reconnaissance du son fonctionnera en amont d'un système de Reconnaissance Automatique de la Parole. Les performances de celui-ci dépendent donc de la fiabilité de la séparation entre la parole et les autres sons. Par ailleurs, une bonne reconnaissance de certains sons, complétée par d'autres sources informations (détection de présence, détection de chute, etc.) permettrait de bien suivre les activités de la personne et de détecter ainsi les situations de danger. Dans un premier temps, nous nous sommes intéressés aux méthodes en provenance de la Reconnaissance et Vérification du Locuteur. Dans cet esprit, nous avons testé des méthodes basées sur GMM et SVM. Nous avons, en particulier, testé le noyau SVM-GSL (SVM GMM Supervector Linear Kernel) utilisé pour la classification de séquences. SVM-GSL est une combinaison de SVM et GMM et consiste à transformer une séquence de vecteurs de longueur arbitraire en un seul vecteur de très grande taille, appelé Super Vecteur, et utilisé en entrée d'un SVM. Les expérimentations ont été menées en utilisant une base de données créée localement (18 classes de sons, plus de 1000 enregistrements), puis le corpus du projet Sweet-Home, en intégrant notre système dans un système plus complet incluant la détection multi-canaux du son et la reconnaissance de la parole. Ces premières expérimentations ont toutes été réalisées en utilisant un seul type de coefficients acoustiques, les MFCC. Par la suite, nous nous sommes penchés sur l'étude d'autres familles de coefficients en vue d'en évaluer l'utilisabilité en reconnaissance des sons de l'environnement. Notre motivation fut de trouver des représentations plus simples et/ou plus efficaces que les MFCC. En utilisant 15 familles différentes de coefficients, nous avons également expérimenté deux approches pour transformer une séquence de vecteurs en un seul vecteur, à utiliser avec un SVM linéaire. Dans le première approche, on calcule un nombre fixe de coefficients statistiques qui remplaceront toute la séquence de vecteurs. La seconde approche (une des contributions de ce travail) utilise une méthode de discrétisation pour trouver, pour chaque caractéristique d'un vecteur acoustique, les meilleurs points de découpage permettant d'associer une classe donnée à un ou plusieurs intervalles de valeurs. La probabilité de la séquence est estimée par rapport à chaque intervalle. Les probabilités obtenues ainsi sont utilisées pour construire un seul vecteur qui remplacera la séquence de vecteurs acoustiques. Les résultats obtenus montrent que certaines familles de coefficients sont effectivement plus adaptées pour reconnaître certaines classes de sons. En effet, pour la plupart des classes, les meilleurs taux de reconnaissance ont été observés avec une ou plusieurs familles de coefficients différentes des MFCC. Certaines familles sont, de surcroît, moins complexes et comptent une seule caractéristique par fenêtre d'analyse contre 16 caractéristiques pour les MFCC [INFO:INFO_SD] Computer Science/Sound [INFO:INFO_SD] Informatique/Son Reconnaissance du son Sons de l'environnement Domotique SVM (Support Vector Machines) GMM (Gaussian Mixture Models)
3	Synthèse par règles de la voix chantée contrôlée par le geste et applications musicales Feugère, Lionel 26 September 2013 (has links) (PDF) Le travail de cette thèse porte sur la modélisation de la production et du contrôle de voix chantée synthétique dans la perspective de la lutherie numérique. Nous présentons deux instruments : le Cantor Digitalis, se focalisant sur le contrôle de voyelles chantées et sur l'individualisation des voix ; et le Digitartic, destiné au contrôle de l'articulation de syllabes de type Voyelle-Consonne-Voyelle. Ils permettent, à l'aide de tablettes graphiques augmentées, des applications musicales interactives nécessitant un contrôle temporel fin des paramètres de la production vocale. La pertinence musicale de ces instruments a été établie avec notre ensemble Chorus Digitalis en participant à plusieurs concerts. Nous avons étudié en situation musicale la justesse inter-musiciens et les gestes utilisés pour réaliser les tâches musicales nécessaires à la reproduction d'un large répertoire, constitué de musiques actuelles et traditionnelles (chorale baroque, chant khayal d'Inde du Nord). Notamment, une expérience visant à analyser la faculté à contrôler la fréquence fondamentale du Cantor Digitalis a été entreprise. Les sujets devaient imiter des intervalles et quelques mélodies suivant trois modalités (avec leur propre voix, à la tablette sans et avec retour audio). Les résultats montrent une aptitude plus grande des sujets à jouer de manière précise avec la tablette plutôt qu'avec leur propre voix, tandis que l'apport de l'audio sur le jeu à la tablette est nulle dans ces conditions expérimentales. Les deux instruments sont regroupés dans une application écrite en Max/MSP fournissant également un outil pédagogique audio-visuel et interactif sur le fonctionnement de la voix. [INFO:INFO_SD] Computer Science/Sound [INFO:INFO_SD] Informatique/Son synthèse vocale contrôle gestuel voix chantée gestes musicaux instruments numériques orchestre numérique

1

Page generated in 0.0837 seconds