Global ETD Search

1	Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques Durrieu, Jean-Louis 07 May 2010 (has links) (PDF) Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores. Transcription automatique de la mélodie Séparation de sources sonores musicales Factorisation en matrices non-négatives
2	Système d'audition artificielle embarqué optimisé pour robot mobile muni d'une matrice de microphones Grondin, François January 2017 (has links) Dans un environnement non contrôlé, un robot doit pouvoir interagir avec les personnes d’une façon autonome. Cette autonomie doit également inclure une interaction grâce à la voix humaine. Lorsque l’interaction s’effectue à une distance de quelques mètres, des phénomènes tels que la réverbération et la présence de bruit ambiant doivent être pris en considération pour effectuer efficacement des tâches comme la reconnaissance de la parole ou de locuteur. En ce sens, le robot doit être en mesure de localiser, suivre et séparer les sources sonores présentes dans son environnement. L’augmentation récente de la puissance de calcul des processeurs et la diminution de leur consommation énergétique permettent dorénavant d’intégrer ces systèmes d’audition articielle sur des systèmes embarqués en temps réel. L’audition robotique est un domaine relativement jeune qui compte deux principales librairies d’audition artificielle : ManyEars et HARK. Jusqu’à présent, le nombre de microphones se limite généralement à huit, en raison de l’augmentation rapide de charge de calculs lorsque des microphones supplémentaires sont ajoutés. De plus, il est parfois difficile d’utiliser ces librairies avec des robots possédant des géométries variées puisqu’il est nécessaire de les calibrer manuellement. Cette thèse présente la librairie ODAS qui apporte des solutions à ces difficultés. Afin d’effectuer une localisation et une séparation plus robuste aux matrices de microphones fermées, ODAS introduit un modèle de directivité pour chaque microphone. Une recherche hiérarchique dans l’espace permet également de réduire la quantité de calculs nécessaires. De plus, une mesure de l’incertitude du délai d’arrivée du son est introduite pour ajuster automatiquement plusieurs paramètres et ainsi éviter une calibration manuelle du système. ODAS propose également un nouveau module de suivi de sources sonores qui emploie des filtres de Kalman plutôt que des filtres particulaires. Les résultats démontrent que les méthodes proposées réduisent la quantité de fausses détections durant la localisation, améliorent la robustesse du suivi pour des sources sonores multiples et augmentent la qualité de la séparation de 2.7 dB dans le cas d’un formateur de faisceau à variance minimale. La quantité de calculs requis diminue par un facteur allant jusqu’à 4 pour la localisation et jusqu’à 30 pour le suivi par rapport à la librairie ManyEars. Le module de séparation des sources sonores exploite plus efficacement la géométrie de la matrice de microphones, sans qu’il soit nécessaire de mesurer et calibrer manuellement le système. Avec les performances observées, la librairie ODAS ouvre aussi la porte à des applications dans le domaine de la détection des drones par le bruit, la localisation de bruits extérieurs pour une navigation plus efficace pour les véhicules autonomes, des assistants main-libre à domicile et l’intégration dans des aides auditives. Audition robotique Localisation de sources sonores Suivi de sources sonores Séparation de sources sonores Système embarqué
3	Estimation du niveau sonore de sources d'intérêt au sein de mixtures sonores urbaines : application au trafic routier / Estimation of the noise level of sources of interest within urban noise mixtures : application to road traffic Gloaguen, Jean-Rémy 03 October 2018 (has links) Des réseaux de capteurs acoustiques sont actuellement mis en place dans plusieurs grandes villes afin d’obtenir une description plus fine de l’environnement sonore urbain. Un des défis à relever est celui de réussir,à partir d’enregistrements sonores, à estimer des indicateurs utiles tels que le niveau sonore du trafic routier. Cette tâche n’est en rien triviale en raison de la multitude de sources sonores qui composent cet environnement. Pour cela, la Factorisation en Matrices Non-négatives (NMF) est considérée et appliquée sur deux corpus de mixtures sonores urbaines simulés. L’intérêt de simuler de tels mélanges est la possibilité de connaitre toutes les caractéristiques de chaque classe de son dont le niveau sonore exact du trafic routier. Le premier corpus consiste en 750 scènes de 30 secondes mélangeant une composante de trafic routier dont le niveau sonore est calibré et une classe de son plus générique. Les différents résultats ont notamment permis de proposer une nouvelle approche, appelée « NMF initialisée seuillée », qui se révèle être la plus performante. Le deuxième corpus créé permet de simuler des mixtures sonores plus représentatives des enregistrements effectués en villes, dont leur réalisme a été validé par un test perceptif. Avec une erreur moyenne d’estimation du niveau sonore inférieure à 1,2 dB, la NMF initialisée seuillée se révèle, là encore, la méthode la plus adaptée aux différents environnements sonores urbains. Ces résultats ouvrent alors la voie vers l’utilisation de cette méthode à d’autres sources sonores, celles que les voix et les sifflements d’oiseaux, qui pourront mener, à terme, à la réalisation de cartes de bruits multi-sources. / Acoustic sensor networks are being set up in several major cities in order to obtain a more detailed description of the urban sound environment. One challenge is to estimate useful indicators such as the road traffic noise level on the basis of sound recordings. This task is by no means trivial because of the multitude of sound sources that composed this environment. For this, Non-negative Matrix Factorization (NMF) is considered and applied on two corpuses of simulated urban sound mixtures. The interest of simulating such mixtures is the possibility of knowing all the characteristics of each sound class including the exact road traffic noise level. The first corpus consists of 750 30-second scenes mixing a road traffic component with a calibrated sound level and a more generic sound class. The various results have notably made it possible to propose a new approach, called ‘Thresholded Initialized NMF', which is proving to be the most effective. The second corpus created makes it possible to simulate sound mixtures more representatives of recordings made in cities whose realism has been validated by a perceptual test. With an average noise level estimation error of less than 1.3 dB, the Thresholded Initialized NMF stays the most suitable method for the different urban noise environments. These results open the way to the use of this method for other sound sources, such as birds' whistling and voices, which can eventually lead to the creation of multi-source noise maps. Acoustique urbaine Séparation de sources sonores Factorisation en matrices non-négatives Environnement sonore urbain Urban acoustics Sound source separation Non-negative Matrix Factorization Urban sound environment

1

Page generated in 0.1013 seconds