Global ETD Search

1	Modèles d'instruments pour la séparation de sources et la transcription d'enregistrements musicaux Vincent, Emmanuel 02 December 2004 (has links) (PDF) Depuis une quinzaine d'années, l'étude des enregistrements de musique de chambre se focalise sous deux points de vue distincts : la séparation de sources et la transcription polyphonique. La séparation de sources cherche à extraire des enregistrements les signaux correspondant aux instruments présents. La transcription polyphonique vise à les décrire par un ensemble de paramètres : noms des instruments, hauteurs et volumes des notes jouées, etc. Les méthodes existantes, fondées sur l'analyse spatiale et spectro-temporelle des enregistrements, fournissent des résultats satisfaisants sur des cas simples. Mais généralement leur performance se dégrade vite au-delà d'un nombre d'instruments limite ou en présence de réverbération, d'instruments de même tessiture ou de notes à intervalle harmonique. Notre hypothèse est que ces méthodes souffrent souvent de modèles de sources instrumentales trop génériques. Nous proposons d'y remédier par la création de modèles d'instruments spécifiques basés sur un apprentissage. Dans ce travail, nous justifions cette hypothèse par l'étude des informations pertinentes présentes dans les enregistrements musicaux et de leur exploitation par les méthodes existantes. Nous construisons ensuite de nouveaux modèles probabilistes d'instruments inspirés de l'Analyse en Sous-espaces Indépendants (ASI) et nous donnons quelques exemples d'instruments appris. Enfin nous appliquons ces modèles à la séparation et la transcription d'enregistrements réalistes, parmi lesquels des pistes de CD et des mélanges synthétiques convolutifs ou sous-déterminés de ces pistes. [INFO] Computer Science séparation de sources transcription polyphonique identification d'instruments analyse de scènes sonores modèles probabilistes de sources Analyse en Sous-espaces Indépendants
2	Modeling High-Dimensional Audio Sequences with Recurrent Neural Networks Boulanger-Lewandowski, Nicolas 04 1900 (has links) Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement. / This thesis studies models of high-dimensional sequences based on recurrent neural networks (RNNs) and their application to music and speech. While in principle RNNs can represent the long-term dependencies and complex temporal dynamics present in real-world sequences such as video, audio and natural language, they have not been used to their full potential since their introduction by Rumelhart et al. (1986a) due to the difficulty to train them efficiently by gradient-based optimization. In recent years, the successful application of Hessian-free optimization and other advanced training techniques motivated an increase of their use in many state-of-the-art systems. The work of this thesis is part of this development. The main idea is to exploit the power of RNNs to learn a probabilistic description of sequences of symbols, i.e. high-level information associated with observed signals, that in turn can be used as a prior to improve the accuracy of information retrieval. For example, by modeling the evolution of note patterns in polyphonic music, chords in a harmonic progression, phones in a spoken utterance, or individual sources in an audio mixture, we can improve significantly the accuracy of polyphonic transcription, chord recognition, speech recognition and audio source separation respectively. The practical application of our models to these tasks is detailed in the last four articles presented in this thesis. In the first article, we replace the output layer of an RNN with conditional restricted Boltzmann machines to describe much richer multimodal output distributions. In the second article, we review and develop advanced techniques to train RNNs. In the last four articles, we explore various ways to combine our symbolic models with deep networks and non-negative matrix factorization algorithms, namely using products of experts, input/output architectures, and generative frameworks that generalize hidden Markov models. We also propose and analyze efficient inference procedures for those models, such as greedy chronological search, high-dimensional beam search, dynamic programming-like pruned beam search and gradient descent. Finally, we explore issues such as label bias, teacher forcing, temporal smoothing, regularization and pre-training. Apprentissage automatique Machine learning Réseaux de neurones récurrents Recurrent neural networks Recherche d'information musicale Music information retrieval Modèles séquentiels Sequential models Transcription polyphonique Polyphonic transcription Reconnaissance de la parole Speech recognition Factorisation matricielle non-négative Non-negative matrix factorization

Search results

Modèles d'instruments pour la séparation de sources et la transcription d'enregistrements musicaux

Modeling High-Dimensional Audio Sequences with Recurrent Neural Networks