• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 7
  • 4
  • 1
  • Tagged with
  • 12
  • 12
  • 12
  • 8
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Modeling High-Dimensional Audio Sequences with Recurrent Neural Networks

Boulanger-Lewandowski, Nicolas 04 1900 (has links)
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement. / This thesis studies models of high-dimensional sequences based on recurrent neural networks (RNNs) and their application to music and speech. While in principle RNNs can represent the long-term dependencies and complex temporal dynamics present in real-world sequences such as video, audio and natural language, they have not been used to their full potential since their introduction by Rumelhart et al. (1986a) due to the difficulty to train them efficiently by gradient-based optimization. In recent years, the successful application of Hessian-free optimization and other advanced training techniques motivated an increase of their use in many state-of-the-art systems. The work of this thesis is part of this development. The main idea is to exploit the power of RNNs to learn a probabilistic description of sequences of symbols, i.e. high-level information associated with observed signals, that in turn can be used as a prior to improve the accuracy of information retrieval. For example, by modeling the evolution of note patterns in polyphonic music, chords in a harmonic progression, phones in a spoken utterance, or individual sources in an audio mixture, we can improve significantly the accuracy of polyphonic transcription, chord recognition, speech recognition and audio source separation respectively. The practical application of our models to these tasks is detailed in the last four articles presented in this thesis. In the first article, we replace the output layer of an RNN with conditional restricted Boltzmann machines to describe much richer multimodal output distributions. In the second article, we review and develop advanced techniques to train RNNs. In the last four articles, we explore various ways to combine our symbolic models with deep networks and non-negative matrix factorization algorithms, namely using products of experts, input/output architectures, and generative frameworks that generalize hidden Markov models. We also propose and analyze efficient inference procedures for those models, such as greedy chronological search, high-dimensional beam search, dynamic programming-like pruned beam search and gradient descent. Finally, we explore issues such as label bias, teacher forcing, temporal smoothing, regularization and pre-training.
12

De l'usage des métadonnées dans l'objet sonore

Debaecker, Jean 12 October 2012 (has links) (PDF)
La reconnaissance des émotions dans la musique est un challenge industriel et académique. À l'heure de l'explosion des contenus multimédias, il devient nécessaire de concevoir des ensembles structurés de termes et concepts facilitant l'organisation et l'accès aux connaissances. Dans les bibliothèques musicales, l'analyse des sentiments et la classification par émotion sont très émergentes et demeurent un objet de recherche ambitieux. La gestion des contenus d'un objet sonaore numérisé répond à une indexation documentaire à trois niveaux : " contenu - auctorialité - matérialisation ". Ce triptyque nous semble tomber en désuétude et ne correspond plus aux attentes de l'usager. L'information musicale appelle ainsi à une production et représentation nouvelle. Notre problématique est la suivante : est-il possible d'avoir une connaissance a priori de l'émotion en vue de son élicitation ? Autrement dit, dans quelles mesures est-il possible de bâtir une structure formelle algorithmique permettant d'isoler le mécanisme déclencheur des émotions? Est-il possible de connaître l'émotion que l'on ressentira à l'écoute d'une chanson, avant de l'écouter ? Suite à l'écoute, son élicitation est-elle possible ? Est-il possible de formaliser une émotion dans le but de la sauvegarder et, ou, de la partager ? Dans ce travail de thèse, nous proposons d'abord un aperçu de l'existant et du contexte applicatif. Plusieurs scénarios très concrets sont envisageables, parmi eux : un répondeur téléphonique triant les messages enregistrés en fonction de leur humeur ; recherche de musique apaisante après une journée de travail ; recherche de musique excitante pour accompagner une activité sportive ; recherche d'opinions sur les réseaux sociaux, etc. ; Dans une seconde partie nous proposons une réflexion sur les enjeux épistémologiques intrinsèques et liés à l'indexation même de l'émotion. La " mise en œuvre d'une solution d'indexation automatique fait appel à de nombreux domaines scientifiques ".1 Afin de saisir la complexité de l'indexation de l'émotion pour l'enrichissement des métadonnées, nous allons adopter une méthodologie exploratoire interdisciplinaire. En effet, à travers une démarche psychologique, physiologique et philosophique, nous proposerons un cadre conceptuel de cinq démonstrations faisant état de l'impossible mesure de l'émotion, en vue de son élicitation. Une fois dit, à travers notre cadre théorique, qu'il est formellement impossible d'indexer les émotions ; il nous incombe de comprendre la mécanique d'indexation cependant proposée par les industriels et académiques. La réalité du terrain est telle que plusieurs interfaces web ou logicielles proposent des services d'expérience de moteur de recherche fouillant une base de données, avec des métadonnées sur les émotions. Dans la dernière partie, nous proposerons, via des enquêtes quantitatives et qualitatives, une analyse afin de soumettre une matrice algorithmique basée sur le web social capable de faire des préconisations d'écoute d'œuvres musicales eu égards aux émotions.

Page generated in 0.1608 seconds