Spelling suggestions: "subject:"indexation audio"" "subject:"ndexation audio""
1 |
Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuellesGillet, Olivier 21 June 2007 (has links) (PDF)
Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques. Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio. Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image.
|
2 |
Modélisation sinusoïdale et applications à l'indexation sonoreBetser, Michaël A. 16 June 2008 (has links) (PDF)
L'objectif de la thèse est l'analyse des signaux audio-numériques basée sur la modélisation sinusoïdale. La première partie de la thèse est dédiée à l'estimation des paramètres sinusoïdaux, et en particulier aux méthodes basées sur la transformée de Fourier. Les avantages de cette famille de méthodes sont une faible complexité algorithmique et une grande facilité d'utilisation. Un état de l'art complet des méthodes d'estimation sinusoïdale basées sur la transformée de Fourier est présenté. Nous parlons ensuite des nouveaux estimateurs qui ont été développé pendant la thèse, en particulier deux nouvelles méthodes qui permettent d'estimer tous les paramètres d'une sinusoïde modulée à la fois en amplitude et en fréquence, et dont les performances se sont révélées meilleures que la seule méthode équivalente de l'état de l'art existante, l'interpolation quadratique de la transformée de Fourier (QIFFT). L'indexation sonore est un domaine assez vaste dont la problématique est de répondre aux besoins d'accès par le contenu des documents audio. Dans la deuxième partie de la thèse nous nous sommes attachés à appliquer la modélisation sinusoïdale à deux tâches d'indexation audio pour lesquelles cette modélisation est particulièrement adaptée: l'estimation de pitch et la détection d'objets sonores. Les deux algorithmes développés font intervenir des principes similaires : un appariement des pics sinusoïdaux estimés dans le flux audio avec ceux de l'objet sonore de référence, ainsi qu'une mesure de vraisemblance de l'appariement.
|
3 |
Proposition d'architectures radio logicielles fpga pour démoduler simultanément et intégralement les bandes radios commerciales, en vue d'une indexation audio / Proposal of fpga - based software radio architectures for simultaneously and fully demodulating the commercial radio bands, with the aim of doing audio indexingHappi Tietche, Brunel 11 March 2014 (has links)
L'expansion de la radio et le développement de nouveaux standards enrichissent la diversité et la quantité de données contenues sur les ondes de radiodiffusion. Il devient alors judicieux de développer un moteur de recherches qui aurait la capacité de rendre toutes ces données accessibles comme le font les moteurs de recherche sur internet à l'image de Google. Les possibilités offertes par un tel moteur s'il existe sont nombreuses. Ainsi, le projet SurfOnHertz, qui a été lancé en 2010 et s'est terminé en 2013, avait pour but de mettre au point un navigateur qui serait capable d'indexer les flux audios de toutes les stations radios. Cette indexation se traduirait, entre autres, par de la détection de mots clés dans les flux audios, la détection de publicités, la classification de genres musicaux. Le navigateur une fois mis au point deviendrait le premier moteur de recherches de genre à traiter les contenus radiodiffusés. Relever un tel challenge nécessite d'avoir un dispositif pour capter toutes les stations en cours de diffusion dans la zone géographique concernée, les démoduler et transmettre les contenus audios à un moteur d'indexation. Ainsi, les travaux de cette thèse visent à proposer des architectures numériques portées sur une plateforme SDR pour extraire, démoduler, et mettre à disposition le contenu audio de chacune des stations diffusées dans la zone géographique du récepteur. Vu le grand nombre de standards radio existants aujourd'hui, la thèse porte principalement les standards FM et DRM30. Cependant les méthodologies proposées sont extensibles à d'autres standards.C'est à base d'un FPGA que la majeure partie des travaux a été menée. Le choix de ce type de comcomposant est justifié de par les grandes possibilités qu’il offre en termes de parallélisme de traitements, de maitrise de ressources disponibles, et d’embarquabilité. Le développement des algorithmes a été fait dans un souci de minimisation de la quantité de blocs de calculs utilisés. D’ailleurs, bon nombre d’implémentations ont été réalisées sur un Stratix II, technologie aux ressources limitées par rapport aux FPGAs d’aujourd’hui disponibles sur le marché. Cela atteste la viabilité des algorithmes présentés. Les algorithmes proposés opèrent ainsi l’extraction simultanée de tous les canaux radios lorsque les stations ne peuvent occuper que des emplacements uniformément espacés comme la FM en Europe occidentale, et aussi, pour des standards dont la répartition des stations dans le spectre semble plutôt aléatoire comme le DRM30. Une autre partie des discussions porte sur le moyen de les démoduler simultanément. / The expansion of the radio and the development of new standards enrich the diversity and the amount of data carried by the broadcast radio waves. It becomes wise to develop a search engine that has the capacity to make these accessible as do the search engines on the internet like Google. Such an engine can offer many possibilities. In that vein, the SurfOnHertz project, which was launched in 2010 and ended in 2013, aimed to develop a browser that is capable of indexing audio streams of all radio stations. This indexing would result, among others, in the detection of keywords in the audio streams, the detection of commercials, the classification of musical genres. The browser once developed would become the first search engine of its kind to address the broadcast content. Taking up such a challenge requires to have a device to capture all the stations being broadcasted in the geographical area concerned, demodulate them and transmit the audio contents to the indexing engine. Thus, the work of this thesis aim to provide digital architectures carried on a SDR platform for extracting, demodulating, and making available the audio content of each broadcast stations in the geographic area of the receiver. Before the large number of radio standards which exist today, the thesis focuses FM and DRM30 standards. However the proposed methodologies are extensible to other standards. The bulk of the work is FPGA-based. The choice of this type of component is justified by the great opportunities it offers in terms of parallelism of treatments, mastery of available resources, and embeddability. The development of algorithms was done for the sake of minimizing the amount of the used calculations blocks. Moreover, many implementations have been performed on a Stratix II technology which has limited resources compared to those of the FPGAs available today on the market. This attests to the viability of the presented algorithms. The proposed algorithms thus operate simultaneous extraction of all radio channels when the stations can only occupy uniformly spaced locations like FM in Western Europe, and also for standards of which the distribution of stations in the spectrum seems rather random as the DRM30. Another part of the discussion focuses on the means of simultaneously demodulating it.
|
4 |
Transformées redondantes pour la représentation de signaux audio : application au codage et à l'indexationRavelli, Emmanuel 27 October 2008 (has links) (PDF)
Cette thèse étudie de nouvelles techniques de représentation du signal pour le codage audio. Les codeurs audio existants sont basés soit sur une transformée (codage par transformée), soit sur un modèle paramétrique (codage paramétrique), soit sur une combinaison des deux (codage hybride). D'une part, le codage par transformée permet une qualité transparente à haut débit (ex. AAC à 64 kbps/canal), mais obtient de mauvaises performances à bas débit. D'autre part, le codage paramétrique et le codage hybride obtiennent de meilleures performances que le codage par transformée à haut débit mais ne permettent pas une qualité transparente à haut débit. La nouvelle approche de représentation du signal que nous proposons permet d'obtenir une qualité transparente à haut débit et de meilleures performances que le codage par transformée à bas débit. Cette représentation du signal est basée sur un ensemble redondant de fonctions temps-fréquence composée d'une union de plusieurs bases MDCT à différentes échelles. La première contribution majeure de cette thèse est un algorithme à la fois rapide et performant qui décompose un signal dans cette ensemble redondant de fonctions. La deuxième contribution majeure de cette thèse est un ensemble de techniques qui permettent un codage de ces représentations à la fois performant et progressif. Finalement, cette thèse étudie l'application à l'indexation audio. Nous montrons que l'utilisation d'une union de plusieurs MDCT permet de dépasser les limitations des représentations utilisées dans les codeurs par transformée (en particulier la résolution fréquentielle), ce qui rend ainsi possible une indexation dans le domaine transformée performant.
|
5 |
De l'usage des métadonnées dans l'objet sonore / The use of sound objects metadataDebaecker, Jean 09 October 2012 (has links)
La reconnaissance des émotions dans la musique est un challenge industriel et académique. À l’heure de l’explosion des contenus multimédias, il nous importe de concevoir des ensembles structurés de termes, concepts et métadonnées facilitant l’organisation et l’accès aux connaissances. Notre problématique est la suivante : est-Il possible d'avoir une connaissance a priori de l'émotion en vue de son élicitation ? Autrement dit, dans quelles mesures est-Il possible d'inscrire les émotions ressenties à l'écoute d'une oeuvre musicale dans un régime de métadonnées et de bâtir une structure formelle algorithmique permettant d'isoler le mécanisme déclencheur des émotions ? Est-Il possible de connaître l'émotion que l'on ressentira à l'écoute d'une chanson, avant de l'écouter ? Suite à l'écoute, son élicitation est-Elle possible ? Est-Il possible de formaliser une émotion dans le but de la sauvegarder et de la partager ? Nous proposons un aperçu de l'existant et du contexte applicatif ainsi qu'une réflexion sur les enjeux épistémologiques intrinsèques et liés à l'indexation même de l'émotion : à travers lune démarche psychologique, physiologique et philosophique, nous proposerons un cadre conceptuel de cinq démonstrations faisant état de l'impossible mesure de l'émotion, en vue de son élicitation. Une fois dit à travers notre cadre théorique qu'il est formellement impossible d'indexer les émotions, il nous incombe de comprendre la mécanique d'indexation cependant proposée par les industriels et académiques. Nous proposons, via l'analyse d'enquêtes quantitatives et qualitatives, la production d'un algorithme effectuant des préconisationsd'écoute d’œuvres musicales. / Emotion recognition in music is an industrial and academic challenge. In the age of multimedia content explosion, we mean to design structured sets of terms, concepts and metadata facilitating access to organized knowledge. Here is our research question : can we have an a priori knowledge of emotion that could be elicited afterwards ? In other words, to what extent can we record emotions felt while listening to music, so as to turn them into metadata ? Can we create an algorithm enabling us to detect how emotions are released ? Are we likely to guess ad then elicit the emotion an individual will feel before listening to a particular song ? Can we formalize emotions to save, record and share them ? We are giving an overview of existing research, and tackling intrinsic epistemological issues related to emotion existing, recording and sharing out. Through a psychological, physiological ad philosophical approach, we are setting a theoretical framework, composed of five demonstrations which assert we cannot measure emotions in order to elicit them. Then, a practical approach will help us to understand the indexing process proposed in academic and industrial research environments. Through the analysis of quantitative and qualitative surveys, we are defining the production of an algorithm, enabling us to recommend musical works considering emotion.
|
6 |
De l'usage des métadonnées dans l'objet sonoreDebaecker, Jean 12 October 2012 (has links) (PDF)
La reconnaissance des émotions dans la musique est un challenge industriel et académique. À l'heure de l'explosion des contenus multimédias, il devient nécessaire de concevoir des ensembles structurés de termes et concepts facilitant l'organisation et l'accès aux connaissances. Dans les bibliothèques musicales, l'analyse des sentiments et la classification par émotion sont très émergentes et demeurent un objet de recherche ambitieux. La gestion des contenus d'un objet sonaore numérisé répond à une indexation documentaire à trois niveaux : " contenu - auctorialité - matérialisation ". Ce triptyque nous semble tomber en désuétude et ne correspond plus aux attentes de l'usager. L'information musicale appelle ainsi à une production et représentation nouvelle. Notre problématique est la suivante : est-il possible d'avoir une connaissance a priori de l'émotion en vue de son élicitation ? Autrement dit, dans quelles mesures est-il possible de bâtir une structure formelle algorithmique permettant d'isoler le mécanisme déclencheur des émotions? Est-il possible de connaître l'émotion que l'on ressentira à l'écoute d'une chanson, avant de l'écouter ? Suite à l'écoute, son élicitation est-elle possible ? Est-il possible de formaliser une émotion dans le but de la sauvegarder et, ou, de la partager ? Dans ce travail de thèse, nous proposons d'abord un aperçu de l'existant et du contexte applicatif. Plusieurs scénarios très concrets sont envisageables, parmi eux : un répondeur téléphonique triant les messages enregistrés en fonction de leur humeur ; recherche de musique apaisante après une journée de travail ; recherche de musique excitante pour accompagner une activité sportive ; recherche d'opinions sur les réseaux sociaux, etc. ; Dans une seconde partie nous proposons une réflexion sur les enjeux épistémologiques intrinsèques et liés à l'indexation même de l'émotion. La " mise en œuvre d'une solution d'indexation automatique fait appel à de nombreux domaines scientifiques ".1 Afin de saisir la complexité de l'indexation de l'émotion pour l'enrichissement des métadonnées, nous allons adopter une méthodologie exploratoire interdisciplinaire. En effet, à travers une démarche psychologique, physiologique et philosophique, nous proposerons un cadre conceptuel de cinq démonstrations faisant état de l'impossible mesure de l'émotion, en vue de son élicitation. Une fois dit, à travers notre cadre théorique, qu'il est formellement impossible d'indexer les émotions ; il nous incombe de comprendre la mécanique d'indexation cependant proposée par les industriels et académiques. La réalité du terrain est telle que plusieurs interfaces web ou logicielles proposent des services d'expérience de moteur de recherche fouillant une base de données, avec des métadonnées sur les émotions. Dans la dernière partie, nous proposerons, via des enquêtes quantitatives et qualitatives, une analyse afin de soumettre une matrice algorithmique basée sur le web social capable de faire des préconisations d'écoute d'œuvres musicales eu égards aux émotions.
|
Page generated in 0.0732 seconds