• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 5
  • 2
  • Tagged with
  • 7
  • 7
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

Durrieu, Jean-Louis 07 May 2010 (has links) (PDF)
Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR) : nous cherchons à indexer les morceaux de musique à l'aide de leur mélodie. La seconde application est la séparation aveugle de sources sonores (BASS) : extraire une piste audio pour chaque source présente dans un mélange sonore. La séparation de la mélodie principale et de l'accompagnement et l'extraction de cette mélodie sont traitées au sein d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant à l'état du filtre et de la source. Le modèle spectral choisi permet de prendre compte les fréquences fondamentales de l'instrument désiré et de séparer ce dernier de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM) et un modèle de mélange instantané (IMM). L'accompagnement est modélisé par un modèle spectral plus général. Cinq systèmes sont proposés, trois systèmes fournissent la mélodie sous forme de séquence de fréquences fondamentales, un système fournit les notes de la mélodie et le dernier système sépare l'instrument principal de l'accompagnement. Les résultats en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Nous avons ainsi réussi à intégrer de la connaissance musicale améliorant les résultats de travaux antérieurs sur la séparation de sources sonores.
2

Transcription automatique de langues peu dotées

Pellegrini, Thomas 11 April 2008 (has links) (PDF)
Les technologies liées à la parole, et en particulier la reconnaissance de la parole, suscitent un grand intérêt pour un nombre croissant de langues. La très grande majorité des langues du monde ne possèdent pas de grands corpus de données nécessaires à l'élaboration des systèmes de reconnaissance à l'état de l'art, fondés sur des paradigmes probabilistes pour la plupart. Les travaux menés au cours de cette thèse ont consisté, dans un premier temps, à identifier les difficultés rencontrées lors de l'élaboration d'un système pour une langue peu dotée. Nous avons travaillé principalement sur le problème des forts taux de mots hors-vocabulaire dus au manque de textes, qui est à nos yeux le problème le plus important pour ces langues. Nous défendons l'idée que l'utilisation de sous-unités lexicales correctement sélectionnées qui peuvent être plus petites que les mots, peut amener des gains significatifs de performances. Nous avons utilisé et modifié un algorithme probabiliste qui propose des frontières de morphe, en introduisant des propriétés qui caractérisent la confusion acoustico-phonétique éventuelle entre les unités lexicales de reconnaissance. Les expériences de reconnaissance ont été menées sur deux langues différentes : l'amharique et le turc, et des gains modestes mais significatifs ont été obtenus, autour de 5% relatifs, avec des réductions relatives de taux d'OOV comprises entre 30% et 50%.
3

Les factorisations en matrices non-négatives. Approches contraintes et probabilistes, application à la transcription automatique de musique polyphonique.

Bertin, Nancy 02 October 2009 (has links) (PDF)
La transcription automatique de la musique est l'opération qui consiste, partant du seul contenu audio, à produire une représentation symbolique (par exemple un fichier MIDI) d'un morceau de musique. Si la transcription de musique monodique est aujourd'hui bien maîtrisée, le cas de la musique polyphonique est en revanche un problème largement ouvert. Les décompositions de matrices en valeurs propres et en valeurs singulières sont des techniques classiques d'algèbre linéaire utilisées dans un grand nombre d'applications de traitement du signal. Elles permettent de représenter efficacement les données observées en utilisant un nombre limité d'atomes élémentaires. Contrairement à d'autres techniques de représentations du signal, ces atomes ne sont pas recherchés au sein d'un dictionnaire pré-défini, mais sont extraits des données elles-mêmes. La factorisation en matrices non-négatives (NMF) est une technique analogue d'algèbre linéaire, qui réduit le rang tout en fournissant des atomes à valeurs exclusivement positives, plus facilement interprétables. Elle fournit conjointement un dictionnaire extrait des données et la décomposition de ces mêmes données dans ce dictionnaire. Ce mémoire est consacré à l'étude théorique et expérimentale détaillée de ces méthodes. Il poursuit plusieurs objectifs : l'amélioration des performances des systèmes de transcription qui les utilisent, de la pertinence sémantique des représentations mi-niveau produites, et du contrôle des propriétés théoriques et pratiques des algorithmes existants et originaux mis en œuvre au cours de la thèse.
4

Approche informée pour l'analyse du son et de la musique

Fourer, Dominique 11 December 2013 (has links) (PDF)
En traitement du signal audio, l'analyse est une étape essentielle permettant de comprendre et d'inter-agir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s'avérer insuffisante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d'analyse usuels tels que l'analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite "informée". Cette nouvelle approche exploite la configuration des studios de musique actuels qui maitrisent la chaîne de traitement avant l'étape de création du mélange. Dans les solutions proposées, de l'information complémentaire minimale calculée est transmise en même temps que le signal de mélange afin de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu'une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l'intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d'un estimateur avec de l'information complémentaire permet d'améliorer les performances des approches usuelles telles que l'estimation non informée ou le codage pur.
5

Approche informée pour l’analyse du son et de la musique / Informed approach for sound and music analysis

Fourer, Dominique 11 December 2013 (has links)
En traitement du signal audio, l’analyse est une étape essentielle permettant de comprendre et d’inter-agir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s’avérer insuffisante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d’analyse usuels tels que l’analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite “informée”. Cette nouvelle approche exploite la configuration des studios de musique actuels qui maitrisent la chaîne de traitement avant l’étape de création du mélange. Dans les solutions proposées, de l’information complémentaire minimale calculée est transmise en même temps que le signal de mélange afin de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu’une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l’intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d’un estimateur avec de l’information complémentaire permet d’améliorer les performances des approches usuelles telles que l’estimation non informée ou le codage pur. / In the field of audio signal processing, analysis is an essential step which allows interactions with existing signals. In fact, the quality of transformed or synthesized audio signals depends on the accuracy over the estimated model parameters. However, theoretical limits exist and show that the best accuracy which can be reached by a classic estimator can be insufficient for the most demanding applications (e.g. active listening of music). The work which is developed in this thesis revisits well known audio analysis problems like spectral analysis, automatic transcription of music and audio sources separation using the novel ``informed'' approach. This approach takes advantage of a specific configuration where the parameters of the elementary signals which compose a mixture are known before the mixing process. Using the tools which are proposed in this thesis, the minimal side information is computed and transmitted with the mixture signal. This allows any kind of transformation of the mixture signal with a constraint over the resulting quality. When the compatibility with existing audio formats is required, the side information is embedded directly into the analyzed audio signal using a watermarking technique. This work describes several theoretical and practical aspects of audio signal processing. We show that a classic estimator combined with the sufficient side information can obtain better performances than classic approaches (classic estimation or pure coding).
6

Automatic Music Transcription based on Prior Knowledge from Musical Acoustics. Application to the repertoires of the Marovany zither of Madagascar / Transcription automatique de musique basé sur des connaissances a prior issues de l'Acoustique Musicale. Application aux répertoires de la cithare marovany de Madagascar

Cazau, Dorian 12 October 2015 (has links)
L’ethnomusicologie est l’étude de la musique en mettant l’accent sur les aspects culturels, sociaux, matériels, cognitifs et/ou biologiques. Ce sujet de thèse, motivé par Pr. Marc Chemillier, ethnomusicologue au laboratoire CAMS-EHESS, traite du développement d’un système automatique de transcription dédié aux répertoires de musique de la cithare marovany de Madagascar. Ces répertoires sont transmis oralement, résultant d’un processus de mémorisation/ transformation de motifs musicaux de base. Ces motifs sont un patrimoine culturel important du pays, et évoluent en permanence sous l’influence d’autres pratiques et genres musicaux. Les études ethnomusicologiques actuelles visent à comprendre l’évolution du répertoire traditionnel, et de préserver ce patrimoine. Pour servir cette cause, notre travail consiste à fournir des outils informatiques d’analyse musicale pour organiser et structurer des enregistrements audio de cet instrument. La transcription automatique de musique consiste à estimer les notes d’un enregistrement à travers les trois attributs : temps de début, hauteur et durée de note. Notre travail sur cette thématique repose sur l’incorporation de connaissances musicales a priori dans les systèmes informatiques. Une première étape de cette thèse fût donc de générer cette connaissance et de la formaliser en vue de cette incorporation. Cette connaissance explorer les caractéristiques multi-modales du signal musical, incluant le timbre, le langage musical et les techniques de jeu. La recherche effectée dans cette thèse se distingue en deux axes : un premier plus appliqué, consistant à développer un système de transcription de musique dédié à la marovany, et un second plus fondamental, consistant à fournir une analyse plus approfondie des contributions de la connaissance dans la transcription automatique de musique. Notre premier axe de recherche requiert une précision de transcription très bonne (c.a.d. une F-measure supérieure à 95 % avec des tolérances d’erreur standardes) pour faire office de supports analytiques dans des études musicologiques. Pour cela, nous utilisons une technologie de captation multicanale appliquée aux instruments à cordes pincées. Les systèmes développés à partir de cette technologie utilisent un capteur par corde, permettant de décomposer un signal polyphonique en une somme de signaux monophoniques respectifs à chaque corde, ce qui simplifie grandement la tâche de transcription. Différents types de capteurs (optiques, piézoélectriques, électromagnétiques) ont été testés. Après expérimentation, les capteurs piézoélectriques, bien qu’invasifs, se sont avérés avoir les meilleurs rapports signal-sur-bruit et séparabilité inter-capteurs. Cette technologie a aussi permis le développement d’une base de données dite “ground truth" (vérité de terrain), indispensable pour l’évaluation quantitative des systèmes de transcription de musique. Notre second axe de recherche propose des investigations plus approfondies concernant l’incorporation de connaissance a priori dans les systèmes automatiques de transcription de musique. Deux méthodes statistiques ont été utilisées comme socle théorique, à savoir le PLCA (Probabilistic Latent Component Analysis) pour l’estimation multi-pitch et le HMM (Hidden Markov Models). / Ethnomusicology is the study of musics around the world that emphasize their cultural, social, material, cognitive and/or biological. This PhD sub- ject, initiated by Pr. Marc CHEMILLIER, ethnomusicolog at the laboratory CAMS-EHESS, deals with the development of an automatic transcription system dedicated to the repertoires of the traditional marovany zither from Madagascar. These repertoires are orally transmitted, resulting from a pro- cess of memorization/transformation of original base musical motives. These motives represent an important culture patrimony, and are evolving contin- ually under the inuences of other musical practices and genres mainly due to globalization. Current ethnomusicological studies aim at understanding the evolution of the traditional repertoire through the transformation of its original base motives, and preserving this patrimony. Our objectives serve this cause by providing computational tools of musical analysis to organize and structure audio recordings of this instrument. Automatic Music Transcription (AMT) consists in automatically estimating the notes in a recording, through three attributes: onset time, duration and pitch. On the long range, AMT systems, with the purpose of retrieving meaningful information from complex audio, could be used in a variety of user scenarios such as searching and organizing music collections with barely any human labor. One common denominator of our diferent approaches to the task of AMT lays in the use of explicit music-related prior knowledge in our computational systems. A step of this PhD thesis was then to develop tools to generate automatically this information. We chose not to restrict ourselves to a speciprior knowledge class, and rather explore the multi-modal characteristics of musical signals, including both timbre (i.e. modeling of the generic \morphological" features of the sound related to the physics of an instrument, e.g. intermodulation, sympathetic resonances, inharmonicity) and musicological (e.g. harmonic transition, playing dynamics, tempo and rhythm) classes. This prior knowledge can then be used in com- putational systems of transcriptions. The research work on AMT performed in this PhD can be divided into a more \applied research" (axis 1), with the development of ready-to-use operational transcription tools meeting the cur- rent needs of ethnomusicologs to get reliable automatic transcriptions, and a more \basic research" (axis 2), providing deeper insight into the functioning of these tools. Our axis of research requires a transcription accuracy high enough 1 (i.e. average F-measure superior to 95 % with standard error tolerances) to provide analytical supports for musicological studies. Despite a large enthusiasm for AMT challenges, and several audio-to-MIDI converters available commercially, perfect polyphonic AMT systems are out of reach of today's al- gorithms. In this PhD, we explore the use of multichannel capturing sensory systems for AMT of several acoustic plucked string instruments, including the following traditional African zithers: the marovany (Madagascar), the Mvet (Cameroun), the N'Goni (Mali). These systems use multiple string- dependent sensors to retrieve discriminatingly some physical features of their vibrations. For the AMT task, such a system has an obvious advantage in this application, as it allows breaking down a polyphonic musical signal into the sum of monophonic signals respective to each string.
7

Approche informée pour l'analyse du son et de la musique

Fourer, Dominique 11 December 2013 (has links) (PDF)
En traitement du signal audio, l'analyse est une étape essentielle permettant de comprendre et d'interagir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s'avérer insuffisante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d'analyse usuels tels que l'analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite "informée". Cette nouvelle approche exploite la configuration des studios de musique actuels qui maîtrisent la chaîne de traitement avant l'étape de création du mélange. Dans les solutions proposées, de l'information complémentaire minimale calculée est transmise en même temps que le signal de mélange afin de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu'une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l'intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d'un estimateur avec de l'information complémentaire permet d'améliorer les performances des approches usuelles telles que l'estimation non informée ou le codage pur.

Page generated in 0.3867 seconds