Les récentes évolutions des technologies de l'information et de la communication font qu'il est aujourd'hui facile de consulter des catalogues de morceaux de musique conséquents. De nouvelles représentations et de nouveaux algorithmes doivent de ce fait être développés afin de disposer d'une vision représentative de ces catalogues et de naviguer avec agilité dans leurs contenus. Ceci nécessite une caractérisation efficace des morceaux de musique par l'intermédiaire de descriptions macroscopiques pertinentes. Dans cette thèse, nous nous focalisons sur l'estimation de la structure des morceaux de musique : il s'agit de produire pour chaque morceau une description de son organisation par une séquence de quelques dizaines de segments structurels, définis par leurs frontières (un instant de début et un instant de fin) et par une étiquette représentant leur contenu sonore.La notion de structure musicale peut correspondre à de multiples acceptions selon les propriétés musicales choisies et l'échelle temporelle considérée. Nous introduisons le concept de structure “sémiotique" qui permet de définir une méthodologie d'annotation couvrant un vaste ensemble de styles musicaux. La détermination des segments structurels est fondée sur l'analyse des similarités entre segments au sein du morceau, sur la cohérence de leur organisation interne (modèle “système-contraste") et sur les relations contextuelles qu'ils entretiennent les uns avec les autres. Un corpus de 383 morceaux a été annoté selon cette méthodologie et mis à disposition de la communauté scientifique.En termes de contributions algorithmiques, cette thèse se concentre en premier lieu sur l'estimation des frontières structurelles, en formulant le processus de segmentation comme l'optimisation d'un coût composé de deux termes~: le premier correspond à la caractérisation des segments structurels par des critères audio et le second reflète la régularité de la structure obtenue en référence à une “pulsation structurelle". Dans le cadre de cette formulation, nous comparons plusieurs contraintes de régularité et nous étudions la combinaison de critères audio par fusion. L'estimation des étiquettes structurelles est pour sa part abordée sous l'angle d'un processus de sélection d'automates à états finis : nous proposons un critère auto-adaptatif de sélection de modèles probabilistes que nous appliquons à une description du contenu tonal. Nous présentons également une méthode d'étiquetage des segments dérivée du modèle système-contraste.Nous évaluons différents systèmes d'estimation automatique de structure musicale basés sur ces approches dans le cadre de campagnes d'évaluation nationales et internationales (Quaero, MIREX), et nous complétons cette étude par quelques éléments de diagnostic additionnels. / Recent progress in information and communication technologies makes it easier to access large collections of digitized music. New representations and algorithms must be developed in order to get a representative overview of these collections, and to browse their content efficiently. It is therefore necessary to characterize music pieces through relevant macroscopic descriptions. In this thesis, we focus on the estimation of the structure of music pieces : the goal is to produce for each piece a description of its organization by means of a sequence of a few dozen structural segments, each of them defined by its boundaries (starting time and ending time) and a label reflecting its audio content.The notion of music structure corresponds to a wide range of meanings depending on the musical properties and the temporal scale under consideration. We introduce an annotation methodology based on the concept of “semiotic structure" which covers a large variety of musical styles. Structural segments are determined through the analysis of their similarities within the music piece, the coherence of their inner organization (“system-contrast" model) and their contextual relationship. A corpus of 383 pieces has been annotated according to this methodology and released to the scientific community.In terms of algorithmic contributions, this thesis concentrates in the first place on the estimation of structural boundaries. We formulate the segmentation process as the optimization of a cost function which is composed of two terms. The first one corresponds to the characterization of structural segments by means of audio criteria. The second one relies on the regularity of the target structure with respect to a “structural pulsation period". In this context, we compare several regularity constraints and study the combination of audio criteria through fusion.Secondly, we consider the estimation of structural labels as a probabilistic finite-state automaton selection process : in this scope, we propose an auto-adaptive criterion for model selection, applied to a description of the tonal content. We also propose a labeling method derived from the system-contrast model.We evaluate several systems for structural segmentation of music based on these approaches in the context of national and international evaluation campaigns (Quaero, MIREX). Additional diagnostic is finally presented to complement this work.
Identifer | oai:union.ndltd.org:theses.fr/2013REN1S008 |
Date | 21 February 2013 |
Creators | Sargent, Gabriel |
Contributors | Rennes 1, Bimbot, Frédéric, Vincent, Emmanuel |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0089 seconds