Les récentes évolutions des technologies de l'information et de la communication font qu'il est aujourd'hui facile de consulter des catalogues de morceaux de musique conséquents. De nouvelles représentations et de nouveaux algorithmes doivent de ce fait être développés afin de disposer d'une vision représentative de ces catalogues et de naviguer avec agilité dans leurs contenus. Ceci nécessite une caractérisation efficace des morceaux de musique par l'intermédiaire de descriptions macroscopiques pertinentes. Dans cette thèse, nous nous focalisons sur l'estimation de la structure des morceaux de musique : il s'agit de produire pour chaque morceau une description de son organisation par une séquence de quelques dizaines de segments structurels, définis par leurs frontières (un instant de début et un instant de fin) et par une étiquette représentant leur contenu sonore.La notion de structure musicale peut correspondre à de multiples acceptions selon les propriétés musicales choisies et l'échelle temporelle considérée. Nous introduisons le concept de structure "sémiotique" qui permet de définir une méthodologie d'annotation couvrant un vaste ensemble de styles musicaux. La détermination des segments structurels est fondée sur l'analyse des similarités entre segments au sein du morceau, sur la cohérence de leur organisation interne (modèle "système-contraste") et sur les relations contextuelles qu'ils entretiennent les uns avec les autres. Un corpus de 383 morceaux a été annoté selon cette méthodologie et mis à disposition de la communauté scientifique.En termes de contributions algorithmiques, cette thèse se concentre en premier lieu sur l'estimation des frontières structurelles, en formulant le processus de segmentation comme l'optimisation d'un coût composé de deux termes~: le premier correspond à la caractérisation des segments structurels par des critères audio et le second reflète la régularité de la structure obtenue en référence à une "pulsation structurelle". Dans le cadre de cette formulation, nous comparons plusieurs contraintes de régularité et nous étudions la combinaison de critères audio par fusion. L'estimation des étiquettes structurelles est pour sa part abordée sous l'angle d'un processus de sélection d'automates à états finis : nous proposons un critère auto-adaptatif de sélection de modèles probabilistes que nous appliquons à une description du contenu tonal. Nous présentons également une méthode d'étiquetage des segments dérivée du modèle système-contraste.Nous évaluons différents systèmes d'estimation automatique de structure musicale basés sur ces approches dans le cadre de campagnes d'évaluation nationales et internationales (Quaero, MIREX), et nous complétons cette étude par quelques éléments de diagnostic additionnels.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00853737 |
Date | 21 February 2013 |
Creators | Sargent, Gabriel |
Publisher | Université Rennes 1 |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0028 seconds