Ce travail concerne la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent.<br /><br /><br />1) Le premier niveau de segmentation, appelé << sources >>, concerne la distinction entre la parole et la musique. Les sons considérés peuvent provenir par exemple de bandes-son de films ou d'émissions radiophoniques.<br /><br />Des fonctions d'observation sont étudiées, qui ont pour objectif de mettre en évidence les propriétés différentes du signal de parole et du signal de musique. Plusieurs méthodes de classification ont été étudiées. Les performances du système avec des signaux réels sont discutées.<br /><br /><br />2) Le deuxième niveau de segmentation, appelé << caractéristiques >>, concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato, avec trémolo/sans trémolo. La plupart de ces caractéristiques donnent lieu à des fonctions d'observation utilisées par le troisième niveau de segmentation.<br /><br />La détection du vibrato, l'estimation de ses paramètres (fréquence et amplitude) et sa suppression du trajet de la fondamentale ont été particulièrement étudiées. Un ensemble de techniques sont décrites. Les performances de ces techniques avec des sons réels sont discutées.<br /><br />Le vibrato est supprimé du trajet de la fondamentale original afin d'obtenir une ligne mélodique << lissée >>. Alors, ce nouveau trajet de la fondamentale peut être utilisé pour la segmentation en notes (troisième niveau de segmentation) des extraits musicaux, et peut aussi être utilisé pour des modifications de ces sons.<br /><br />La détection du vibrato est opérée seulement si, lors du premier niveau de segmentation, c'est la source << musique >> qui a été détectée.<br /><br /><br />3) Le troisième niveau de segmentation concerne la segmentation en << notes ou en phones ou plus généralement en parties stables >>, suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif...<br /><br />L'analyse est composée de quatre étapes. La première consiste à extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriée qu'elle présente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en fréquence fondamentale, celles en énergie et celles en contenu spectral. En deuxième lieu, chaque fonction d'observation est automatiquement seuillée. En troisième lieu, une fonction de décision finale, correspondant aux marques de segmentation, est construite à partir des fonctions d'observation seuillées. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuée. Les performances du système avec des sons réels sont discutées.<br /><br /><br />Les données obtenues pour un certain niveau de segmentation sont utilisées par les niveaux de segmentation de numéro d'ordre supérieurs afin d'améliorer leurs performances. <br /><br />La longueur des segments donnés par le niveau de segmentation en << sources >> peut être de quelques minutes. La longueur des segments donnés par le niveau de segmentation en << caractéristiques >> est communément plus petite : elle est disons de l'ordre de quelques dizaines de secondes. La longueur des segments donnés par le niveau de segmentation en << zones stables >> est le plus souvent inférieure à une seconde.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00010732 |
Date | 12 July 2000 |
Creators | Rossignol, Stéphane |
Publisher | Université Pierre et Marie Curie - Paris VI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0023 seconds