Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine du traitement de la parole: les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: la sécurité civile. Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d'une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place. Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux contenus étant ensuite fusionnés à l'étape de décision du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.
Identifer | oai:union.ndltd.org:CCSD/oai:pastel.archives-ouvertes.fr:pastel-00002533 |
Date | 06 1900 |
Creators | Clavel, Chloé |
Publisher | Télécom ParisTech |
Source Sets | CCSD theses-EN-ligne, France |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds