La thèse traite de l'analyse et la classification des états émotionnels perçus dans la parole lors de conversations naturelles. La majorité des expériences ont été effectuées sur des données enregistrées dans un centre d'appel médical contenant 20h de conversation homme-homme. La première partie du travail a consisté à proposer un protocole d'annotation adapté à la complexité des données réelles avec en particulier la possibilité d'annoter deux états émotionnels par segment. Des réflexions ont été conduites sur la manière de valider ces annotations et un vecteur " émotion " a été déduit de chaque annotation. Ces vecteurs ont révélé la présence d'états émotionnels mélangés qui ont été analysés et validés par des tests perceptifs. La deuxième partie porte sur la mise en oeuvre d'algorithmes de classification pour détecter des états émotionnels après l'extraction de plus d'une centaine d'indices paralinguistiques par segment. Les segments non complexes du corpus ont été utilisés pour entraîner des classifieurs, principalement des Support Vector Machine (SVM), afin de discriminer 2 à 5 classes " Emotion ". Les performances ont également été comparées selon le type d'indices extraits et en prenant en considération le sexe ou le rôle (agent/client) du locuteur. Une collaboration a été effectuée avec d'autres sites du réseau d'excellence HUMAINE afin de comparer les indices et méthodes sur des données en allemand. Les performances du LIMSI étaient au niveau de l'état de l'art. Enfin, une comparaison entre les états émotionnels présents dans des données actées et naturelles a montré que les modèles entraînés sur un type de données ne fonctionnaient pas forcément sur l'autre.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00624085 |
Date | 20 December 2007 |
Creators | Vidrascu, Laurence |
Publisher | Université Paris Sud - Paris XI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0018 seconds