Return to search

Indexation des émotions dans les documents audiovisuels à partir de la modalité auditive

Cette thèse concerne la détection des émotions dans les énoncés audio multi-lingues. Une des applications envisagées est l'indexation des états émotionnels dans les documents audio-visuels en vue de leur recherche par le contenu. Notre travail commence par l'étude de l'émotion et des modèles de représentation de celle-ci : modèles discrets, continus et hybride. Dans la suite des travaux, seul le modèle discret sera utilisé pour des raisons pratiques d'évaluation mais aussi parce qu'il est plus facilement utilisable dans les applications visées. Un état de l'art sur les différentes approches utilisées pour la reconnaissance des émotions est ensuite présenté. Le problème de la production de corpus annoté pour l'entraînement et l'évaluation des systèmes de reconnaissance de l'état émotionnel est également abordé et un panorama des corpus disponibles est effectué. Une des difficultés sur ce point est d'obtenir des corpus réalistes pour les applications envisagées. Afin d'obtenir des données plus spontanées et dans des langues plus variées, deux corpus ont été créés à partir de films cinématographiques, l'un en Anglais, l'autre en Vietnamien. La suite des travaux se décompose en quatre parties : études et recherche des meilleurs paramètres pour représenter le signal acoustique pour la reconnaissance des émotions dans celui-ci, étude et recherche des meilleurs modèles et systèmes de classification pour ce même problème, expérimentation sur la reconnaissance des émotions inter-langues, et enfin production d'un corpus annoté en vietnamien et évaluation de la reconnaissance des émotions dans cette langue qui a la particularité d'être tonale. Dans les deux premières études, les cas mono-locuteur, multi-locuteur et indépendant du locuteur ont été considérés. La recherche des meilleurs paramètres a été effectuée sur un ensemble large de paramètres locaux et globaux classiquement utilisés en traitement automatique de la parole ainsi que sur des dérivations de ceux-ci. Une approche basée sur la sélection séquentielle forcée avant a été utilisée pour le choix optimal des combinaisons de paramètres acoustiques. La même approche peut être utilisée sur des types de données différents bien que le résultat final dépende du type considéré. Parmi, les MFCC, LFCC, LPC, la fréquence fondamentale, l'intensité, le débit phonétique et d'autres coefficients extraits du domaine temporel, les paramètres de type MFCC ont donné les meilleurs résultats dans les cas considérés. Une approche de normalisation symbolique a permis d'améliorer les performances dans le cas indépendant du locuteur. Pour la recherche du meilleur modèle et système de classification associé, une approche d'élimination successive selon des cas de complexité croissante (mono-locuteur, multi-locuteur et indépendant du locuteur) a été utilisée. Les modèle GMM, HMM, SVM et VQ (quantification vectorielle) on été étudiés. Le modèle GMM est celui qui donne les meilleurs résultats sur les données considérées. Les expérimentations inter-langue (Allemand et Danois) ont montré que les méthodes développées fonctionnent bien d'une langue à une autre mais qu'une optimisation des paramètres spécifique pour chaque langue ou chaque type de données est nécessaire pour obtenir les meilleurs résultats. Ces langues sont toutefois des langues non tonales. Des essais avec le corpus créé en Vietnamien ont montré une beaucoup moins bonne généralisation dans ce cas. Cela peut être du au fait que le Vietnamien est une langue tonale mais cela peut aussi être dû à la différence entre les conditions de création des corpus : acté dans les premiers cas et plus spontané pour le Vietnamien.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00994294
Date01 July 2009
CreatorsLê, Xuân Hùng
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
TypePhD thesis

Page generated in 0.002 seconds