La reconnaissance de l'état émotionnel d'un locuteur est une étape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous étudions dans cette thèse la problématique du traitement automatique de la parole (TAP) orienté émotion sur des données actées et naturelles. L'étude des émotions spontanées a été effectuée en parallèle avec celles des troubles de la communication (TC), puisque ces troubles limitent les capacités d'interaction de l'enfant. Les techniques incluses dans les systèmes de TAP orienté émotion doivent reposer sur des paramètres robustes dans la description des corrélats de l'affect, mais aussi face aux contraintes liées au changement de locuteur et de contexte sémantique. Dans cet esprit, nos travaux ont exploité un ensemble de traitements automatiques pour effectuer la reconnaissance des émotions. Nous avons notamment identifié des points d'ancrage complémentaires de la parole (e.g., pseudo-phonèmes) pour extraire plusieurs types de paramètres (e.g., acoustique et prosodique) sur le signal. Des techniques de fusion ont aussi été employées pour estimer la con-tribution de ces approches dans la tâche de reconnaissance. De plus, un effort a été tout spécia-lement porté sur le développement de modèles non-convent-ionnels du rythme, puisque cette composante apparaît clairement comme étant sous modélisée dans les systèmes état-de-l'art. Les expériences effectuées dans cette thèse visent à démontrer la pertinence des points d'ancrage de la parole et des modèles du rythme pour identifier les paramètres corrélés aux émotions. L'étude des émotions prototypiques (i.e., actées) par les modèles non-conventionnels du rythme a, par exemple, permis de définir un continuum de valeurs représentant alors les classes d'émotions qui apparaissent selon la roue de Plutchik. Les analyses portant sur les TC ont été effectuées en étroite collaboration avec des équipes de cliniciens et de chercheurs en TAP orienté émotion. Ces travaux ont eu pour but d'employer des méthodes automatiques (i.e., identification des points d'ancrage de la parole et extraction de paramètres prosodiques) pour caractériser les particularités associées aux types de TC étu-diés, i.e., autisme, dysphasie et troubles envahissants du développement non-spécifiés (TED-NOS). Un groupe contrôle composé d'enfants à développement typique a aussi été étudié pour comparer les capacités prosodiques des sujets TC. Les résultats de cette étude sont prometteurs puisqu'ils ont montré que l'ensemble des sujets pathologiques pouvait être discriminé significa-tivement des typiques, tout comme les différents groupes de TC, selon deux types d'épreuves distinctes : (i) imitation de contours intonatifs (tâche contrainte) et (ii) production de parole affective spontanée (tâche non-contrainte). De plus, les résultats fournis par une analyse auto-matique des données ont permis de retrouver les caractéristiques cliniques des groupes de TC. Les techniques actuelles en TAP orienté émotion sont donc suffisamment matures pour s'affranchir des difficultés créées par l'étude de corpus contenant de la parole spontanée et/ou produite par des voix d'enfants. Par conséquent, la difficile mais au combien importante tâche " d'humanisation " des systèmes communicants peut être envisagée, puisque les machines peuvent avoir la capacité de percevoir de façon robuste l'affect dans des situations naturelles
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00825312 |
Date | 04 January 2011 |
Creators | Ringeval, Fabien |
Publisher | Université Pierre et Marie Curie - Paris VI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0023 seconds