Un robot social doit être capable d'interagir avec des humains. Pour cela, il est essentiel de savoir communiquer de façon naturelle. L'audition artificielle appliquée en robotique est une approche intéressante puisque la voix est le principal mécanisme de communication des humains entre eux. Au-delà des mots prononcés, il est aussi important de savoir y décoder le contenu paralinguistique qui donne beaucoup de renseignements sur le locuteur. Entre autres, les émotions véhiculées dans la voix du locuteur peuvent aider un robot à comprendre une situation, à savoir si une personne est satisfaite ou non de son travail, si une personne a peur, etc.
Pour qu'une interaction par la voix avec un robot soit fonctionnelle et intéressante pour le locuteur, plusieurs éléments matériels et logiciels sont nécessaires. L'interaction doit aussi tenir compte de certaines règles de conduite qui facilitent les échanges d'information et la compréhension lors d'un dialogue.
Ce mémoire présente donc un système d'interaction humain-robot par la voix qui intègre ces éléments dans une même plateforme. Il utilise 8SoundsUSB et le système ManyEars pour faire l'acquisition et le prétraitement du signal audio. Un détecteur d'activité vocale vient ensuite distinguer le bruit stationnaire ambiant des sources sonores représentant la voix. Une fois le signal de la voix récupéré, il est analysé pour en décoder les mots prononcés et l'émotion. La reconnaissance de la parole est effectuée à partir de l'outil Google Speech API. La reconnaissance des émotions par la voix est basée sur l'algorithme de [Attabi et Dumouchel, 2013] qui utilise les Anchor Models, et caractérise les émotions perçues en trois catégories : neutre, négatif ou positif. Une nouvelle implémentation de cet algorithme a été validée en simulation, puis dans des essais en temps-réel. Le logiciel Palaver [McClain, 2013] permet ensuite d'interpréter les mots et les émotions en les associant à une réponse que le robot peut prononcer à l'aide d'un module de synthèse vocale. Enfin, le gestionnaire de dialogues Disco [Rich et Sidner, 2012] est utilisé afin de réaliser des interactions plus soutenues sur un même sujet.
L'objectif final du projet est de vérifier si l'ajout de la capacité à percevoir les émotions dans la voix améliore l'interaction humain-robot. Pour cela, une interface graphique utilisant des concepts de la bande-dessinée a été développée afin d'illustrer de manière intégrée le contenu linguistique et le contenu paralinguistique détecté. Les résultats d'une étude réalisée auprès de 30 participants suggèrent que l'interaction humain-robot est plus appréciée lorsque le système reconnaît les émotions que lorsqu'il ne les reconnaît pas. Le projet a aussi permis d'identifier des éléments qui permettraient une meilleure intégration des différents éléments du système. Entre autres, l'amélioration du modèle des émotions doit passer par une base de données de voix locales plus grande et annotée par un plus grand nombre de personnes.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/8783 |
Date | January 2016 |
Creators | Brodeur, David |
Contributors | Michaud, François |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | French |
Detected Language | French |
Type | Mémoire |
Rights | © David Brodeur |
Page generated in 0.002 seconds