L'audition artificielle est de plus en plus utilisée en robotique mobile pour améliorer l'interaction humain-robot. La reconnaissance de la parole occupe présentement une place importante tandis qu'un intérêt particulier se développe pour la reconnaissance de locuteurs. Le système ManyEars permet actuellement à un robot mobile de localiser, suivre et séparer plusieurs sources sonores. Ce système utilise un ensemble de huit microphones qui sont disposés en cube. Ce mémoire porte sur la conception et l'évaluation d'un système de reconnaissance de locuteurs, baptisé WISS (Who IS Speaking), couplé au système ManyEars. Le système de reconnaissance de locuteurs conçu est robuste au bruit ambiant et au changement d'environnement. Une technique de combinaison de modèle parallèle (parallel model combination (PMC)) et des masques sont utilisés pour améliorer le taux d'identification dans un milieu bruité. Un indice de confiance est également introduit pour pondérer les identifications obtenues. La simplicité du système proposé fait en sorte qu'il est possible d'exécuter en temps réel l'algorithme sur un processeur généraliste ( General Purpose Processor (GPP)). Les performances du système sont établies à l'aide de plusieurs scénarios. Dans un premier lieu, des enregistrements sont diffusés dans des haut-parleurs pour un ensemble de vingt locuteurs. Le système est ainsi caractérisé en fonction des positions angulaires et radiales des sources sonores. Le taux de reconnaissance est affecté par la qualité du signal (i.e. diminution du rapport signal sur bruit ( Signal-to-Noise Ratio (SNR))) : il passe de 95.6% à 84.3% en moyenne lorsque le SNR passe d'environ 16 dB à 2 dB lorsque le locuteur se situe à 1.5 mètres des microphones. Par la suite, un scénario dit statique est vérifié à l'aide de quatre locuteurs qui récitent chacun leur tour des phrases à un volume de voix naturel. Finalement, un scénario dynamique dans lequel un groupe de quatre locuteurs ont une conversation naturelle avec des chevauchements entre les segments de paroles est étudié. Le taux de reconnaissance varie entre 74.2% et 100.0% (avec une moyenne de 90.6%) avec le scénario statique, et entre 42.6% et 100.0% avec le scénario dynamique (avec des moyennes de 58.3%, 72.8% et 81.4% pour des segments de 1, 2 et 3 secondes respectivement). Des solutions sont identifiées afin d'améliorer les performances lors de travaux futurs. Au meilleur de notre connaissance, il n'existe aucun système qui effectue une reconnaissance de locuteurs dans un environnement contaminé simultanément par des bruits convolutif et additif. De plus, l'utilisation de masques pour estimer ces bruits est un nouveau concept. Ces masques sont d'ailleurs généralement employés pour la reconnaissance de la parole et leur utilisation dans un contexte de reconnaissance de locuteur est une première. De plus, une caractérisation complète du système qui inclue les SNRs est proposée en fonction de la position du locuteur, ce qui est rarement disponible dans la littérature en audition artificielle pour les robots.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/1632 |
Date | January 2012 |
Creators | Grondin, François |
Contributors | Michaud, François |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | French |
Detected Language | French |
Type | Mémoire |
Rights | © François Grondin |
Page generated in 0.0024 seconds