Return to search

Traitement bio-inspiré de la parole pour système de reconnaissance vocale

Cette thèse présente un traitement inspiré du fonctionnement du système auditif pour améliorer la reconnaissance vocale. Pour y parvenir, le signal de la parole est filtré par un banc de filtres et compressé pour en produire une représentation auditive. L'innovation de l'approche proposée se situe dans l'extraction des éléments acoustiques (formants, transitions et onsets ) à partir de la représentation obtenue. En effet, une combinaison de détecteurs composés de neurones à décharges permet de révéler la présence de ces éléments et génère ainsi une séquence d'événements pour caractériser le contenu du signal. Dans le but d'évaluer la performance du traitement présenté, la séquence d'événements est adaptée à un système de reconnaissance vocale conventionnel, pour une tâche de reconnaissance de chiffres isolés prononcés en anglais. Pour ces tests, la séquence d'événements agit alors comme une sélection de trames automatique pour la génération des observations (coefficients cepstraux). En comparant les résultats de la reconnaissance du prototype et du système de reconnaissance original, on remarque que les deux systèmes reconnaissent très bien les chiffres prononcés dans des conditions optimales et que le système original est légèrement plus performant. Par contre, la différence observée au niveau des taux de reconnaissance diminue lorsqu'une réverbération vient affecter les données à reconnaître et les performances de l'approche proposée parviennent à dépasser celles du système de référence. De plus, la sélection de trames automatique offre de meilleures performances dans des conditions bruitées. Enfin, l'approche proposée se base sur des caractéristiques dans le temps en fonction de la nature du signal, permet une sélection plus intelligente des données qui se traduit en une parcimonie temporelle, présente un potentiel fort intéressant pour la reconnaissance vocale sous conditions adverses et utilise une détection des caractéristiques qui peut être utilisée comme séquence d'impulsions compatible avec les réseaux de neurones à décharges.

Identiferoai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/1952
Date January 2010
CreatorsLoiselle, Stéphane
ContributorsRouat, Jean
PublisherUniversité de Sherbrooke
Source SetsUniversité de Sherbrooke
LanguageFrench
Detected LanguageFrench
TypeThèse
Rights© Stéphane Loiselle

Page generated in 0.0026 seconds