Global ETD Search

1	Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole Brodeur, Simon January 2013 (has links) Les systèmes de reconnaissance de la parole sont fondamentalement dérivés des domaines du traitement et de la modélisation statistique des signaux. Depuis quelques années, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois à améliorer la performance des systèmes actuels de reconnaissance de parole. La revue de la littérature a suggéré qu'un système de reconnaissance vocale intégrant les aspects de hiérarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif général est de comprendre comment l'intégration de tous ces aspects permettrait d'améliorer la robustesse aux bruits additifs d'un système de reconnaissance de la parole. La base de données TI46 (mots isolés, faible-vocabulaire) est utilisée pour effectuer l'apprentissage non-supervisé et les tests de classification. Les différents bruits additifs proviennent de la base de données NOISEX-92, et permettent d'évaluer la robustesse en conditions de bruit réalistes. L'extraction de caractéristiques dans le système proposé est effectuée par des projections linéaires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses méthodes de seuillage permettent de produire une représentation multi-échelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisé permet sous certaines conditions l'obtention de bases qui reflètent des caractéristiques phonétiques et syllabiques de la parole, donc visant une représentation par objets d'un signal. L'algorithme d'analyse en composantes indépendantes (ICA) s'est démontré mieux adapté à extraire de telles bases, principalement à cause du critère de réduction de redondance. Les analyses théoriques et expérimentales ont montré comment la parcimonie peut contourner les problèmes de discrimination des distances et d'estimation des densités de probabilité dans des espaces à grandes dimensions. Il est observé qu'un espace de caractéristiques parcimonieux à grandes dimensions peut définir un espace de paramètres (p.ex. modèle statistique) de mêmes propriétés. Ceci réduit la disparité entre les représentations de l'étage d'extraction des caractéristiques et celles de l'étage de classification. De plus, l'étage d'extraction des caractéristiques peut favoriser une réduction de la complexité de l'étage de classification. Un simple classificateur linéaire peut venir compléter un modèle de Markov caché (HMM), joignant une capacité de discrimination accrue à la polyvalence d'une segmentation en états d'un signal. Les résultats montrent que l'architecture développée offr de meilleurs taux de reconnaissance en conditions propres et bruités comparativement à une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine à vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole où la transformation doit être inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifié la possibilité de réduire considérablement la complexité des espaces de caractéristiques et de paramètres, sans toutefois diminuer le pouvoir de discrimination et la robustesse. Classificateur discriminant Mixture de Bernoulli Représentation binaire Espace à grandes dimensions Apprentissage non-supervisé
2	Carte topologique pour données qualitatives: application à la reconnaissance automatique de la densité du trafic routier Lebbah, Mustapha 21 May 2003 (has links) (PDF) Le travail de recherche concerne le traitement des données qualitatives par des méthodes neuronales. Différents modèles d'apprentissage non supervisés sont proposés.<br /><br />Ce travail de thèse a été réalisé à la direction de la recherche de RENAULT. Le travail s'est focalisé sur le développement d'un modèle de reconnaissance de trafic.<br /><br />Le premier modèle proposé dans cette thèse est dédié aux données binaires ''BTM''. C'est un modèle de quantification vectorielle de type carte topologique. Ce modèle prend les caractéristiques principales des cartes topologiques. Pour ce nouveau modèle, afin de prendre en compte les spécificités des données binaires, on a choisi de changer la métrique usuelle utilisée dans les modèles de cartes topologiques et d'utiliser la distance Hamming.<br /><br />Le second modèle est le premier modèle probabiliste de cartes topologiques dédié aux données binaires. Ce modèle s'inspire de travaux antérieurs qui modélisent une distribution par un mélange de mélange de lois de Bernoulli.<br /><br />Le troisième modèle est un nouveau modèle de carte topologique appelé CTM (Categorical topological Map) adapté à la classification non supervisée des données qualitatives multi-dimensionnelles. Ce nouveau modèle conserve cependant les principales caractéristiques des deux modèles précédents. Afin de maximiser les vraisemblance des données, CTM utilise de manière classique l'algorithme EM.<br /><br />Dans ce mémoire, on introduit le domaine d'application propre au travail mené chez RENAULT. Nous détaillerons l'apport original de notre travail: utilisation de l'information catégorielle pour traiter de la reconnaissance du trafic. Nous exposerons les différentes analyses effectuées sur l'application des algorithmes proposés. [MATH] Mathematics réseaux de neurones cartes auto-organisatrices cartes topologiques probabilistes cartes topologiques binaires Mixture de Bernoulli BinBatch trafic routier aide à la conduite

Search results

Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole

Carte topologique pour données qualitatives: application à la reconnaissance automatique de la densité du trafic routier