Spelling suggestions: "subject:"réseaux dde neurones"" "subject:"réseaux dee neurones""
301 |
Apprentissage machine embarquée et réseaux de neurones sur graphes pour la reconnaissance de gestes dans les signaux HD-sEMGButeau, Étienne 07 June 2024 (has links)
Ce travail explore des solutions afin d'améliorer la reconnaissance des gestes de la main à l'aide de signaux électromyographiques. Grâce aux prothèses myoélectriques, cette technologie a le potentiel de transformer la vie des amputés des membres supérieurs. Malheureusement, les prothèses myoélectriques disponibles sur le marché peinent à reproduire fidèlement les gestes de la main, car il est complexe de déduire l'intention de l'utilisateur à partir de l'activité musculaire mesurée, particulièrement entre différentes utilisations de la prothèse. Pour adresser ce problème, ce travail présente une solution logicielle permettant, à l'aide d'un nouveau capteur flexible d'électromyographie haute densité (HD-EMG) à 64 électrodes, de renforcer la robustesse de la détection contre différentes sources de variations. Cette innovation repose sur l'introduction d'une approche d'augmentation des données par décalage circulaire (ABSDA) couplée à un réseau de neurones à convolution (CNN) et une version anticrénelée (AA-CNN) permettant d'améliorer la robustesse de la classification au mouvement des électrodes et à la variabilité entre les séances. La méthode ABSDA-CNN proposée améliore significativement la précision de la reconnaissance des gestes. Ce travail examine également le potentiel de l'apprentissage machine sur graphes, un domaine émergent qui applique la théorie des graphes à l'intelligence artificielle. En utilisant cette approche pour représenter les capteurs HD-EMG sous forme de graphes, il est possible de capitaliser sur leur structure géométrique naturelle afin de construire des réseaux de neurones sur graphes (GNN) novateurs qui surpassent les réseaux à convolution traditionnels. L'introduction de ces nouvelles architectures permet d'explorer la notion d'invariance en translation des réseaux de neurones en démontrant l'importance d'apprendre la position des électrodes pour améliorer la précision de la reconnaissance des gestes Finalement, une plateforme embarquée sans fil est introduite pour réaliser de la reconnaissance de gestes en temps réel, grâce à un accélérateur Coral Tensor Processing Unit (TPU). Cette solution permet d'intégrer l'intelligence artificielle directement dans les prothèses, supprimant la dépendance à des équipements externes coûteux. Pour une meilleure flexibilité, le système propose la calibration des modèles d'inférence localement ou à distance par le biais d'un serveur. L'exploration des techniques de quantification des données à 8 bits démontre que la compatibilité matérielle peut être obtenue sans sacrifier les performances. / This work explores solutions to improve hand gesture recognition using electromyographic signals. Thanks to myoelectric prostheses, this technology has the potential to radically transformthe lives of upper limb amputees. Unfortunately, the myoelectric prostheses currently availableon the market struggle to faithfully reproduce hand gestures because it is complex to correctlyinfer the user's intention from the measured muscle activity, especially between different usesof the prosthesis. To address this problem, this work presents a software solution that, with the help of anew flexible high-density electromyography (HD-EMG) sensor with 64 electrodes, enhancesthe robustness of detection against various sources of variations. This innovation is basedon the introduction of an array barrel-shifting data augmentation (ABSDA) coupled witha convolutional neural network (CNN) and an anti-aliased version (AA-CNN) to improverobustness to electrode movement, forearm orientation, and inter-session variability. Theproposed ABSDA-CNN method significantly improves the accuracy of gesture recognition. This work also examines the potential of graph machine learning, an emerging field that applies graph theory to artificial intelligence. By using this approach to represent HD-EMGsensors as graphs, it is possible to capitalize on their natural geometric structure to constructinnovative graph neural networks (GNNs) that surpass traditional convolutional networks. The introduction of these new architectures allows for the exploration of the notion of invariance to translation of neural networks by demonstrating the importance of learning electrodepositions to improve gesture recognition accuracy. Finally, a wireless embedded platform is introduced for real-time gesture recognition, thanksto a Coral Tensor Processing Unit (TPU) accelerator. This solution enables the integration ofartificial intelligence directly into prostheses, eliminating the dependency on expensive externalhardware. For enhanced flexibility, the system offers model calibration locally or remotely viaa server. Exploring 8-bit data quantization techniques shows that hardware compatibility canbe achieved without sacrificing performance.
|
302 |
Génération et reconnaissance de rythmes au moyen de réseaux de neurones à réservoirDaouda, Tariq 08 1900 (has links)
Les fichiers sons qui accompagne mon document sont au format midi. Le programme que nous avons développés pour ce travail est en language Python. / Les réseaux de neurones à réservoir, dont le principe est de combiner un vaste réseau de neurones fixes avec un apprenant ne possédant aucune forme de mémoire, ont récemment connu un gain en popularité dans les communautés d’apprentissage machine, de traitement du signal et des neurosciences computationelles. Ces réseaux qui peuvent être classés en deux catégories :
1. les réseaux à états échoïques (ESN)[29] dont les activations des neurones sont des réels
2. les machines à états liquides (LSM)[43] dont les neurones possèdent des potentiels
d’actions, ont été appliqués à différentes tâches [11][64][49][45][38] dont la génération de séquences mélodiques [30].
Dans le cadre de la présente recherche, nous proposons deux nouveaux modèles à base de réseaux de neurones à réservoir. Le premier est un modèle pour la reconnaissance de rythmes utilisant deux niveaux d’apprentissage, et avec lequel nous avons été en mesure d’obtenir des résultats satisfaisants tant au niveau de la reconnaissance que de la résistance au bruit. Le second modèle sert à l’apprentissage et à la génération de séquences périodiques. Ce modèle diffère du modèle génératif classique utilisé avec les ESN à la fois au niveau de ses entrées, puisqu’il possède une Horloge, ainsi qu’au niveau de l’algorithme d’apprentissage, puisqu’il utilise un algorithme que nous avons spécialement développé pour cette tache et qui se nomme "Orbite". La combinaison de ces deux éléments, nous a permis d’obtenir de bons résultats, pour la génération, le sur-apprentissage et l’extraction de données. Nous pensons également que ce modèle ouvre une fenêtre intéressante vers la réalisation d’un orchestre entièrement virtuel et nous proposons deux architectures possibles que pourrait avoir cet orchestre. Dans la dernière partie de ce travail nous présentons les outils que nous avons développés pour faciliter notre travail de recherche. / Reservoir computing, the combination of a recurrent neural network and one or more memoryless readout units, has seen recent growth in popularity in and machine learning, signal processing and computational neurosciences. Reservoir-based methods have been successfully applied to a wide range of time series problems [11][64][49][45][38] including music [30], and usually can be found in two flavours: Echo States Networks(ESN)[29], where the reservoir is composed of mean rates neurons, and Liquid Sates Machines (LSM),[43] where the reservoir is composed of spiking neurons. In this work, we propose two new models based upon the ESN architecture. The first one is a model for rhythm recognition that uses two levels of learning and with which we have been able to get satisfying results on both recognition and noise resistance. The second one is a model for learning and generating periodic sequences, with this model we introduced a new architecture for generative models based upon ESNs where the reservoir receives inputs from a clock, as well as a new learning algorithm that we called "Orbite". By combining these two elements within our model, we were able to get good results on generation, over-fitting and data extraction. We also believe that a combination of several instances of our model can serve as a basis for the elaboration of an entirely virtual orchestra, and we propose two architectures that this orchestra may have. In the last part of this work, we briefly present the tools that we have developed during our research.
|
303 |
Évaluation de modèles computationnels de la vision humaine en imagerie par résonance magnétique fonctionnelle / Evaluating Computational Models of Vision with Functional Magnetic Resonance ImagingEickenberg, Michael 21 September 2015 (has links)
L'imagerie par résonance magnétique fonctionnelle (IRMf) permet de mesurer l'activité cérébrale à travers le flux sanguin apporté aux neurones. Dans cette thèse nous évaluons la capacité de modèles biologiquement plausibles et issus de la vision par ordinateur à représenter le contenu d'une image de façon similaire au cerveau. Les principaux modèles de vision évalués sont les réseaux convolutionnels.Les réseaux de neurones profonds ont connu un progrès bouleversant pendant les dernières années dans divers domaines. Des travaux antérieurs ont identifié des similarités entre le traitement de l'information visuelle à la première et dernière couche entre un réseau de neurones et le cerveau. Nous avons généralisé ces similarités en identifiant des régions cérébrales correspondante à chaque étape du réseau de neurones. Le résultat consiste en une progression des niveaux de complexité représentés dans le cerveau qui correspondent à l'architecture connue des aires visuelles: Plus la couche convolutionnelle est profonde, plus abstraits sont ses calculs et plus haut niveau sera la fonction cérébrale qu'elle sait modéliser au mieux. Entre la détection de contours en V1 et la spécificité à l'objet en cortex inférotemporal, fonctions assez bien comprises, nous montrons pour la première fois que les réseaux de neurones convolutionnels de détection d'objet fournissent un outil pour l'étude de toutes les étapes intermédiaires du traitement visuel effectué par le cerveau.Un résultat préliminaire à celui-ci est aussi inclus dans le manuscrit: L'étude de la réponse cérébrale aux textures visuelles et sa modélisation avec les réseaux convolutionnels de scattering.L'autre aspect global de cette thèse sont modèles de “décodage”: Dans la partie précédente, nous prédisions l'activité cérébrale à partir d'un stimulus (modèles dits d’”encodage”). La prédiction du stimulus à partir de l'activité cérébrale est le méchanisme d'inférence inverse et peut servir comme preuve que cette information est présente dans le signal. Le plus souvent, des modèles linéaires généralisés tels que la régression linéaire ou logistique ou les SVM sont utilisés, donnant ainsi accès à une interprétation des coefficients du modèle en tant que carte cérébrale. Leur interprétation visuelle est cependant difficile car le problème linéaire sous-jacent est soit mal posé et mal conditionné ou bien non adéquatement régularisé, résultant en des cartes non-informatives. En supposant une organisation contigüe en espace et parcimonieuse, nous nous appuyons sur la pénalité convexe d'une somme de variation totale et la norme L1 (TV+L1) pour développer une pénalité regroupant un terme d'activation et un terme de dérivée spatiale. Cette pénalité a la propriété de mettre à zéro la plupart des coefficients tout en permettant une variation libre des coefficients dans une zone d'activation, contrairement à TV+L1 qui impose des zones d’activation plates. Cette méthode améliore l'interprétabilité des cartes obtenues dans un schéma de validation croisée basé sur la précision du modèle prédictif.Dans le contexte des modèles d’encodage et décodage nous tâchons à améliorer les prétraitements des données. Nous étudions le comportement du signal IRMf par rapport à la stimulation ponctuelle : la réponse impulsionnelle hémodynamique. Pour générer des cartes d'activation, au lieu d’un modèle linéaire classique qui impose une réponse impulsionnelle canonique fixe, nous utilisons un modèle bilinéaire à réponse hémodynamique variable spatialement mais fixe à travers les événements de stimulation. Nous proposons un algorithme efficace pour l'estimation et montrons un gain en capacité prédictive sur les analyses menées, en encodage et décodage. / Blood-oxygen-level dependent (BOLD) functional magnetic resonance imaging (fMRI) makes it possible to measure brain activity through blood flow to areas with metabolically active neurons. In this thesis we use these measurements to evaluate the capacity of biologically inspired models of vision coming from computer vision to represent image content in a similar way as the human brain. The main vision models used are convolutional networks.Deep neural networks have made unprecedented progress in many fields in recent years. Even strongholds of biological systems such as scene analysis and object detection have been addressed with enormous success. A body of prior work has been able to establish firm links between the first and last layers of deep convolutional nets and brain regions: The first layer and V1 essentially perform edge detection and the last layer as well as inferotemporal cortex permit a linear read-out of object category. In this work we have generalized this correspondence to all intermediate layers of a convolutional net. We found that each layer of a convnet maps to a stage of processing along the ventral stream, following the hierarchy of biological processing: Along the ventral stream we observe a stage-by-stage increase in complexity. Between edge detection and object detection, for the first time we are given a toolbox to study the intermediate processing steps.A preliminary result to this was obtained by studying the response of the visual areas to presentation of visual textures and analysing it using convolutional scattering networks.The other global aspect of this thesis is “decoding” models: In the preceding part, we predicted brain activity from the stimulus presented (this is called “encoding”). Predicting a stimulus from brain activity is the inverse inference mechanism and can be used as an omnibus test for presence of this information in brain signal. Most often generalized linear models such as linear or logistic regression or SVMs are used for this task, giving access to a coefficient vector the same size as a brain sample, which can thus be visualized as a brain map. However, interpretation of these maps is difficult, because the underlying linear system is either ill-defined and ill-conditioned or non-adequately regularized, resulting in non-informative maps. Supposing a sparse and spatially contiguous organization of coefficient maps, we build on the convex penalty consisting of the sum of total variation (TV) seminorm and L1 norm (“TV+L1”) to develop a penalty grouping an activation term with a spatial derivative. This penalty sets most coefficients to zero but permits free smooth variations in active zones, as opposed to TV+L1 which creates flat active zones. This method improves interpretability of brain maps obtained through cross-validation to determine the best hyperparameter.In the context of encoding and decoding models, we also work on improving data preprocessing in order to obtain the best performance. We study the impulse response of the BOLD signal: the hemodynamic response function. To generate activation maps, instead of using a classical linear model with fixed canonical response function, we use a bilinear model with spatially variable hemodynamic response (but fixed across events). We propose an efficient optimization algorithm and show a gain in predictive capacity for encoding and decoding models on different datasets.
|
304 |
Prédiction et génération de données structurées à l'aide de réseaux de neurones et de décisions discrètesDutil, Francis 08 1900 (has links)
No description available.
|
305 |
Génération et reconnaissance de rythmes au moyen de réseaux de neurones à réservoirDaouda, Tariq 08 1900 (has links)
Les réseaux de neurones à réservoir, dont le principe est de combiner un vaste réseau de neurones fixes avec un apprenant ne possédant aucune forme de mémoire, ont récemment connu un gain en popularité dans les communautés d’apprentissage machine, de traitement du signal et des neurosciences computationelles. Ces réseaux qui peuvent être classés en deux catégories :
1. les réseaux à états échoïques (ESN)[29] dont les activations des neurones sont des réels
2. les machines à états liquides (LSM)[43] dont les neurones possèdent des potentiels
d’actions, ont été appliqués à différentes tâches [11][64][49][45][38] dont la génération de séquences mélodiques [30].
Dans le cadre de la présente recherche, nous proposons deux nouveaux modèles à base de réseaux de neurones à réservoir. Le premier est un modèle pour la reconnaissance de rythmes utilisant deux niveaux d’apprentissage, et avec lequel nous avons été en mesure d’obtenir des résultats satisfaisants tant au niveau de la reconnaissance que de la résistance au bruit. Le second modèle sert à l’apprentissage et à la génération de séquences périodiques. Ce modèle diffère du modèle génératif classique utilisé avec les ESN à la fois au niveau de ses entrées, puisqu’il possède une Horloge, ainsi qu’au niveau de l’algorithme d’apprentissage, puisqu’il utilise un algorithme que nous avons spécialement développé pour cette tache et qui se nomme "Orbite". La combinaison de ces deux éléments, nous a permis d’obtenir de bons résultats, pour la génération, le sur-apprentissage et l’extraction de données. Nous pensons également que ce modèle ouvre une fenêtre intéressante vers la réalisation d’un orchestre entièrement virtuel et nous proposons deux architectures possibles que pourrait avoir cet orchestre. Dans la dernière partie de ce travail nous présentons les outils que nous avons développés pour faciliter notre travail de recherche. / Reservoir computing, the combination of a recurrent neural network and one or more memoryless readout units, has seen recent growth in popularity in and machine learning, signal processing and computational neurosciences. Reservoir-based methods have been successfully applied to a wide range of time series problems [11][64][49][45][38] including music [30], and usually can be found in two flavours: Echo States Networks(ESN)[29], where the reservoir is composed of mean rates neurons, and Liquid Sates Machines (LSM),[43] where the reservoir is composed of spiking neurons. In this work, we propose two new models based upon the ESN architecture. The first one is a model for rhythm recognition that uses two levels of learning and with which we have been able to get satisfying results on both recognition and noise resistance. The second one is a model for learning and generating periodic sequences, with this model we introduced a new architecture for generative models based upon ESNs where the reservoir receives inputs from a clock, as well as a new learning algorithm that we called "Orbite". By combining these two elements within our model, we were able to get good results on generation, over-fitting and data extraction. We also believe that a combination of several instances of our model can serve as a basis for the elaboration of an entirely virtual orchestra, and we propose two architectures that this orchestra may have. In the last part of this work, we briefly present the tools that we have developed during our research. / Les fichiers sons qui accompagne mon document sont au format midi. Le programme que nous avons développés pour ce travail est en language Python.
|
306 |
On challenges in training recurrent neural networksAnbil Parthipan, Sarath Chandar 11 1900 (has links)
Dans un problème de prédiction à multiples pas discrets, la prédiction à chaque instant peut dépendre de l’entrée à n’importe quel moment dans un passé lointain. Modéliser une telle dépendance à long terme est un des problèmes fondamentaux en apprentissage automatique. En théorie, les Réseaux de Neurones Récurrents (RNN) peuvent modéliser toute dépendance à long terme. En pratique, puisque la magnitude des gradients peut croître ou décroître exponentiellement avec la durée de la séquence, les RNNs ne peuvent modéliser que les dépendances à court terme. Cette thèse explore ce problème dans les réseaux de neurones récurrents et propose de nouvelles solutions pour celui-ci.
Le chapitre 3 explore l’idée d’utiliser une mémoire externe pour stocker les états cachés d’un réseau à Mémoire Long et Court Terme (LSTM). En rendant l’opération d’écriture et de lecture de la mémoire externe discrète, l’architecture proposée réduit le taux de décroissance des gradients dans un LSTM. Ces opérations discrètes permettent également au réseau de créer des connexions dynamiques sur de longs intervalles de temps. Le chapitre 4 tente de caractériser cette décroissance des gradients dans un réseau de neurones récurrent et propose une nouvelle architecture récurrente qui, grâce à sa conception, réduit ce problème. L’Unité Récurrente Non-saturante (NRUs) proposée n’a pas de fonction d’activation saturante et utilise la mise à jour additive de cellules au lieu de la mise à jour multiplicative.
Le chapitre 5 discute des défis de l’utilisation de réseaux de neurones récurrents dans un contexte d’apprentissage continuel, où de nouvelles tâches apparaissent au fur et à mesure. Les dépendances dans l’apprentissage continuel ne sont pas seulement contenues dans une tâche, mais sont aussi présentes entre les tâches. Ce chapitre discute de deux problèmes fondamentaux dans l’apprentissage continuel: (i) l’oubli catastrophique d’anciennes tâches et (ii) la capacité de saturation du réseau. De plus, une solution est proposée pour régler ces deux problèmes lors de l’entraînement d’un réseau de neurones récurrent. / In a multi-step prediction problem, the prediction at each time step can depend on the input at any of the previous time steps far in the past. Modelling such long-term dependencies is one of the fundamental problems in machine learning. In theory, Recurrent Neural Networks (RNNs) can model any long-term dependency. In practice, they can only model short-term dependencies due to the problem of vanishing and exploding gradients. This thesis explores the problem of vanishing gradient in recurrent neural networks and proposes novel solutions for the same.
Chapter 3 explores the idea of using external memory to store the hidden states of a Long Short Term Memory (LSTM) network. By making the read and write operations of the external memory discrete, the proposed architecture reduces the rate of gradients vanishing in an LSTM. These discrete operations also enable the network to create dynamic skip connections across time. Chapter 4 attempts to characterize all the sources of vanishing gradients in a recurrent neural network and proposes a new recurrent architecture which has significantly better gradient flow than state-of-the-art recurrent architectures. The proposed Non-saturating Recurrent Units (NRUs) have no saturating activation functions and use additive cell updates instead of multiplicative cell updates.
Chapter 5 discusses the challenges of using recurrent neural networks in the context of lifelong learning. In the lifelong learning setting, the network is expected to learn a series of tasks over its lifetime. The dependencies in lifelong learning are not just within a task, but also across the tasks. This chapter discusses the two fundamental problems in lifelong learning: (i) catastrophic forgetting of old tasks, and (ii) network capacity saturation. Further, it proposes a solution to solve both these problems while training a recurrent neural network.
|
307 |
Apprentissage d'espaces sémantiquesMesnil, Grégoire 01 1900 (has links)
No description available.
|
308 |
Sequence to sequence learning and its speech applicationsZhang, Ying 04 1900 (has links)
No description available.
|
309 |
Learning and time : on using memory and curricula for language understandingGulcehre, Caglar 05 1900 (has links)
No description available.
|
310 |
Advances in deep learning methods for speech recognition and understandingSerdyuk, Dmitriy 10 1900 (has links)
Ce travail expose plusieurs études dans les domaines de
la reconnaissance de la parole et
compréhension du langage parlé.
La compréhension sémantique du langage parlé est un sous-domaine important
de l'intelligence artificielle.
Le traitement de la parole intéresse depuis longtemps les chercheurs,
puisque la parole est une des charactéristiques qui definit l'être humain.
Avec le développement du réseau neuronal artificiel,
le domaine a connu une évolution rapide
à la fois en terme de précision et de perception humaine.
Une autre étape importante a été franchie avec le développement
d'approches bout en bout.
De telles approches permettent une coadaptation de toutes
les parties du modèle, ce qui augmente ainsi les performances,
et ce qui simplifie la procédure d'entrainement.
Les modèles de bout en bout sont devenus réalisables avec la quantité croissante
de données disponibles, de ressources informatiques et,
surtout, avec de nombreux développements architecturaux innovateurs.
Néanmoins, les approches traditionnelles (qui ne sont pas bout en bout)
sont toujours pertinentes pour le traitement de la parole en raison
des données difficiles dans les environnements bruyants,
de la parole avec un accent et de la grande variété de dialectes.
Dans le premier travail, nous explorons la reconnaissance de la parole hybride
dans des environnements bruyants.
Nous proposons de traiter la reconnaissance de la parole,
qui fonctionne dans
un nouvel environnement composé de différents bruits inconnus,
comme une tâche d'adaptation de domaine.
Pour cela, nous utilisons la nouvelle technique à l'époque
de l'adaptation du domaine antagoniste.
En résumé, ces travaux antérieurs proposaient de former
des caractéristiques de manière à ce qu'elles soient distinctives
pour la tâche principale, mais non-distinctive pour la tâche secondaire.
Cette tâche secondaire est conçue pour être la tâche de reconnaissance de domaine.
Ainsi, les fonctionnalités entraînées sont invariantes vis-à-vis du domaine considéré.
Dans notre travail, nous adoptons cette technique et la modifions pour
la tâche de reconnaissance de la parole dans un environnement bruyant.
Dans le second travail, nous développons une méthode générale
pour la régularisation des réseaux génératif récurrents.
Il est connu que les réseaux récurrents ont souvent des difficultés à rester
sur le même chemin, lors de la production de sorties longues.
Bien qu'il soit possible d'utiliser des réseaux bidirectionnels pour
une meilleure traitement de séquences pour l'apprentissage des charactéristiques,
qui n'est pas applicable au cas génératif.
Nous avons développé un moyen d'améliorer la cohérence de
la production de longues séquences avec des réseaux récurrents.
Nous proposons un moyen de construire un modèle similaire à un réseau bidirectionnel.
L'idée centrale est d'utiliser une perte L2 entre
les réseaux récurrents génératifs vers l'avant et vers l'arrière.
Nous fournissons une évaluation expérimentale sur
une multitude de tâches et d'ensembles de données,
y compris la reconnaissance vocale,
le sous-titrage d'images et la modélisation du langage.
Dans le troisième article, nous étudions la possibilité de développer
un identificateur d'intention de bout en bout pour la compréhension du langage parlé.
La compréhension sémantique du langage parlé est une étape importante vers
le développement d'une intelligence artificielle de type humain.
Nous avons vu que les approches de bout en bout montrent
des performances élevées sur les tâches, y compris la traduction automatique et
la reconnaissance de la parole.
Nous nous inspirons des travaux antérieurs pour développer
un système de bout en bout pour la reconnaissance de l'intention. / This work presents several studies in the areas of speech recognition and
understanding.
The semantic speech understanding is an important sub-domain of the
broader field of artificial intelligence.
Speech processing has had interest from the researchers for long time
because language is one of the defining characteristics of a human being.
With the development of neural networks, the domain has seen rapid progress
both in terms of accuracy and human perception.
Another important milestone was achieved with the development of
end-to-end approaches.
Such approaches allow co-adaptation of all the parts of the model
thus increasing the performance, as well as simplifying the training
procedure.
End-to-end models became feasible with the increasing amount of available
data, computational resources, and most importantly with many novel
architectural developments.
Nevertheless, traditional, non end-to-end, approaches are still relevant
for speech processing due to challenging data in noisy environments,
accented speech, and high variety of dialects.
In the first work, we explore the hybrid speech recognition in noisy
environments.
We propose to treat the recognition in the unseen noise condition
as the domain adaptation task.
For this, we use the novel at the time technique of the adversarial
domain adaptation.
In the nutshell, this prior work proposed to train features in such
a way that they are discriminative for the primary task,
but non-discriminative for the secondary task.
This secondary task is constructed to be the domain recognition task.
Thus, the features trained are invariant towards the domain at hand.
In our work, we adopt this technique and modify it for the task of
noisy speech recognition.
In the second work, we develop a general method for regularizing
the generative recurrent networks.
It is known that the recurrent networks frequently have difficulties
staying on same track when generating long outputs.
While it is possible to use bi-directional networks for better
sequence aggregation for feature learning, it is not applicable
for the generative case.
We developed a way improve the consistency of generating long sequences
with recurrent networks.
We propose a way to construct a model similar to bi-directional network.
The key insight is to use a soft L2 loss between the forward and
the backward generative recurrent networks.
We provide experimental evaluation on a multitude of tasks and datasets,
including speech recognition, image captioning, and language modeling.
In the third paper, we investigate the possibility of developing
an end-to-end intent recognizer for spoken language understanding.
The semantic spoken language understanding is an important
step towards developing a human-like artificial intelligence.
We have seen that the end-to-end approaches show high
performance on the tasks including machine translation and speech recognition.
We draw the inspiration from the prior works to develop
an end-to-end system for intent recognition.
|
Page generated in 0.0778 seconds