• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • 10
  • 4
  • Tagged with
  • 29
  • 29
  • 14
  • 13
  • 10
  • 9
  • 8
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Interprétation des signaux cérébraux pour l’autonomie des handicapés : Système de reconnaissance de mots imaginés / Cerebral signal processing for the autonomy of the handicapped : Imagery recognition system

Abdallah, Nassib 20 December 2018 (has links)
Les interfaces Cerveau Machine représentent une solution pour rétablir plusieurs fonctions comme le mouvement, la parole, etc. La construction de BCI se compose de quatre phases principales: "Collecte des données", "Prétraitement du signal", "Extraction et sélection de caractéristiques", "Classification". Dans ce rapport nous présentons un nouveau système de reconnaissance de mots imaginées basé sur une technique d’acquisition non invasive (EEG) et portable pour faciliter aux personnes ayant des handicaps spécifiques, leurs communications avec le monde extérieur. Cette thèse inclut un système nommé FEASR pour la construction d’une base de données pertinente et optimisée. Cette base a été testée avec plusieurs méthodes de classification pour obtenir un taux maximal de reconnaissance de 83.4% pour cinq mots imaginés en arabe. De plus, on discute de l’impact des algorithmes d’optimisations (Sélection des capteurs de Wernicke, Analyse en composante principale et sélection de sous bandes résultant de la décomposition en ondelette) sur les pourcentages de reconnaissance en fonction de la taille de notre base de données et de sa réduction. / The Brain Machine interfaces represent a solution to restore several human issues such as movement, speech, etc. The construction of BCI consists of four main phases: "Data Recording", "Signal preprocessing", "Extraction and Selection of Characteristics", and "Classification". In this report we present a new imagery recognition system based on a non-invasive (EEG) and portable acquisition technique to facilitate communication with the outside world for people with specific disabilities.This thesis includes a system called FEASR for the construction of a relevant and optimized database. This database has been tested with several classification methods to obtain a maximum recognition rate of 83.4% for five words imagined in Arabic. In addition, we discuss the impact of optimization algorithms (Wernicke sensor selection, principal component analysis algorithm and the selection of subbands resulting from the discrete wavelet transform decomposition) on recognition percentages according to the size of our database and its reduction.
22

Informatique et maîtrise de l'oral en maternelle bilingue breton-français : modèle de l'élève dans le dialogue enfant-ordinateur et ergonomie de la parole en breton.

Mermet, Michel 23 November 2006 (has links) (PDF)
Notre étude vise à construire un "modèle de l'élève bilingue", au sens large, permettant de caractériser une situation d'apprentissage qui a pour fonction la maîtrise de l'oral et pour objet le dialogue enfant-ordinateur. Nous avons analysé, à partir d'un corpus de paroles bilingues breton-français, les conditions d'apprentissage précoce d'une deuxième langue entre deux et quatre ans, auprès d'élèves d'une classe bilingue de petite section de maternelle. Nos objectifs sont de cerner le contexte d'apprentissage du breton à l'école, d'analyser la parole bilingue de l'élève et de construire des outils d'évaluation des interfaces orales. Ceci afin d'évaluer, dans le dialogue oral enfant-ordinateur, les attributs phonétiques et prosodiques (synthèse vocale en breton), la facilité d'apprentissage de l'élève et la qualité de l'apprentissage.
23

Analyse sonore et multimodale dans le domaine de l'assistance à domicile

Vacher, Michel 18 October 2011 (has links) (PDF)
La moyenne d'âge de la population des pays industriels augmente régulièrement. Les personnes âgées vivant seules sont de plus en plus nombreuses, soit parce qu'elles préfèrent vivre de manière autonome, soit par manque de place dans les institutions spécialisées. Il faut donc trouver des solutions leur permettant de continuer à rester chez elles de manière confortable et sûre. Les habitats intelligents peuvent constituer une de ces solutions. Un des plus grands défis dans l'Assistance à la Vie Autonome (AVA) est de concevoir des habitats intelligents pour la santé qui anticipent les besoins de leurs habitants tout en maintenant leur sécurité et leur confort. Il est donc essentiel de faciliter l'interaction avec l'habitat intelligent grâce à des systèmes qui réagissent naturellement aux commandes vocales, en utilisant des microphones et pas des interfaces tactiles. Ce mémoire définit le concept de maison intelligente et présente quelques projets intéressants. Il précise ensuite de quelle manière l'assistance à domicile peut tirer parti de ce concept en s'appuyant sur l'analyse sonore. L'acceptabilité d'une interface vocale dans le cadre de l'habitat intelligent a été étudiée grâce à une expérience qui a montré quels étaient les souhaits, les attentes et les craintes des utilisateurs âgés, de leurs familles, et des travailleurs sociaux. L'analyse audio dans la maison intelligente étant un domaine de recherche encore peu exploré, l'intérêt et la manière d'analyser les informations sonores dans un habitat intelligent sont ensuite abordés par une expérience qui a permis de mettre en évidence les défis et les verrous technologiques qui devront être levés pour pouvoir utiliser les informations sonores en complément des autres modalités, et, dans le cas de la parole, la reconnaissance en conditions d'enregistre- ment distant. Une solution pratique mettant en œuvre plusieurs microphones est ensuite présentée. Le but envisagé est la réalisation d'un système de commande vocale mettant l'utilisateur en mesure de piloter son environnement non seulement par les interrupteurs et télécommandes classiques, mais aussi par la voix. L'intérêt de l'information audio combinée à celle des capteurs domotiques est ensuite mis en évidence au travers d'une analyse multimodale permettant de localiser une personne dans un habitat intelligent ou de déterminer son activité. La localisation est nécessaire, par exemple pour avoir connaissance du contexte dans lequel un ordre domotique a été donné. L'activité peut être utilisée pour observer une évolution des habitudes de la personne pour aider à un diagnostic. Pour finir, le mémoire présente les perspectives de recherche et les projets à venir de l'auteur. Il est accompagné de la reproduction de 4 communications scientifiques publiées dans des congrès sélectifs à comité de lecture.
24

Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Hacine-Gharbi, Abdenour 09 December 2012 (has links) (PDF)
L'objectif de cette thèse est de proposer des solutions et améliorations de performance à certains problèmes de sélection des paramètres acoustiques pertinents dans le cadre de la reconnaissance de la parole. Ainsi, notre première contribution consiste à proposer une nouvelle méthode de sélection de paramètres pertinents fondée sur un développement exact de la redondance entre une caractéristique et les caractéristiques précédemment sélectionnées par un algorithme de recherche séquentielle ascendante. Le problème de l'estimation des densités de probabilités d'ordre supérieur est résolu par la troncature du développement théorique de cette redondance à des ordres acceptables. En outre, nous avons proposé un critère d'arrêt qui permet de fixer le nombre de caractéristiques sélectionnées en fonction de l'information mutuelle approximée à l'itération j de l'algorithme de recherche. Cependant l'estimation de l'information mutuelle est difficile puisque sa définition dépend des densités de probabilités des variables (paramètres) dans lesquelles le type de ces distributions est inconnu et leurs estimations sont effectuées sur un ensemble d'échantillons finis. Une approche pour l'estimation de ces distributions est basée sur la méthode de l'histogramme. Cette méthode exige un bon choix du nombre de bins (cellules de l'histogramme). Ainsi, on a proposé également une nouvelle formule de calcul du nombre de bins permettant de minimiser le biais de l'estimateur de l'entropie et de l'information mutuelle. Ce nouvel estimateur a été validé sur des données simulées et des données de parole. Plus particulièrement cet estimateur a été appliqué dans la sélection des paramètres MFCC statiques et dynamiques les plus pertinents pour une tâche de reconnaissance des mots connectés de la base Aurora2.
25

Approche hybride pour la reconnaissance automatique de la parole en langue arabe / Hybrid approach for automatic speech recognition for the Arabic language

Masmoudi Dammak, Abir 21 September 2016 (has links)
Le développement d'un système de reconnaissance de la parole exige la disponibilité d'une grande quantité de ressources à savoir, grands corpus de texte et de parole, un dictionnaire de prononciation. Néanmoins, ces ressources ne sont pas disponibles directement pour des dialectes arabes. De ce fait, le développement d'un SRAP pour les dialectes arabes se heurte à de multiples difficultés à savoir, l’'abence de grandes quantités de ressources et l'absence d’'une orthographe standard vu que ces dialectes sont parlés et non écrit. Dans cette perspective, les travaux de cette thèse s’intègrent dans le cadre du développement d’un SRAP pour le dialecte tunisien. Une première partie des contributions consiste à développer une variante de CODA (Conventional Orthography for Arabic Dialectal) pour le dialecte tunisien. En fait, cette convention est conçue dans le but de fournir une description détaillée des directives appliquées au dialecte tunisien. Compte tenu des lignes directives de CODA, nous avons constitué notre corpus nommé TARIC : Corpus de l’interaction des chemins de fer de l’arabe tunisien dans le domaine de la SNCFT. Outre ces ressources, le dictionnaire de prononciation s’impose d’une manière indispensable pour le développement d’un SRAP. À ce propos, dans la deuxième partie des contributions, nous visons la création d’un système nommé conversion (Graphème-Phonème) G2P qui permet de générer automatiquement ce dictionnaire phonétique. Toutes ces ressources décrites avant sont utilisées pour adapter un SRAP pour le MSA du laboratoire LIUM au dialecte tunisien dans le domaine de la SNCFT. L’évaluation de notre système donné lieu WER de 22,6% sur l’ensemble de test. / The development of a speech recognition system requires the availability of a large amount of resources namely, large corpora of text and speech, a dictionary of pronunciation. Nevertheless, these resources are not available directly for Arabic dialects. As a result, the development of a SRAP for Arabic dialects is fraught with many difficulties, namely the lack of large amounts of resources and the absence of a standard spelling as these dialects are spoken and not written. In this perspective, the work of this thesis is part of the development of a SRAP for the Tunisian dialect. A first part of the contributions consists in developing a variant of CODA (Conventional Orthography for Arabic Dialectal) for the Tunisian dialect. In fact, this convention is designed to provide a detailed description of the guidelines applied to the Tunisian dialect. Given the guidelines of CODA, we have created our corpus TARIC: Corpus of the interaction of the railways of the Tunisian Arab in the field of SNCFT. In addition to these resources, the pronunciation dictionary is indispensable for the development of a peech recognition system. In this regard, in the second part of the contributions, we aim at the creation of a system called conversion(Grapheme-Phonème) G2P which allows to automatically generate this phonetic dictionary. All these resources described before are used to adapt a SRAP for the MSA of the LIUM laboratory to the Tunisian dialect in the field of SNCFT. The evaluation of our system gave rise to WER of 22.6% on the test set.
26

Modeling High-Dimensional Audio Sequences with Recurrent Neural Networks

Boulanger-Lewandowski, Nicolas 04 1900 (has links)
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement. / This thesis studies models of high-dimensional sequences based on recurrent neural networks (RNNs) and their application to music and speech. While in principle RNNs can represent the long-term dependencies and complex temporal dynamics present in real-world sequences such as video, audio and natural language, they have not been used to their full potential since their introduction by Rumelhart et al. (1986a) due to the difficulty to train them efficiently by gradient-based optimization. In recent years, the successful application of Hessian-free optimization and other advanced training techniques motivated an increase of their use in many state-of-the-art systems. The work of this thesis is part of this development. The main idea is to exploit the power of RNNs to learn a probabilistic description of sequences of symbols, i.e. high-level information associated with observed signals, that in turn can be used as a prior to improve the accuracy of information retrieval. For example, by modeling the evolution of note patterns in polyphonic music, chords in a harmonic progression, phones in a spoken utterance, or individual sources in an audio mixture, we can improve significantly the accuracy of polyphonic transcription, chord recognition, speech recognition and audio source separation respectively. The practical application of our models to these tasks is detailed in the last four articles presented in this thesis. In the first article, we replace the output layer of an RNN with conditional restricted Boltzmann machines to describe much richer multimodal output distributions. In the second article, we review and develop advanced techniques to train RNNs. In the last four articles, we explore various ways to combine our symbolic models with deep networks and non-negative matrix factorization algorithms, namely using products of experts, input/output architectures, and generative frameworks that generalize hidden Markov models. We also propose and analyze efficient inference procedures for those models, such as greedy chronological search, high-dimensional beam search, dynamic programming-like pruned beam search and gradient descent. Finally, we explore issues such as label bias, teacher forcing, temporal smoothing, regularization and pre-training.
27

Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole / Relevant acoustic feature selection for speech recognition

Hacine-Gharbi, Abdenour 09 December 2012 (has links)
L’objectif de cette thèse est de proposer des solutions et améliorations de performance à certains problèmes de sélection des paramètres acoustiques pertinents dans le cadre de la reconnaissance de la parole. Ainsi, notre première contribution consiste à proposer une nouvelle méthode de sélection de paramètres pertinents fondée sur un développement exact de la redondance entre une caractéristique et les caractéristiques précédemment sélectionnées par un algorithme de recherche séquentielle ascendante. Le problème de l’estimation des densités de probabilités d’ordre supérieur est résolu par la troncature du développement théorique de cette redondance à des ordres acceptables. En outre, nous avons proposé un critère d’arrêt qui permet de fixer le nombre de caractéristiques sélectionnées en fonction de l’information mutuelle approximée à l’itération j de l’algorithme de recherche. Cependant l’estimation de l’information mutuelle est difficile puisque sa définition dépend des densités de probabilités des variables (paramètres) dans lesquelles le type de ces distributions est inconnu et leurs estimations sont effectuées sur un ensemble d’échantillons finis. Une approche pour l’estimation de ces distributions est basée sur la méthode de l’histogramme. Cette méthode exige un bon choix du nombre de bins (cellules de l’histogramme). Ainsi, on a proposé également une nouvelle formule de calcul du nombre de bins permettant de minimiser le biais de l’estimateur de l’entropie et de l’information mutuelle. Ce nouvel estimateur a été validé sur des données simulées et des données de parole. Plus particulièrement cet estimateur a été appliqué dans la sélection des paramètres MFCC statiques et dynamiques les plus pertinents pour une tâche de reconnaissance des mots connectés de la base Aurora2. / The objective of this thesis is to propose solutions and performance improvements to certain problems of relevant acoustic features selection in the framework of the speech recognition. Thus, our first contribution consists in proposing a new method of relevant feature selection based on an exact development of the redundancy between a feature and the feature previously selected using Forward search algorithm. The estimation problem of the higher order probability densities is solved by the truncation of the theoretical development of this redundancy up to acceptable orders. Moreover, we proposed a stopping criterion which allows fixing the number of features selected according to the mutual information approximated at the iteration J of the search algorithm. However, the mutual information estimation is difficult since its definition depends on the probability densities of the variables (features) in which the type of these distributions is unknown and their estimates are carried out on a finite sample set. An approach for the estimate of these distributions is based on the histogram method. This method requires a good choice of the bin number (cells of the histogram). Thus, we also proposed a new formula of computation of bin number that allows minimizing the estimator bias of the entropy and mutual information. This new estimator was validated on simulated data and speech data. More particularly, this estimator was applied in the selection of the static and dynamic MFCC parameters that were the most relevant for a recognition task of the connected words of the Aurora2 base.
28

Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole / A study of continuous word representations applied to the automatic detection of speech recognition errors

Ghannay, Sahar 20 September 2017 (has links)
Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. L’exploitation des embeddings repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies. Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les embeddings. Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Puis, nous présentons une étude sur l’analyse des erreurs de classifications, qui a pour objectif de percevoir les erreurs difficiles à détecter.Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détections d’erreurs dans plusieurs cadres applicatifs. / My thesis concerns a study of continuous word representations applied to the automatic detection of speech recognition errors. Our study focuses on the use of a neural approach to improve ASR errors detection, using word embeddings. The exploitation of continuous word representations is motivated by the fact that ASR error detection consists on locating the possible linguistic or acoustic incongruities in automatic transcriptions. The aim is therefore to find the appropriate word representation which makes it possible to capture pertinent information in order to be able to detect these anomalies. Our contribution in this thesis concerns several initiatives. First, we start with a preliminary study in which we propose a neural architecture able to integrate different types of features, including word embeddings. Second, we propose a deep study of continuous word representations. This study focuses on the evaluation of different types of linguistic word embeddings and their combination in order to take advantage of their complementarities. On the other hand, it focuses on acoustic word embeddings. Then, we present a study on the analysis of classification errors, with the aim of perceiving the errors that are difficult to detect. Perspectives for improving the performance of our system are also proposed, by modeling the errors at the sentence level. Finally, we exploit the linguistic and acoustic embeddings as well as the information provided by our ASR error detection system in several downstream applications.
29

Sequence to sequence learning and its speech applications

Zhang, Ying 04 1900 (has links)
No description available.

Page generated in 0.5221 seconds