Global ETD Search

1	Quelques contributions en reconnaissance automatique de la parole robuste Cerisara, Christophe 31 March 2010 (has links) (PDF) La reconnaissance automatique de la parole est un domaine de recherche très actif depuis de nombreuses années. Bien que les performances des systèmes de transcription automatique aient considérablement progressé depuis tout ce temps, les erreurs commises par ces systèmes ne sont toujours pas acceptables du point de vue des utilisateurs, probablement du fait du référentiel humain qui reste largement inégalé, en particulier en ce qui concerne la robustesse des transcriptions aux conditions d'utilisation dégradées. J'étudie dans ce mémoire l'état de l'art du domaine pour la période allant de 1995 à 2010, en me concentrant sur les aspects liés à la robustesse des modèles acoustiques avec un seul microphone. J'y décris également mes principales contributions, en les classant selon les différents étages composant un système de reconnaissance automatique: paramétrisation, modèle acoustique et algorithme de décodage. Dans le domaine de la paramétrisation, mes deux contributions principales concernent une étude du domaine de l'analyse computationnelle de scènes auditives, ainsi qu'une nouvelle approche de débruitage de la parole s'appuyant sur une modélisation bayésienne des espaces bruités et non-bruités et de leur inter-dépendances. Mes travaux sur les modèles acoustiques ont débuté pendant ma thèse de doctorat, qui concernait l'étude des modèles multi-bandes, dans lesquels le spectre du signal de parole est décomposé en bandes de fréquences indépendantes. Dans ce cadre, j'ai notamment proposé un algorithme d'apprentissage discriminant global et la conception de nouvelles unités phonétiques adaptées à l'information phonétique présente dans les bandes. Une autre contribution importante est l'amélioration de l'adaptation jacobienne, qui est une approximation linéaire de la méthode PMC (Parallel Model Combination) dans le domaine cepstral. J'ai notamment proposé une approche permettant de choisir le compromis précision / complexité souhaité, et étendu l'approche au bruit convolutif. Une partie conséquente de mes travaux a ensuite concerné la reconnaissance avec données manquantes, qui, par ses aspects de marginalisation, peut être interprétée comme une modification de l'algorithme de reconnaissance. Cette modification exploite une nouvelle source d'information concernant la localisation spectro-temporelle du bruit afin de concentrer le décodage sur les observations acoustiques les moins corrompues. J'ai ainsi travaillé sur l'adaptation de cette approche au domaine cepstral, notamment en proposant un nouveau formalisme de calcul des masques minimisant directement le taux d'erreur de reconnaissance. Une autre contribution concerne le développement de modèles bayésiens originaux qui discrétisent l'espace de recherche pour estimer les masques, ou encore d'une nouvelle méthode minimisant la largeur de l'intervalle de marginalisation. Cette première partie du mémoire est guidée par une analyse des progrès réalisés en fonction d'un critère, celui de l'information prise en compte par les différentes méthodes proposées. Ce critère est en effet très important, car il a une grande influence sur les évaluations expérimentales et sur les capacités de généralisation des approches. De plus, alors que d'innombrables modèles théoriques d'apprentissage ont été proposés et testés depuis vingt ans, toutes ces approches exploitent quasiment exclusivement l'information acoustique et lexicale. Je soupçonne les limites des paradigmes actuels d'être en bien plus grande partie dus au déficit d'information et de connaissance qu'aux capacités des modèles eux-mêmes. J'ai donc commencé à m'intéresser depuis 2004 aux autres sources d'information qui pourraient servir en reconnaissance de la parole, notamment au contexte et plus particulièrement aux connaissances syntaxiques et sémantiques. Ce mémoire développe ces aspects essentiellement dans une deuxième partie consacrée à la reconnaissance des actes de dialogue, à la segmentation en phrases, à la sémantique lexicale par le biais de la détection automatique du thème, et enfin à l'analyse syntaxique des transcriptions automatiques de l'oral. Mon ambition est tout d'abord d'étudier et d'adapter les approches en linguistique computationnelle permettant d'extraire ces indices du flux de parole afin de prendre en compte les spécificités des transcriptions automatiques, puis d'exploiter en retour ces nouvelles informations afin d'améliorer le système de transcription automatique. reconnaissance automatique de la parole robustesse au bruit données manquantes
2	Traitement de l'incertitude pour la reconnaissance de la parole robuste au bruit / Uncertainty learning for noise robust ASR Tran, Dung Tien 20 November 2015 (has links) Cette thèse se focalise sur la reconnaissance automatique de la parole (RAP) robuste au bruit. Elle comporte deux parties. Premièrement, nous nous focalisons sur une meilleure prise en compte des incertitudes pour améliorer la performance de RAP en environnement bruité. Deuxièmement, nous présentons une méthode pour accélérer l'apprentissage d'un réseau de neurones en utilisant une fonction auxiliaire. Dans la première partie, une technique de rehaussement multicanal est appliquée à la parole bruitée en entrée. La distribution a posteriori de la parole propre sous-jacente est alors estimée et représentée par sa moyenne et sa matrice de covariance, ou incertitude. Nous montrons comment propager la matrice de covariance diagonale de l'incertitude dans le domaine spectral à travers le calcul des descripteurs pour obtenir la matrice de covariance pleine de l'incertitude sur les descripteurs. Le décodage incertain exploite cette distribution a posteriori pour modifier dynamiquement les paramètres du modèle acoustique au décodage. La règle de décodage consiste simplement à ajouter la matrice de covariance de l'incertitude à la variance de chaque gaussienne. Nous proposons ensuite deux estimateurs d'incertitude basés respectivement sur la fusion et sur l'estimation non-paramétrique. Pour construire un nouvel estimateur, nous considérons la combinaison linéaire d'estimateurs existants ou de fonctions noyaux. Les poids de combinaison sont estimés de façon générative en minimisant une mesure de divergence par rapport à l'incertitude oracle. Les mesures de divergence utilisées sont des versions pondérées des divergences de Kullback-Leibler (KL), d'Itakura-Saito (IS) ou euclidienne (EU). En raison de la positivité inhérente de l'incertitude, ce problème d'estimation peut être vu comme une instance de factorisation matricielle positive (NMF) pondérée. De plus, nous proposons deux estimateurs d'incertitude discriminants basés sur une transformation linéaire ou non linéaire de l'incertitude estimée de façon générative. Cette transformation est entraînée de sorte à maximiser le critère de maximum d'information mutuelle boosté (bMMI). Nous calculons la dérivée de ce critère en utilisant la règle de dérivation en chaîne et nous l'optimisons par descente de gradient stochastique. Dans la seconde partie, nous introduisons une nouvelle méthode d'apprentissage pour les réseaux de neurones basée sur une fonction auxiliaire sans aucun réglage de paramètre. Au lieu de maximiser la fonction objectif, cette technique consiste à maximiser une fonction auxiliaire qui est introduite de façon récursive couche par couche et dont le minimum a une expression analytique. Grâce aux propriétés de cette fonction, la décroissance monotone de la fonction objectif est garantie / This thesis focuses on noise robust automatic speech recognition (ASR). It includes two parts. First, we focus on better handling of uncertainty to improve the performance of ASR in a noisy environment. Second, we present a method to accelerate the training process of a neural network using an auxiliary function technique. In the first part, multichannel speech enhancement is applied to input noisy speech. The posterior distribution of the underlying clean speech is then estimated, as represented by its mean and its covariance matrix or uncertainty. We show how to propagate the diagonal uncertainty covariance matrix in the spectral domain through the feature computation stage to obtain the full uncertainty covariance matrix in the feature domain. Uncertainty decoding exploits this posterior distribution to dynamically modify the acoustic model parameters in the decoding rule. The uncertainty decoding rule simply consists of adding the uncertainty covariance matrix of the enhanced features to the variance of each Gaussian component. We then propose two uncertainty estimators based on fusion to nonparametric estimation, respectively. To build a new estimator, we consider a linear combination of existing uncertainty estimators or kernel functions. The combination weights are generatively estimated by minimizing some divergence with respect to the oracle uncertainty. The divergence measures used are weighted versions of Kullback-Leibler (KL), Itakura-Saito (IS), and Euclidean (EU) divergences. Due to the inherent nonnegativity of uncertainty, this estimation problem can be seen as an instance of weighted nonnegative matrix factorization (NMF). In addition, we propose two discriminative uncertainty estimators based on linear or nonlinear mapping of the generatively estimated uncertainty. This mapping is trained so as to maximize the boosted maximum mutual information (bMMI) criterion. We compute the derivative of this criterion using the chain rule and optimize it using stochastic gradient descent. In the second part, we introduce a new learning rule for neural networks that is based on an auxiliary function technique without parameter tuning. Instead of minimizing the objective function, this technique consists of minimizing a quadratic auxiliary function which is recursively introduced layer by layer and which has a closed-form optimum. Based on the properties of this auxiliary function, the monotonic decrease of the new learning rule is guaranteed. Reconnaissance automatique de la parole Robustesse au bruit Rehaussement de la parole Propagation de l’incertitude Automatic speech recognition Noise robustness Speech enhancement Uncertainty propagation 006.454 621.399
3	Systèmes de numérisation hautes performances – Architectures robustes adaptées à la radio cognitive. / High performance digitization systems - robust architecture adapted to the cognitive radio Song, Zhiguo 17 December 2010 (has links) Les futures applications de radio cognitive requièrent des systèmes de numérisation capables de convertir alternativement ou simultanément soit une bande très large avec une faible résolution soit une bande plus étroite avec une meilleure résolution, ceci de manière versatile (i.e. par contrôle logiciel). Pour cela, les systèmes de numérisation basés sur les Bancs de Filtres Hybrides (BFH) sont une solution attractive. Ils se composent d'un banc de filtres analogiques, un banc de convertisseurs analogique-numérique et un banc de filtres numériques. Cependant, ils sont très sensibles aux imperfections analogiques. L'objectif de cette thèse était de proposer et d’étudier une méthode de calibration qui permette de corriger les erreurs analogiques dans la partie numérique. De plus, la méthode devait être implémentable dans un système embarqué. Ce travail a abouti à une nouvelle méthode de calibration de BFH utilisant une technique d'Égalisation Adaptative Multi-Voies (EAMV) qui ajuste les coefficients des filtres numériques par rapport aux filtres analogiques réels. Cette méthode requiert d'injecter un signal de test connu à l'entrée du BFH et d'adapter la partie numérique afin de reconstruire le signal de référence correspondant. Selon le type de reconstruction souhaité (d’une large-bande, d’une sous-bande ou d’une bande étroite particulière), nous avons proposé plusieurs signaux de test et de référence. Ces signaux ont été validés en calculant les filtres numériques optimaux par la méthode de Wiener-Hopf et en évaluant leurs performances de ces derniers dans le domaine fréquentiel. Afin d’approcher les filtres numériques optimaux avec une complexité calculatoire minimum, nous avons implémenté un algorithme du gradient stochastique. La robustesse de la méthode a été évaluée en présence de bruit dans la partie analogique et de en tenant compte de la quantification dans la partie numérique. Un signal de test plus robuste au bruit analogique a été proposé. Les nombres de bits nécessaires pour coder les différentes données dans la partie numérique ont été dimensionnés pour atteindre les performances visées (à savoir 14 bits de résolution). Ce travail de thèse a permis d'avancer vers la réalisation des futurs systèmes de numérisation basés sur les BFH. / The future applications of cognitive radio require digitization systems being capable to perform a flexible conversion in terms of bandwidth and Resolution. The digitization systems based on Hybrid Filter Bancs (HFB) provide an attractive solution for achieving this purpose. The HFBs consist of a bank of analog filters, a bank of analog/digital converters and a bank of digital filters. However, they are so sensitive that the presence of analog errors renders them impossible to carry out. Therefore, the goal of the thesis was to propose and study a calibration method for the analog errors to be corrected in the digital part. Furthermore, the proposed method had to be implementable in an embedded system. Based on Multichannel Adaptive Equalization (MCAE), we proposed a new calibration method. The digital filter coefficients are adjusted according to the real analog filters. To perform this calibration process, a known test signal is injected into the HFB which output is compared to a linked desired signal, their difference is used to adjust the digital part iteratively until the goal is achieved. For different reconstruction goals (wideband, subband or a particular narrow band), we proposed two ways to generate the test and desired signals. With the filters achieved by using method Wiener-Hopf, these signals have been validated by the evaluation of the reconstruction performances. In order to approach the optimal coefficients with a minimal computational complexity, we have implemented an algorithm of stochastic gradient. The robustness of the MCAE method has been studied both in presence of the thermal noise in the analog part and in presence of quantization errors in the digital part. A more robust test signal against the analog noise has been proposed. According to our analytical expressions, for the reconstruction goal (i.e. resolution of 14 bits), the numbers of bits needed for coding the different data of the digital part can be indicated. This thesis is a step forward for realizing future digitization systems based on HFBs. Conversion analogique/numérique Bancs de filtres hybrides Focalisation spectrale Sensibilité aux erreurs analogiques Égalisation adaptative multi-voies Calibration Robustesse au bruit additif Implémentation d'algorithmes Analog-digital conversion Hybrid filters bancs Spectral focusing Analogs errors Calibration Additive noise Algorithm 378.242
4	Systèmes de numérisation hautes performances - Architectures robustes adaptées à la radio cognitive. Song, Zhiguo 17 December 2010 (has links) (PDF) Les futures applications de radio cognitive requièrent des systèmes de numérisation capables de convertir alternativement ou simultanément soit une bande très large avec une faible résolution soit une bande plus étroite avec une meilleure résolution, ceci de manière versatile (i.e. par contrôle logiciel). Pour cela, les systèmes de numérisation basés sur les Bancs de Filtres Hybrides (BFH) sont une solution attractive. Ils se composent d'un banc de filtres analogiques, un banc de convertisseurs analogique-numérique et un banc de filtres numériques. Cependant, ils sont très sensibles aux imperfections analogiques. L'objectif de cette thèse était de proposer et d'étudier une méthode de calibration qui permette de corriger les erreurs analogiques dans la partie numérique. De plus, la méthode devait être implémentable dans un système embarqué. Ce travail a abouti à une nouvelle méthode de calibration de BFH utilisant une technique d'Égalisation Adaptative Multi-Voies (EAMV) qui ajuste les coefficients des filtres numériques par rapport aux filtres analogiques réels. Cette méthode requiert d'injecter un signal de test connu à l'entrée du BFH et d'adapter la partie numérique afin de reconstruire le signal de référence correspondant. Selon le type de reconstruction souhaité (d'une large-bande, d'une sous-bande ou d'une bande étroite particulière), nous avons proposé plusieurs signaux de test et de référence. Ces signaux ont été validés en calculant les filtres numériques optimaux par la méthode de Wiener-Hopf et en évaluant leurs performances de ces derniers dans le domaine fréquentiel. Afin d'approcher les filtres numériques optimaux avec une complexité calculatoire minimum, nous avons implémenté un algorithme du gradient stochastique. La robustesse de la méthode a été évaluée en présence de bruit dans la partie analogique et de en tenant compte de la quantification dans la partie numérique. Un signal de test plus robuste au bruit analogique a été proposé. Les nombres de bits nécessaires pour coder les différentes données dans la partie numérique ont été dimensionnés pour atteindre les performances visées (à savoir 14 bits de résolution). Ce travail de thèse a permis d'avancer vers la réalisation des futurs systèmes de numérisation basés sur les BFH. Conversion analogique/numérique Bancs de filtres hybrides Focalisation spectrale Sensibilité aux erreurs analogiques Égalisation adaptative multi-voies Calibration Robustesse au bruit additif Implémentation d'algorithmes

1

Page generated in 0.0874 seconds