Global ETD Search

61	A study on the integration of phonetic landmarks into large vocabulary continuous speech decoding / Une étude sur l'intégration de repères phonétiques dans le décodage de la parole continue à grand vocabulaire Ziegler, Stefan 17 January 2014 (has links) Cette thèse étudie l'intégration de repères phonétiques dans la reconnaissance automatique de la parole (RAP) continue à grand vocabulaire. Les repères sont des événements à temps discret indiquant la présence d’événements phonétiques dans le signal de parole. Le but est de développer des détecteurs de repères qui sont motivés par la connaissance phonétique afin de modéliser quelques événements phonétiques plus précisément. La thèse présente deux approches de détection de repères, qui utilisent l'information extraite par segments et étudie deux méthodes différentes pour intégrer les repères dans le décodage, qui sont un élagage basé sur les repères et une approche reposant sur les combinaisons pondérées. Alors que les deux approches de détection de repères présentées améliorent les performance de reconnaissance de la parole comparées à l'approche de référence, elles ne surpassent pas les prédictions phonétiques standards par trame. Ces résultats indiquant que la RAP guidée par des repères nécessite de l'information phonétique très hétérogène pour être efficace, la thèse présente une troisième méthode d'intégration conçue pour intégrer un nombre arbitraire de flux de repères hétérogènes et asynchrones dans la RAP. Les résultats indiquent que cette méthode est en effet en mesure d'améliorer le système de référence, pourvu que les repères fournissent de l'information complémentaire aux modèles acoustiques standards. / This thesis studies the integration of phonetic landmarks into standard statistical large vocabulary continuous speech recognition (LVCSR). Landmarks are discrete time instances that indicate the presence of phonetic events in the speech signal. The goal is to develop landmark detectors that are motivated by phonetic knowledge in order to model selected phonetic classes more precisely than it is possible with standard acoustic models. The thesis presents two landmark detection approaches, which make use of segment-based information and studies two different methods to integrate landmarks into the decoding, which are landmark-based pruning and a weighted combination approach. While both approaches improve speech recognition performance compared to the baseline using weighted combination of landmarks and acoustic scores during decoding, they do not outperform standard frame-based phonetic predictions. Since these results indicate that landmark-driven LVCSR requires the integration of very heterogeneous information, the thesis presents a third integration framework that is designed to integrate an arbitrary number of heterogeneous and asynchronous landmark streams into LVCSR. The results indicate that this framework is indeed ale to improve the baseline system, as soon as landmarks provide complementary information to the regular acoustic models. Reconnaissance automatique de la parole Décodage de la parole Speech recognition Decoding Phonetic landmarks Phonetic landmark detection Multimodal speech recognition
62	Phonemic variability and confusability in pronunciation modeling for automatic speech recognition / Variabilité et confusabilité phonémique pour les modèles de prononciations au sein d’un système de reconnaissance automatique de la parole Karanasou, Panagiota 11 June 2013 (has links) Cette thèse aborde les problèmes de variabilité et confusabilité phonémique du point de vue des modèles de prononciation pour un système de reconnaissance automatique de la parole. En particulier, plusieurs directions de recherche sont étudiées. Premièrement, on développe des méthodes de conversion automatique de graphème-phonème et de phonème-phonème. Ces méthodes engendrent des variantes de prononciation pour les mots du vocabulaire, ainsi que des prononciations et des variantes de prononciation, pour des mots hors-vocabulaire. Cependant, ajouter plusieurs prononciations par mot au vocabulaire peut introduire des homophones (ou quasi-homophones) et provoquer une augmentation de la confusabilité du système. Une nouvelle mesure de cette confusabilité est proposée pour analyser et étudier sa relation avec la performance d’un système de reconnaissance de la parole. Cette “confusabilité de prononciation” est plus élevée si des probabilités pour les prononciations ne sont pas fournies et elle peut potentiellement dégrader sérieusement la performance d’un système de reconnaissance de la parole. Il convient, par conséquent, qu’elle soit prise en compte lors de la génération de prononciations. On étudie donc des approches d’entraînement discriminant pour entraîner les poids d’un modèle de confusion phonémique qui autorise différentes facons de prononcer un mot tout en contrôlant le problème de confusabilité phonémique. La fonction objectif à optimiser est choisie afin de correspondre à la mesure de performance de chaque tâche particulière. Dans cette thèse, deux tâches sont étudiées: la tâche de reconnaissance automatique de la parole et la tâche de détection de mots-clés. Pour la reconnaissance automatique de la parole, une fonction objectif qui minimise le taux d’erreur au niveau des phonèmes est adoptée. Pour les expériences menées sur la détection de mots-clés, le “Figure of Merit” (FOM), une mesure de performance de la détection de mots-clés, est directement optimisée. / This thesis addresses the problems of phonemic variability and confusability from the pronunciation modeling perspective for an automatic speech recognition (ASR) system. In particular, several research directions are investigated. First, automatic grapheme-to- phoneme (g2p) and phoneme-to-phoneme (p2p) converters are developed that generate alternative pronunciations for in-vocabulary as well as out-of-vocabulary (OOV) terms. Since the addition of alternative pronunciation may introduce homophones (or close homophones), there is an increase of the confusability of the system. A novel measure of this confusability is proposed to analyze it and study its relation with the ASR performance. This pronunciation confusability is higher if pronunciation probabilities are not provided and can potentially severely degrade the ASR performance. It should, thus, be taken into account during pronunciation generation. Discriminative training approaches are, then, investigated to train the weights of a phoneme confusion model that allows alternative ways of pronouncing a term counterbalancing the phonemic confusability problem. The objective function to optimize is chosen to correspond to the performance measure of the particular task. In this thesis, two tasks are investigated, the ASR task and the KeywordSpotting (KWS) task. For ASR, an objective that minimizes the phoneme error rate is adopted. For experiments conducted on KWS, the Figure of Merit (FOM), a KWS performance measure, is directly maximized. Modèles de prononciation Conversion graphème-phonème Confusabilité Apprentissage discriminant Reconnaissance automatique de la parole Détection des mots-clés Pronunciation modeling G2p conversion Confusability Discriminative train- ing Speech recognition Keyword spotting
63	Prédiction de performances des systèmes de Reconnaissance Automatique de la Parole / Performance prediction of Automatic Speech Recognition systems Elloumi, Zied 18 March 2019 (has links) Nous abordons dans cette thèse la tâche de prédiction de performances des systèmes de reconnaissance automatique de la parole (SRAP).Il s'agit d'une tâche utile pour mesurer la fiabilité d'hypothèses de transcription issues d'une nouvelle collection de données, lorsque la transcription de référence est indisponible et que le SRAP utilisé est inconnu (boîte noire).Notre contribution porte sur plusieurs axes:d'abord, nous proposons un corpus français hétérogène pour apprendre et évaluer des systèmes de prédiction de performances ainsi que des systèmes de RAP.Nous comparons par la suite deux approches de prédiction: une approche à l'état de l'art basée sur l'extraction explicite de traitset une nouvelle approche basée sur des caractéristiques entraînées implicitement à l'aide des réseaux neuronaux convolutifs (CNN).L'utilisation jointe de traits textuels et acoustiques n'apporte pas de gains avec de l'approche état de l'art,tandis qu'elle permet d'obtenir de meilleures prédictions en utilisant les CNNs. Nous montrons également que les CNNs prédisent clairement la distribution des taux d'erreurs sur une collection d'enregistrements, contrairement à l'approche état de l'art qui génère une distribution éloignée de la réalité.Ensuite, nous analysons des facteurs impactant les deux approches de prédiction. Nous évaluons également l'impact de la quantité d'apprentissage des systèmes de prédiction ainsi que la robustesse des systèmes appris avec les sorties d'un système de RAP particulier et utilisés pour prédire la performance sur une nouvelle collection de données.Nos résultats expérimentaux montrent que les deux approches de prédiction sont robustes et que la tâche de prédiction est plus difficile sur des tours de parole courts ainsi que sur les tours de parole ayant un style de parole spontané.Enfin, nous essayons de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs.Nos expériences montrent que les représentations intermédiaires dans le réseau encodent implicitementdes informations sur le style de la parole, l'accent du locuteur ainsi que le type d'émission.Pour tirer profit de cette analyse, nous proposons un système multi-tâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance. / In this thesis, we focus on performance prediction of automatic speech recognition (ASR) systems.This is a very useful task to measure the reliability of transcription hypotheses for a new data collection, when the reference transcription is unavailable and the ASR system used is unknown (black box).Our contribution focuses on several areas: first, we propose a heterogeneous French corpus to learn and evaluate ASR prediction systems.We then compare two prediction approaches: a state-of-the-art (SOTA) performance prediction based on engineered features and a new strategy based on learnt features using convolutional neural networks (CNNs).While the joint use of textual and signal features did not work for the SOTA system, the combination of inputs for CNNs leads to the best WER prediction performance. We also show that our CNN prediction remarkably predicts the shape of the WER distribution on a collection of speech recordings.Then, we analyze factors impacting both prediction approaches. We also assess the impact of the training size of prediction systems as well as the robustness of systems learned with the outputs of a particular ASR system and used to predict performance on a new data collection.Our experimental results show that both prediction approaches are robust and that the prediction task is more difficult on short speech turns as well as spontaneous speech style.Finally, we try to understand which information is captured by our neural model and its relation with different factors.Our experiences show that intermediate representations in the network automatically encode information on the speech style, the speaker's accent as well as the broadcast program type.To take advantage of this analysis, we propose a multi-task system that is slightly more effective on the performance prediction task. Évaluation automatique Prédiction de performances Reconnaissance automatique de la parole Réseau neuronal convolutif Automatic evaluation Performance prediction Automatic speech recognition Convolutional neural networks 004
64	Traitement de l'incertitude pour la reconnaissance de la parole robuste au bruit / Uncertainty learning for noise robust ASR Tran, Dung Tien 20 November 2015 (has links) Cette thèse se focalise sur la reconnaissance automatique de la parole (RAP) robuste au bruit. Elle comporte deux parties. Premièrement, nous nous focalisons sur une meilleure prise en compte des incertitudes pour améliorer la performance de RAP en environnement bruité. Deuxièmement, nous présentons une méthode pour accélérer l'apprentissage d'un réseau de neurones en utilisant une fonction auxiliaire. Dans la première partie, une technique de rehaussement multicanal est appliquée à la parole bruitée en entrée. La distribution a posteriori de la parole propre sous-jacente est alors estimée et représentée par sa moyenne et sa matrice de covariance, ou incertitude. Nous montrons comment propager la matrice de covariance diagonale de l'incertitude dans le domaine spectral à travers le calcul des descripteurs pour obtenir la matrice de covariance pleine de l'incertitude sur les descripteurs. Le décodage incertain exploite cette distribution a posteriori pour modifier dynamiquement les paramètres du modèle acoustique au décodage. La règle de décodage consiste simplement à ajouter la matrice de covariance de l'incertitude à la variance de chaque gaussienne. Nous proposons ensuite deux estimateurs d'incertitude basés respectivement sur la fusion et sur l'estimation non-paramétrique. Pour construire un nouvel estimateur, nous considérons la combinaison linéaire d'estimateurs existants ou de fonctions noyaux. Les poids de combinaison sont estimés de façon générative en minimisant une mesure de divergence par rapport à l'incertitude oracle. Les mesures de divergence utilisées sont des versions pondérées des divergences de Kullback-Leibler (KL), d'Itakura-Saito (IS) ou euclidienne (EU). En raison de la positivité inhérente de l'incertitude, ce problème d'estimation peut être vu comme une instance de factorisation matricielle positive (NMF) pondérée. De plus, nous proposons deux estimateurs d'incertitude discriminants basés sur une transformation linéaire ou non linéaire de l'incertitude estimée de façon générative. Cette transformation est entraînée de sorte à maximiser le critère de maximum d'information mutuelle boosté (bMMI). Nous calculons la dérivée de ce critère en utilisant la règle de dérivation en chaîne et nous l'optimisons par descente de gradient stochastique. Dans la seconde partie, nous introduisons une nouvelle méthode d'apprentissage pour les réseaux de neurones basée sur une fonction auxiliaire sans aucun réglage de paramètre. Au lieu de maximiser la fonction objectif, cette technique consiste à maximiser une fonction auxiliaire qui est introduite de façon récursive couche par couche et dont le minimum a une expression analytique. Grâce aux propriétés de cette fonction, la décroissance monotone de la fonction objectif est garantie / This thesis focuses on noise robust automatic speech recognition (ASR). It includes two parts. First, we focus on better handling of uncertainty to improve the performance of ASR in a noisy environment. Second, we present a method to accelerate the training process of a neural network using an auxiliary function technique. In the first part, multichannel speech enhancement is applied to input noisy speech. The posterior distribution of the underlying clean speech is then estimated, as represented by its mean and its covariance matrix or uncertainty. We show how to propagate the diagonal uncertainty covariance matrix in the spectral domain through the feature computation stage to obtain the full uncertainty covariance matrix in the feature domain. Uncertainty decoding exploits this posterior distribution to dynamically modify the acoustic model parameters in the decoding rule. The uncertainty decoding rule simply consists of adding the uncertainty covariance matrix of the enhanced features to the variance of each Gaussian component. We then propose two uncertainty estimators based on fusion to nonparametric estimation, respectively. To build a new estimator, we consider a linear combination of existing uncertainty estimators or kernel functions. The combination weights are generatively estimated by minimizing some divergence with respect to the oracle uncertainty. The divergence measures used are weighted versions of Kullback-Leibler (KL), Itakura-Saito (IS), and Euclidean (EU) divergences. Due to the inherent nonnegativity of uncertainty, this estimation problem can be seen as an instance of weighted nonnegative matrix factorization (NMF). In addition, we propose two discriminative uncertainty estimators based on linear or nonlinear mapping of the generatively estimated uncertainty. This mapping is trained so as to maximize the boosted maximum mutual information (bMMI) criterion. We compute the derivative of this criterion using the chain rule and optimize it using stochastic gradient descent. In the second part, we introduce a new learning rule for neural networks that is based on an auxiliary function technique without parameter tuning. Instead of minimizing the objective function, this technique consists of minimizing a quadratic auxiliary function which is recursively introduced layer by layer and which has a closed-form optimum. Based on the properties of this auxiliary function, the monotonic decrease of the new learning rule is guaranteed. Reconnaissance automatique de la parole Robustesse au bruit Rehaussement de la parole Propagation de l’incertitude Automatic speech recognition Noise robustness Speech enhancement Uncertainty propagation 006.454 621.399
65	Navigation des personnes aux moyens des technologies des smartphones et des données d’environnements cartographiés / Inertial navigation, context awareness, online detection, indoor mapping, particle filtering, data fusion Taia Alaoui, Fadoua 10 December 2018 (has links) La navigation inertielle grâce aux capteurs intégrés dans les smartphones permet d’assurer une géolocalisation continue même en absence de signal GNSS. Ces capteurs bas coût délivrent néanmoins des mesures bruitées qui engendrent une dérive de la trajectoire. La technique PDR qui est une technique de navigation inertielle par détection de pas souffre de deux limites principales. La première est l’estimation de la longueur de pas car cette dernière dépend des caractéristiques physiques de chaque utilisateur, et la seconde est le résultat d’une dérive angulaire combinée avec un biais lié au portage du capteur à la main. Dans le contexte du projet HAPPYHAND, ce travail s’intéresse à l’exploitation de la carte pour corriger ces différentes erreurs. Un réseau de navigation topologique est exploité pour corriger à la fois les erreurs angulaires et calibrer le modèle de longueur de pas. Ce modèle est ensuite augmenté par un processus de mise à jour de position par détection de points d’intérêt. / Smartphone navigation using the low-cost embedded sensors in off the shelf smartphones can provide a continuous solution in GNSS-denied environments. The most widely adopted approach is Pedestrian Dead Reckoning (PDR) that uses acceleration and angular velocity to estimate the user’s position. Yet, consumer grade sensors deliver noisy measurements that may result into a drift in the estimated trajectory. One major challenge is to estimate accurately step length information since it depends on physiological features that are specific to each user. In addition, angular biases are more likely to be introduced in the orientation estimation process with handheld devices. This is mainly due to the high degree of freedom of hand motion. In the context of a national project called HAPPYHAND, the main goal of this work is to exploit map information as far as possible in order to mitigate the previous inherent limitations to the PDR approach. First, a topological network extracted from the map is proposed in order to correct the angular errors and calibrate the step length model. Second, context awareness is adopted in order to provide regular and frequent position updates thanks to a point of interest online detection scheme. Navigation inertielle Reconnaissance automatique Détection en ligne Cartographie indoor Filtrage particulaire Fusion de données Inertial navigation Context awareness Online detection Indoor mapping Particle filtering Data fusion
66	Grammaire des adverbes de durée et de date en coréen Jung, Eun Jin 13 December 2005 (has links) (PDF) Notre travail a pour objectif une analyse syntaxique des adverbes de temps coréens dont l'interprétation correspond à une durée ou à une date (e.g. 3sigan dongan (pendant 3 heures), 5uel 6il (le 6 mai)). Pour la linguistique formelle comme pour le traitement informatique des langues, une description aussi exhaustive et explicite que possible est indispensable. La méthodologie du lexique-grammaire (M. Gross 1975, 1986b) nous a fourni un modèle de description formelle et systématique de la langue naturelle. Nous avons choisi de décrire les combinaisons lexicales concernées par des graphes d'automates finis, qui constituent autant de "grammaires locales" représentant les différents types de séquences adverbiales possibles. Nos graphes peuvent être intégrés directement à un analyseur syntaxique automatique pour localiser les adverbes de durée et de date en coréen dans des textes quelconques. Cette étude est structurée comme suit : Dans le premier chapitre, nous présentons plusieurs points cruciaux de notre cadre théorique, le lexique-grammaire, et des grammaires locales. Dans le deuxième chapitre, nous nous intéressons plus particulièrement aux formes des groupes nominaux construits sur des noms de temps (Ntps), c'est-à-dire les séquences Dét Ntps, ceci dans une large mesure indépendamment de la postposition et de l'utilisation de ces formes comme adverbes de date ou comme adverbes de durée. Nous consacrons le chapitre 3 à l'analyse des formes interprétables comme des durées et le chapitre 4 à celle des formes interprétables comme des dates. Nous analysons comment les groupes nominaux de temps étudiés dans le deuxième chapitre peuvent entrer dans des phrases qui donnent lieu à des interprétations de durée ou de date. [INFO:INFO_OH] Computer Science/Other adverbe de temps durée date lexique-grammaire analyse syntaxique verbe support grammaire locale graphe automate fini reconnaissance automatique
67	Mesure de confiance trame-synchrones et locales en reconnaissance automatique de la parole Razik, Joseph 09 October 2007 (has links) (PDF) En reconnaissance automatique de la parole, les mesures de confiance tentent d'estimer la confiance qu'on peut accorder au résultat (phonème, mot, phrase) fourni par le moteur de reconnaissance ; l'apport de la mesure de confiance permettant par exemple de mettre en évidence les mots mal reconnus ou hors vocabulaire.<br />Dans cette thèse nous proposons des mesures de confiance capables de faire cette estimation dans le cas d'applications nécessitant une reconnaissance "grand vocabulaire" en flux continu comme l'indexation en mots clés ou la transcription en ligne d'émissions radiophoniques et télévisuelles, ou bien encore la transcription du cours d'un enseignant dans une salle de classe pour des élèves malentendants.<br />Dans ce cadre, nous avons défini deux types de mesure de confiance. Les premières, fondées sur des rapports de vraisemblance, sont des mesures trame-synchrones qui peuvent être calculées au fur et à mesure de la progression du moteur de reconnaissance au sein de la phrase à reconnaître. Les secondes, fondées sur une estimation de la probabilité a posteriori limitée à un voisinage local du mot considéré, nécessitent seulement un court délai avant de pouvoir être calculées.<br />Ces mesures ont été évaluées et comparées à une mesure de l'état de l'art également fondée sur la probabilité a posteriori mais nécessitant la reconnaissance de toute la phrase. Cette évaluation a été faite d'une part dans une tâche de transcription automatique d'un corpus réel d'émissions radiophoniques issu de la campagne ESTER et en utilisant le critère d'évaluation EER (Equal Error Rate) ; d'autre part dans une tâche de détection de mots clés sur le même corpus. Des performances très proches de celles de la mesure de l'état de l'art ont été obtenues par nos mesures locales avec un délai de moins d'une seconde.<br />Nous avons également intégré l'une de nos mesures trame-synchrones dans le processus de décodage du moteur de reconnaissance afin d'améliorer la solution proposée par le système et ainsi diminuer le taux d'erreur en mots d'environ 6% en relatif.<br />Enfin, une de nos mesures de confiance a permis par la mise en valeur de mots de faible confiance d'améliorer la compréhension de malentendants. [INFO:INFO_OH] Computer Science/Other mesure de confiance mesure locale mesure trame-synchrone détection de mots-clés reconnaissance automatique de la parole malentendants
68	Segmentation automatique de parole en phones. Correction d'étiquetage par l'introduction de mesures de confiance Nefti, Samir 16 December 2004 (has links) (PDF) Un système de synthèse de parole par concaténation d'unités acoustiques utilise un dictionnaire de ces unités, construit à partir d'un corpus de parole mono-locuteur segmentée en éléments acoustiques, généralement phonétiques. Pour atteindre une qualité de parole synthétique suffisante, ce dictionnaire doit être richement fourni, et par conséquent nécessite un corpus de plusieurs heures de parole.<br />La segmentation manuelle d'un tel corpus de parole est fastidieuse, d'où l'intérêt de la segmentation automatique. À condition de disposer des transcriptions phonétiques réelles des énoncés, les méthodes automatiques produisent une segmentation de qualité approximativement équivalente à celle d'une segmentation manuelle. Cependant, la transcription manuelle du contenu phonétique du corpus de parole est également fastidieuse.<br />Cette étude concerne la segmentation automatique de parole en phones qui utilise des transcriptions phonétiques automatiquement produites à partir du texte. Elle porte sur la détection et la correction des erreurs d'étiquetage phonétique que contiennent généralement ces transcriptions phonétiques automatiques. Les résultats obtenus dans cette étude sont significativement positifs. Traitement automatique de la parole synthèse automatique de la parole segmentation (Linguistique) tests d'hypothèses (Statistique) reconnaissance automatique de la parole phonétique
69	Reconnaissance automatique de sons d'oiseaux et d'insectes / Automatic recognition of birds and insects sounds Dufour, Olivier 18 February 2016 (has links) Cette thèse consiste en l'utilisation d'outils d'informatiques pour recueillir des informations concernant l'écologie d'espèces animales. L'objectif de départ était d'assembler des algorithmes capables de traiter des enregistrements acoustiques et de détecter, lister et dénombrer les sons éventuellement présents d'insectes, amphibiens et oiseaux. Pour ce faire nous avons testé de manière non exhaustive différents classifieurs et descripteurs de signal audio9 pour (première partie) organiser et participer à trois concours internationaux de reconnaissance automatique de sons d'animaux et (seconde partie) construire un outil de suivi d'abondance de deux espèces d'oiseaux marins pélagiques sur l'île de la Réunion. La première moitié de la thèse (chapitre 7) a été dédiée à la construction et au test de modèles de reconnaissance multi-classes (92 espèces animales : 82 espèces d'oiseaux (dont 66 passériformes), 9 espèces d'insectes, et 1 espèce d'amphibien, Pelophylax kl. grafi). La seconde moitié de la thèse (chapitre 8) s'est concentrée sur la construction de détecteurs de cris de deux espèces d'oiseaux protégées dont les colonies sont particulièrement difficiles d'accès et menacées par le développement et les éclairages urbains : Le Pétrel de Barau (Pterodroma baraui, endémique de la Réunion et en danger d'extinction depuis 2008 d'après l'UICN) et le Puffin tropical (Puffinus bailloni). / The present manuscript deals with computer science applied to ecology. The main objective was to assembly algorithms able to analyse acoustic recordings and automatically detect, list and count sounds of insects, amphibiansand birds. We tested a non exhaustive list of audio features and classifiers to (first part) organize and participate to three international challenges of automatic regnotion of animal's sounds and (second part) build a automatic and passive acoustic monitoring of two species of pelagic seabirds on the Reunion island. Oiseaux Détecteur automatique Algorithme Reconnaissance automatique Phénologie Écologie Colonies Enregistreur automatique ARUs Sap Birds Automatic detector Algorithm Automatic recognition Phenology Ecology Colonies Automatic recorder Arus Sap
70	Modèles de langage ad hoc pour la reconnaissance automatique de la parole / Ad-hoc language models for automatic speech recognition Oger, Stanislas 30 November 2011 (has links) Les trois piliers d’un système de reconnaissance automatique de la parole sont le lexique,le modèle de langage et le modèle acoustique. Le lexique fournit l’ensemble des mots qu’il est possible de transcrire, associés à leur prononciation. Le modèle acoustique donne une indication sur la manière dont sont réalisés les unités acoustiques et le modèle de langage apporte la connaissance de la manière dont les mots s’enchaînent.Dans les systèmes de reconnaissance automatique de la parole markoviens, les modèles acoustiques et linguistiques sont de nature statistique. Leur estimation nécessite de gros volumes de données sélectionnées, normalisées et annotées.A l’heure actuelle, les données disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces données peuvent potentiellement servir à la construction du lexique et à l’estimation et l’adaptation du modèle de langage. Le travail présenté ici consiste à proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisé en deux parties. La première traite de l’utilisation des données présentes sur le Web pour mettre à jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L’approche proposée consiste à augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grâce à la formulation automatique de requêtes soumises à un moteur de recherche. La phonétisation de ces mots est obtenue grâce à un phonétiseur automatique.La seconde partie présente une nouvelle manière de considérer l’information que représente le Web et des éléments de la théorie des possibilités sont utilisés pour la modéliser. Un modèle de langage possibiliste est alors proposé. Il fournit une estimation de la possibilité d’une séquence de mots à partir de connaissances relatives à ’existence de séquences de mots sur le Web. Un modèle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est également présenté. Plusieurs approches permettant de combiner ces modèles avec des modèles probabilistes classiques estimés sur corpus sont proposées. Les résultats montrent que combiner les modèles probabilistes et possibilistes donne de meilleurs résultats que es modèles probabilistes classiques. De plus, les modèles estimés à partir des données Web donnent de meilleurs résultats que ceux estimés sur corpus. / The three pillars of an automatic speech recognition system are the lexicon, the languagemodel and the acoustic model. The lexicon provides all the words that can betranscribed, associated with their pronunciation. The acoustic model provides an indicationof how the phone units are pronounced, and the language model brings theknowledge of how words are linked. In modern automatic speech recognition systems,the acoustic and language models are statistical. Their estimation requires large volumesof data selected, standardized and annotated.At present, the Web is by far the largest textual corpus available for English andFrench languages. The data it holds can potentially be used to build the vocabularyand the estimation and adaptation of language model. The work presented here is topropose new approaches to take advantage of this resource in the context of languagemodeling.The document is organized into two parts. The first deals with the use of the Webdata to dynamically update the lexicon of the automatic speech recognition system.The proposed approach consists on increasing dynamically and locally the lexicon onlywhen unknown words appear in the speech. New words are extracted from the Webthrough the formulation of queries submitted toWeb search engines. The phonetizationof the words is obtained by an automatic grapheme-to-phoneme transcriber.The second part of the document presents a new way of handling the informationcontained on the Web by relying on possibility theory concepts. A Web-based possibilisticlanguage model is proposed. It provides an estition of the possibility of a wordsequence from knowledge of the existence of its sub-sequences on the Web. A probabilisticWeb-based language model is also proposed. It relies on Web document countsto estimate n-gram probabilities. Several approaches for combining these models withclassical models are proposed. The results show that combining probabilistic and possibilisticmodels gives better results than classical probabilistic models alone. In addition,the models estimated from Web data perform better than those estimated on corpus. Reconnaissance Automatique de la Parole Modélisation du Langage Théorie des Possibilités Modèle de Langage Web Mots Hors-Vocabulaires Automatic Speech Recognition, Language Modeling Theory of Possibilities Web Language Model Out-Of-Vocabulary Words 006.454

Search results