1 |
Phonemic variability and confusability in pronunciation modeling for automatic speech recognition / Variabilité et confusabilité phonémique pour les modèles de prononciations au sein d’un système de reconnaissance automatique de la paroleKaranasou, Panagiota 11 June 2013 (has links)
Cette thèse aborde les problèmes de variabilité et confusabilité phonémique du point de vue des modèles de prononciation pour un système de reconnaissance automatique de la parole. En particulier, plusieurs directions de recherche sont étudiées. Premièrement, on développe des méthodes de conversion automatique de graphème-phonème et de phonème-phonème. Ces méthodes engendrent des variantes de prononciation pour les mots du vocabulaire, ainsi que des prononciations et des variantes de prononciation, pour des mots hors-vocabulaire. Cependant, ajouter plusieurs prononciations par mot au vocabulaire peut introduire des homophones (ou quasi-homophones) et provoquer une augmentation de la confusabilité du système. Une nouvelle mesure de cette confusabilité est proposée pour analyser et étudier sa relation avec la performance d’un système de reconnaissance de la parole. Cette “confusabilité de prononciation” est plus élevée si des probabilités pour les prononciations ne sont pas fournies et elle peut potentiellement dégrader sérieusement la performance d’un système de reconnaissance de la parole. Il convient, par conséquent, qu’elle soit prise en compte lors de la génération de prononciations. On étudie donc des approches d’entraînement discriminant pour entraîner les poids d’un modèle de confusion phonémique qui autorise différentes facons de prononcer un mot tout en contrôlant le problème de confusabilité phonémique. La fonction objectif à optimiser est choisie afin de correspondre à la mesure de performance de chaque tâche particulière. Dans cette thèse, deux tâches sont étudiées: la tâche de reconnaissance automatique de la parole et la tâche de détection de mots-clés. Pour la reconnaissance automatique de la parole, une fonction objectif qui minimise le taux d’erreur au niveau des phonèmes est adoptée. Pour les expériences menées sur la détection de mots-clés, le “Figure of Merit” (FOM), une mesure de performance de la détection de mots-clés, est directement optimisée. / This thesis addresses the problems of phonemic variability and confusability from the pronunciation modeling perspective for an automatic speech recognition (ASR) system. In particular, several research directions are investigated. First, automatic grapheme-to- phoneme (g2p) and phoneme-to-phoneme (p2p) converters are developed that generate alternative pronunciations for in-vocabulary as well as out-of-vocabulary (OOV) terms. Since the addition of alternative pronunciation may introduce homophones (or close homophones), there is an increase of the confusability of the system. A novel measure of this confusability is proposed to analyze it and study its relation with the ASR performance. This pronunciation confusability is higher if pronunciation probabilities are not provided and can potentially severely degrade the ASR performance. It should, thus, be taken into account during pronunciation generation. Discriminative training approaches are, then, investigated to train the weights of a phoneme confusion model that allows alternative ways of pronouncing a term counterbalancing the phonemic confusability problem. The objective function to optimize is chosen to correspond to the performance measure of the particular task. In this thesis, two tasks are investigated, the ASR task and the KeywordSpotting (KWS) task. For ASR, an objective that minimizes the phoneme error rate is adopted. For experiments conducted on KWS, the Figure of Merit (FOM), a KWS performance measure, is directly maximized.
|
2 |
Towards a unified model for speech and language processingPloujnikov, Artem 12 1900 (has links)
Ce travail de recherche explore les méthodes d’apprentissage profond de la parole et du
langage, y inclus la reconnaissance et la synthèse de la parole, la conversion des graphèmes en
phonèmes et vice-versa, les modèles génératifs, visant de reformuler des tâches spécifiques dans
un problème plus général de trouver une représentation universelle d’information contenue
dans chaque modalité et de transférer un signal d’une modalité à une autre en se servant de
telles représentations universelles et à générer des représentations dans plusieurs modalités.
Il est compris de deux projets de recherche: 1) SoundChoice, un modèle graphème-phonème
tenant compte du contexte au niveau de la phrase qui réalise de bonnes performances et
des améliorations remarquables comparativement à un modèle de base et 2) MAdmixture, une
nouvelle approche pour apprendre des représentations multimodales dans un espace latent
commun. / The present work explores the use of deep learning methods applied to a variety of areas
in speech and language processing including speech recognition, grapheme-to-phoneme conversion,
speech synthesis, generative models for speech and others to build toward a unified
approach that reframes these individual tasks into a more general problem of finding a
universal representation of information encoded in different modalities and being able to
seamlessly transfer a signal from one modality to another by converting it to this universal
representations and to generate samples in multiple modalities. It consists of two main
research projects: 1) SoundChocice, a context-aware sentence level Grapheme-to-Phoneme
model achieving solid performance on the task and a significant improvement on phoneme
disambiguation over baseline models and 2) MAdmixture, a novel approach to learning a variety
of speech representations in a common latent space.
|
Page generated in 0.2546 seconds