Return to search

Normalizing Flow based Hidden Markov Models for Phone Recognition / Normalisering av flödesbaserade dolda Markov-modeller för fonemigenkänning

The task of Phone recognition is a fundamental task in Speech recognition and often serves a critical role in bench-marking purposes. Researchers have used a variety of models used in the past to address this task, using both generative and discriminative learning approaches. Among them, generative approaches such as the use of Gaussian mixture model-based hidden Markov models are always favored because of their mathematical tractability. However, the use of generative models such as hidden Markov models and its hybrid varieties is no longer in fashion owing to a large inclination to discriminative learning approaches, which have been found to perform better. The only downside is that these approaches do not always ensure mathematical tractability or convergence guarantees as opposed to their generative counterparts. So, the research problem was to investigate whether there could be a process of augmenting the modeling capability of generative Models using a kind of neural network based architectures that could simultaneously prove mathematically tractable and expressive. Normalizing flows are a class of generative models that have been garnered a lot of attention recently in the field of density estimation and offer a method for exact likelihood computation and inference. In this project, a few varieties of Normalizing flow-based hidden Markov models were used for the task of Phone recognition on the TIMIT dataset. It was been found that these models and their mixture model varieties outperformed classical generative model varieties like Gaussian mixture models. A decision fusion approach using classical Gaussian and Normalizing flow-based mixtures showed competitive results compared to discriminative learning approaches. Further analysis based on classes of speech phones was carried out to compare the generative models used. Additionally, a study of the robustness of these algorithms to noisy speech conditions was also carried out. / Uppgiften för fonemigenkänning är en grundläggande uppgift i taligenkänning och tjänar ofta en kritisk roll i benchmarkingändamål. Forskare har använt en mängd olika modeller som använts tidigare för att hantera denna uppgift genom att använda både generativa och diskriminerande inlärningssätt. Bland dem är generativa tillvägagångssätt som användning av Gaussian-blandnings modellbaserade dolda Markov-modeller alltid föredragna på grund av deras matematiska spårbarhet. Men användningen av generativa modeller som dolda Markov-modeller och dess hybridvarianter är inte längre på mode på grund av en stor lutning till diskriminerande inlärningsmetoder, som har visat sig fungera bättre. Den enda nackdelen är att dessa tillvägagångssätt inte alltid säkerställer matematisk spårbarhet eller konvergensgarantier i motsats till deras generativa motsvarigheter. Således var forskningsproblemet att undersöka om det kan finnas en process för att förstärka modelleringsförmågan hos generativa modeller med hjälp av ett slags neurala nätverksbaserade arkitekturer som samtidigt kunde visa sig matematiskt spårbart och uttrycksfullt. Normaliseringsflöden är en klass generativa modeller som nyligen har fått mycket uppmärksamhet inom området för densitetsberäkning och erbjuder en metod för exakt sannolikhetsberäkning och slutsats. I detta projekt användes några få varianter av Normaliserande flödesbaserade dolda Markov-modeller för uppgiften att fonemigenkänna i TIMIT-datasatsen. Det visade sig att dessa modeller och deras blandningsmodellvarianter överträffade klassiska generativa modellvarianter som Gaussiska blandningsmodeller. Ett beslutssmältningsstrategi med klassiska Gaussiska och Normaliserande flödesbaserade blandningar visade konkurrenskraftiga resultat jämfört med diskriminerande inlärningsmetoder. Ytterligare analys baserat på klasser av talsignaler utfördes för att jämföra de generativa modellerna som användes. Dessutom genomfördes en studie av robustheten hos dessa algoritmer till bullriga talförhållanden.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-286594
Date January 2020
CreatorsGhosh, Anubhab
PublisherKTH, Teknisk informationsvetenskap
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2020:675

Page generated in 0.0024 seconds