Return to search

Achieving Automatic Speech Recognition for Swedish using the Kaldi toolkit / Automatisk taligenkänning på svenska med verktyget Kaldi

The meager offering of online commercial Swedish Automatic Speech Recognition ser-vices prompts the effort to develop a speech recognizer for Swedish using the open sourcetoolkit Kaldi and publicly available NST speech corpus. Using a previous Kaldi recipeseveral GMM-HMM models are trained and evaluated against commercial options toallow for reasoning of the performance of a customized solution for Automatic SpeechRecognition to that of commercial services. The evaluation takes both accuracy andcomputational speed into consideration. Initial results of the evaluation indicate a sys-tematic bias in the selected test set confirmed by a follow up investigative evaluation.The conclusion is that building a speech recognizer for Swedish using the NST corpusand Kaldi without expert knowledge is feasible but requires further work. / En taligenkännare för svenska utvecklas med målet att utvärdera hur en taligenkännareutvecklad med fritt tillgängliga verktyg står sig mot kommersiella taligenkänningstjänster.Verktyget som används är det öppna källkodsverktyget Kaldi och som träningsdataanvänds det offentligt tillgängliga talkorpuset för svenska från NST. De framtagna mod-ellerna jämförs mot kommersielt tillgängliga tjänster för taligenkänning på svenska.Tidiga resultat i jämförelsen indikerar ett systemiskt jäv i den valda testdata, vilketbekräftas av en uppföljande undersökande utvärdering. Slutsatsen av arbetet är attutsikterna att ta fram en taligenkännare för svenska är goda men kräver omfattandearbete.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-194178
Date January 2016
CreatorsMossberg, Zimon
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.1417 seconds