The meager offering of online commercial Swedish Automatic Speech Recognition ser-vices prompts the effort to develop a speech recognizer for Swedish using the open sourcetoolkit Kaldi and publicly available NST speech corpus. Using a previous Kaldi recipeseveral GMM-HMM models are trained and evaluated against commercial options toallow for reasoning of the performance of a customized solution for Automatic SpeechRecognition to that of commercial services. The evaluation takes both accuracy andcomputational speed into consideration. Initial results of the evaluation indicate a sys-tematic bias in the selected test set confirmed by a follow up investigative evaluation.The conclusion is that building a speech recognizer for Swedish using the NST corpusand Kaldi without expert knowledge is feasible but requires further work. / En taligenkännare för svenska utvecklas med målet att utvärdera hur en taligenkännareutvecklad med fritt tillgängliga verktyg står sig mot kommersiella taligenkänningstjänster.Verktyget som används är det öppna källkodsverktyget Kaldi och som träningsdataanvänds det offentligt tillgängliga talkorpuset för svenska från NST. De framtagna mod-ellerna jämförs mot kommersielt tillgängliga tjänster för taligenkänning på svenska.Tidiga resultat i jämförelsen indikerar ett systemiskt jäv i den valda testdata, vilketbekräftas av en uppföljande undersökande utvärdering. Slutsatsen av arbetet är attutsikterna att ta fram en taligenkännare för svenska är goda men kräver omfattandearbete.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-194178 |
Date | January 2016 |
Creators | Mossberg, Zimon |
Publisher | KTH, Skolan för datavetenskap och kommunikation (CSC) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0075 seconds