Speech recognition is the task where a machine processes human speech into a written format. Groundbreaking scientific progress within speech recognition has been fueled by recent advancements in deep learning research, improving both key metrics of the task; accuracy and speed. Traditional speech recognition systems listen to, and analyse, the full speech utterance before making an output prediction. Streaming speech recognition on the other hand makes predictions in real- time, word by word, as speech is received. However, the improved speed of streaming speech recognition comes at a cost of reduced accuracy given the constraint of not having access to the full speech utterance at all time. In this thesis, we investigate the accuracy of streaming speech recognition systems by implementing models with state-of-the-art Transformer-based architectures. Our results show that for two similar models, one streaming, the other non-streaming, trained on a 100hr subset of Libirspeech, achieve a word error rate of 9.99%/10.76% on test- clean without using a language model. This puts the cost of streaming at a 7.2% accuracy degradation. Furthermore, the streaming models can be used “on-device” which has many benefits, including lower inference time, privacy preservation, and the ability to operate without an internet connection. / Taligenkänning är uppgiften där en dator bearbetar mänskligt tal till ett skrivet format. Forskning inom taligenkänning har drivits av de senaste framstegen inom forskning i djupinlärning, vilket har lett till att de två viktigaste mätvärdena, träffsäkerhet och hastighet, har förbättrats. Traditionella taligenkänningssystem lyssnar till och analyserar hela talsekvensen innan en prediktion görs. Strömmande taligenkänning å andra sidan gör realtids prediktioner, ord för ord, när tal tas emot. Den ökade hastigheten som strömmande taligenkänning medför kommer på bekostnad av träffsäkerhet då tillgången till hela talsekvensen inte alltid är tillgänglig. I den här avhandlingen undersöker vi träffsäkerhet av strömmande taligenkänningssystem genom att implementera ”Transformer”- baserade arkitekturer. Våra resultat visar att för två liknande modeller, en strömmande, och en icke- strömmande, tränade på 100 timmar av datasetet Librispeech, når en ordfelfrekvens på 9.99%/10.76% på ”test-clean”. Det gör att strömmande taligenkänning kommer på en bekostnad av 7.2% träffsäkerhet jämfört med icke- strömmande. De strömmande taligenkänningsmodellerna kan användas ”on-device” vilket främjar lägre slutledningstider, sekretessbevarande och förmågan att fungera utan internetanslutning.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-303565 |
Date | January 2021 |
Creators | Köling, Martin |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:558 |
Page generated in 0.0025 seconds