Global ETD Search

31	Automatic Speech Recognition Model for Swedish using Kaldi Wang, Yihan January 2020 (has links) With the development of intelligent era, speech recognition has been a hottopic. Although many automatic speech recognition(ASR) tools have beenput into the market, a considerable number of them do not support Swedishbecause of its small number. In this project, a Swedish ASR model basedon Hidden Markov Model and Gaussian Mixture Models is established usingKaldi which aims to help ICA Banken complete the classification of aftersalesvoice calls. A variety of model patterns have been explored, whichhave different phoneme combination methods and eigenvalue extraction andprocessing methods. Word Error Rate and Real Time Factor are selectedas evaluation criteria to compare the recognition accuracy and speed ofthe models. As far as large vocabulary continuous speech recognition isconcerned, triphone is much better than monophone. Adding feature transformationwill further improve the speed of accuracy. The combination oflinear discriminant analysis, maximum likelihood linear transformand speakeradaptive training obtains the best performance in this implementation. Fordifferent feature extraction methods, mel-frequency cepstral coefficient ismore conducive to obtain higher accuracy, while perceptual linear predictivetends to improve the overall speed. / Det existerar flera lösningar för automatisk transkribering på marknaden, menen stor del av dem stödjer inte svenska på grund utav det relativt få antalettalare. I det här projektet så skapades automatisk transkribering för svenskamed Hidden Markov models och Gaussian mixture models genom att användaKaldi. Detta för att kunna möjliggöra för ICABanken att klassificera samtal tillsin kundtjänst. En mängd av modellvariationer med olika fonemkombinationsmetoder,egenvärdesberäkning och databearbetningsmetoder har utforskats.Word error rate och real time factor är valda som utvärderingskriterier föratt jämföra precisionen och hastigheten mellan modellerna. När det kommertill kontinuerlig transkribering för ett stort ordförråd så resulterar triphonei mycket bättre prestanda än monophone. Med hjälp utav transformationerså förbättras både precisionen och hastigheten. Kombinationen av lineardiscriminatn analysis, maximum likelihood linear transformering och speakeradaptive träning resulterar i den bästa prestandan i denna implementation.För olika egenskapsextraktioner så bidrar mel-frequency cepstral koefficiententill en bättre precision medan perceptual linear predictive tenderar att ökahastigheten. Speech recognition Kaldi Mel-frequency cepstral coefficient Perceptual linear predictive Speaker adaptive training Weight Finite State Transducers Taligenkänning Kaldi Cefstralskoefficient för Mel-Frekvens Perceptuell linjär prediktiv Uppladdning av högtalaren Viktfinitomvandlare Elektroteknik och elektronik
32	Mispronunciation Detection with SpeechBlender Data Augmentation Pipeline / Uttalsfelsdetektering med SpeechBlender data-förstärkning Elkheir, Yassine January 2023 (has links) The rise of multilingualism has fueled the demand for computer-assisted pronunciation training (CAPT) systems for language learning, CAPT systems make use of speech technology advancements and offer features such as learner assessment and curriculum management. Mispronunciation detection (MD) is a crucial aspect of CAPT, aimed at identifying and correcting mispronunciations in second language learners’ speech. One of the significant challenges in developing MD models is the limited availability of labeled second-language speech data. To overcome this, the thesis introduces SpeechBlender - a fine-grained data augmentation pipeline designed to generate mispronunciations. The SpeechBlender targets different regions of a phonetic unit and blends raw speech signals through linear interpolation, resulting in erroneous pronunciation instances. This method provides a more effective sample generation compared to traditional cut/paste methods. The thesis explores also the use of pre-trained automatic speech recognition (ASR) systems for mispronunciation detection (MD), and examines various phone-level features that can be extracted from pre-trained ASR models and utilized for MD tasks. An deep neural model was proposed, that enhance the representations of extracted acoustic features combined with positional phoneme embeddings. The efficacy of the augmentation technique is demonstrated through a phone-level pronunciation quality assessment task using only non-native good pronunciation speech data. Our proposed technique achieves state-of-the-art results, with Speechocean762 Dataset [54], on ASR dependent MD models at phoneme level, with a 2.0% gain in Pearson Correlation Coefficient (PCC) compared to the previous state-of-the-art [17]. Additionally, we demonstrate a 5.0% improvement at the phoneme level compared to our baseline. In this thesis, we developed the first Arabic pronunciation learning corpus for Arabic AraVoiceL2 to demonstrate the generality of our proposed model and augmentation technique. We used the corpus to evaluate the effectiveness of our approach in improving mispronunciation detection for non-native Arabic speakers learning. Our experiments showed promising results, with a 4.6% increase in F1-score for the Arabic AraVoiceL2 testset, demonstrating the effectiveness of our model and augmentation technique in improving pronunciation learning for non-native speakers of Arabic. / Den ökande flerspråkigheten har ökat efterfrågan på datorstödda CAPT-system (Computer-assisted pronunciation training) för språkinlärning. CAPT-systemen utnyttjar taltekniska framsteg och erbjuder funktioner som bedömning av inlärare och läroplanshantering. Upptäckt av felaktigt uttal är en viktig aspekt av CAPT som syftar till att identifiera och korrigera felaktiga uttal i andraspråkselevernas tal. En av de stora utmaningarna när det gäller att utveckla MD-modeller är den begränsade tillgången till märkta taldata för andraspråk. För att övervinna detta introduceras SpeechBlender i avhandlingen - en finkornig dataförstärkningspipeline som är utformad för att generera feluttalningar. SpeechBlender är inriktad på olika regioner i en fonetisk enhet och blandar råa talsignaler genom linjär interpolering, vilket resulterar i felaktiga uttalsinstanser. Denna metod ger en effektivare provgenerering jämfört med traditionella cut/paste-metoder. I avhandlingen undersöks användningen av förtränade system för automatisk taligenkänning (ASR) för upptäckt av felaktigt uttal. I avhandlingen undersöks olika funktioner på fonemnivå som kan extraheras från förtränade ASR-modeller och användas för att upptäcka felaktigt uttal. En LSTM-modell föreslogs som förbättrar representationen av extraherade akustiska egenskaper i kombination med positionella foneminbäddningar. Effektiviteten hos förstärkning stekniken demonstreras genom en uppgift för bedömning av uttalskvaliteten på fonemnivå med hjälp av taldata som endast innehåller taldata som inte är av inhemskt ursprung och som ger ett bra uttal, Vår föreslagna teknik uppnår toppresultat med Speechocean762-dataset [54], på ASR-beroende modeller för upptäckt av felaktigt uttal på fonemnivå, med en ökning av Pearsonkorrelationskoefficienten (PCC) med 2,0% jämfört med den tidigare toppnivån [17]. Dessutom visar vi en förbättring på 5,0% på fonemnivå jämfört med vår baslinje. Vi observerade också en ökning av F1-poängen med 4,6% med arabiska AraVoiceL2-testset. Automatic Speech Recognition (ASR) Datorstödd uttalsträning (CAPT) automatisk taligenkänning (ASR) Elektroteknik och elektronik
33	Performance analysis of on- device streaming speech recognition Köling, Martin January 2021 (has links) Speech recognition is the task where a machine processes human speech into a written format. Groundbreaking scientific progress within speech recognition has been fueled by recent advancements in deep learning research, improving both key metrics of the task; accuracy and speed. Traditional speech recognition systems listen to, and analyse, the full speech utterance before making an output prediction. Streaming speech recognition on the other hand makes predictions in real- time, word by word, as speech is received. However, the improved speed of streaming speech recognition comes at a cost of reduced accuracy given the constraint of not having access to the full speech utterance at all time. In this thesis, we investigate the accuracy of streaming speech recognition systems by implementing models with state-of-the-art Transformer-based architectures. Our results show that for two similar models, one streaming, the other non-streaming, trained on a 100hr subset of Libirspeech, achieve a word error rate of 9.99%/10.76% on test- clean without using a language model. This puts the cost of streaming at a 7.2% accuracy degradation. Furthermore, the streaming models can be used “on-device” which has many benefits, including lower inference time, privacy preservation, and the ability to operate without an internet connection. / Taligenkänning är uppgiften där en dator bearbetar mänskligt tal till ett skrivet format. Forskning inom taligenkänning har drivits av de senaste framstegen inom forskning i djupinlärning, vilket har lett till att de två viktigaste mätvärdena, träffsäkerhet och hastighet, har förbättrats. Traditionella taligenkänningssystem lyssnar till och analyserar hela talsekvensen innan en prediktion görs. Strömmande taligenkänning å andra sidan gör realtids prediktioner, ord för ord, när tal tas emot. Den ökade hastigheten som strömmande taligenkänning medför kommer på bekostnad av träffsäkerhet då tillgången till hela talsekvensen inte alltid är tillgänglig. I den här avhandlingen undersöker vi träffsäkerhet av strömmande taligenkänningssystem genom att implementera ”Transformer”- baserade arkitekturer. Våra resultat visar att för två liknande modeller, en strömmande, och en icke- strömmande, tränade på 100 timmar av datasetet Librispeech, når en ordfelfrekvens på 9.99%/10.76% på ”test-clean”. Det gör att strömmande taligenkänning kommer på en bekostnad av 7.2% träffsäkerhet jämfört med icke- strömmande. De strömmande taligenkänningsmodellerna kan användas ”on-device” vilket främjar lägre slutledningstider, sekretessbevarande och förmågan att fungera utan internetanslutning. streaming speech recognition attention end-to-end transformer conformer on- device inference machine learning strömmande taligenkänning attention end-to-end transformer conformer on- device slutledning maskininlärning Computer and Information Sciences Data- och informationsvetenskap
34	Röststyrning i industriella miljöer : En undersökning av ordfelsfrekvens för olika kombinationer mellan modellarkitekturer, kommandon och brusreduceringstekniker / Voice command in industrial environments : An investigation of Word Error Rate for different combinations of model architectures, commands and noise reduction techniques Eriksson, Ulrika, Hultström, Vilma January 2024 (has links) Röststyrning som användargränssnitt kan erbjuda flera fördelar jämfört med mer traditionella styrmetoder. Det saknas dock färdiga lösningar för specifika industriella miljöer, vilka ställer särskilda krav på att korta kommandon tolkas korrekt i olika grad av buller och med begränsad eller ingen internetuppkoppling. Detta arbete ämnade undersöka potentialen för röststyrning i industriella miljöer. Ett koncepttest genomfördes där ordfelsfrekvens (på engelska Word Error Rate eller kortare WER) användes för att utvärdera träffsäkerheten för olika kombinationer av taligenkänningsarkitekturer, brusreduceringstekniker samt kommandolängder i verkliga bullriga miljöer. Undersökningen tog dessutom hänsyn till Lombard-effekten. Resultaten visar att det för samtliga testade miljöer finns god potential för röststyrning med avseende på träffsäkerheten. Framför allt visade DeepSpeech, en djupinlärd taligenkänningsmodell med rekurrent lagerstruktur, kompletterad med domänspecifika språkmodeller och en riktad kardioid-mikrofon en ordfelsfrekvens på noll procent i vissa scenarier och sällan över fem procent. Resultaten visar även att utformningen av kommandon påverkar ordfelsfrekvensen. För en verklig implementation i industriell miljö behövs ytterligare studier om säkerhetslösningar, inkluderande autentisering och hantering av risker med falskt positivt tolkade kommandon. / Voice command as a user interface can offer several advantages over more traditional control methods. However, there is a lack of ready-made solutions for specific industrial environments, which place particular demands on short commands being interpreted correctly in varying degrees of noise and with limited or no internet connection. This work aimed to investigate the potential for voice command in industrial environments. A proof of concept was conducted where Word Error Rate (WER) was used to evaluate the accuracy of various combinations of speech recognition architectures, noise reduction techniques, and command lengths in authentic noisy environments. The investigation also took into account the Lombard effect. The results indicate that for all tested environments there is good potential for voice command with regard to accuracy. In particular, DeepSpeech, a deep-learned speech recognition model with recurrent layer structure, complemented with domain-specific language models and a directional cardioid microphone, showed WER values of zero percent in certain scenarios and rarely above five percent. The results also demonstrate that the design of commands influences WER. For a real implementation in an industrial environment, further studies are needed on security solutions, including authentication and management of risks with false positive interpreted commands. voice command automatic speech recognition speech-to-text industry noise microphone hidden Markov models neural networks transformers word error rate röststyrning taligenkänning tal-till-text industri buller mikrofon dolda Markov-modeller neurala nätverk transformers ordfelsfrekvens Computer Sciences Datavetenskap (datalogi)
35	Möjligheter & utmaningar med taligenkänning inom vårdprocessen : En kvalitativ studie Gudmundsson Barle, Ida, Gustafsson, Thea January 2024 (has links) Införandet av elektorniska patientjournaler har bidragit till flera fördelar men trots det arbetar vårdpersonal fortfarande i hektiska och stressiga miljöer. Därmed har taligenkänning blivit ett allt vanligare arbetssätt kopplat till dokumentation, detta med anledning av att underlätta främst dokumentationsprocesser. Med denna studie kommer möjligheter och utmaningar kopplat till anvädning av taligenkänning att identidieras. Syftet med studien är att inhämta kunskap och skapa en bredare förståelse för anvädning av taligenkänning inom sjukvården. Resultatet av studien har lett till en bredare förståelse för vårdprocessen med taligenkänning inom hälso- och sjukvård, främst kopplat till dokumentation och elektronsika patientjournaler. Studiens bidrag kommer med förhoppning att kunna användas som stöd för använding av taligenkänning inom vården. Studien har utförts med en kvalitativ ansats där möjligheter och utmaningar identidierats, både från litteratur och från vårdpersonal. Detta kring hur väl taligenkänning integrerar och fungerar vårdmottanginar emellan. / Despite the many advantages of implementing electronic patient records, healthcare straff are still working in a hectic and stressful environment. Speech recognition has therefore become a more common way of working with documentation, mostly to facilitate the documentation process. In this study, possibilities and challanges with speech recognition will be identified. The main purpose of the study is to gather knowledge and create a greater understanding for the usage of speech recognition in healthcare. The result of the study has led to a greater understanding for the process of speech recogotion in healthcare, mostly connected to documentation and electronic patient records. The contribution of the study could optimistically be used as support for speech recognition in healthcare. The study was executed with a qualitative approach where possibilities and challenges have been identified from both literature and healthcare staff. This was carried out regaring how well speech recognition integrates and works healthcare clinics between. Speech recognition health/ healthcare interaction electronic patient records Taligenkänning häsla-sjukvård interaktion elektroniska patientjournaler Engineering and Technology Teknik och teknologier

Page generated in 0.1 seconds