Return to search

Puhujariippumaton automaattinen puheentunnistusjärjestelmä Matlab-ohjelmalla

Työn tarkoituksena oli tutustua automaattiseen puheentunnistukseen ja toteuttaa Matlab-ohjelmalla toimiva muutaman käskyn tunnistava puhujariippumaton puheentunnistusjärjestelmä, joka voidaan liittää simulaationukkeen kontrolloimaan sen hengitystä. Työssä tutustuttiin yleisiin ja järjestelmän toteutuksen kannalta merkittävimpiin puheentunnistuksen menetelmiin, joiden avulla puheentunnistusjärjestelmä rakennettiin. Toteutuksessa puhetta sisältävä signaali erotettiin hiljaisuudesta käyttäen Rabinerin ja Schaferin kuvaamaa algoritmia ja tunnistettavana yksikkönä käytettiin käskyt sisältävää fraasia. Piirreirrotus tehtiin Mel-Frequency Cepstrum Coefficients (MFCC) -menetelmällä ja akustiset mallit pohjautuivat Gaussin Mixture malliin (GMM) ja Markovin piilomalliin (HMM). Tunnistuksessa käytettiin useampaa mallia rinnakkain vähentämään satunnaisen puheen tunnistamista virheellisesti joksikin opetetuista käskyistä.

Akustisten mallien harjoitteluun ja järjestelmän testaukseen tarvittava puheaineisto hankittiin pääasiassa Oulun yliopistollisen sairaalan Sädehoidon yksikön hoitajilta, jotka puheohjausjärjestelmää tulevat käyttämään. Testausten perusteella järjestelmä tunnisti alle 1 % virheellä oikeat puhekäskyt. Ongelmia tuli satunnaisen puheen virheellisellä tunnistuksella joksikin opetetuista puhekäskyistä, mitä ei onnistuttu kokonaan poistamaan. Järjestelmästä tuli kuitenkin toimiva käyttökohteeseensa, sillä käskyt annetaan painamalla näppäimistöstä enteriä pohjassa vastaavasti kuin potilaalle puhutaan mikrofonin kautta pitämällä tangenttia pohjassa ja nukelle annetaan pääsääntöisesti vain oikeita käskyjä. / The aim of this thesis was to study automatic speech recognition (ASR) and produce Matlab-based speaker-independent ASR system that recognizes few speech commands and can be joined to control breathing of a simulation manikin. During this thesis commonly used ASR methods was studied and represented. In the produced ASR system, algorithm of Rabiner’s and Schafer’s was used to pick the speech signal from silence. Whole phrase containing the speech command was used as the recognition unit. Feature extraction was made by using Mel-Frequency Cepstrum Coefficients (MFCC) and acoustic models was based on Gaussian Mixture Model (GMM) and Hidden Markov Model (HMM). During recognition state combine of the models was used in tandem to reduce the misrecognition of random speech as the speech commands. Set of speech signals for training the acoustic models and testing performance of the ASR system was acquired mainly in the Oulu University Hospital from nurses who will use the ASR system.

The error ratio of the ASR system was less than 1 percent with the correct speech commands according to the tests. The main problem with the system was misrecognition of random speech as the speech commands. However, the ASR system is suitable for use because mainly only correct speech commands is spoken and the speech commands is spoken pressing and holding down the enter key.

Identiferoai:union.ndltd.org:oulo.fi/oai:oulu.fi:nbnfioulu-201611123027
Date14 November 2016
CreatorsKumpula, O. (Ossi)
PublisherUniversity of Oulu
Source SetsUniversity of Oulu
LanguageFinnish
Detected LanguageFinnish
Typeinfo:eu-repo/semantics/bachelorThesis, info:eu-repo/semantics/publishedVersion
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess, © Ossi Kumpula, 2016

Page generated in 0.0018 seconds