Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z
No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento
de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental
(pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra
pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP
(RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient)
são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas
técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença
de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um
descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um
estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens,
expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS
(Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support
Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB,
5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu
para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant
to Noise and Environment and Robust for Speech), apresentou melhores resultados entre
todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP
e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o
classificador SVM.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/11842 |
Date | 26 February 2013 |
Creators | Viana, Hesdras Oliveira |
Contributors | Mello, Carlos Alexandre Barros de |
Publisher | Universidade Federal de Pernambuco |
Source Sets | IBICT Brazilian ETDs |
Language | Breton |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess |
Page generated in 0.0022 seconds