Spelling suggestions: "subject:"escritores dde voz"" "subject:"escritores dee voz""
1 |
Descritor de voz invariante ao ruídoViana, Hesdras Oliveira 26 February 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z
No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento
de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental
(pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra
pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP
(RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient)
são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas
técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença
de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um
descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um
estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens,
expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS
(Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support
Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB,
5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu
para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant
to Noise and Environment and Robust for Speech), apresentou melhores resultados entre
todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP
e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o
classificador SVM.
|
Page generated in 0.073 seconds