Return to search

Descritor de voz invariante ao ruído

Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z
No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento
de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental
(pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra
pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP
(RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient)
são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas
técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença
de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um
descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um
estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens,
expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS
(Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support
Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB,
5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu
para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant
to Noise and Environment and Robust for Speech), apresentou melhores resultados entre
todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP
e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o
classificador SVM.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/11842
Date26 February 2013
CreatorsViana, Hesdras Oliveira
ContributorsMello, Carlos Alexandre Barros de
PublisherUniversidade Federal de Pernambuco
Source SetsIBICT Brazilian ETDs
LanguageBreton
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds