Global ETD Search

Return to search

Descritor de voz invariante ao ruído

Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z
No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento
de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental
(pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra
pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP
(RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient)
são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas
técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença
de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um
descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um
estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens,
expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS
(Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support
Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB,
5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu
para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant
to Noise and Environment and Robust for Speech), apresentou melhores resultados entre
todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP
e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o
classificador SVM.

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/11842
Date	26 February 2013
Creators	Viana, Hesdras Oliveira
Contributors	Mello, Carlos Alexandre Barros de
Publisher	Universidade Federal de Pernambuco
Source Sets	IBICT Brazilian ETDs
Language	Breton
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source	reponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
Rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0019 seconds

Descritor de voz invariante ao ruído

Description

Links & Downloads

Tags

Additional Fields