• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Descritor de voz invariante ao ruído

Viana, Hesdras Oliveira 26 February 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z No. of bitstreams: 2 Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2 Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2 Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental (pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP (RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS (Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB, 5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant to Noise and Environment and Robust for Speech), apresentou melhores resultados entre todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o classificador SVM.

Page generated in 0.073 seconds