Extracting information from acoustic signals is a common task in signal processing and pattern recognition. Broadly speaking, the processing system has, as initial task, to obtain a low-dimensional representation of the acoustic signal, extracted trough computational methods called feature extractors. This representation aims to present the sound of speech in a more convenient form to extract the information contained in the
signal. Considering the initial task of processing systems, this work presents a detailed study of three classic methods for features extracting, namely: the Mel - Frequency Cepstrum Coefficients (MFCC), the Ensemble Interval Histogram (EIH), and the Zero Crossing with Peak amplitudes (ZCPA). Still in the literature review step, a study of the human peripheral auditory system was accomplished, since the EIH and ZCPA methods
are based on models of human hearing. Moreover, a new extraction method based on detection of level crossings was developed, called here as Elementary Acoustic Events
(EAE). In order to compare the methods, both reviewed and developed, two different experiments were applied in this work. At first, experiments with additive noise and channel effects for robustness analysis methods were performed. Finally, experiments related to the task of isolated word recognition were applied using alignment Dynamic Time Warping (DTW). The results suggest that the proposed method is more robust than
the classical methods implemented, for the proposed experiments. / Extrair informações de sinais acústicos é uma tarefa bastante comum dentro das áreas de processamento de sinais e reconhecimento de padrões. De uma maneira geral, os sistemas de processamento têm como tarefa inicial obter uma representação de baixa dimensão do sinal acústico, obtida a partir de métodos computacionais denominados extratores de características. Tal representação propõe apresentar o som da fala de uma forma mais conveniente à tarefa de extração e utilização da informação contida no sinal. Dentro deste contexto, nesta dissertação foi realizado um estudo detalhado de três métodos clássicos para extração de características de sinais acústicos existentes na literatura, a saber: os Mel-Frequency Cepstrum Coefficients (MFCC); o modelo
Ensemble Interval Histogram (EIH); e o modelo Zero-Crossing with Peak Amplitudes (ZCPA). Sendo que, ainda para revisão bibliográfica, um estudo do sistema auditivo periférico humano foi realizado, visto que os métodos EIH e ZCPA são baseados em modelos do ouvido humano. Em seguida, um novo método de extração baseado em detecção de cruzamentos de nível foi desenvolvido ao longo do trabalho, denominado Eventos Acústicos Elementares (EAE). Diversos experimentos foram realizados a fim de
comparar os métodos clássicos e o método desenvolvido nessa dissertação. Na primeira etapa, foram realizados experimentos com ruídos aditivos e com efeitos convolutivos de canal, para análise de robustez dos métodos. Por fim, referente à segunda etapa da análise comparativa dos métodos, foram realizados experimentos relativos à tarefa de reconhecimento de palavras isoladas, utilizando o método de alinhamento temporal Dynamic Time Warping (DTW). Os resultados obtidos indicam que o método proposto possui maior robustez quando comparado aos métodos clássicos implementados.
Identifer | oai:union.ndltd.org:IBICT/oai:ri.ufs.br:123456789/5014 |
Date | 08 October 2014 |
Creators | Almeida, Christiane Raulino |
Contributors | Montalvão Filho, Jugurta Rosa |
Publisher | Universidade Federal de Sergipe, Pós-Graduação em Engenharia Elétrica, UFS, BR, Engenharia Elétrica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Repositório Institucional da UFS, instname:Universidade Federal de Sergipe, instacron:UFS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0149 seconds