Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / This work presents a study of the spectral dynamics characteristics of audio signals. More
specifically, we aim at detecting regularities that can be modeled in typical domestic
sounds, in order to classify them. Our starting point is the work of Sehili et al. [2], in
which a household sounds classification system based on GMM is proposed. The Sehili
system is reproduced in this work as a baseline system. Following the same protocol of
experiments, a 73 % recognition rate is achieved. Afterwards, three sets of experiments are
performed, arranged so that each new approach incorporates a new technique to highlight a
different aspect of the spectral dynamics. The first technique is the insertion of the discrete
gradient information of feature vectors, a strategy aimed at a local spectral dynamic
analysis, and resultes in a perceptible increase in recognition rate. The next experiment is
conducted with a HMM based classifier, in which the spectral dynamic should be encoded
in state transition probability matrices. The tests with the HMM do not result in improved
recognition rates. The last experiment is based on a features extraction method, proposed
by the author, called Patterns of Energy Envelope per Band (PEEB). The PEEB is an
extractor that highlight the signal spectral dynamics inside narrow bands. In domestic
sounds recognition tests, the classification system based on a combination of PEEB, MFCC
and GMM strategies resulted in a significant improvement over all other systems tested.
We conclude, based on our results, that the spectral dynamics of the studied dataset plays
an important role in the classification task. However, the approaches for spectral dynamic
information extraction, studied in this work, are not definitive, for it is clear that they can
be further developed. For example, in the case of PEEB, the recognition rate is strongly
dependent on the sound class, suggesting more elaborate forms of fusion of PEEB and
MFCC features for each class. / Este trabalho é um estudo da característica da dinâmica espectral em sinais sonoros,
com vistas a encontrar as regularidades que podem ser modeladas em sons tipicamente
domésticos, com o objetivo de classificá-los. O ponto de partida é o trabalho de Sehili et
al. [1], no qual é proposto um sistema de classificação de sons domésticos baseado em GMM.
O sistema de Sehili é reproduzido neste trabalho como marco zero na análise da dinâmica
espectral, seguindo o mesmo roteiro dos experimentos. A partir daí, três conjuntos de
experimentos são realizados, organizados de forma que, a cada novo experimento, uma
técnica – que destaca um aspecto diferente da dinâmica espectral – seja incorporada. A
primeira técnica analisada é a inserção da informação de gradiente discreto dos vetores
de características, estratégia que representa uma análise de dinâmica espectral local e
que resulta num aumento perceptível na taxa de classificação. O próximo experimento
é realizado com um classificador baseado em HMM, no qual a informação de dinâmica
espectral deve ser codificada na matriz de probabilidades de transição de estados do modelo.
Os testes com o HMM não resultam em melhora na taxa de reconhecimento das classes
de sons. O último experimento é baseado num extrator de características proposto pelo
autor, chamado de Padrões de Envelopes de Energia por Banda (PEEB). O PEEB é um
extrator que destaca os padrões de evolução espectro-temporais do sinais. Nos testes de
reconhecimento de sons domésticos, o sistema de classificação baseado numa combinação
das estratégias PEEB, MFCC e GMM resultam numa melhora significativa em relação a
todos os outros sistemas testados. Conclui-se, com base nos resultados, que a dinâmica
espectral dos sinais da base estudada é relevante à tarefa de classificação. No entanto,
as maneiras de extração da informação de dinâmica espectral estudadas neste trabalho
não são definitivas, pois ainda há muito espaço para desenvolvê-las. Por exemplo, no caso
do PEEB, nota-se que a taxa de classificação fortemente é dependente da classe sonora,
sugerindo formas mais elaboradas de fusão das características PEEB e MFCC para cada
classe.
Identifer | oai:union.ndltd.org:IBICT/oai:ri.ufs.br:123456789/5021 |
Date | 19 February 2016 |
Creators | Duarte, Dami Doria Narayana |
Contributors | Montalvão Filho, Jugurta Rosa |
Publisher | Universidade Federal de Sergipe, Pós-Graduação em Engenharia Elétrica, UFS, Brasil, Engenharia Elétrica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Repositório Institucional da UFS, instname:Universidade Federal de Sergipe, instacron:UFS |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0027 seconds