Detecção de refrão usando correlação sobre a envoltória do som

Submitted by Rafael Santana (rafael.silvasantana@ufpe.br) on 2017-08-31T18:49:43Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação Renato.pdf: 2458758 bytes, checksum: b08fb4f41c821e5fd07c0022ea5dcaac (MD5) / Made available in DSpace on 2017-08-31T18:49:43Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação Renato.pdf: 2458758 bytes, checksum: b08fb4f41c821e5fd07c0022ea5dcaac (MD5)
Previous issue date: 2016-09-14 / Em aplicações de Preview de serviços de streaming de música, onde uma rápida impressão
de um álbum desconhecido é proporcionada pela navegação de suas músicas, a inclusão do
refrão no trecho de trinta segundos fornecido para cada música torna a aplicação muito mais
precisa e eficaz. O refrão pode também funcionar como uma “miniatura” representativa da
música, melhorando o desempenho e a precisão das consultas, se realizadas somente
procurando pelos refrãos em vez de se procurar por músicas inteiras. Diante da importância
de obter o trecho mais representativo de uma canção, o objetivo de um sistema de detecção
de refrão é identificar este segmento ou, mais precisamente, os seus instantes inicial e final.
Métodos do Estado da Arte buscam extrair features associadas a notas musicais e timbre
como vetores Chroma e MFCC, e a partir destas identificar as repetições entre os segmentos
da música, inclusive o refrão. Este tipo de abordagem torna o método pouco robusto no
processamento de músicas onde notas musicais e variedade de timbres não são tão presentes,
como em estilos musicais mais percussivos. Este trabalho propõe uma mudança de paradigma
para a detecção de refrão, baseada na exploração do domínio do tempo em lugar do
domínio da frequência, com o objetivo de obter um método mais competitivo no processamento
de músicas percussivas. O método proposto elimina a etapa de segmentação, substitui
as features harmônicas e timbrais pela envoltória do sinal e utiliza a função de correlação
entre as envoltórias das partes da música como métrica de similaridade, tornando o método
menos dependente de notas musicais e timbres. Os testes mediram o grau de degeneração
das taxas de acertos do método proposto e de uma versão modificada usando vetores de
Chroma sobre uma base harmônica e uma base percussiva. Os resultados indicam que a
abordagem proposta sofre uma degeneração duas vezes menor que a versão modificada,
comprovando a hipótese de que um método de detecção de refrão que explore o domínio
do tempo é mais competitivo, ao processar músicas percussivas, que um método limitado à
exploração do domínio da frequência. / In Preview applications of music streaming services, where a fast printing from an unknown
album is provided by the navigation of your songs, including the chorus in thirty seconds excerpt
provided for each song makes the application much more accurate and effective. The chorus
can also function as a “miniature” representative of music, enhancing the performance and
accuracy of search, if carried out only by looking choruses instead of searching for entire
songs. Given the importance of getting the most representative excerpt of a song, the goal of a
chorus detection system is to identify this segment, or more precisely, its beginning and its
end. State of the art methods seek to extract features associated with musical notes and timbre,
like Chroma and MFCC vectors and identify from these repetitions between segments of music,
including the chorus. This approach type makes method little robust in music where musical
notes and variety of timbres are not as present, as in percussive music for example. This paper
proposes a paradigm shift for the chorus detection, based on the exploitation of the time domain
instead of the frequency domain, in order to obtain a more competitive method in the processing
of percussive music. The proposed method eliminates the segmentation, replaces the harmonic
and timbral features with the envelope of the signal, and uses the correlation function between
the envelope of the music segments as a metric of similarity, to make it less dependent on
musical notes and timbre. The tests measured the degree of degeneration of hit rates of the
proposed method and of a modified version using Chroma vectors on a harmonic basis and a
percussive basis. The results indicate that the proposed approach have a degeneration two
times lower than the modified version, proving the hypothesis that a chorus detection method
that exploits the time domain is more competitive when processing percussive songs than a
method limited to the frequency domain exploitation.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/21122
Date14 September 2016
CreatorsRODRIGUES, Renato Celso Santos
Contributorshttp://lattes.cnpq.br/9783292465422902, RAMALHO, Geber Lisboa, CABRAL, Giordano Ribeiro Eulálio
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds