51 |
Utilização de métodos de machine learning para identificação de instrumentos musicais de sopro pelo timbreVeras, Ricardo da Costa January 2018 (has links)
Orientador: Prof. Dr. Ricardo Suyama / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2018. / De forma geral a Classificação de Padrões voltada a Processamento de Sinais
vem sendo estudada e utilizada para a interpretação de informações diversas, que se
manifestam em forma de imagens, áudios, dados geofísicos, impulsos elétricos, entre
outros. Neste trabalho são estudadas técnicas de Machine Learning aplicadas ao problema
de identificação de instrumentos musicais, buscando obter um sistema automático de
reconhecimento de timbres. Essas técnicas foram utilizadas especificamente com cinco
instrumentos da categoria de Sopro de Madeira (o Clarinete, o Fagote, a Flauta, o Oboé e
o Sax). As técnicas utilizadas foram o kNN (com k = 3) e o SVM (numa configuração
não linear), assim como foram estudadas algumas características (features) dos áudios,
tais como o MFCC (do inglês Mel-Frequency Cepstral Coefficients), o ZCR (do inglês Zero
Crossing Rate), a entropia, entre outros, sendo fonte de dados para os processos de
treinamento e de teste. Procurou-se estudar instrumentos nos quais se observa uma
aproximação nos timbres, e com isso verificar como é o comportamento de um sistema
classificador nessas condições específicas. Observou-se também o comportamento dessas
técnicas com áudios desconhecidos do treinamento, assim como com trechos em que há
uma mistura de elementos (gerando interferências para cada modelo classificador) que
poderiam desviar os resultados, ou com misturas de elementos que fazem parte das
classes observadas, e que se somam num mesmo áudio. Os resultados indicam que as
características selecionadas possuem informações relevantes a respeito do timbre de
cada um dos instrumentos avaliados (como observou-se em relação aos solos), embora
a acurácia obtida para alguns dos instrumentos tenha sido abaixo do esperado (como
observou-se em relação aos duetos). / In general, Pattern Classification for Signal Processing has been studied and
used for the interpretation of several information, which are manifested in many ways,
like: images, audios, geophysical data, electrical impulses, among others. In this project
we study techniques of Machine Learning applied to the problem of identification
of musical instruments, aiming to obtain an automatic system of timbres recognition.
These techniques were used specifically with five instruments of Woodwind category
(Clarinet, Bassoon, Flute, Oboe and Sax). The techniques used were the kNN (with
k = 3) and the SVM (in a non-linear configuration), as well as some audio features, such
as MFCC (Mel-Frequency Cepstral Coefficients), ZCR (Zero Crossing Rate), entropy,
among others, used as data source for the training and testing processes. We tried to
study instruments in which an approximation in the timbres is observed, and to verify
in this case how is the behavior of a classifier system in these specific conditions. It was
also observed the behavior of these techniques with audios unknown to the training, as
well as with sections in which there is a mixture of elements (generating interferences
for each classifier model) that could deviate the results, or with mixtures of elements
that are part of the observed classes, and added in a same audio. The results indicate
that the selected characteristics have relevant information regarding the timbre of each
one of evaluated instruments (as observed on the solos results), although the accuracy
obtained for some of the instruments was lower than expected (as observed on the duets
results).
|
52 |
Processamento de áudio em tempo real em dispositivos computacionais de alta disponibilidade e baixo custo / Real time digital audio processing using highly available, low cost devicesAndré Jucovsky Bianchi 21 October 2013 (has links)
Neste trabalho foi feita uma investigação sobre a realização de processamento de áudio digital em tempo real utilizando três dispositivos com características computacionais fundamentalmente distintas porém bastante acessíveis em termos de custo e disponibilidade de tecnologia: Arduino, GPU e Android. Arduino é um dispositivo com licenças de hardware e software abertas, baseado em um microcontrolador com baixo poder de processamento, muito utilizado como plataforma educativa e artística para computações de controle e interface com outros dispositivos. GPU é uma arquitetura de placas de vídeo com foco no processamento paralelo, que tem motivado o estudo de modelos de programação específicos para sua utilização como dispositivo de processamento de propósito geral. Android é um sistema operacional para dispositivos móveis baseado no kernel do Linux, que permite o desenvolvimento de aplicativos utilizando linguagem de alto nível e possibilita o uso da infraestrutura de sensores, conectividade e mobilidade disponível nos aparelhos. Buscamos sistematizar as limitações e possibilidades de cada plataforma através da implementação de técnicas de processamento de áudio digital em tempo real e da análise da intensidade computacional em cada ambiente. / This dissertation describes an investigation about real time audio signal processing using three platforms with fundamentally distinct computational characteristics, but which are highly available in terms of cost and technology: Arduino, GPU boards and Android devices. Arduino is a device with open hardware and software licences, based on a microcontroller with low processing power, largely used as educational and artistic platform for control computations and interfacing with other devices. GPU is a video card architecture focusing on parallel processing, which has motivated the study of specific programming models for its use as a general purpose processing device. Android is an operating system for mobile devices based on the Linux kernel, which allows the development of applications using high level language and allows the use of sensors, connectivity and mobile infrastructures available on devices. We search to systematize the limitations and possibilities of each platform through the implementation of real time digital audio processing techinques and the analysis of computational intensity in each environment.
|
53 |
Métodos de segmentação musical baseados em descritores sonoros / Musical segmentation methods based on sound descriptorsPires, André Salim 20 June 2011 (has links)
Esta dissertação apresenta um estudo comparativo de diferentes métodos computacionais de segmentação estrutural musical, onde o principal objetivo é delimitar fronteiras de seções musicais em um sinal de áudio, e rotulá-las, i.e. agrupar as seções encontradas que correspondem a uma mesma parte musical. São apresentadas novas propostas para segmentação estrutural nãosupervisionada, incluindo métodos para processamento em tempo real, alcançando resultados com taxas de erro inferiores a 12%. O método utilizado compreende um estudo dos descritores sonoros e meios de modelá-los temporalmente, uma exposição das técnicas computacionais de segmentação estrutural e novos métodos de avaliação dos resultados que penalizam tanto a incorreta detecção das fronteiras quanto o número incorreto de rótulos encontrados. O desempenho de cada técnica computacional é calculado utilizando diferentes conjuntos de descritores sonoros e os resultados são apresentados e analisados tanto quantitativa quanto qualitativamente. / A comparative study of different music structural segmentation methods is presented, where the goal is to delimit the borders of musical sections and label them, i.e. group the sections that correspond to the same musical part. Novel proposals for unsupervised segmentation are presented, including methods for real-time segmentation, achieving expressive results, with error ratio less then 12%. Our method consists of a study of sound descriptors, an exposition of the computational techniques for structural segmentation and the description of the evaluation methods utilized, which penalize both incorrect boundary detection and incorrect number of labels. The performance of each technique is calculated using different sound descriptor sets and the results are presented and analysed both from quantitative and qualitative points-of-view.
|
54 |
Medusa: um ambiente musical distribuído / Medusa: a distributed music environmentSchiavoni, Flávio Luiz 17 December 2013 (has links)
A popularização das redes de computadores, o aumento da capacidade computacional e sua utilização para produção musical despertam o interesse na utilização de computadores para comunicação síncrona de conteúdo musical. Esta comunicação pode permitir um novo nível de interatividade entre máquinas e pessoas nos processos de produção musical, incluindo a distribuição de atividades, pessoas e recursos em um ambiente computacional em rede. Neste contexto, este trabalho apresenta uma solução para comunicação síncrona de fluxos de áudio e MIDI em redes de computadores. Além de permitir a comunicação, a solução proposta simplifica a conexão de recursos musicais e permite a integração de sistemas heterogêneos, como diferentes sistemas operacionais, arquiteturas de áudio e formatos de codificação, de forma transparente em um ambiente distribuído. Como meio para alcançar esta solução, mapeamos requisitos e características desejáveis para este domínio de aplicação, a partir da interação com músicos e da análise de ferramentas relacionadas. Com base nestes requisitos e características projetamos uma arquitetura de sistema para o domínio específico de comunicação síncrona de conteúdo musical. Utilizando esta arquitetura como referência, implementamos uma biblioteca que compreende as funcionalidades essenciais para este domínio específico. A fim de integrar esta biblioteca com diferentes bibliotecas de áudio e MIDI, desenvolvemos um conjunto de ferramentas que correspondem aos requisitos propostos e que permite aos usuários a utilização de conexões de rede em diversas ferramentas musicais. / The popularization of computer networks, the growth in computational resources and their use in music production have raised the interest in using computers for synchronous communication of music content. This communication may allow a new level of interactivity between machines and people in music production processes, including the distribution of activities, resources and people within a networked music environment. In this context, this work presents a solution for synchronous communication of audio and MIDI streams in computer networks. Besides allowing communication, the proposed solution simplifies connections of music resources and allows the integration of heterogeneous systems, such as different operating systems, audio architecture and codification formats, transparently in a distributed environment. As a means for accomplishing this solution, we mapped requirements and desirable features for this application domain, from the interaction with musicians and the analysis of related software. Based on these requirements and features, we designed a system architecture for the specific domain of synchronous communication of music content. Using this architecture as reference, we implemented a library that comprises the essential functionalities for this specific domain. In order to integrate this library with different Audio and MIDI libraries, we developed a tool set that matches the proposed requirements and allows users to use network connections in several music tools.
|
55 |
Aplicação de metaheurísticas no desenvolvimento de um modelo de otimização para o processo de codificação de áudio do Sistema Brasileiro de Televisão DigitalHarff, Maurício 21 March 2013 (has links)
Submitted by William Justo Figueiro (williamjf) on 2015-07-08T20:56:12Z
No. of bitstreams: 1
03b.pdf: 3126214 bytes, checksum: 0f98dbf86ae74816af91944aa7dec80f (MD5) / Made available in DSpace on 2015-07-08T20:56:12Z (GMT). No. of bitstreams: 1
03b.pdf: 3126214 bytes, checksum: 0f98dbf86ae74816af91944aa7dec80f (MD5)
Previous issue date: 2013 / Nenhuma / A qualidade perceptual alcançada pelos codificadores de áudio depende diretamente da escolha de seus parâmetros. O codificador MPEG-4 AAC (Advanced Audio Coding), utilizado no Sistema Brasileiro de Televisão Digital (SBTVD), possui em sua estrutura uma etapa composta por um laço de iteração para escolher os parâmetros do codificador, de maneira dinâmica durante o processo de codificação. Este processo de escolha pode ser definido como um problema de Pesquisa Operacional, sendo um problema de Seleção de Partes, denominado como o Problema de Codificação AAC. A estrutura existente no codificador de referência, não resolve este problema de maneira ótima. Desta forma, este trabalho propõe o desenvolvimento e implementação de um modelo de uma estrutura de simulação, para encontrar os parâmetros do codificador de áudio MPEG-4 AAC, de maneira a otimizar a qualidade perceptual do áudio, para uma determinada taxa de bits (bit rate). A implementação da estrutura de otimização foi desenvolvida em linguagem C, utilizando as metaheurísticas Busca Tabu e Algoritmo Genético em uma estrutura híbrida. Através da minimização da métrica ANMR (Average Noise-to-Mask Ratio), o algoritmo procura identificar a melhor configuração dos parâmetros internos do codificador MPEG-4 AAC, de maneira que possa garantir uma qualidade perceptual para o sinal áudio. Os resultados obtidos utilizando a estrutura híbrida de otimização apresentaram valores menores para a métrica ANMR, ou seja, uma melhor qualidade perceptual de áudio, quando comparados com os resultados obtidos com o codificador de referência MPEG-4 AAC. / The perceptual quality achieved by audio encoders depends directly on the choice of its parameters. The MPEG-4 AAC (Advanced Audio Coding), used in the Brazilian Digital Television System (BDTS), has a step in its structure that consists in iteration loop to choose the parameters of the encoder dynamically during the encoding process. This selection process can be defined as a problem of Operational Research, being a Part Selection Problem, termed as AAC Encoding Problem. The structure in the reference encoder not solves this problem optimally. Thus, this paper proposes the development and implementation of a model simulation of a structure, to find the internal parameters of the MPEG-4 AAC audio encoder, so as to optimize the perceptual audio quality for a given bit rate. The implementation of the optimization framework was developed in ANSI C programming language, using the Tabu Search and Genetic Algorithm metaheuristics in a hybrid structure. Through the minimization of the ANMR (Average Noise-to-Mask Ratio) metric, the algorithm tries to identify the best configuration of internal parameters of the MPEG-4 AAC. The results obtained using the optimization hybrid structure achieve lower values for the ANMR metric, i.e., an better perceptual audio quality, compared with the obtained with the reference encoder MPEG-4 AAC.
|
56 |
Content-based audio search: from fingerprinting to semantic audio retrievalCano Vila, Pedro 27 April 2007 (has links)
Aquesta tesi tracta de cercadors d'audio basats en contingut. Específicament, tracta de desenvolupar tecnologies que permetin fer més estret l'interval semàntic o --semantic gap' que, a avui dia, limita l'ús massiu de motors de cerca basats en contingut. Els motors de cerca d'àudio fan servir metadades, en la gran majoria generada per editors, per a gestionar col.leccions d'àudio. Tot i ser una tasca àrdua i procliu a errors, l'anotació manual és la pràctica més habitual. Els mètodes basats en contingut àudio, és a dir, aquells algorismes que extreuen automàticament etiquetes descriptives de fitxers d'àudio, no són generalment suficientment madurs per a permetre una interacció semàntica. En la gran majoria, els mètodes basats en contingut treballen amb descriptors de baix nivell, mentre que els descriptors d'alt nivell estan més enllà de les possibilitats actuals. En la tesi explorem mètodes, que considerem pas previs per a atacar l'interval semàntic. / This dissertation is about audio content-based search. Specifically, it is on developing technologies for bridging the semantic gap that currently prevents wide-deployment of audio content-based search engines.Audio search engines rely on metadata, mostly human generated, to manage collections of audio assets.Even though time-consuming and error-prone, human labeling is a common practice.Audio content-based methods, algorithms that automatically extract description from audio files, are generally not mature enough to provide a user friendly representation for interacting with audio content. Mostly, content-based methods are based on low-level descriptions, while high-level or semantic descriptions are beyond current capabilities. In this thesis we explore technologies that can help close the semantic gap.
|
57 |
Generalização cartográfica para um Sistema de Navegação e Guia de Rota em Automóvel áudio-dinâmico com múltiplas escalasMarques, Ana Paula da Silva [UNESP] 29 April 2011 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:22:25Z (GMT). No. of bitstreams: 0
Previous issue date: 2011-04-29Bitstream added on 2014-06-13T18:08:12Z : No. of bitstreams: 1
marques_aps_me_prud.pdf: 1844754 bytes, checksum: 98269ab519565c997b4f261950db8198 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O objetivo desta pesquisa consiste na elaboração de mapas áudio-dinâmicos em múltiplas escalas automáticas, para um Sistema de Navegação e Guia de Rota em Automóvel (SINGRA). O projeto das representações cartográficas foi dividido em duas fases: projeto de composição geral e projeto áudio-gráfico. Os mapas visuais dinâmicos foram elaborados com base nos princípios da comunicação cartográfica e da percepção visual, com ênfase nas operações de generalização. A área de estudo apresenta uma malha urbana com diferentes tipos de vias, cruzamentos e limites de velocidade. Os mapas foram projetados para serem exibidos em um monitor de pequeno formato (sete polegadas), com alta resolução, e um total de quatro escalas de representação foi determinado: 1/10.000, 1/5.000, 1/2.500 e 1/1.000. Tais escalas foram definidas em função do tamanho da mídia de apresentação e do tipo de tarefa tática. Os mapas generalizados foram obtidos pela aplicação das operações de simplificação, exagero e deslocamento, sobre uma base cartográfica na escala 1/1.000. As representações áudio-dinâmicas foram produzidas a partir de variáveis áudio-dinâmicas. As mensagens de voz foram pré-gravadas na voz feminina, executadas em sincronia com as informações visuais. O projeto foi implementado em um SINGRA disponível na FCT-UNESP, a partir do compilador Visual Basic e da biblioteca MapObjects. Ao comparar o sistema de múltiplas escalas com o de escala única, observa-se que os novos mapas adaptados ao contexto de direção do motorista, podem permitir que o usuário receba a informação de acordo com a tarefa de navegação desenvolvida ao longo da rota... / The aim of this research is to design and implement an automatics multi-scale and audio-dynamic map for an In-Car Route Guidance and Navigation System (RGNS). The design was organized in two stages: general composition and auditory-graphic design. The visual-dynamic maps were designed based on cartographic communication principles and visual perception, especially on the generalization operators. The area of study presents an urban network with different types of roads, nodes, and speed limits. The maps were designed for a small-screen display, and a total of four different scales were employed: 1:10.000, 1:5.000, 1:2.500 and 1:1.000. These scales were chosen according to the media size and type of tactical task. The maps were derived from an accurate cartographic database at scale of 1:1000, by applying generalization techniques, such as simplification, displacement, and enhancement. The audio-dynamic representations were produced by taking account a set of audio-dynamic variables. The voice messages were recorded in a female voice, and they were presented with visual information, simultaneously. The design was implemented in a navigation system, which is available in the Faculty of Sciences and Technology, by using Visual Basic compiler and MapObjects library. The results of comparison between the automatic multiple-scale and single scale system show that the new system, enhanced driver's context, can allow the user receiving information according to the tasks performed along of the route. From the employment of generalization technique it was possible to present in a properly way the amount of information in the display, in which it can contribute for reducing navigational errors and visual demand, when compared with single-scale map ... (Complete abstract click electronic access below)
|
58 |
Ora, direis, ouvir imagens?: um olhar sobre o potencial informativo da áudio-descrição aplicada a obras de artes visuais bidimensionais como representação sonora da informação em arte para pessoas com deficiência visualMattoso, Verônica de Andrade 30 March 2012 (has links)
Made available in DSpace on 2015-10-19T11:50:22Z (GMT). No. of bitstreams: 1
mattoso2012.pdf: 911940 bytes, checksum: 805a11ed2f72c6a7be389b0934802eb2 (MD5)
Previous issue date: 2012-03-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Research about the informative potential of the audio description applied the two-dimensional works of visual arts as sonorous representation of the Information in Art for visually impaired people. Developed by means of a hybrid methodology composed by the approaches of the Evidential Paradigm, the Research-Action and on the basis of the Structural Model for Researches in Plastic Arts and in the
Directives of the audio description for Samples and Museums it unfolded in methodological procedures in the which the researcher participated of diverse actions integrated to others agents. The inquiry sets out the extrinsic and inherent aspects of the audio description, considering the dimensions of accessibility physical, methodological, instrumental,
communicative, programmatic and of attitudes by which means, the works of art, after being analyzed as sources of information and encoded in structure to assist, they become accessible and available to be accessed. A theoretical study about the stream informational audio description, carried out from the theoretical bases of the Information Science mainly of the Information in Art maintained the structure of
the first exposition of two-dimensional works of visual arts with audio description that took place in the State of the Rio de Janeiro. The results of the research refute the distrust and the ignorance as to the informative potential that exists in the access of the visually impaired people to twodimensional
standards and reveal contribution of the audio description for the Information Science. As byproduct of the research, documentary was created with content elements
that composed the exposition, including the audio description, with plans for the future creation of the first Brazilian database of free access to audio descriptions of two-dimensional works of visual arts / Pesquisa sobre o potencial informativo da áudio-descrição aplicada a obras de artes visuais bidimensionais como representação sonora da Informação em Arte para pessoas com deficiência visual. Desenvolvida por meio de uma metodologia híbrida composta pelos métodos do Paradigma Indiciário, da Pequisa-Ação e com base no Modelo Estrutural para Pesquisas em Artes Plásticas e nas Diretrizes da Áudio-descrição para Mostras e Museus desdobrou-se em procedimentos metodológicos nos quais a pesquisadora participou de diversas ações integrada a outros agentes. A investigação explicita os aspectos intrínsecos e extrínsecos da áudio-descrição,
levando-se em consideração as dimensões de acessibilidade física, metodológica, instrumental, comunicacional, programática e atitudinal, por meio dos quais as obras de arte após analisadas como fonte de informação e codificadas em estrutura assistiva são tornadas acessíveis e acessáveis. Um estudo teórico sobre o fluxo informacional da áudio-descrição, realizado a partir dos construtos teóricos da Ciência da Informação principalmente da Informação em Arte sustentou a estrutura da primeira exposição de obras de artes visuais bidimensionais com áudio-descrição realizada no Estado do Rio de Janeiro. Os resultados da pesquisa refutam a desconfiança e a ignorância a respeito do potencial informativo que existe no acesso das pessoas com deficiência visual a padrões bidimensionais e revelam contribuição da áudio-descrição para a Ciência da Informação. Como subproduto da pesquisa foi estruturado um conteúdo documentário formado por elementos que compuseram a exposição, inclusive áudio-descrições, objetivando a criação futura da primeira base de dados brasileira de acesso livre a áudio-descrições de obras de artes visuais bidimensionais
|
59 |
Medusa: um ambiente musical distribuído / Medusa: a distributed music environmentFlávio Luiz Schiavoni 17 December 2013 (has links)
A popularização das redes de computadores, o aumento da capacidade computacional e sua utilização para produção musical despertam o interesse na utilização de computadores para comunicação síncrona de conteúdo musical. Esta comunicação pode permitir um novo nível de interatividade entre máquinas e pessoas nos processos de produção musical, incluindo a distribuição de atividades, pessoas e recursos em um ambiente computacional em rede. Neste contexto, este trabalho apresenta uma solução para comunicação síncrona de fluxos de áudio e MIDI em redes de computadores. Além de permitir a comunicação, a solução proposta simplifica a conexão de recursos musicais e permite a integração de sistemas heterogêneos, como diferentes sistemas operacionais, arquiteturas de áudio e formatos de codificação, de forma transparente em um ambiente distribuído. Como meio para alcançar esta solução, mapeamos requisitos e características desejáveis para este domínio de aplicação, a partir da interação com músicos e da análise de ferramentas relacionadas. Com base nestes requisitos e características projetamos uma arquitetura de sistema para o domínio específico de comunicação síncrona de conteúdo musical. Utilizando esta arquitetura como referência, implementamos uma biblioteca que compreende as funcionalidades essenciais para este domínio específico. A fim de integrar esta biblioteca com diferentes bibliotecas de áudio e MIDI, desenvolvemos um conjunto de ferramentas que correspondem aos requisitos propostos e que permite aos usuários a utilização de conexões de rede em diversas ferramentas musicais. / The popularization of computer networks, the growth in computational resources and their use in music production have raised the interest in using computers for synchronous communication of music content. This communication may allow a new level of interactivity between machines and people in music production processes, including the distribution of activities, resources and people within a networked music environment. In this context, this work presents a solution for synchronous communication of audio and MIDI streams in computer networks. Besides allowing communication, the proposed solution simplifies connections of music resources and allows the integration of heterogeneous systems, such as different operating systems, audio architecture and codification formats, transparently in a distributed environment. As a means for accomplishing this solution, we mapped requirements and desirable features for this application domain, from the interaction with musicians and the analysis of related software. Based on these requirements and features, we designed a system architecture for the specific domain of synchronous communication of music content. Using this architecture as reference, we implemented a library that comprises the essential functionalities for this specific domain. In order to integrate this library with different Audio and MIDI libraries, we developed a tool set that matches the proposed requirements and allows users to use network connections in several music tools.
|
60 |
Métodos de segmentação musical baseados em descritores sonoros / Musical segmentation methods based on sound descriptorsAndré Salim Pires 20 June 2011 (has links)
Esta dissertação apresenta um estudo comparativo de diferentes métodos computacionais de segmentação estrutural musical, onde o principal objetivo é delimitar fronteiras de seções musicais em um sinal de áudio, e rotulá-las, i.e. agrupar as seções encontradas que correspondem a uma mesma parte musical. São apresentadas novas propostas para segmentação estrutural nãosupervisionada, incluindo métodos para processamento em tempo real, alcançando resultados com taxas de erro inferiores a 12%. O método utilizado compreende um estudo dos descritores sonoros e meios de modelá-los temporalmente, uma exposição das técnicas computacionais de segmentação estrutural e novos métodos de avaliação dos resultados que penalizam tanto a incorreta detecção das fronteiras quanto o número incorreto de rótulos encontrados. O desempenho de cada técnica computacional é calculado utilizando diferentes conjuntos de descritores sonoros e os resultados são apresentados e analisados tanto quantitativa quanto qualitativamente. / A comparative study of different music structural segmentation methods is presented, where the goal is to delimit the borders of musical sections and label them, i.e. group the sections that correspond to the same musical part. Novel proposals for unsupervised segmentation are presented, including methods for real-time segmentation, achieving expressive results, with error ratio less then 12%. Our method consists of a study of sound descriptors, an exposition of the computational techniques for structural segmentation and the description of the evaluation methods utilized, which penalize both incorrect boundary detection and incorrect number of labels. The performance of each technique is calculated using different sound descriptor sets and the results are presented and analysed both from quantitative and qualitative points-of-view.
|
Page generated in 0.0304 seconds