[pt] As tarefas de segmentação e classificação automáticas de
áudio vêm se tornando cada vez mais importantes com o
crescimento da produção e armazenamento de mídia digital.
Este trabalho se baseia em características do padrão MPEG,
que é considerado o padrão para acervos digitais, para gerir
algoritmos de grande eficiência para realizar essas arefas.
Ao passo que há muitos estudos trabalhando a partir do
vídeo, o áudio ainda é pouco utilizado de forma eficiente
para auxiliar nessas tarefas. Os algoritmos sugeridos
partem da leitura apenas dos fatores de escala presentes no
Layer 2 do áudio MPEG para ambas as tarefas. Com isso, é
necessária a leitura da menor quantidade possível de
informações, o que diminui significativamente o volume de
dados manipulado durante a análise e torna seu desempenho
excelente em termos de tempo de processamento. O algoritmo
proposto para a classificação divide o áudio em quatro
possíveis tipos: silêncio, fala, música e aplausos. Já o
algoritmo de segmentação encontra as mudanças ignificativas
de áudio, que são indícios de segmentos e mudanças de cena.
Foram realizados testes com diferentes tipos de vídeos, e
ambos os algoritmos mostraram bons resultados. / [en] With the growth of production and storing of digital media,
audio segmentation and classification are becoming
increasingly important. This work is based on
characteristics of the MPEG standard, considered to be the
standard for digital media storage and retrieval, to
propose efficient algorithms to perform
these tasks. While there are many studies based on video
analysis, the audio information is still not widely used in
an efficient way. The suggested algorithms
for both tasks are based only on the scale factors present
on layer 2 MPEG audio. That allows them to read the
smallest amount of information possible, significantly
diminishing the amount of data manipulated during the
analysis and making their performance excellent in terms of
processing time. The algorithm proposed for audio
classification divides audio in four possible types: silent,
speech, music and applause. The segmentation algorithm
finds significant changes on the audio signal that
represent clues of audio segments and scene changes.
Tests were made with a wide range of types of video, and
both algorithms show good results.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:11606 |
Date | 06 May 2008 |
Creators | FERNANDO RIMOLA DA CRUZ MANO |
Contributors | BRUNO FEIJO |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0032 seconds