A área de recuperação de informação baseada em conteúdo visual vem ganhando importância graças ao volume de material visual existente (imagens e vídeo digitais), compartilhado e distribuído principalmente via Internet, e à capacidade de processamento alcançada pelos computadores pessoais na última década. Novas formas de consumo, manipulação e exploração de vídeo digital podem ser criadas através da organização e indexação apropriada desse material. A delimitação de tomadas fornece uma base para a abstração e estruturação de vídeo, agregando quadros contíguos em seqüências de mesmo contexto, isto é, trechos com unidade em termos de tempo e espaço. Nesta dissertação são apresentados os conceitos básicos de delimitação de tomadas e métodos tradicionais utilizados nesse tipo de segmentação, bem como vários resultados experimentais obtidos a partir de seqüências reais de TV. É analisada a distribuição das diferenças entre quadros sucessivos, calculada através de seus histogramas, na tentativa de caracterizar as transições entre tomadas e obter melhores parâmetros para a segmentação. Obtêm-se experimentalmente mais evidências que comprovam a superioridade da medida de intersecção de histogramas sobre outras medidas. A principal contribuição do trabalho consiste no desenvolvimento de um algoritmo baseado no método twin-comparison, que apresenta melhor desempenho que o método original na detecção dos limites de tomadas por utilizar análise local da variação visual entre os quadros do vídeo. / Visual content based information retrieval is an area of increasing importance due to the large volume of available material (digital images and videos), shared and distributed mainly by the internet, and the processing power achieved by personal computer in the last ten years. New ways to consume digital video and to manipulate and explore its visual information can be made by appropriately organizing and indexing this material. The shot boundary detection is a fundamental tool to video abstraction and structuring, combining near frames into sequences with similar context, segments with space and time unity. This work presents the basic concepts about shot boundary detection, traditional methods used and several experimental results obtained from a real TV data set. The distribution of differences of neighboring frames, calculated from histogram comparison, is used to define the transitions between frames and to obtain better parameters for segmentation. Our experimental results show the superiority of the histogram intersection method over other measures. Our main contribution is the development of a new algorithm based on the twin-comparison method, extended with local analysis of visual content variation between video frames. This algorithm was tested over hours of TV data, and performs better than the original method.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-14092005-162819 |
Date | 09 August 2004 |
Creators | Santos, Thiago Teixeira |
Contributors | Morimoto, Carlos Hitoshi |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.002 seconds