A análise de cenas complexas por computadores não é uma tarefa trivial, entretanto, o cérebro humano pode realizar esta função de maneira eficiente. A evolução natural tem desenvolvido formas para otimizar nosso sistema visual de modo que apenas partes importantes da cena sejam analisadas a cada instante. Este mecanismo de seleção é denominado por atenção visual. A atenção visual opera sob dois aspectos: bottom-up e top-down. A atenção bottom-up é dirigida por conspicuidades baseadas na cena, como o contraste de cores, orientação, etc. Por outro lado, a atenção top-down é controlada por tarefas, memórias, etc. A atenção top-down pode ainda modular o mecanismo bottom-up através do enviesamento de determinadas características de acordo com a tarefa. Além do mecanismo de modulação considerado, o que é selecionado a partir da cena também representa uma importante parte para o processo de seleção. Neste cenário, diversas teorias têm sido propostas e podem ser agrupadas em duas linhas principais: atenção baseada no espaço e atenção baseada em objetos. Modelos baseados em objeto, ao invés de apenas direcionar a atenção para locais ou características específicas da cena, requerem que a seleção seja realizada a nível de objeto, significando que os objetos são a unidade básica da percepção. De modo a desenvolver modelos de acordo com a teoria baseada em objetos, deve-se considerar a integração de um módulo de organização perceptual. Este módulo pode segmentar os objetos do fundo da cena baseado em princípios de agrupamento tais como similaridade, proximidade, etc. Esses objetos competirão pela atenção. Diversos modelos de atenção visual baseados em objetos tem sido propostos nos últimos anos. Pesquisas em modelos de atenção visual têm sido desenvolvidas principalmente relacionadas à atenção bottom-up guiadas por características visuais primitivas, desconsiderando qualquer informação sobre os objetos. Por outro lado, trabalhos recentes têm sido realizados em relação ao uso do conhecimento sobre o alvo para influenciar a seleção da região mais saliente. Pesquisas nesta área são relativamente novas e os poucos modelos existentes encontram-se em suas fases iniciais. Aqui, nós propomos um novo modelo para atenção visual com modulações bottom-up e top-down. Comparações qualitativas e quantitativas do modelo proposto são realizadas em relação aos mapas de fixação humana e demais modelos estado da arte propostos / Perceiving a complex scene is a quite demanding task for a computer albeit our brain does it efficiently. Evolution has developed ways to optimize our visual system in such a manner that only important parts of the scene undergo scrutiny at a given time. This selection mechanism is named visual attention. Visual attention operates in two modes: bottom-up and top-down. Bottom-up attention is driven by scene-based conspicuities, such as the contrast of colors, orientation, etc. On the other hand, top-down attention is controlled by task, memory, etc. Top-down attention can even modulate the bottom-up mechanism biasing features according to the task. In additional to modulation mechanism taken into account, what is selected from the scene also represents an important part of the selection process. In this scenario, several theories have been proposed and can be gathered in two main lines: space-based attention and object-based attention. Object-based models, instead of only delivering the attention to locations or specific features of the scene, claim that the selection it be performed on object level, it means that the objects are the basic unit of perception. In order to develop models following object-based theories, one needs to consider the integration of a perceptual organization module. This module might segment the objects from the background of the scene based on grouping principles, such as similarity, closeness, etc. Those objects will compete for attention. Several object-based models of visual attention have been proposed in recent years. Research in models of visual attention has mainly focused on the bottom-up guidance of early visual features, disregarding any information about objects. On the other hand, recently works have been conducted regarding the use of the knowledge of the target to influence the computation of the most salient region. The research in this area is rather new and the few existing models are in their early phases. Here, we propose a new visual attention model with both bottom-up and top-down modulations. We provide both qualitative and quantitative comparisons of the proposed model against an ground truth fixation maps and state-of-the-art proposed methods
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-29042014-162209 |
Date | 18 November 2013 |
Creators | Benicasa, Alcides Xavier |
Contributors | Liang, Zhao, Romero, Roseli Aparecida Francelin |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0019 seconds