Return to search

A computational model of eye guidance, searching for text in real scene images

La cerca d’objectes de text en imatges d’escena reals és un problema obert i una àrea
de cerca molt activa la visió per computador. S’han proposat un gran nombre de
mètodes basats en l’extensió dels mètodes des de l’anàlisi de documents o inspirat en
mètodes de detecció d’objectes. No obstant això, el problema de la cerca d’objectes
en imatges d’escena reals segueix sent un problema extremadament difícil a causa de
la gran variabilitat en l’aparen¸ca dels objectes. Aquesta tesi es basa en els més recents
troballes en la literatura de l’atenció visual, introduint un nou model computacional
de visió guiada que apunta descriure la cerca de text en imatges d’escenes reals.
En primer lloc es presenten els resultats més pertinents de la literatura científica
en relació amb l’atenció visual, els moviments oculars i la cerca visual. Els més
rellevants models d’atenció són discutits i integrats amb recents observacions sobre
la funció dels anomenats ’top-down constraints’ i l’emergent necessitat d’un model
estratificat d’atenció en què la saliència no és l’únic factor guia d’atenció. L’atenció
visual s’explica per la interacció de diversos factors moduladors, com ara objectes,
valor, plans i saliència.
S’introdueix la nostra formulació probabilística dels mecanismes d’atenció en es-
cenes reals per a la tasca de cerca d’objectes. El model es basa en l’argument que
el desplegament d’atenció depèn de dos processos diferents però interactuants: un
procés d’atenció que assigna valor a les fonts d’informació i un procés motor que
uneix flexiblement informació amb l’acció. En aquest marc, l’elecció d’on buscar la
propera tasca és dependent i orientada a les classes d’objectes incrustats en imatges
d’escenes reals. La dependència de la tasca es té en compte en explotar el valor i la
recompensa de contemplar certes parts o proto-objectes de la imatge que proporcionen
una esclarissada representació dels objectes en l’escena.
A la secció experimental prova el model en condicions de laboratori, comparant
les simulacions del model amb dades d’experiments de eye tracking. La comparació és
qualitativa en termes de trajectòries d’exploració i quantitativa, en termes de similitud
estadística de l’amplitud de moviments oculars. Els experiments s’han realitzat amb
dades de eye tracking tant d’un conjunt de dades públic de rostre humans i text, tant
amb un nou conjunt de dades de eye tracking i d’imatges urbanes amb text.
L’última part d’aquesta tesi es dedica a estudiar en quina mesura el model proposat
pot respondre del desplegament d’atenció en un entorn complex. S’ha utilitzat un
dispositiu mòbil de eye tracking i una metodologia desenvolupada específicament per
comparar les dades simulades amb les dades gravades de eye tracking. Tal configuració
permet posar a prova el model en la tasca de cerca de text molt semblant a una cerca
real, en la condició d’informació visual incompleta. / La búsqueda de objetos de texto en imágenes de escena reales es un problema abierto
y un área de investigación muy activa la visión por computador. Se han propuesto
un gran número de métodos basados en la extensión de los métodos desde el análisis
de documentos o inspirado en métodos de detección de objetos. Sin embargo, el
problema de la búsqueda de objetos en imágenes de escena reales sigue siendo un
problema extremadamente difícil debido a la gran variabilidad en la apariencia de
los objetos. Esta tesis se basa en los más recientes hallazgos en la literatura de la
atención visual, introduciendo un nuevo modelo computacional de visión guiada que
apunta a describir la búsqueda de texto en imágenes de escenas reales.
En primer lugar se presentan los resultados mas pertinentes de la literatura científica
en relación con la atención visual, los movimientos oculares y la búsqueda visual. Los
mas relevantes modelos de atención son discutidos e integrados con recientes obser-
vaciones sobre la función de los denominados ’top-down constraints’ y la emergente
necesidad de un modelo estratificado de atención en el que la saliencia no es el único
factor guía de atención. La atención visual se explica por la interacción de varios
factores moduladores, tales como objetos, valor, planes y saliencia.
Se introduce nuestra formulación probabilística de los mecanismos de atención
en escenas reales para la tarea de búsqueda de objetos. El modelo se basa en el
argumento de que el despliegue de atención depende de dos procesos distintos pero
interactuantes: un proceso de atención que asigna valor a las fuentes de información
y un proceso motor que une flexiblemente información con la acción. En ese marco,
la elección de dónde buscar la próxima tarea es dependiente y orientada a las clases
de objetos incrustados en imágenes de escenas reales. La dependencia de la tarea se
tiene en cuenta al explotar el valor y la recompensa de contemplar ciertas partes o
proto-objetos de la imagen que proporcionan una rala representación de los objetos
en la escena.
En la sección experimental se prueba el modelo en condiciones de laboratorio,
comparando las simulaciones del modelo con datos de experimentos de eye tracking.
La comparación es cualitativa en términos de trayectorias de exploración y cuanti-
tativa, en términos de similitud estadística de la amplitud de movimientos oculares.
Los experimentos se han realizado con datos de eye tracking tanto de un conjunto de
datos públicos de rostros humanos y texto, tanto con un nuevo conjunto de datos de
eye tracking y de imágenes urbanas con texto.
La última parte de esta tesis se dedica a estudiar en qué medida el modelo prop-
uesto puede responder del despliegue de atención en un entorno complejo. Se ha
utilizado un dispositivo móvil de eye tracking y una metodología desarrollada es-
pecíficamente para comparar los datos simulados con los datos grabados de eye track-
ing. Tal configuración permite poner a prueba el modelo en la tarea de búsqueda
de texto muy parecida a una búsqueda real, en la condición de información visual
incompleta. / Searching for text objects in real scene images is an open problem and a very ac-
tive computer vision research area. A large number of methods have been proposed
tackling the text search as extension of the ones from the document analysis field or
inspired by general purpose object detection methods. However the general problem
of object search in real scene images remains an extremely challenging problem due to
the huge variability in object appearance. This thesis builds on top of the most recent
findings in the visual attention literature presenting a novel computational model of
eye guidance aiming to better describe text object search in real scene images.
First are presented the relevant state-of-the-art results from the visual attention
literature regarding eye movements and visual search. Relevant models of attention
are discussed and integrated with recent observations on the role of top-down con-
straints and the emerging need for a layered model of attention in which saliency
is not the only factor guiding attention. Visual attention is then explained by the
interaction of several modulating factors, such as objects, value, plans and saliency.
Then we introduce our probabilistic formulation of attention deployment in real
scene. The model is based on the rationale that oculomotor control depends on two
interacting but distinct processes: an attentional process that assigns value to the
sources of information and motor process that flexibly links information with action.
In such framework, the choice of where to look next is task-dependent and oriented
to classes of objects embedded within pictures of complex scenes. The dependence
on task is taken into account by exploiting the value and the reward of gazing at
certain image patches or proto-objects that provide a sparse representation of the
scene objects.
In the experimental section the model is tested in laboratory condition, compar-
ing model simulations with data from eye tracking experiments. The comparison is
qualitative in terms of observable scan paths and quantitative in terms of statisti-
cal similarity of gaze shift amplitude. Experiments are performed using eye tracking
data from both a publicly available dataset of face and text and from newly performed
eye-tracking experiments on a dataset of street view pictures containing text.
The last part of this thesis is dedicated to study the extent to which the proposed
model can account for human eye movements in a low constrained setting. We used a
mobile eye tracking device and an ad-hoc developed methodology to compare model
simulated eye data with the human eye data from mobile eye tracking recordings.
Such setting allow to test the model in an incomplete visual information condition,
reproducing a close to real-life search task.

Identiferoai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/283428
Date13 October 2014
CreatorsClavelli, Antonio
ContributorsBoccignone, Giuseppe, Karatzas, Dimosthenis, Lladós Canet, Josep, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
PublisherUniversitat Autònoma de Barcelona
Source SetsUniversitat Autònoma de Barcelona
LanguageEnglish
Detected LanguageSpanish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format109 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
RightsL'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/, info:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds