La detección de peatones es clave para muchas aplicaciones como asistencia al conductor, video vigilancia o multimedia. Los mejores detectores se basan en clasificadores basados en modelos de apariencia entrenados con ejemplos anotados. Sin embargo, el proceso de anotación es una tarea intensiva y subjetiva cuando es llevada a cabo por personas. Por ello, vale la pena minimizar la intervención humana en dicha tarea mediante el uso de herramientas computacionales como los mundos virtuales porque con ellos podemos obtener anotaciones variadas y precisas de forma rápida. Sin embargo, el uso de este tipo de datos genera la siguiente pregunta: ¿Es posible que un modelo de apariencia entrenado en un mundo virtual pueda funcionar de manera satisfactoria en el mundo real? Para responder esta pregunta, hemos realizado diferentes experimentos que sugieren que los clasificadores entrenados en el mundo virtual pueden ofrecer buenos resultados al aplicarse en ambientes del mundo real. Sin embargo, también se encontró que en algunos casos estos clasificadores se pueden ver afectados por el problema conocido como el cambio en la naturaleza de los datos, igual que ocurre con los clasificadores entrenados en el mundo real. En consecuencia, hemos diseñado un sistema de adaptación de dominio, V-AYLA, en el que hemos probado diferentes técnicas para recoger unos pocos ejemplos del mundo real y combinarlos con una gran cantidad de ejemplos del mundo virtual para entrenar un detector de peatones adaptado. V-AYLA ofrece la misma precisión de detección que un detector entrenado con anotaciones manuales y probado con imágenes reales del mismo dominio. Idealmente, nos gustaría que nuestro sistema se adaptase automáticamente sin necesidad de intervenci ón humana. Por ello, a modo de demostración, proponemos utilizar técnicas de adaptación no supervisadas que permitan eliminar completamente la intervención humana del proceso de adaptación. Hasta donde sabemos, este es el primer trabajo que muestra que es posible desarrollar un detector de objetos en el mundo virtual y adaptarlo al mundo real. Finalmente, proponemos una estrategia diferente para evitar el problema del cambio en la naturaleza de los datos que consiste en recoger ejemplos en el mundo real y reentrenar solamente con ellos pero haciéndolo de tal modo que no se tengan que anotar peatones en el mundo real. El resultado de este clasificador es equivalente a otro entrenado con anotaciones obtenidas de forma manual. Los resultados presentados en esta tesis no se limitan a adaptar un detector de peatones virtuales al mundo real, sino que va más allá, mostrando una nueva metodología que permitiría a un sistema adaptarse a cualquier nueva situación y que sienta las bases para la investigación futura en este campo todavía sin explorar. / Pedestrian detection is of paramount interest for many applications, e.g. Advanced
Driver Assistance Systems, Surveillance and Media. Most promising pedestrian detectors
rely on appearance-based classifiers trained with annotated samples. However,
the required annotation step represents an intensive and subjective task when it has to
be done by persons. Therefore, it is worth to minimize the human intervention in such
a task by using computational tools like realistic virtual worlds, where precise and rich
annotations of visual information can be automatically generated. Nevertheless, the
use of this kind of data generates the following question: can a pedestrian appearance
model learnt with virtual-world data work successfully for pedestrian detection in real-
world scenarios?. To answer this question, we conducted different experiments that
suggest that classifiers based on virtual-world data can perform well in real-world environments.
However, it was also found that in some cases these classifiers can suffer
the so called dataset shift problem as real-world based classifiers does. Accordingly, we
have designed a domain adaptation framework, V-AYLA, in which we have explored
different techniques to collect a few pedestrian samples from the target domain (real
world) and combine them with many samples of the source domain (virtual world)
in order to train a domain adapted pedestrian classifier. V-AYLA reports the same
detection performance as the one obtained by training with human-provided pedestrian
annotations and testing with real-world images from the same domain. Ideally,
we would like to adapt our system without any human intervention. Therefore, as
a first proof of concept we proposed the use of an unsupervised domain adaptation
technique that avoids human intervention during the adaptation process. To the best
of our knowledge, this is the first work that demonstrates adaptation of virtual and
real worlds for developing an object detector. We also assess a different strategy to
avoid the dataset shift that consists in collecting real-world samples and retrain with
them, but in such a way that no bounding boxes of real-world pedestrians have to
be provided. We show that the generated classifier is competitive with respect to
the counterpart trained with samples collected by manually annotating pedestrian
bounding boxes. The results presented on this Thesis not only end with a proposal
for adapting a virtual-world pedestrian detector to the real world, but also it goes
further by pointing out a new methodology that would allow the system to adapt to
different situations, which we hope will provide the foundations for future research in
this unexplored area.
Identifer | oai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/125977 |
Date | 29 July 2013 |
Creators | Vázquez Bermúdez, David |
Contributors | López Peña, Antonio M. (Antonio Manuel), Ponsa Mussarra, Daniel, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació |
Publisher | Universitat Autònoma de Barcelona |
Source Sets | Universitat Autònoma de Barcelona |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | 111 p., application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs., info:eu-repo/semantics/openAccess |
Page generated in 0.0152 seconds