Return to search

Region-based face detection, segmentation and tracking. framework definition and application to other objects

One of the central problems in computer vision is the automatic recognition of object classes. In particular, the detection of the class of human faces is a
problem that generates special interest due to the large number of applications that require face detection as a first step.
In this thesis we approach the problem of face detection as a joint detection and segmentation problem, in order to precisely localize faces with pixel
accurate masks. Even though this is our primary goal, in finding a solution we have tried to create a general framework as independent as possible of
the type of object being searched.
For that purpose, the technique relies on a hierarchical region-based image model, the Binary Partition Tree, where objects are obtained by the union of
regions in an image partition. In this work, this model is optimized for the face detection and segmentation tasks. Different merging and stopping criteria
are proposed and compared through a large set of experiments.
In the proposed system the intra-class variability of faces is managed within a learning framework. The face class is characterized using a set of
descriptors measured on the tree nodes, and a set of one-class classifiers. The system is formed by two strong classifiers. First, a cascade of binary
classifiers simplifies the search space, and afterwards, an ensemble of more complex classifiers performs the final classification of the tree nodes.
The system is extensively tested on different face data sets, producing accurate segmentations and proving to be quite robust to variations in scale,
position, orientation, lighting conditions and background complexity.
We show that the technique proposed for faces can be easily adapted to detect other object classes. Since the construction of the image model does
not depend on any object class, different objects can be detected and segmented using the appropriate object model on the same image model. New
object models can be easily built by selecting and training a suitable set of descriptors and classifiers.
Finally, a tracking mechanism is proposed. It combines the efficiency of the mean-shift algorithm with the use of regions to track and segment faces
through a video sequence, where both the face and the camera may move. The method is extended to deal with other deformable objects, using a
region-based graph-cut method for the final object segmentation at each frame. Experiments show that both mean-shift based trackers produce
accurate segmentations even in difficult scenarios such as those with similar object and background colors and fast camera and object movements.
Lloc i / Un dels problemes més importants en l'àrea de visió artificial és el reconeixement automàtic de classes d'objectes. En particular, la detecció de la
classe de cares humanes és un problema que genera especial interès degut al gran nombre d'aplicacions que requereixen com a primer pas detectar
les cares a l'escena.
A aquesta tesis s'analitza el problema de detecció de cares com un problema conjunt de detecció i segmentació, per tal de localitzar de manera precisa
les cares a l'escena amb màscares que arribin a precisions d'un píxel. Malgrat l'objectiu principal de la tesi és aquest, en el procés de trobar una
solució s'ha intentat crear un marc de treball general i tan independent com fos possible del tipus d'objecte que s'està buscant.
Amb aquest propòsit, la tècnica proposada fa ús d'un model jeràrquic d'imatge basat en regions, l'arbre binari de particions (BPT: Binary Partition
Tree), en el qual els objectes s'obtenen com a unió de regions que provenen d'una partició de la imatge. En aquest treball, s'ha optimitzat el model per
a les tasques de detecció i segmentació de cares. Per això, es proposen diferents criteris de fusió i de parada, els quals es comparen en un conjunt
ampli d'experiments.
En el sistema proposat, la variabilitat dins de la classe cara s'estudia dins d'un marc de treball d'aprenentatge automàtic. La classe cara es caracteritza
fent servir un conjunt de descriptors, que es mesuren en els nodes de l'arbre, així com un conjunt de classificadors d'una única classe. El sistema està
format per dos classificadors forts. Primer s'utilitza una cascada de classificadors binaris que realitzen una simplificació de l'espai de cerca i,
posteriorment, s'aplica un conjunt de classificadors més complexes que produeixen la classificació final dels nodes de l'arbre.
El sistema es testeja de manera exhaustiva sobre diferents bases de dades de cares, sobre les quals s'obtenen segmentacions precises provant així la
robustesa del sistema en front a variacions d'escala, posició, orientació, condicions d'il·luminació i complexitat del fons de l'escena.
A aquesta tesi es mostra també que la tècnica proposada per cares pot ser fàcilment adaptable a la detecció i segmentació d'altres classes d'objectes.
Donat que la construcció del model d'imatge no depèn de la classe d'objecte que es pretén buscar, es pot detectar i segmentar diferents classes
d'objectes fent servir, sobre el mateix model d'imatge, el model d'objecte apropiat. Nous models d'objecte poden ser fàcilment construïts mitjançant la
selecció i l'entrenament d'un conjunt adient de descriptors i classificadors.
Finalment, es proposa un mecanisme de seguiment. Aquest mecanisme combina l'eficiència de l'algorisme mean-shift amb l'ús de regions per fer el
seguiment i segmentar les cares al llarg d'una seqüència de vídeo a la qual tant la càmera com la cara es poden moure. Aquest mètode s'estén al cas
de seguiment d'altres objectes deformables, utilitzant una versió basada en regions de la tècnica de graph-cut per obtenir la segmentació final de
l'objecte a cada imatge. Els experiments realitzats mostren que les dues versions del sistema de seguiment basat en l'algorisme mean-shift produeixen
segmentacions acurades, fins i tot en entorns complicats com ara quan l'objecte i el fons de l'escena presenten colors similars o quan es produeix un
moviment ràpid, ja sigui de la càmera o de l'objecte.

Identiferoai:union.ndltd.org:TDX_UPC/oai:www.tdx.cat:10803/33330
Date17 December 2010
CreatorsVilaplana Besler, Verónica
ContributorsMarqués Acosta, Fernando, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
PublisherUniversitat Politècnica de Catalunya
Source SetsUniversitat Politècnica de Catalunya
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format261 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.0028 seconds