Return to search

Fast Computer Vision Algorithms applied to Motion Detection and Mosaicing

Aquesta
tesi
està
centrada
en
la
detecció
de
moviment
i
el
seu
aprofitament
per
la
sumarització
de
les
escenes
de
vídeo
en
imatges
mosaic.
Mentre
construir
la
imatge
mosaic
amb
càmeres
pivotants
és
un
tema
ben
conegut,
no
es
aquest
el
cas
per
les
càmeres
amb
moviment.
El
primer
pas
consisteix
en
alinear
totes
les
imatges
en
un
únic
sistema
de
coordenades.
Aquest
procés,
anomenat
alineament
d’imatges,
prové
de
l’estimació
de
la
transformació
que
projecta
cada
imatge
de
vídeo
en
aquest
sistema
de
coordenades
comú.
La
imatge
mosaic
es
genera
assignant
a
cada
punt,
un
cert
valor
derivat
de
la
informació
transmesa
per
les
diferents
imatges
amb
informació
sobre
aquest
punt.
Moviment
i
mosaics
estan
profundament
relacionats.
La
tesi
s'estructura
en
sis
capítols.
Després
d'una
introducció
als
aspectes
de
percepció
del
moviment
en
una
seqüència
de
vídeo
i
exposar
el
pla
de
la
tesi,
el
segon
capítol
aborda
el
problema
de
la
detecció
de
moviment
amb
càmeres
estàtiques.
Amb
aquesta
finalitat,
es
presenta
una
àmplia
descripció
dels
algoritmes
de
separació
del
fons
de
la
imatge
descrits
en
la
literatura.
Es
presenta
a
continuació
l'algoritme
de
sostracció
de
fons
desenvolupat
en
la
tesi.
Aquest
algorisme
combina
diferents
senyals
visuals
i
utilitza
un
model
gràfic
probabilístic
per
garantir
la
coherència
espai-­‐temporal
per
al
model
de
fons.
Aquest
model
representa
cada
píxel
com
una
variable
aleatòria
amb
dos
estats,
de
fons
i
de
primer
pla.
Llavors,
s’utilitza
un
camps
probabilístic
de
Markov
(MRF)
per
descriure
la
correlació
entre
els
píxels
veïns
en
el
volum
de
l'espai-­‐temps.
A
més
a
més
,
es
presenta
un
marc
general
de
combinar
diferents
fonts
d'informació
relacionades
amb
el
moviment
per
tal
d'augmentar
la
precisió
de
la
màscara
de
moviment.
El
següent
pas
és
fer
front
al
problema
de
la
detecció
de
moviment
quan
la
càmera
no
és
estàtica,
que
s'analitza
en
el
capítol
3.
En
particular,
es
considera
el
cas
sense
paral·laxi.
Aquest
és
un
cas
comú,
en
càmeres
PTZ
o
perspectives
aèries
no
produeixen
paral·laxi
de
moviment.
Per
a
compensar
les
transformacions
afins
2D
causades
per
la
càmera
es
proposa
utilitzar
un
seguiment
de
nucli
múltiple,
assumint
que
la
major
part
de
la
trama
pertany
al
fons.
El
primer
pas
és
introduir
Seguiment
de
Nucli
Múltiple
i
es
descriu
com
es
pot
formular
per
aquest
propòsit
en
particular.
A
continuació,
la
generació
del
mosaic
de
fons
es
defineix
i
es
valida
la
capacitat
d'adaptació
a
través
del
temps.
El
capítol
4
presenta
un
nou
algorisme
d'alineació
de
imatges,
el
Directe-­‐Local,
Indirecte-­‐Global
(DLIG),
que
compensa
el
moviment
2D
mitjançant
una
transformació
projectiva.
La
idea
clau
de
l'alineació
DLIG
és
dividir
el
problema
d'alineació
de
imatges
en
el
problema
de
registrar
un
conjunt
de
trossos
d'imatge
espacialment
relacionats.
El
registrament
d’un
tros
d’imatge
es
realitza
iterativament
imposant
tan
una
bona
concordança
local
com
una
bona
coherència
espacial
global.
L’alineament
d’un
tros
d’imatge
es
porta
a
terme
utilitzant
un
algoritme
de
seguiment,
de
manera
que
es
molt
eficient
per
aconseguir
una
concordança
local.
L'algorisme
utilitza
el
registrat
de
trossos
d’imatge
per
obtenir
un
registrat
multiimatge
i
utilitza
les
coordenades
mosaic
per
relacionar
el
tros
actual
de
la
imatge
a
trossos
provinents
de
altres
imatges
que
comparteixen
parcialment
el
camp
de
vista.
La
registració
multimatge
impedeix
el
problema
d'acumulació
d'errors,
un
dels
problemes
més
importants
en
mosaics.
També
es
mostra
com
incrustar
un
algoritme
de
seguiment
basat
en
nucli
per
tal
d'obtenir
un
algoritme
de
construcció
de
mosaics
precís
i
eficient.
El
capítol
5
encara
el
problema
de
la
generació
de
mosaics
quan
l'escena
gravada
conté
paral·laxi
de
moviment.
La
solució
desenvolupada
proposa
alinear
la
seqüència
de
vídeo
en
un
volum
d'espai-­‐temps
basat
en
el
seguiment
eficient
de
característiques
utilitzant
un
algoritme
de
seguiment
de
nucli.
El
càlcul
és
ràpid
i,
com
el
moviment,
es
calcula
només
per
a
unes
poques
regions
de
la
imatge,
i
tot
i
així
proporciona
una
estimació
del
moviment
3D
precisa.
Aquest
càlcul
és
més
ràpid
i
més
precís
que
l’estat
de
l’art
que
es
basen
en
un
mètode
d'alineació
directa.
La
síntesi
de
la
imatge
del
mosaic
encara
amb
el
mètode
innovador
presentat
a
la
tesi
barcode
Blending
,
un
nou
mètode
per
utilitzar
el
blending
piràmidal
en
les
imatges
mosaic,
que
és
molt
eficient.
Barcode
Blending
permet
superar
la
complexitat
de
la
construcció
de
piràmides
per
a
múltiples
tires
estretes,
en
base
a
combinar
totes
les
tires
en
una
sola
etapa
de
mescla.
Finalment
la
tesi
acaba
am
les
conclusions
i
el
treball
futur
a
fer
en
el
capítol
sisè. / This thesis is focused on motion detection and its use for the summarization of video scenes in mosaic images. While mosaicing with pivoting cameras is a well-known topic, this is not the case with full motion cameras. The first step is to align all the images into a single coordinate system. This process, named image alignment, comes from the estimation of the transform that projects every video image into this common coordinate system. The mosaic image is generated assigning to each point some value derived from the information conveyed for the different images with information about that point. Motion and Mosaicing are deeply related.
The thesis is organized in six chapters. After an introduction to the perceptual aspects of motion in a video sequence and exposing the plan of the thesis, the second chapter deals with the problem of detecting motion using static cameras. To this end, an extensive description of the main background subtraction algorithms in the literature is presented. The original background subtraction algorithm developed in the thesis is presented. This algorithm combines different visual cues and uses a probabilistic graphical model to provide spatio-temporal consistency to the background model. This model represents each pixel as a random variable with two states, background and foreground. Then, Markov Random Fields (MRF) is used to describe the correlation between neighbouring pixels in the space-time volume. In addition, a general framework to combine different motion related information sources is presented in order to increase the accuracy of the motion mask.
The next step is to face the problem of detecting motion when the camera is not static, which is analysed in the chapter 3. In particular, the case with no parallax is considered. This is a common case as PTZ cameras or aerial perspectives do not produce motion parallax. It is proposed to compensate for 2D affine transformations caused by the camera by using Multiple Kernel Tracking, assuming that the major part of the frame belongs to the background. The first step is to introduce Multiple Kernel Tracking describing how it can be formulated for this particular purpose. Then the generation of the background mosaic is defined and it adaptability over time.
Chapter 4 presents a new frame alignment algorithm, the Direct Local Indirect global (DLIG), which compensates the 2D motion using a projective transformation. The key idea of the DLIG alignment is to divide the frame alignment problem into the problem of registering a set of spatially related image patches. The registration is iteratively computed by sequentially imposing a good local match and global spatial coherence. The patch registration is performed using a tracking algorithm, so a very efficient local matching can be achieved. The algorithm uses the patch-based registration to obtain multiframe registration, using the mosaic coordinates to relate the current frame to patches from different frames that partially share the current field of view. Multiframe registration prevents the error accumulation problem, one of the most important problems in mosaicing. It is also show how to embed a Kernel Tracking algorithm in order to obtain a precise and efficient mosaicing algorithm.
The chapter 5 moves to the problem of generating mosaics when the recorded scene contains motion parallax. The developed solution proposes to align the video sequence in a space-time volume based on efficient feature tracking using a Kernel Tracking algorithm. Computation is fast and, as the motion, is computed only for a few regions of the image, yet still gives accurate 3D motion. This computation is faster and more accurate than the previous work that is based on a direct alignment method. The synthesis of the mosaic image is faced with the novel Barcode Blending , a new approach for using pyramid blending in video mosaics, which is very efficient. Barcode Blending overcomes the complexity of building pyramids for multiple narrow strips, combining all strips in a single blending step.
This thesis finishes with the conclusions and future work in chapter 6.

Identiferoai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/125980
Date30 September 2013
CreatorsVivet Tañà, Marc
ContributorsBinefa Valls, Xavier, Martí Gòdia, Enric, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
PublisherUniversitat Autònoma de Barcelona
Source SetsUniversitat Autònoma de Barcelona
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format127 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.0022 seconds