The work done in this master's thesis, presents a new system for the
recognition of human actions from a video sequence. The system uses,
as input, a video sequence taken by a static camera. A binary
segmentation method of the the video sequence is first achieved, by a
learning algorithm, in order to detect and extract the different people
from the background. To recognize an action, the system then exploits
a set of prototypes generated from an MDS-based dimensionality
reduction technique, from two different points of view in the video
sequence. This dimensionality reduction technique, according to two
different viewpoints, allows us to model each human action of the
training base with a set of prototypes (supposed to be similar for
each class) represented in a low dimensional non-linear space. The
prototypes, extracted according to the two viewpoints, are fed to a
$K$-NN classifier which allows us to identify the human action that
takes place in the video sequence. The experiments of our model
conducted on the Weizmann dataset of human actions provide interesting
results compared to the other state-of-the art (and often more
complicated) methods. These experiments show first the
sensitivity of our model for each viewpoint and its effectiveness to
recognize the different actions, with a variable but satisfactory
recognition rate and also the results obtained by the fusion of these
two points of view, which allows us to achieve a high performance
recognition rate. / Le travail mené dans le cadre de ce projet de maîtrise vise à
présenter un nouveau système de reconnaissance d’actions humaines à
partir d'une séquence d'images vidéo. Le système utilise en entrée une
séquence vidéo prise par une caméra statique. Une méthode de
segmentation binaire est d'abord effectuée, grâce à un algorithme
d’apprentissage, afin de détecter les différentes personnes de
l'arrière-plan. Afin de reconnaitre une action, le système exploite
ensuite un ensemble de prototypes générés, par une technique de
réduction de dimensionnalité MDS, à partir de deux points de vue
différents dans la séquence d'images. Cette étape de réduction de
dimensionnalité, selon deux points de vue différents, permet de
modéliser chaque action de la base d'apprentissage par un ensemble de
prototypes (censé être relativement similaire pour chaque classe)
représentés dans un espace de faible dimension non linéaire. Les
prototypes extraits selon les deux points de vue sont amenés à un
classifieur K-ppv qui permet de reconnaitre l'action qui se déroule
dans la séquence vidéo. Les expérimentations de ce système sur la
base d’actions humaines de Wiezmann procurent des résultats assez
intéressants comparés à d’autres méthodes plus complexes. Ces
expériences montrent d'une part, la sensibilité du système pour chaque
point de vue et son efficacité à reconnaitre les différentes actions,
avec un taux de reconnaissance variable mais satisfaisant, ainsi que
les résultats obtenus par la fusion de ces deux points de vue, qui
permet l'obtention de taux de reconnaissance très performant.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/10849 |
Date | 12 1900 |
Creators | Touati, Redha |
Contributors | Mignotte, Max |
Source Sets | Université de Montréal |
Language | French |
Detected Language | French |
Type | Thèse ou Mémoire numérique / Electronic Thesis or Dissertation |
Page generated in 0.1441 seconds