• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Spatio-temporal descriptors for human action recognition / Reconnaissance d’action à partir de descripteurs spatio-temporels

Megrhi, Sameh 15 December 2014 (has links)
L'analyse et l’interprétation de contenus visuels et plus particulièrement la vidéo est un domaine de recherche de plus en plus attractif en raison du nombre important d'applications telles que la vidéo-surveillance, le résumé de films, l'indexation, les jeux vidéo, la robotique et la domotique. Dans cette thèse nous nous intéressons à la détection et à la reconnaissance d'actions humaines dans des séquences vidéo. Pour la partie détection des actions, nous avons introduit deux approches basées sur les points d'intérêts locaux. La première proposition est une méthode simple et efficace qui vise à détecter les mouvements humains ensuite contribuer à extraire des séquences vidéo décrivant des actions importantes. Afin d'atteindre cet objectif, les premières séquences vidéo sont segmentées en volumes de trames et groupes de points d’intérêts. Dans cette méthode, nous nous basons sur le suivi du mouvement des points d'intérêts. Nous avons utilisé, dans un premier lieu, des vidéos simples puis nous avons progressivement augmenté la complexité des vidéos en optant pour des scènes réalistes. Les jeux de données simples présentent généralement un arrière-plan statique avec un Seul acteur qui effectue une seule action unique ou bien la même action mais d'une manière répétitive. Nous avons ensuite testé la robustesse de la détection d'action proposée dans des jeux de données plus complexes réalistes recueillis à partir des réseaux sociaux. Nous avons introduit une approche de détection d'actions efficace pour résoudre le problème de la reconnaissance d'actions humaines dans les vidéos réalistes contenant des mouvements de caméra. Le mouvement humain est donc segmenté d'une manière spatio-temporelle afin de détecter le nombre optimal de trames suffisant pour effectuer une description vidéo. Les séquences sont décrites au moyen de descripteurs spatio-temporels. Nous avons proposé dans cette thèse deux nouveaux descripteurs spatio-temporels basés sur le suivi de la trajectoire des points d'intérêts. Les suivis et la description vidéo sont effectués sur les patchs vidéo qui contiennent un mouvement ou une partie d'un mouvement détecté par la segmentation réalisée lors de l'étape précédente. Nous nous sommes basés sur le descripteur SURF non seulement pour sa précision et mais surtout pour la rapidité. Le premier descripteur proposé est appelé ST-SURF basé sur une nouvelle combinaison du (SURF) et du flot optique. Le ST-SURF permet le suivi de la trajectoire des points d'intérêts tout en gardant les informations spatiales, pertinentes, provenant du SURF. Le deuxième descripteur proposé dans le cadre de cette thèse est un histogramme du mouvement de la trajectoire (HMTO). HMTO est basé sur la position ainsi que l'échelle relative à un SURF. Ainsi, pour chaque SURF détecté, nous définissons une région du voisinage du point d'intérêt en nous basant sur l'échelle. Pour le patch détecté, nous extrayons le flot optique d'une manière dense. Les trajectoires de mouvement sont ensuite générées pour chaque pixel en exploitant les composantes horizontale et verticale de flot optique (u, v). La précision de la description de la vidéo proposée est testée sur un ensemble de données complexes et un plus grand ensemble de données réalistes. Les descripteurs de vidéo proposés sont testés d'une manière simple puis en les fusionnants avec d'autres descripteurs. Les descripteurs vidéo ont été introduits dans un processus de classification basé sur le sac de mots et ont démontré une amélioration des taux de reconnaissance par rapport aux approches précédemment proposés dans l'état-de-l ‘art. / Due to increasing demand for video analysis systems in recent years, human action de-tection/recognition is being targeted by the research community in order to make video description more accurate and faster, especially for big datasets. The ultimate purpose of human action recognition is to discern automatically what is happening in any given video. This thesis aims to achieve this purpose by contributing to both action detection and recognition tasks. We thus have developed new description methods for human action recognition.For the action detection component we introduce two novel approaches for human action detection. The first proposition is a simple yet effective method that aims at detecting human movements. First, video sequences are segmented into Frame Packets (FPs) and Group of Interest Points (GIP). In this method we track the movements of Interest Points in simple controlled video datasets and then in videos of gradually increasing complexity. The controlled datasets generally contain videos with a static background and simple ac-tions performed by one actor. The more complex realistic datasets are collected from social networks.The second approach for action detection attempts to address the problem of human ac-tion recognition in realistic videos captured by moving cameras. This approach works by segmenting human motion, thus investigating the optimal sufficient frame number to per-form action recognition. Using this approach, we detect object edges using the canny edge detector. Next, we apply all the steps of the motion segmentation process to each frame. Densely distributed interest points are detected and extracted based on dense SURF points with a temporal step of N frames. Then, optical flows of the detected key points between two frames are computed by the iterative Lucas and Kanade optical flow technique, using pyramids. Since we are dealing with scenes captured by moving cameras, the motion of objects necessarily involves the background and/or the camera motion. Hence, we propose to compensate for the camera motion. To do so, we must first assume that camera motion exists if most points move in the same direction. Then, we cluster optical flow vectors using a KNN clustering algorithm in order to determine if the camera motion exists. If it does, we compensate for it by applying the affine transformation to each frame in which camera motion is detected, using as input parameters the camera flow magnitude and deviation. Finally, after camera motion compensation, moving objects are segmented using temporal differencing and a bounding box is drawn around each detected moving object. The action recognition framework is applied to moving persons in the bounding box. Our goal is to reduce the amount of data involved in motion analysis while preserving the most important structural features. We believe that we have performed action detection in the spatial and temporal domain in order to obtain better action detection and recognition while at the same time considerably reducing the processing time...
2

Détection non supervisée d'évènements rares dans un flot vidéo : application à la surveillance d'espaces publics / Unsupervised detection of rare events in a video stream : application to the surveillance of public spaces

Luvison, Bertrand 13 December 2010 (has links)
Cette thèse est une collaboration entre le LAboratoire des Sciences et Matériaux pour l’Électronique et d’Automatique (LASMEA) de Clermont-Ferrand et le Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA LIST à Saclay. La première moitié de la thèse a été accomplie au sein de l’équipe ComSee (1) du LASMEA et la deuxième au LVIC. L’objectif de ces travaux est de concevoir un système de vidéo-assistance temps réel pour la détection d’évènements dans des scènes possiblement denses.La vidéosurveillance intelligente de scènes denses telles que des foules est particulièrement difficile, principalement à cause de leur complexité et de la grande quantité de données à traiter simultanément. Le but de cette thèse consiste à élaborer une méthode de détection d’évènements rares dans de telles scènes, observées depuis une caméra fixe. La méthode en question s’appuie sur l’analyse automatique de mouvement et ne nécessite aucune information à priori. Les mouvements nominaux sont déterminés grâce à un apprentissage statistique non supervisé. Les plus fréquemment observés sont considérés comme des évènements normaux. Une phase de classification permet ensuite de détecter les mouvements déviant trop du modèle statistique, pour les considérer comme anormaux. Cette approche est particulièrement adaptée aux lieux de déplacements structurés, tels que des scènes de couloirs ou de carrefours routiers. Aucune étape de calibration, de segmentation de l’image, de détection d’objets ou de suivi n’est nécessaire. Contrairement aux analyses de trajectoires d’objets suivis, le coût calculatoire de notre méthode est invariante au nombre de cibles présentes en même temps et fonctionne en temps réel. Notre système s’appuie sur une classification locale du mouvement de la scène, sans calibration préalable. Dans un premier temps, une caractérisation du mouvement est réalisée, soit par des méthodes classiques de flot optique, soit par des descripteurs spatio-temporels. Ainsi, nous proposons un nouveau descripteur spatio-temporel fondé sur la recherche d’une relation linéaire entre les gradients spatiaux et les gradients temporels en des zones où le mouvement est supposé uniforme. Tout comme les algorithmes de flot optique, ce descripteur s’appuie sur la contrainte d’illumination constante.Cependant en prenant en compte un voisinage temporel plus important, il permet une caractérisation du mouvement plus lisse et plus robuste au bruit. De plus, sa faible complexité calculatoire est bien adaptée aux applications temps réel. Nous proposons ensuite d’étudier différentes méthodes de classification : La première, statique, dans un traitement image par image, s’appuie sur une estimation bayésienne de la caractérisation du mouvement au travers d’une approche basée sur les fenêtres de Parzen. Cette nouvelle méthode est une variante parcimonieuse des fenêtres de Parzen. Nous montrons que cette approche est algorithmiquement efficace pour approximer de manière compacte et précise les densités de probabilité. La seconde méthode, basée sur les réseaux bayésiens, permet de modéliser la dynamique du mouvement. Au lieu de considérer ce dernier image par image, des séquences de mouvements sont analysées au travers de chaînes de Markov Cachées. Ajouté à cela, une autre contribution de ce manuscrit est de prendre en compte la modélisation du voisinage d’un bloc afin d’ajouter une cohérence spatiale à la propagation du mouvement. Ceci est réalisé par le biais de couplages de chaînes de Markov cachées.Ces différentes approches statistiques ont été évaluées sur des données synthétiques ainsi qu’en situations réelles, aussi bien pour la surveillance du trafic routier que pour la surveillance de foule.Cette phase d’évaluation permet de donner des premières conclusions encourageantes quant à la faisabilité de la vidéosurveillance intelligente d’espaces possiblement denses. / The automatic analysis of crowded areas in video sequences is particularly difficult because ofthe large amount of information to be processed simultaneously and the complexity of the scenes. We propose in this thesis a method for detecting abnormal events in possibly dense scenes observed from a static camera. The approach is based on the automatic classification of motion requiring no prior information. Motion patterns are encoded in an unsupervised learning framework in order to generate a statistical model of frequently observed (aka. normal) events. Then at the detection stage, motion patterns that deviate from the model are classified as unexpected events. The method is particularly adapted to scenes with structured movement with directional flow of objects or people such as corridors, roads, intersections. No camera calibration is needed, nor image segmentation, object detection and tracking. In contrast to approaches that rely on trajectory analysis of tracked objects, our method is independent of the number of targets and runs in real-time. Our system relies on a local classification of global scene movement. The local analysis is done on each blocks of a regular grid. We first introduce a new spatio-temporal local descriptor to characterize the movement efficiently. Assuming a locally uniform motion of space-time blocks of the image, our approach consists in determining whether there is a linear relationship between spatial gradients and temporal gradients. This spatio-temporal descriptor holds the Illumination constancy constraint like optical flow techniques, but it allows taking into account the spatial neighborhood and a temporal window by giving a smooth characterization of the motion, which makes it more robust to noise. In addition, its low computational complexity is suitable for real-time applications. Secondly, we present two different classification frameworks : The first approach is a static (frame by frame) classification approach based on a Bayesian characterization of the motion by using an approximation of the Parzen windowing method or Kernel Density Estimation (KDE) to model the probability density function of motion patterns.This new method is the sparse variant of the KDE (SKDE). We show that the SKDE is a very efficient algorithm giving compact representations and good approximations of the density functions. The second approach, based on Bayesian Networks, models the dynamics of the movement. Instead of considering motion patterns in each block independently, temporal sequences of motion patterns are learned by using Hidden Markov Models (HMM). The second proposed improvement consists in modeling the movement in one block by taking into account the observed motion in adjacent blocks. This is performed by the coupled HMM method. Evaluations were conducted to highlight the classification performance of the proposed methods,on both synthetic data and very challenging real video sequences captured by video surveillance cameras.These evaluations allow us to give first conclusions concerning automatic analyses of possibly crowded area.

Page generated in 0.1123 seconds