Cette thèse CIFRE est effectuée dans un contexte industriel et présente un framework complet pour la détection, le suivi mono-caméra et de la ré-identification de personnes dans le contexte multi-caméras. Les performances élevés et le traitement en temps réel sont les deux contraintes critiques ayant guidé ce travail. La détection de personnes vise à localiser/délimiter les gens dans les séquences vidéo. Le détecteur proposé est basé sur une cascade de classifieurs de type LogitBoost appliqué sur des descripteurs de covariances. Une approche existante a fortement été optimisée, la rendant applicable en temps réel et fournissant de meilleures performances. La méthode d'optimisation est généralisable à d'autres types de détecteurs d'objets. Le suivi mono-caméra vise à fournir un ensemble d'images de chaque personne observée par chaque caméra afin d'extraire sa signature visuelle, ainsi qu'à fournir certaines informations du monde réel pour l'amélioration de la ré-identification. Ceci est réalisé par le suivi de points SIFT à l'aide d'une filtre à particules, ainsi qu'une méthode d'association de données qui infère le suivi des objets et qui gère la majorité des cas de figures possible, notamment les occultations. Enfin, la ré-identification de personnes est réalisée avec une approche basée sur l'apparence globale en améliorant grandement une approche existante, obtenant de meilleures performances tout en étabt applicable en temps réel. Une partie "conscience du contexte" est introduite afin de gérer le changement d'orientation des personnes, améliorant les performances dans le cas d'applications réelles. / This thesis is performed in industrial context and presents a whole framework for people detection and tracking in a camera network. It addresses the main process steps: people detection, people tracking in mono-camera context, and people re-identification in multi-camera context. High performances and real-time processing are considered as strong constraints. People detection aims to localise and delimits people in video sequences. The proposed people detection is performed using a cascade of classifiers trained using LogitBoost algorithm on region covariance descriptors. A state of the art approach is strongly optimized to process in real time and to provide better detection performances. The optimization scheme is generalizable to many other kind of detectors where all possible weak classifiers cannot be reasonably tested. People tracking in mono-camera context aims to provide a set of reliable images of every observed person by each camera, to extract his visual signature, and it provides some useful real world information for re-identification purpose. It is achieved by tracking SIFT features using a specific particle filter in addition to a data association framework which infer object tracking from SIFT points one, and which deals with most of possible cases, especially occlusions. Finally, people re-identification is performed using an appearance based approach by improving a state of the art approach, providing better performances while keeping the real-time processing advantage. A context-aware part is introduced to robustify the visual signature against people orientations, ensuring better re-identification performances in real application case.
Identifer | oai:union.ndltd.org:theses.fr/2013NICE4152 |
Date | 20 December 2013 |
Creators | Souded, Malik |
Contributors | Nice, Brémond, François |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0024 seconds