Ces technologies ont poussé les chercheurs à imaginer la possibilité d'automatiser et émuler les capacités de perception visuels des animaux et de l'homme lui-même. Depuis quelques décennies le domaine de la vision par ordinateur a essayé plusieurs approches et une vaste gamma d'applications a été développée avec un succès partielle: la recherche des images basé sur leur contenu, la exploration de donnés à partir des séquences vidéo, la ré-identification des objets par des robots, etc. Quelques applications sont déjà sur le marché et jouissent déjà d'un certain succès commercial.La reconnaissance visuelle c'est un problème étroitement lié à l'apprentissage de catégories visuelles à partir d'un ensemble limité d'instances. Typiquement deux approches sont utilisées pour résoudre ce problème: l'apprentissage des catégories génériques et la ré-identification d'instances d'un objet un particulière. Dans le dernier cas il s'agit de reconnaître un objet ou personne en particulière. D'autre part, la reconnaissance générique s'agit de retrouver tous les instances d'objets qui appartiennent à la même catégorie conceptuel: tous les voitures, les piétons, oiseaux, etc.Cette thèse propose un système de vision par ordinateur capable de détecter et suivre plusieurs objets dans les séquences vidéo. L'algorithme pour la recherche de correspondances proposé se base sur les matrices de covariance obtenues à partir d'un ensemble de propriétés des images (couleur et texture principalement). Son principal avantage c'est qu'il utilise un descripteur qui permet l'introduction des sources d'information très hétérogènes pour représenter les cibles. Cette représentation est efficace pour le suivi d'objets et son ré-identification.Quatre contributions sont introduites dans cette thèse.Tout d'abord cette thèse s'intéresse à l'invariance des algorithmes de suivi face aux changements du contexte. Nous proposons ici une méthodologie pour mesurer l’importance de l'information couleur en fonction de ses niveaux d’illumination et saturation. Puis, une deuxième partie se consacre à l'étude de différentes méthodes de suivi, ses avantages et limitations en fonction du type d'objet à suivre (rigide ou non rigide par exemple) et du contexte (caméra statique ou mobile). Le méthode que nous proposons s'adapte automatiquement et utilise un mécanisme de commutation entre différents méthodes de suivi qui considère ses qualités complémentaires. Notre algorithme se base sur un modèle de covariance qui fusionne les informations couleur-texture et le flot optique (KLT) modifié pour le rendre plus robuste et adaptable face aux changements d’illumination. Une deuxième approche se appuie sur l'analyse des différents espaces et invariants couleur à fin d'obtenir un descripteur qui garde un bon équilibre entre pouvoir discriminant et robustesse face aux changements d'illumination.Une troisième contribution porte sur le problème de suivi multi-cibles ou plusieurs difficultés apparaissent : la confusion d'identités, les occultations, la fusion et division des trajectoires-détections, etc.La dernière partie se consacre à la vitesse des algorithmes à fin de fournir une solution rapide et utilisable dans les applications embarquées. Cette thèse propose une série d'optimisations pour accélérer la mise en correspondance à l'aide de matrices de covariance. Transformations de mise en page de données, la vectorisation des calculs (à l'aide d'instructions SIMD) et certaines transformations de boucle permettent l'exécution en temps réel de l'algorithme non seulement sur les grands processeurs classiques de Intel, mais aussi sur les plateformes embarquées (ARM Cortex A9 et Intel U9300). / Visual recognition is the problem of learning visual categories from a limited set of samples and identifying new instances of those categories, the problem is often separated into two types: the specific case and the generic category case. In the specific case the objective is to identify instances of a particular object, place or person. Whereas in the generic category case we seek to recognize different instances that belong to the same conceptual class: cars, pedestrians, road signs and mugs. Specific object recognition works by matching and geometric verification. In contrast, generic object categorization often includes a statistical model of their appearance and/or shape.This thesis proposes a computer vision system for detecting and tracking multiple targets in videos. A preliminary work of this thesis consists on the adaptation of color according to lighting variations and relevance of the color. Then, literature shows a wide variety of tracking methods, which have both advantages and limitations, depending on the object to track and the context. Here, a deterministic method is developed to automatically adapt the tracking method to the context through the cooperation of two complementary techniques. A first proposition combines covariance matching for modeling characteristics texture-color information with optical flow (KLT) of a set of points uniformly distributed on the object . A second technique associates covariance and Mean-Shift. In both cases, the cooperation allows a good robustness of the tracking whatever the nature of the target, while reducing the global execution times .The second contribution is the definition of descriptors both discriminative and compact to be included in the target representation. To improve the ability of visual recognition of descriptors two approaches are proposed. The first is an adaptation operators (LBP to Local Binary Patterns ) for inclusion in the covariance matrices . This method is called ELBCM for Enhanced Local Binary Covariance Matrices . The second approach is based on the analysis of different spaces and color invariants to obtain a descriptor which is discriminating and robust to illumination changes.The third contribution addresses the problem of multi-target tracking, the difficulties of which are the matching ambiguities, the occlusions, the merging and division of trajectories.Finally to speed algorithms and provide a usable quick solution in embedded applications this thesis proposes a series of optimizations to accelerate the matching using covariance matrices. Data layout transformations, vectorizing the calculations (using SIMD instructions) and some loop transformations had made possible the real-time execution of the algorithm not only on Intel classic but also on embedded platforms (ARM Cortex A9 and Intel U9300).
Identifer | oai:union.ndltd.org:theses.fr/2013PA112313 |
Date | 03 December 2013 |
Creators | Romero Mier y Teran, Andrés |
Contributors | Paris 11, Lacassagne, Lionel |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text, Image, StillImage |
Page generated in 0.0029 seconds