• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 108
  • 54
  • 15
  • Tagged with
  • 178
  • 73
  • 68
  • 52
  • 49
  • 41
  • 39
  • 38
  • 33
  • 29
  • 28
  • 27
  • 27
  • 26
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Learning objects model and context for recognition and localisation / Apprentissage de modèles et contextes d'objets pour la reconnaissance et la localisation

Manfredi, Guido 18 September 2015 (has links)
Cette thèse traite des problèmes de modélisation, reconnaissance, localisation et utilisation du contexte pour la manipulation d'objets par un robot. Le processus de modélisation se divise en quatre composantes : le système réel, les données capteurs, les propriétés à reproduire et le modèle. En spécifiant chacune des ces composantes, il est possible de définir un processus de modélisation adapté au problème présent, la manipulation d'objets par un robot. Cette analyse mène à l'adoption des descripteurs de texture locaux pour la modélisation. La modélisation basée sur des descripteurs de texture locaux a été abordé dans de nombreux travaux traitant de structure par le mouvement (SfM) ou de cartographie et localisation simultanée (SLAM). Les méthodes existantes incluent Bundler, Roboearth et 123DCatch. Pourtant, aucune de ces méthodes n'a recueilli le consensus. En effet, l'implémentation d'une approche similaire montre que ces outils sont difficiles d'utilisation même pour des utilisateurs experts et qu'ils produisent des modèles d'une haute complexité. Cette complexité est utile pour fournir un modèle robuste aux variations de point de vue. Il existe deux façons pour un modèle d'être robuste : avec le paradigme des vues multiple ou celui des descripteurs forts. Dans le paradigme des vues multiples, le modèle est construit à partir d'un grand nombre de points de vue de l'objet. Le paradigme des descripteurs forts compte sur des descripteurs résistants aux changements de points de vue. Les expériences réalisées montrent que des descripteurs forts permettent d'utiliser un faible nombre de vues, ce qui résulte en un modèle simple. Ces modèles simples n'incluent pas tout les point de vus existants mais les angles morts peuvent être compensés par le fait que le robot est mobile et peut adopter plusieurs points de vue. En se basant sur des modèles simples, il est possible de définir des méthodes de modélisation basées sur des images seules, qui peuvent être récupérées depuis Internet. A titre d'illustration, à partir d'un nom de produit, il est possible de récupérer des manières totalement automatiques des images depuis des magasins en ligne et de modéliser puis localiser les objets désirés. Même avec une modélisation plus simple, dans des cas réel ou de nombreux objets doivent être pris en compte, il se pose des problèmes de stockage et traitement d'une telle masse de données. Cela se décompose en un problème de complexité, il faut traiter de nombreux modèles rapidement, et un problème d'ambiguïté, des modèles peuvent se ressembler. L'impact de ces deux problèmes peut être réduit en utilisant l'information contextuelle. Le contexte est toute information non issue des l'objet lui même et qui aide a la reconnaissance. Ici deux types de contexte sont abordés : le lieu et les objets environnants. Certains objets se trouvent dans certains endroits particuliers. En connaissant ces liens lieu/objet, il est possible de réduire la liste des objets candidats pouvant apparaître dans un lieu donné. Par ailleurs l'apprentissage du lien lieu/objet peut être fait automatiquement par un robot en modélisant puis explorant un environnement. L'information appris peut alors être fusionnée avec l'information visuelle courante pour améliorer la reconnaissance. Dans les cas des objets environnants, un objet peut souvent apparaître au cotés d'autres objets, par exemple une souris et un clavier. En connaissant la fréquence d'apparition d'un objet avec d'autres objets, il est possible de réduire la liste des candidats lors de la reconnaissance. L'utilisation d'un Réseau de Markov Logique est particulièrement adaptée à la fusion de ce type de données. Cette thèse montre la synergie de la robotique et du contexte pour la modélisation, reconnaissance et localisation d'objets. / This Thesis addresses the modeling, recognition, localization and use of context for objects manipulation by a robot. We start by presenting the modeling process and its components: the real system, the sensors' data, the properties to reproduce and the model. We show how, by specifying each of them, one can define a modeling process adapted to the problem at hand, namely object manipulation by a robot. This analysis leads us to the adoption of local textured descriptors for object modeling. Modeling with local textured descriptors is not a new concept, it is the subject of many Structure from Motion (SfM) or Simultaneous Localization and Mapping (SLAM) works. Existing methods include bundler, roboearth modeler and 123DCatch. Still, no method has gained widespread adoption. By implementing a similar approach, we show that they are hard to use even for expert users and produce highly complex models. Such complex techniques are necessary to guaranty the robustness of the model to view point change. There are two ways to handle the problem: the multiple views paradigm and the robust features paradigm. The multiple views paradigm advocate in favor of using a large number of views of the object. The robust feature paradigm relies on robust features able to resist large view point changes. We present a set of experiments to provide an insight into the right balance between both. By varying the number of views and using different features we show that small and fast models can provide robustness to view point changes up to bounded blind spots which can be handled by robotic means. We propose four different methods to build simple models from images only, with as little a priori information as possible. The first one applies to planar or piecewise planar objects and relies on homographies for localization. The second approach is applicable to objects with simple geometry, such as cylinders or spheres, but requires many measures on the object. The third method requires the use of a calibrated 3D sensor but no additional information. The fourth technique doesn't need a priori information at all. We apply this last method to autonomous grocery objects modeling. From images automatically retrieved from a grocery store website, we build a model which allows recognition and localization for tracking. Even using light models, real situations ask for numerous object models to be stored and processed. This poses the problems of complexity, processing multiple models quickly, and ambiguity, distinguishing similar objects. We propose to solve both problems by using contextual information. Contextual information is any information helping the recognition which is not directly provided by sensors. We focus on two contextual cues: the place and the surrounding objects. Some objects are mainly found in some particular places. By knowing the current place, one can restrict the number of possible identities for a given object. We propose a method to autonomously explore a previously labeled environment and establish a correspondence between objects and places. Then this information can be used in a cascade combining simple visual descriptors and context. This experiment shows that, for some objects, recognition can be achieved with as few as two simple features and the location as context. The objects surrounding a given object can also be used as context. Objects like a keyboard, a mouse and a monitor are often close together. We use qualitative spatial descriptors to describe the position of objects with respect to their neighbors. Using a Markov Logic Network, we learn patterns in objects disposition. This information can then be used to recognize an object when surrounding objects are already identified. This Thesis stresses the good match between robotics, context and objects recognition.
142

Intrinsic motivation mecanisms for incremental learning of visual saliency / Apprentissage incrémental de la saillance visuelle par des mécanismes de motivation intrinsèque

Craye, Céline 03 April 2017 (has links)
La conception de systèmes de perception autonomes, tels que des robots capables d’accomplir un ensemble de tâches de manière sûre et sans assistance humaine, est l’un des grands défis de notre siècle. Pour ce faire, la robotique développementale propose de concevoir des robots qui, comme des enfants, auraient la faculté d’apprendre directement par interaction avec leur environnement. Nous avons dans cette thèse exploré de telles possibilités en se limitant à l’apprentissage de la localisation des objets d’intérêt (ou objets saillants) dans l’environnement du robot.Pour ce faire, nous présentons dans ces travaux un mécanisme capable d’apprendre la saillance visuelle directement sur un robot, puis d’utiliser le modèle appris de la sorte pour localiser des objets saillants dans son environnement. Cette méthode a l’avantage de permettre la création de modèles spécialisés pour l’environnement du robot et les tâches qu’il doit accomplir, tout en restant flexible à d’éventuelles nouveautés ou modifications de l’environnement.De plus, afin de permettre un apprentissage efficace et de qualité, nous avons développé des stratégies d’explorations basées sur les motivations intrinsèques, très utilisées en robotique développementale. Nous avons notamment adapté l’algorithme IAC à l’apprentissage de la saillance visuelle, et en avons conçu une extension, RL-IAC, pour permettre une exploration efficace sur un robot mobile. Afin de vérifier et d’analyser les performances de nos algorithmes, nous avons réalisé des évaluations sur plusieurs plateformes robotiques dont une plateforme fovéale et un robot mobile, ainsi que sur des bases de données publiques. / Conceiving autonomous perceptual systems, such as robots able to accomplish a set of tasks in a safe way, without any human assistance, is one of the biggest challenge of the century. To this end, the developmental robotics suggests to conceive robots able to learn by interacting directly with their environment, just like children would. This thesis is exploring such possibility while restricting the problem to the one of localizing objects of interest (or salient objects) within the robot’s environment.For that, we present in this work a mechanism able to learn visual saliency directly on a robot, then to use the learned model so as to localize salient objects within their environment. The advantage of this method is the creation of models dedicated to the robot’s environment and tasks it should be asked to accomplish, while remaining flexible to any change or novelty in the environment.Furthermore, we have developed exploration strategies based on intrinsic motivations, widely used in developmental robotics, to enable efficient learning of good quality. In particular, we adapted the IAC algorithm to visual saliency leanring, and proposed an extension, RL-IAC to allow an efficient exploration on mobile robots.In order to verify and analyze the performance of our algorithms, we have carried out various experiments on several robotics platforms, including a foveated system and a mobile robot, as well as publicly available datasets.
143

Object representation in local feature spaces : application to real-time tracking and detection / Représentation d'objets dans des espaces de caractéristiques locales : application à la poursuite de cibles temps-réel et à la détection

Tran, Antoine 25 October 2017 (has links)
La représentation visuelle est un problème fondamental en vision par ordinateur. Le but est de réduire l'information au strict nécessaire pour une tâche désirée. Plusieurs types de représentation existent, comme les caractéristiques de couleur (histogrammes, attributs de couleurs...), de forme (dérivées, points d'intérêt...) ou d'autres, comme les bancs de filtres.Les caractéristiques bas-niveau (locales) sont rapides à calculer. Elles ont un pouvoir de représentation limité, mais leur généricité présente un intérêt pour des systèmes autonomes et multi-tâches, puisque les caractéristiques haut-niveau découlent d'elles.Le but de cette thèse est de construire puis d'étudier l'impact de représentations fondées seulement sur des caractéristiques locales de bas-niveau (couleurs, dérivées spatiales) pour deux tâches : la poursuite d'objets génériques, nécessitant des caractéristiques robustes aux variations d'aspect de l'objet et du contexte au cours du temps; la détection d'objets, où la représentation doit décrire une classe d'objets en tenant compte des variations intra-classe. Plutôt que de construire des descripteurs d'objets globaux dédiés, nous nous appuyons entièrement sur les caractéristiques locales et sur des mécanismes statistiques flexibles visant à estimer leur distribution (histogrammes) et leurs co-occurrences (Transformée de Hough Généralisée). La Transformée de Hough Généralisée (THG), créée pour la détection de formes quelconques, consiste à créer une structure de données représentant un objet, une classe... Cette structure, d'abord indexée par l'orientation du gradient, a été étendue à d'autres caractéristiques. Travaillant sur des caractéristiques locales, nous voulons rester proche de la THG originale.En poursuite d'objets, après avoir présenté nos premiers travaux, combinant la THG avec un filtre particulaire (utilisant un histogramme de couleurs), nous présentons un algorithme plus léger et rapide (100fps), plus précis et robuste. Nous présentons une évaluation qualitative et étudierons l'impact des caractéristiques utilisées (espace de couleur, formulation des dérivées partielles...). En détection, nous avons utilisé l'algorithme de Gall appelé forêts de Hough. Notre but est de réduire l'espace de caractéristiques utilisé par Gall, en supprimant celles de type HOG, pour ne garder que les dérivées partielles et les caractéristiques de couleur. Pour compenser cette réduction, nous avons amélioré deux étapes de l'entraînement : le support des descripteurs locaux (patchs) est partiellement produit selon une mesure géométrique, et l'entraînement des nœuds se fait en générant une carte de probabilité spécifique prenant en compte les patchs utilisés pour cette étape. Avec l'espace de caractéristiques réduit, le détecteur n'est pas plus précis. Avec les mêmes caractéristiques que Gall, sur une même durée d'entraînement, nos travaux ont permis d'avoir des résultats identiques, mais avec une variance plus faible et donc une meilleure répétabilité. / Visual representation is a fundamental problem in computer vision. The aim is to reduce the information to the strict necessary for a query task. Many types of representation exist, like color features (histograms, color attributes...), shape ones (derivatives, keypoints...) or filterbanks.Low-level (and local) features are fast to compute. Their power of representation are limited, but their genericity have an interest for autonomous or multi-task systems, as higher level ones derivate from them. We aim to build, then study impact of low-level and local feature spaces (color and derivatives only) for two tasks: generic object tracking, requiring features robust to object and environment's aspect changes over the time; object detection, for which the representation should describe object class and cope with intra-class variations.Then, rather than using global object descriptors, we use entirely local features and statisticals mecanisms to estimate their distribution (histograms) and their co-occurrences (Generalized Hough Transform).The Generalized Hough Transform (GHT), created for detection of any shape, consists in building a codebook, originally indexed by gradient orientation, then to diverse features, modeling an object, a class. As we work on local features, we aim to remain close to the original GHT.In tracking, after presenting preliminary works combining the GHT with a particle filter (using color histograms), we present a lighter and fast (100 fps) tracker, more accurate and robust.We present a qualitative evaluation and study the impact of used features (color space, spatial derivative formulation).In detection, we used Gall's Hough Forest. We aim to reduce Gall's feature space and discard HOG features, to keep only derivatives and color ones.To compensate the reduction, we enhanced two steps: the support of local descriptors (patches) are partially chosen using a geometrical measure, and node training is done by using a specific probability map based on patches used at this step.With reduced feature space, the detector is less accurate than with Gall's feature space, but for the same training time, our works lead to identical results, but with higher stability and then better repeatability.
144

Le signal monogène couleur : théorie et applications / The Color Monogenic Signal : theory and applications

Demarcq, Guillaume 10 December 2010 (has links)
Dans cette thèse, une nouvelle représentation des images couleur basée sur une généralisation du signal analytique est introduite. En utilisant l'analogie entre les conditions de Cauchy-Riemann, qui définissent le caractère holomorphe d'une fonction, et l'équation de Dirac dans l'algèbre de Clifford R_{5,0}, un système d'équations dont la solution est le signal monogène couleur est obtenu. Ce signal est notamment basé sur des noyaux de Riesz ainsi que de Poisson 2D, et une représentation polaire, basée sur un produit géométrique, peut lui être associée. Les applications envisagées reposent majoritairement sur cette représentation polaire et sur les informations de couleur et de structures locales s'y rattachant. Des problématiques liées au flot optique couleur, à la segmentation couleur multi-échelle, au suivi d'objets couleur et à la détection de points d'intérêt sont abordées. En ce qui concerne le flot optique, nous nous intéressons à l'extraction du mouvement d'objets d'une certaine couleur en remplaçant la contrainte de conservation de l'intensité par une contrainte de conservation d'angles. Pour la segmentation, une méthode de détection de contours basée sur de la géométrie différentielle et plus particulièrement sur la première forme fondamentale d'une surface, est proposée afin de déterminer les contours d'objets d'une couleur choisie. Pour le suivi d'objets, nous définissons un nouveau critère de similarité utilisant le produit géométrique que nous insérons dans un filtrage particulaire. Enfin, nous resituons la définition du détecteur de Harris dans le cadre de la géométrie différentielle en faisant le lien entre ce dernier et une version "relaxée" du discriminant du polynôme caractéristique de la première forme fondamentale. Ensuite nous proposons une nouvelle version multi-échelle de ce détecteur en traitant le paramètre d'échelle comme une variable d'une variété de dimension 3. / In this thesis, a novel framework for color image processing is introduced based on the generalization of the analytic signal. Using the analogy between the Cauchy-Riemann conditions and the Dirac equation in the Clifford algebra R_{5,0}, a system of equations which leads to the color monogenic signal is obtained. This latter is based on the Riesz and 2D Poisson kernels, and a polar representation based on the geometric product can be associated to this signal. Some applications using color and local structure information provided by the polar representation are presented. Namely, color optical flow, color segmentation, color object tracking and points of interest are developed. Extraction of optical flow in a chosen color is obtained by replacing the brightness constancy assumption by an angle constancy. Edge detection is based on the first fundamental form from differential geometry in order to segment object in a predefined color. Object tracking application uses a new similarity criterion defined by geometric product of block of vectors. This latter is viewed as the likelyhood measure of a particle filter. Last part of the thesis is devoted to the definition of the Harris detector in the framework of differential geometry and a link between this definition and a relaxed version of the characteristic polynomial discriminant of the first fundamental form is given. In this context, a new scale-space detector is provided as the result of handling the scale parameter as a variable in a 3-manifold.
145

Couplage de la rObotique et de la simulatioN mEdical pour des proCédures automaTisées (CONECT) / Coupling robotics and medical simulations for automatic percutaneous procedures

Adagolodjo, Yinoussa 06 September 2018 (has links)
Les techniques d'insertion d'aiguille font partie des interventions chirurgicales les plus courantes. L'efficacité de ces interventions dépend fortement de la précision du positionnement des aiguilles dans un emplacement cible à l'intérieur du corps du patient. L'objectif principal dans cette thèse est de développer un système robotique autonome, capable d'insérer une aiguille flexible dans une structure déformable le long d'une trajectoire prédéfinie. L’originalité de ce travail se trouve dans l’utilisation de simulations inverses par éléments finis (EF) dans la boucle de contrôle du robot pour prédire la déformation des structures. La particularité de ce travail est que pendant l’insertion, les modèles EF sont continuellement recalés (étape corrective) grâce à l’information extraite d’un système d’imagerie peropératoire. Cette étape permet de contrôler l’erreur des modèles par rapport aux structures réelles et ainsi éviter qu'ils divergent. Une seconde étape (étape de prédiction) permet, à partir de la position corrigée, d’anticiper le comportement de structures déformables, en se reposant uniquement sur les prédictions des modèles biomécaniques. Ceci permet ainsi d’anticiper la commande du robot pour compenser les déplacements des tissus avant même le déplacement de l’aiguille. Expérimentalement, nous avions utilisé notre approche pour contrôler un robot réel afin d'insérer une aiguille flexible dans une mousse déformable le long d'une trajectoire (virtuelle) prédéfinie. Nous avons proposé une formulation basée sur des contraintes permettant le calcul d'étapes prédictives dans l'espace de contraintes offrant ainsi un temps d'insertion total compatible avec les applications cliniques. Nous avons également proposé un système de réalité augmentée pour la chirurgie du foie ouverte. La méthode est basée sur un recalage initial semi-automatique et un algorithme de suivi peropératoire basé sur des marqueurs (3D) optiques. Nous avons démontré l'applicabilité de cette approche en salle d'opération lors d'une chirurgie de résection hépatique. Les résultats obtenus au cours de ce travail de thèse ont conduit à trois publications (deux IROS et un ICRA) dans les conférences internationales puis à un journal (Transactions on Robotics) en cours de révision. / Needle-based interventions are among the least invasive surgical approaches to access deep internal structures into organs' volumes without damaging surrounding tissues. Unlike traditional open surgery, needle-based approaches only affect a localized area around the needle, reducing this way the occurrence of traumas and risks of complications \cite{Cowan2011}. Many surgical procedures rely on needles in nowadays clinical routines (biopsies, local anesthesia, blood sampling, prostate brachytherapy, vertebroplasty ...). Radiofrequency ablation (RFA) is an example of percutaneous procedure that uses heat at the tip of a needle to destroy cancer cells. Such alternative treatments may open new solutions for unrespectable tumors or metastasis (concerns about the age of the patient, the extent or localization of the disease). However, contrary to what one may think, needle-based approaches can be an exceedingly complex intervention. Indeed, the effectiveness of the treatment is highly dependent on the accuracy of the needle positioning (about a few millimeters) which can be particularly challenging when needles are manipulated from outside the patient with intra-operative images (X-ray, fluoroscopy or ultrasound ...) offering poor visibility of internal structures. Human factors, organs' deformations, needle deflection and intraoperative imaging modalities limitations can be causes of needle misplacement and rise significantly the technical level necessary to master these surgical acts. The use of surgical robots has revolutionized the way surgeons approach minimally invasive surgery. Robots have the potential to overcome several limitations coming from the human factor: for instance by filtering operator tremors, scaling the motion of the user or adding new degrees of freedom at the tip of instruments. A rapidly growing number of surgical robots has been developed and applied to a large panel of surgical applications \cite{Troccaz2012}. Yet, an important difficulty for needle-based procedures lies in the fact that both soft tissues and needles tend to deform as the insertion proceeds in a way that cannot be described with geometrical approaches. Standard solutions address the problem of the deformation extracting a set of features from per-operative images (also called \textit{visual servoing)} and locally adjust the pose/motion of the robot to compensate for deformations \cite{Hutchinson1996}. [...]To overcome these limitations, we introduce a numerical method allowing performing inverse Finite Element simulations in real-time. We show that it can be used to control an articulated robot while considering deformations of structures during needle insertion. Our approach relies on a forward FE simulation of a needle insertion (involving complex non-linear phenomena such as friction, puncture and needle constraints).[...]
146

Real-time multi-target tracking : a study on color-texture covariance matrices and descriptor/operator switching / Suivi temps-réel : matrices de covariance couleur-texture et commutation automatique de descripteur/opérateur

Romero Mier y Teran, Andrés 03 December 2013 (has links)
Ces technologies ont poussé les chercheurs à imaginer la possibilité d'automatiser et émuler les capacités de perception visuels des animaux et de l'homme lui-même. Depuis quelques décennies le domaine de la vision par ordinateur a essayé plusieurs approches et une vaste gamma d'applications a été développée avec un succès partielle: la recherche des images basé sur leur contenu, la exploration de donnés à partir des séquences vidéo, la ré-identification des objets par des robots, etc. Quelques applications sont déjà sur le marché et jouissent déjà d'un certain succès commercial.La reconnaissance visuelle c'est un problème étroitement lié à l'apprentissage de catégories visuelles à partir d'un ensemble limité d'instances. Typiquement deux approches sont utilisées pour résoudre ce problème: l'apprentissage des catégories génériques et la ré-identification d'instances d'un objet un particulière. Dans le dernier cas il s'agit de reconnaître un objet ou personne en particulière. D'autre part, la reconnaissance générique s'agit de retrouver tous les instances d'objets qui appartiennent à la même catégorie conceptuel: tous les voitures, les piétons, oiseaux, etc.Cette thèse propose un système de vision par ordinateur capable de détecter et suivre plusieurs objets dans les séquences vidéo. L'algorithme pour la recherche de correspondances proposé se base sur les matrices de covariance obtenues à partir d'un ensemble de propriétés des images (couleur et texture principalement). Son principal avantage c'est qu'il utilise un descripteur qui permet l'introduction des sources d'information très hétérogènes pour représenter les cibles. Cette représentation est efficace pour le suivi d'objets et son ré-identification.Quatre contributions sont introduites dans cette thèse.Tout d'abord cette thèse s'intéresse à l'invariance des algorithmes de suivi face aux changements du contexte. Nous proposons ici une méthodologie pour mesurer l’importance de l'information couleur en fonction de ses niveaux d’illumination et saturation. Puis, une deuxième partie se consacre à l'étude de différentes méthodes de suivi, ses avantages et limitations en fonction du type d'objet à suivre (rigide ou non rigide par exemple) et du contexte (caméra statique ou mobile). Le méthode que nous proposons s'adapte automatiquement et utilise un mécanisme de commutation entre différents méthodes de suivi qui considère ses qualités complémentaires. Notre algorithme se base sur un modèle de covariance qui fusionne les informations couleur-texture et le flot optique (KLT) modifié pour le rendre plus robuste et adaptable face aux changements d’illumination. Une deuxième approche se appuie sur l'analyse des différents espaces et invariants couleur à fin d'obtenir un descripteur qui garde un bon équilibre entre pouvoir discriminant et robustesse face aux changements d'illumination.Une troisième contribution porte sur le problème de suivi multi-cibles ou plusieurs difficultés apparaissent : la confusion d'identités, les occultations, la fusion et division des trajectoires-détections, etc.La dernière partie se consacre à la vitesse des algorithmes à fin de fournir une solution rapide et utilisable dans les applications embarquées. Cette thèse propose une série d'optimisations pour accélérer la mise en correspondance à l'aide de matrices de covariance. Transformations de mise en page de données, la vectorisation des calculs (à l'aide d'instructions SIMD) et certaines transformations de boucle permettent l'exécution en temps réel de l'algorithme non seulement sur les grands processeurs classiques de Intel, mais aussi sur les plateformes embarquées (ARM Cortex A9 et Intel U9300). / Visual recognition is the problem of learning visual categories from a limited set of samples and identifying new instances of those categories, the problem is often separated into two types: the specific case and the generic category case. In the specific case the objective is to identify instances of a particular object, place or person. Whereas in the generic category case we seek to recognize different instances that belong to the same conceptual class: cars, pedestrians, road signs and mugs. Specific object recognition works by matching and geometric verification. In contrast, generic object categorization often includes a statistical model of their appearance and/or shape.This thesis proposes a computer vision system for detecting and tracking multiple targets in videos. A preliminary work of this thesis consists on the adaptation of color according to lighting variations and relevance of the color. Then, literature shows a wide variety of tracking methods, which have both advantages and limitations, depending on the object to track and the context. Here, a deterministic method is developed to automatically adapt the tracking method to the context through the cooperation of two complementary techniques. A first proposition combines covariance matching for modeling characteristics texture-color information with optical flow (KLT) of a set of points uniformly distributed on the object . A second technique associates covariance and Mean-Shift. In both cases, the cooperation allows a good robustness of the tracking whatever the nature of the target, while reducing the global execution times .The second contribution is the definition of descriptors both discriminative and compact to be included in the target representation. To improve the ability of visual recognition of descriptors two approaches are proposed. The first is an adaptation operators (LBP to Local Binary Patterns ) for inclusion in the covariance matrices . This method is called ELBCM for Enhanced Local Binary Covariance Matrices . The second approach is based on the analysis of different spaces and color invariants to obtain a descriptor which is discriminating and robust to illumination changes.The third contribution addresses the problem of multi-target tracking, the difficulties of which are the matching ambiguities, the occlusions, the merging and division of trajectories.Finally to speed algorithms and provide a usable quick solution in embedded applications this thesis proposes a series of optimizations to accelerate the matching using covariance matrices. Data layout transformations, vectorizing the calculations (using SIMD instructions) and some loop transformations had made possible the real-time execution of the algorithm not only on Intel classic but also on embedded platforms (ARM Cortex A9 and Intel U9300).
147

Visual tracking of articulated and flexible objects / Suivi par vision d’objets articulés et flexibles

Wesierski, Daniel 25 March 2013 (has links)
Les humains sont capables de suivre visuellement des objets sans effort. Cependant les algorithmes de vision artificielle rencontrent des limitations pour suivre des objets en mouvement rapide, sous un éclairage variable, en présence d'occultations, dans un environnement complexe ou dont l'apparence varie à cause de déformations et de changements de point de vue. Parce que des systèmes génériques, précis, robustes et rapides sont nécessaires pour de nombreuses d’applications, le suivi d’objets reste un problème pratique important en vision par ordinateur. La première contribution de cette thèse est une approche calculatoire rapide pour le suivi d'objets de forme et de mouvement variable. Elle consiste en un système unifié et configurable pour estimer l'attitude d’un objet déformable dans un espace d'états de dimension petite ou grande. L’objet est décomposé en une suite de segments composés de parties et organisés selon une hiérarchie spatio-temporelle contrainte. L'efficacité et l’universalité de cette approche sont démontrées expérimentalement sur de nombreux exemples de suivi de divers objets flexibles et articulés. Les caractéristiques de Haar (HLF) sont abondement utilisées pour le suivi d’objets. La deuxième contribution est une méthode de décomposition des HLF permettant de les calculer de manière efficace. Ces caractéristiques sont décomposées en noyaux plus simples, éventuellement réutilisables, et reformulées comme des convolutions multi-passes. La recherche et l'alignement des noyaux dans et entre les passes permet de créer des arbres récursifs de noyaux qui nécessitent moins d’opérations en mémoire que les systèmes de calcul classiques, pour un résultat de convolution identique et une mise en œuvre plus efficace. Cette approche a été validée expérimentalement sur des exemples de HLF très utilisés / Humans can visually track objects mostly effortlessly. However, it is hard for a computer to track a fast moving object under varying illumination and occlusions, in clutter, and with varying appearance in camera projective space due to its relaxed rigidity or change in viewpoint. Since a generic, precise, robust, and fast tracker could trigger many applications, object tracking has been a fundamental problem of practical importance since the beginnings of computer vision. The first contribution of the thesis is a computationally efficient approach to tracking objects of various shapes and motions. It describes a unifying tracking system that can be configured to track the pose of a deformable object in a low or high-dimensional state-space. The object is decomposed into a chained assembly of segments of multiple parts that are arranged under a hierarchy of tailored spatio-temporal constraints. The robustness and generality of the approach is widely demonstrated on tracking various flexible and articulated objects. Haar-like features are widely used in tracking. The second contribution of the thesis is a parser of ensembles of Haar-like features to compute them efficiently. The features are decomposed into simpler kernels, possibly shared by subsets of features, thus forming multi-pass convolutions. Discovering and aligning these kernels within and between passes allows forming recursive trees of kernels that require fewer memory operations than the classic computation, thereby producing the same result but more efficiently. The approach is validated experimentally on popular examples of Haar-like features
148

Suivi d'objets d'intérêt dans une séquence d'images : des points saillants aux mesures statistiques

Vincent, Garcia 11 December 2008 (has links) (PDF)
Le problème du suivi d'objets dans une vidéo se pose dans des domaines tels que la vision par ordinateur (vidéo-surveillance par exemple) et la post-production télévisuelle et cinématographique (effets spéciaux). Il se décline en deux variantes principales : le suivi d'une région d'intérêt, qui désigne un suivi grossier d'objet, et la segmentation spatio-temporelle, qui correspond à un suivi précis des contours de l'objet d'intérêt. Dans les deux cas, la région ou l'objet d'intérêt doivent avoir été préalablement détourés sur la première, et éventuellement la dernière, image de la séquence vidéo. Nous proposons dans cette thèse une méthode pour chacun de ces types de suivi ainsi qu'une implémentation rapide tirant partie du Graphics Processing Unit (GPU) d'une méthode de suivi de régions d'intérêt développée par ailleurs.<br />La première méthode repose sur l'analyse de trajectoires temporelles de points saillants et réalise un suivi de régions d'intérêt. Des points saillants (typiquement des lieux de forte courbure des lignes isointensité) sont détectés dans toutes les images de la séquence. Les trajectoires sont construites en liant les points des images successives dont les voisinages sont cohérents. Notre contribution réside premièrement dans l'analyse des trajectoires sur un groupe d'images, ce qui améliore la qualité d'estimation du mouvement. De plus, nous utilisons une pondération spatio-temporelle pour chaque trajectoire qui permet d'ajouter une contrainte temporelle sur le mouvement tout en prenant en compte les déformations géométriques locales de l'objet ignorées par un modèle de mouvement global.<br />La seconde méthode réalise une segmentation spatio-temporelle. Elle repose sur l'estimation du mouvement du contour de l'objet en s'appuyant sur l'information contenue dans une couronne qui s'étend de part et d'autre de ce contour. Cette couronne nous renseigne sur le contraste entre le fond et l'objet dans un contexte local. C'est là notre première contribution. De plus, la mise en correspondance par une mesure de similarité statistique, à savoir l'entropie du résiduel, d'une portion de la couronne et d'une zone de l'image suivante dans la séquence permet d'améliorer le suivi tout en facilitant le choix de la taille optimale de la couronne.<br />Enfin, nous proposons une implémentation rapide d'une méthode de suivi de régions d'intérêt existante. Cette méthode repose sur l'utilisation d'une mesure de similarité statistique : la divergence de Kullback-Leibler. Cette divergence peut être estimée dans un espace de haute dimension à l'aide de multiples calculs de distances au k-ème plus proche voisin dans cet espace. Ces calculs étant très coûteux, nous proposons une implémentation parallèle sur GPU (grâce à l'interface logiciel CUDA de NVIDIA) de la recherche exhaustive des k plus proches voisins. Nous montrons que cette implémentation permet d'accélérer le suivi des objets, jusqu'à un facteur 15 par rapport à une implémentation de cette recherche nécessitant au préalable une structuration des données.
149

Contours actifs paramétriques pour la segmentation<br />d'images et vidéos

Precioso, Frédéric 24 September 2004 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des modèles de contours actifs. Il s'agit de méthodes dynamiquesappliquées à la segmentation d'image, en image fixe et vidéo. L'image est représentée par desdescripteurs régions et/ou contours. La segmentation est traitée comme un problème deminimisationd'une fonctionnelle. La recherche du minimum se fait via la propagation d'un contour actif dit basérégions. L'efficacité de ces méthodes réside surtout dans leur robustesse et leur rapidité. L'objectifde cette thèse est triple : le développement (i) d'une représentation paramétrique de courbes respectantcertaines contraintes de régularités, (ii) les conditions nécessaires à une évolution stable de cescourbes et (iii) la réduction des coûts calcul afin de proposer une méthode adaptée aux applicationsnécessitant une réponse en temps réel.Nous nous intéressons principalement aux contraintes de rigidité autorisant une plus granderobustesse vis-à-vis du bruit. Concernant l'évolution des contours actifs, nous étudions les problèmesd'application de la force de propagation, de la gestion de la topologie et des conditionsde convergence. Nous avons fait le choix des courbes splines cubiques. Cette famille de courbesoffre d'intéressantes propriétés de régularité, autorise le calcul exact des grandeurs différentiellesqui interviennent dans la fonctionnelle et réduit considérablement le volume de données à traiter.En outre, nous avons étendu le modèle classique des splines d'interpolation à un modèle de splinesd'approximation, dites smoothing splines. Ce dernier met en balance la contrainte de régularité etl'erreur d'interpolation sur les points d'échantillonnage du contour. Cette flexibilité permet ainsi deprivilégier la précision ou la robustesse.L'implémentation de ces modèles de splines a prouvé son efficacité dans diverses applicationsde segmentation.
150

Reconnaissance d'Objets Polyédriques à partir d'une image vidéo pour la téléopération

Shaheen, Mudar 18 March 1999 (has links) (PDF)
Notre laboratoire travaille sur la conception et le développement de Modules de Contrôle et d'Interface pour la Téléopération (MCIT). Le but de MCIT est de fournir à l'opérateur une aide pour la perception et pour la commande du site téléopéré. L'aide visuelle consiste en la mise à jour et la superposition de la BD3D sur l'image vidéo. Afin d'automatiser cette aide, un système de reconnaissance de polyèdres à partir d'une image de luminance a été développé et intégré à MCIT dans le cadre de cette thèse. Ce système est constitué d'un module de traitement d'images et d'un module d'appariement 2D/3D. Le 1er module est basé sur la modélisation orientée objet. La transformée de Hough, dont une amélioration est apportée, est utilisée pour extraire les segments de droite de l'image. L'organisation perceptive est appliquée pour trouver un modèle 2D de l'image. Le 2nd module est constitué de deux étapes. La 1ère étape concerne la prédiction d'hypothèses, elle utilise 2 méthodes d'appariement : la méthode des graphes qui donne un nombre d'hypothèses très réduit grâce à l'utilisation des invariants topologiques et projectifs mais, elle échoue en présence de défauts du traitement d'images. Dans ce cas, nous appliquons la méthode du hachage géométrique qui donne toujours une solution. Deux méthodes d'extraction de graphes d'aspects applicables aux polyèdres ont été également développées. La première est destinée à l'appariement par graphes, la seconde est utilisée par le hachage géométrique. La 2nde étape concerne la vérification de l'appariement, nous avons mis en oeuvre des méthodes existantes de recalage et avons développé une méthode hybride qui donne une meilleure précision. Le développement de la calibration automatique de la caméra à l'aide d'un robot a permis également d'augmenter la précision et l'autonomie du système.

Page generated in 0.0376 seconds