Spelling suggestions: "subject:"disision para ordinateur)"" "subject:"decisision para ordinateur)""
221 |
Conception d'une méthodologie d'implémentation d'applications de vision dans une plateforme hétérogène de type Smart CameraDias Real De Oliveira, Fabio 06 July 2010 (has links) (PDF)
Les cameras intelligentes, ou Smart Cameras, sont des systèmes embarqués de vision artificielle. Ces systèmes se différencient des caméras "communes" par leur capacité à analyser les images, afin d'en extraire des informations pertinentes sur la scène observée, et ceci de féçon autonome grâce à des dispositifs embarqués de calcul. Les applications pratiques de ce type de système sont nombreuses (vidéo-surveillance, vision industrielle, véhicules autonomes, etc.), mais leur implémentation est assez complexe, et demande un haut degré d'expertise et des temps de développement élevés. Les travaux présentés dans cette thèse s'adressent à cette problématisue, et proposent une méthodologie d'implémentation permettant de simplifier le développement d'applications au sein des plateformes Smart Camera basées sur un dispositif FPGA. Cette méthodologie s'appuie d'une part sur l'instanciation au sein du FPGA d'un processeur "soft-core" taillé sur mesure, et d'autre part sur un flot de design à deux niveaux, permettant ainsi de traiter séparément les aspects matériels liés à la plateforme et les aspects algorithmiques liés à l'application
|
222 |
Extraction et caractérisation du mouvement cardiaque en imagerie scanner multibarrette.Simon, Antoine 12 December 2005 (has links) (PDF)
L'analyse de la cinétique cardiaque est d'un grand intérêt diagnostique dans la lutte contre les pathologies cardio-vasculaires. Deux méthodes sont proposées afin de réaliser une estimation du mouvement du cœur à partir de séquences dynamiques de volumes tridimensionnels acquises en imagerie scanner multibarrette. Ces méthodes reposent toutes deux sur une mise en correspondance, réalisée dans un cadre markovien et suivant un schéma multirésolution. La première méthode, estimant les correspondances entre des surfaces pré-segmentées, est dépendante de la cohérence temporelle de cette segmentation. La seconde méthode estime les correspondances entre, d'une part, la surface segmentée et, d'autre part, le volume de données original correspondant à l'instant suivant. L'estimation du mouvement et la segmentation sont alors réalisés, sur toute la séquence, au cours d'un unique processus. Les deux méthodes proposées sont validées sur données simulées et sur données réelles.
|
223 |
Création et utilisation de vocabulaires visuels pour la catégorisation d'images et la segmentation de classes d'objetsLarlus, Diane 28 November 2008 (has links) (PDF)
Cette thèse s'intéresse à l'interprétation d'images fixes et en particulier à la reconnaissance de classes d'objets. Les différentes approches considérées sont toutes des variations du modèle par sac-de-mots, utilisant des représentations locales, quantifiées à l'aide d'un vocabulaire visuel. <br>Nous nous intéresserons tout d'abord à l'étude de différentes méthodes de création du vocabulaire visuel et à l'évaluation de ces vocabulaires dans le contexte de la catégorisation d'images. <br>Dans un deuxième temps, nous étudierons la segmentation de classes d'objets et verrons en particulier comment combiner les propriétés de régularisation très locales permises par un champ de Markov avec un modèle d'apparence basé sur des régions qui représentent chacune un objet et qui sont considérées comme des collections de mots visuels.
|
224 |
BetaSAC et OABSAC, deux nouveaux 'echantillonnages conditionnels pour RANSACMéler, Antoine 31 January 2013 (has links) (PDF)
L'algorithme RANSAC est l'approche la plus commune pour l'estimation robuste des paramètres d'un modèle en vision par ordinateur. C'est principalement sa capacité à traiter des données contenant potentiellement plus d'erreurs que d'information utile qui fait son succès dans ce domaine où les capteurs fournissent une information très riche mais très difficilement exploitable. Depuis sa création, il y a trente ans, de nombreuses modifications ont été proposées pour améliorer sa vitesse, sa précision ou sa robustesse. Dans ce travail, nous proposons d'accélérer la résolution d'un problème par RANSAC en utilisant plus d'information que les approches habituelles. Cette information, calculée à partir des données elles-même ou provenant de sources complémentaires de tous types, nous permet d'aider RANSAC à générer des hypothèses plus pertinentes. Pour ce faire, nous proposons de distinguer quatre degrés de qualité d'une hypothèse: la "non contamination", la "cohésion", la "cohérence" et enfin la "pertinence". Puis nous montrons à quel point une hypothèse non contaminée par des données erronées est loin d'être pertinente dans le cas général. Dès lors, nous nous attachons à concevoir un algorithme original qui, contrairement aux méthodes de l'état de l'art, se focalise sur la génération d'échantillons "pertinents" plutôt que simplement "non contaminés". Notre approche consiste à commencer par proposer un modèle probabiliste unifiant l'ensemble des méthodes de réordonnancement de l'échantillonnage de RANSAC. Ces méthodes assurent un guidage du tirage aléatoire des données tout en se prémunissant d'une mise en échec de RANSAC. Puis, nous proposons notre propre algorithme d'ordonnancement, BetaSAC, basé sur des tris conditionnels partiels. Nous montrons que la conditionnalité du tri permet de satisfaire des contraintes de cohérence des échantillons formés, menant à une génération d'échantillons pertinents dans les premières itérations de RANSAC, et donc à une résolution rapide du problème. L'utilisation de tris partiels plutôt qu'exhaustifs, quant à lui, assure la rapidité et la randomisation, indispensable à ce type de méthodes. Dans un second temps, nous proposons une version optimale de notre méthode, que l'on appelle OABSAC (pour Optimal and Adaptative BetaSAC), faisant intervenir une phase d'apprentissage hors ligne. Cet apprentissage a pour but de mesurer les propriétés caractéristiques du problème spécifique que l'on souhaite résoudre, de façon à établir automatiquement le paramétrage optimal de notre algorithme. Ce paramétrage est celui qui doit mener à une estimation suffisamment précise des paramètres du modèle recherché en un temps (en secondes) le plus court. Les deux méthodes proposées sont des solutions très générales qui permettent d'intégrer dans RANSAC tout type d'information complémentaire utile à la résolution du problème. Nous montrons l'avantage de ces méthodes pour le problème de l'estimation d'homographies et de géométries épipolaires entre deux photographies d'une même scène. Les gains en vitesse de résolution du problème peuvent atteindre un facteur cent par rapport à l'algorithme RANSAC classique.
|
225 |
L'ajustement de faisceaux contraint comme cadre d'unification des méthodes de localisation : application à la réalité augmentée sur des objets 3DTamaazousti, Mohamed 13 March 2013 (has links) (PDF)
Les travaux réalisés au cours de cette thèse s'inscrivent dans la problématique de localisation en temps réel d'une caméra par vision monoculaire. Dans la littérature, il existe différentes méthodes qui peuvent être classées en trois catégories. La première catégorie de méthodes considère une caméra évoluant dans un environnement complètement inconnu (SLAM). Cette méthode réalise une reconstruction enligne de primitives observées dans des images d'une séquence vidéo et utilise cette reconstruction pour localiser la caméra. Les deux autres permettent une localisation par rapport à un objet 3D de la scène en s'appuyant sur la connaissance, a priori, d'un modèle de cet objet (suivi basé modèle). L'une utilise uniquement l'information du modèle 3D de l'objet pour localiser la caméra, l'autre peut être considérée comme l'intermédiaire entre le SLAM et le suivi basé modèle. Cette dernière méthode consiste à localiser une caméra par rapport à un objet en utilisant, d'une part, le modèle de ce dernier et d'autre part, une reconstruction en ligne des primitives de l'objet d'intérêt. Cette reconstruction peut être assimilée à une mise à jour du modèle initial (suivi basé modèle avec mise à jour). Chacune de ces méthodes possède des avantages et des inconvénients. Dans le cadre de ces travaux de thèse, nous proposons une solution unifiant l'ensemble de ces méthodes de localisation dans un unique cadre désigné sous le terme de SLAM contraint. Cette solution, qui unifie ces différentes méthodes, permet de tirer profit de leurs avantages tout en limitant leurs inconvénients respectifs. En particulier, nous considérons que la caméra évolue dans un environnement partiellement connu, c'est-à-dire pour lequel un modèle (géométrique ou photométrique) 3D d'un objet statique de la scène est disponible. L'objectif est alors d'estimer de manière précise la pose de la caméra par rapport à cet objet 3D. L'information absolue issue du modèle 3D de l'objet d'intérêt est utilisée pour améliorer la localisation de type SLAM en incluant cette information additionnelle directement dans le processus d'ajustement de faisceaux. Afin de pouvoir gérer un large panel d'objets 3D et de scènes, plusieurs types de contraintes sont proposées dans ce mémoire. Ces différentes contraintes sont regroupées en deux approches. La première permet d'unifier les méthodes SLAM et de suivi basé modèle, en contraignant le déplacement de la caméra via la projection de primitives existantes extraites du modèle 3D dans les images. La seconde unifie les méthodes SLAM et de suivi basé modèle avec mise à jour en contraignant les primitives reconstruites par le SLAM à appartenir à la surface du modèle (unification SLAM et mise à jour du modèle). Les avantages de ces différents ajustements de faisceaux contraints, en terme de précision, de stabilité de recalage et de robustesse aux occultations, sont démontrés sur un grand nombre de données de synthèse et de données réelles. Des applications temps réel de réalité augmentée sont également présentées sur différents types d'objets 3D. Ces travaux ont fait l'objet de 4 publications internationales, de 2 publications nationales et d'un dépôt de brevet.
|
226 |
Humanoid manipulation and locomotion with real-time footstep optimization / Manipulation et locomotion en robotique humanoïde avec optimisation temps réel des pasDang, Duong Ngoc 30 October 2012 (has links)
Cette thèse porte sur la réalisation des tâches avec la locomotion sur des robots humanoïdes. Grâce à leurs nombreux degrés de liberté, ces robots possèdent un très haut niveau de redondance. D’autre part, les humanoïdes sont sous-actionnés dans le sens où la position et l’orientation ne sont pas directement contrôlées par un moteur. Ces deux aspects, le plus souvent étudiés séparément dans la littérature, sont envisagés ici dans un même cadre. En outre, la génération d’un mouvement complexe impliquant à la fois des tâches de manipulation et de locomotion, étudiée habituellement sous l’angle de la planification de mouvement, est abordée ici dans sa composante réactivité temps réel. En divisant le processus d’optimisation en deux étapes, un contrôleur basé sur la notion de pile de tâches permet l’adaptation temps réel des empreintes de pas planifiées dans la première étape. Un module de perception est également conçu pour créer une boucle fermée de perception-décision-action. Cette architecture combinant planification et réactivité est validée sur le robot HRP-2. Deux classes d’expériences sont menées. Dans un cas, le robot doit saisir un objet éloigné, posé sur une table ou sur le sol. Dans l’autre, le robot doit franchir un obstacle. Dans les deux cas, les condition d’exécution sont mises à jour en temps réel pour faire face à la dynamique de l’environnement : changement de position de l’objet à saisir ou de l’obstacle à franchir. / This thesis focuses on realization of tasks with locomotion on humanoid robots. Thanks to their numerous degrees of freedom, humanoid robots possess a very high level of redundancy. On the other hand, humanoids are underactuated in the sense that the position and orientation of the base are not directly controlled by any motor. These two aspects, usually studied separately in manipulation and locomotion research, are unified in a same framework in this thesis and are resolved as one unique problem. Moreover, the generation of a complex movement involving both tasks and footsteps is also improved becomes reactive. By dividing the optimization process into appropriate stages and by feeding directly the intermediate result to a task-based controller, footsteps can be calculated and adapted in real-time to deal with changes in the environment. A perception module is also developed to build a closed perception-decision-action loop. This architecture combining motion planning and reactivity validated on the HRP-2 robot. Two classes of experiments are carried out. In one case the robot has to grasp an object far away at different height level. In the other, the robot has to step over an object on the floor. In both cases, the execution conditions are updated in real-time to deal with the dynamics of the environment: changes in position of the target to be caught or of the obstacle to be stepped over.
|
227 |
Positionnement robuste et précis de réseaux d’images / Robust and accurate calibration of camera networksMoulon, Pierre 10 January 2014 (has links)
Calculer une représentation 3D d'une scène rigide à partir d'une collection d'images est aujourd'hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à recouper les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations relatives de chaque cliché. Une fois les positions et orientations de caméras déterminées (calibration externe), la structure de la scène peut être reconstruite. Afin de résoudre le problème de calcul de la structure à partir du mouvement des caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées. Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs. Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque les photos sont acquises autour d'un objet, à des reconstructions où les boucles ne se referment pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans son ensemble. La configuration de caméras est recherchée et optimisée pour conserver au mieux l'ensemble des contraintes de cyclicité du réseau. Des reconstructions de meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul. Cette thèse propose d'analyser des problèmes critiques au cœur de ces méthodes de calibration externe et de fournir des solutions pour améliorer leur performance (précision, robustesse, vitesse) et leur facilité d'utilisation (paramétrisation restreinte).Nous proposons tout d'abord un algorithme de suivi de points rapide et efficace. Nous montrons ensuite que l'utilisation généralisée de l'estimation robuste de modèles paramétriques a contrario permet de libérer l'utilisateur du réglage de seuils de détection, et d'obtenir une chaine de reconstruction qui s'adapte automatiquement aux données. Puis dans un second temps, nous utilisons ces estimations robustes adaptatives et une formulation du problème qui permet des optimisations convexes pour construire une chaine de calibration globale capable de passer à l'échelle. Nos expériences démontrent que les estimations identifiées a contrario améliorent de manière notable la qualité d'estimation de la position et de l'orientation des clichés, tout en étant automatiques et sans paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin d'améliorer le rendu visuel des reconstructions en proposant une optimisation convexe de la consistance colorée entre images / To compute a 3D representation of a rigid scene from a collection of pictures is now possible thanks to the progress made by the multiple-view stereovision methods, even with a simple camera. The reconstruction process, arising from photogrammetry, consists in integrating information from multiple images taken from different viewpoints in order to identify the relative positions and orientations. Once the positions and orientations (external calibration) of the cameras are retrieved, the structure of the scene can be reconstructed. To solve the problem of calculating the Structure from Motion (SfM), sequential and global methods have been proposed. By nature, sequential methods tend to accumulate errors. This is observable in trajectories of cameras that are subject to drift error. When pictures are acquired around an object it leads to reconstructions where the loops do not close. In contrast, global methods consider the network of cameras as a whole. The configuration of cameras is searched and optimized in order to preserve at best the constraints of the cyclical network. Reconstructions of better quality can be obtained, but at the expense of computation time. This thesis aims at analyzing critical issues at the heart of these methods of external calibration and at providing solutions to improve their performance(accuracy , robustness and speed) and their ease of use (restricted parametrization).We first propose a fast and efficient feature tracking algorithm. We then show that the widespread use of a contrario robust estimation of parametric models frees the user from choosing detection thresholds, and allows obtaining a reconstruction pipeline that automatically adapts to the data. Then in a second step, we use the adaptive robust estimation and a series of convex optimizations to build a scalable global calibration chain. Our experiments show that the a contrario based estimations improve significantly the quality of the pictures positions and orientations, while being automatic and without parameters, even on complex camera networks. Finally, we propose to improve the visual appearance of the reconstruction by providing a convex optimization to ensure the color consistency between images
|
228 |
Mise en relation d'images et de modèles 3D avec des réseaux de neurones convolutifs / Relating images and 3D models with convolutional neural networksSuzano Massa, Francisco Vitor 09 February 2017 (has links)
La récente mise à disposition de grandes bases de données de modèles 3D permet de nouvelles possibilités pour un raisonnement à un niveau 3D sur les photographies. Cette thèse étudie l'utilisation des réseaux de neurones convolutifs (CNN) pour mettre en relation les modèles 3D et les images.Nous présentons tout d'abord deux contributions qui sont utilisées tout au long de cette thèse : une bibliothèque pour la réduction automatique de la mémoire pour les CNN profonds, et une étude des représentations internes apprises par les CNN pour la mise en correspondance d'images appartenant à des domaines différents. Dans un premier temps, nous présentons une bibliothèque basée sur Torch7 qui réduit automatiquement jusqu'à 91% des besoins en mémoire pour déployer un CNN profond. Dans un second temps, nous étudions l'efficacité des représentations internes des CNN extraites d'un réseau pré-entraîné lorsqu'il est appliqué à des images de modalités différentes (réelles ou synthétiques). Nous montrons que malgré la grande différence entre les images synthétiques et les images naturelles, il est possible d'utiliser certaines des représentations des CNN pour l'identification du modèle de l'objet, avec des applications possibles pour le rendu basé sur l'image.Récemment, les CNNs ont été utilisés pour l'estimation de point de vue des objets dans les images, parfois avec des choix de modélisation très différents. Nous présentons ces approches dans un cadre unifié et nous analysons les facteur clés qui ont une influence sur la performance. Nous proposons une méthode d'apprentissage jointe qui combine à la fois la détection et l'estimation du point de vue, qui fonctionne mieux que de considérer l'estimation de point de vue de manière indépendante.Nous étudions également l'impact de la formulation de l'estimation du point de vue comme une tâche discrète ou continue, nous quantifions les avantages des architectures de CNN plus profondes et nous montrons que l'utilisation des données synthétiques est bénéfique. Avec tous ces éléments combinés, nous améliorons l'état de l'art d'environ 5% pour la précision de point de vue moyenne sur l'ensemble des données Pascal3D+.Dans l'étude de recherche de modèle d'objet 3D dans une base de données, l'image de l'objet est fournie et l'objectif est d'identifier parmi un certain nombre d'objets 3D lequel correspond à l'image. Nous étendons ce travail à la détection d'objet, où cette fois-ci un modèle 3D est donné, et l'objectif consiste à localiser et à aligner le modèle 3D dans image. Nous montrons que l'application directe des représentations obtenues par un CNN ne suffit pas, et nous proposons d'apprendre une transformation qui rapproche les répresentations internes des images réelles vers les représentations des images synthétiques. Nous évaluons notre approche à la fois qualitativement et quantitativement sur deux jeux de données standard: le jeu de données IKEAobject, et le sous-ensemble du jeu de données Pascal VOC 2012 contenant des instances de chaises, et nous montrons des améliorations sur chacun des deux / The recent availability of large catalogs of 3D models enables new possibilities for a 3D reasoning on photographs. This thesis investigates the use of convolutional neural networks (CNNs) for relating 3D objects to 2D images.We first introduce two contributions that are used throughout this thesis: an automatic memory reduction library for deep CNNs, and a study of CNN features for cross-domain matching. In the first one, we develop a library built on top of Torch7 which automatically reduces up to 91% of the memory requirements for deploying a deep CNN. As a second point, we study the effectiveness of various CNN features extracted from a pre-trained network in the case of images from different modalities (real or synthetic images). We show that despite the large cross-domain difference between rendered views and photographs, it is possible to use some of these features for instance retrieval, with possible applications to image-based rendering.There has been a recent use of CNNs for the task of object viewpoint estimation, sometimes with very different design choices. We present these approaches in an unified framework and we analyse the key factors that affect performance. We propose a joint training method that combines both detection and viewpoint estimation, which performs better than considering the viewpoint estimation separately. We also study the impact of the formulation of viewpoint estimation either as a discrete or a continuous task, we quantify the benefits of deeper architectures and we demonstrate that using synthetic data is beneficial. With all these elements combined, we improve over previous state-of-the-art results on the Pascal3D+ dataset by a approximately 5% of mean average viewpoint precision.In the instance retrieval study, the image of the object is given and the goal is to identify among a number of 3D models which object it is. We extend this work to object detection, where instead we are given a 3D model (or a set of 3D models) and we are asked to locate and align the model in the image. We show that simply using CNN features are not enough for this task, and we propose to learn a transformation that brings the features from the real images close to the features from the rendered views. We evaluate our approach both qualitatively and quantitatively on two standard datasets: the IKEAobject dataset, and a subset of the Pascal VOC 2012 dataset of the chair category, and we show state-of-the-art results on both of them
|
229 |
Contributions à l’acquisition, à la modélisation et à l’augmentation d’environnements complexes / Contributions to acquisition, modelling and augmented rendering of complex environmentsFouquet, François 10 December 2012 (has links)
De nos jours, les images augmentées font partie du quotidien. Du cinéma aux jeux vidéo en passant par l'architecture ou le design, nombreuses sont les applications qui ont besoin d'afficher des objets synthétiques dans un contexte réel. Cependant, le processus permettant d'intégrer ces objets de manière cohérente dans leur environnement peut rapidement devenir très difficile à mettre en œuvre. Lorsque l'environnement à augmenter est de grande taille ou présente une géométrie ou un éclairage complexe, sa modélisation devient alors fastidieuse et l'utilisation de ces modèles dans le rendu d'images augmentées réalistes est très coûteuse en ressources. D'un autre côté, des applications telles que la réalité augmentée ont besoin de méthodes de rendu efficaces pour fonctionner en temps réel. Elles doivent, par ailleurs, pouvoir s'adapter automatiquement à des environnements a priori inconnus avec pour seule source d'informations les images acquises progressivement dans ces derniers. Dans cette thèse, nous nous sommes appuyés sur les méthodes développées en vision par ordinateur, en modélisation à partir d'images et en synthèse d'images pour proposer une approche globale au problème d'augmentation cohérente d'environnements complexes et progressivement découverts. Nous y développons de nouvelles méthodes d'acquisition permettant d'obtenir des images RGB+Z avec une grande dynamique et localisées dans l'environnement. Nous présentons ensuite comment exploiter cette source d'information pour construire incrémentalement des représentations de la géométrie et de l'éclairement de la scène à augmenter. Enfin, nous apportons de nouvelles approches de rendu adaptées à ces modélisations et permettant une génération rapide d'images augmentées où l'éclairement des objets synthétiques reste cohérent avec celui de l'environnement / Today, augmented images are parts of our daily life. From movie industry to video games through architecture and object design, many applications need to display synthetic objects into a real context. However, coherently integrating objects in their environment may be a difficult task. When the environment is vast or includes complex geometry or lighting, its modelling is tedious and using its model to render augmented images is resource-consuming. Moreover, applications like augmented reality need efficient real-time rendering. They also have to automatically adapt to unmodelled environments, while progressively acquiring data from incoming images. In this thesis, we based our work on computer vision, image-based modelling and rendering methods to propose a global approach to the problem of progressively discovered and complex environment coherent augmentation. We first develop new acquisition methods to get high dynamic range RGB+Z registered images of the environment. Then we explain how to use these informations to incrementally build models of scene geometry and lighting. Finally, we provide new rendering approaches using these models and suitable for an efficient and photometrically coherent image augmentation
|
230 |
Exploiting scene context for on-line object tracking in unconstrained environments / Exploitation du contexte de scène pour le suivi d’objet en ligne dans des environnements non contraintsMoujtahid, Salma 03 November 2016 (has links)
Avec le besoin grandissant pour des modèles d’analyse automatiques de vidéos, le suivi visuel d’objets est devenu une tache primordiale dans le domaine de la vision par ordinateur. Un algorithme de suivi dans un environnement non contraint fait face à de nombreuses difficultés: changements potentiels de la forme de l’objet, du fond, de la luminosité, du mouvement de la camera, et autres. Dans cette configuration, les méthodes classiques de soustraction de fond ne sont pas adaptées, on a besoin de méthodes de détection d’objet plus discriminantes. De plus, la nature de l’objet est a priori inconnue dans les méthodes de tracking génériques. Ainsi, les modèles d’apparence d’objets appris off-ligne ne peuvent être utilisés. L’évolution récente d’algorithmes d’apprentissage robustes a permis le développement de nouvelles méthodes de tracking qui apprennent l’apparence de l’objet de manière en ligne et s’adaptent aux variables contraintes en temps réel. Dans cette thèse, nous démarrons par l’observation que différents algorithmes de suivi ont différentes forces et faiblesses selon l’environnement et le contexte. Afin de surmonter les variables contraintes, nous démontrons que combiner plusieurs modalités et algorithmes peut améliorer considérablement la performance du suivi global dans les environnements non contraints. Plus concrètement, nous introduisant dans un premier temps un nouveau framework de sélection de trackers utilisant un critère de cohérence spatio-temporel. Dans ce framework, plusieurs trackers indépendants sont combinés de manière parallèle, chacun d’entre eux utilisant des features bas niveau basée sur différents aspects visuels complémentaires tel que la couleur, la texture. En sélectionnant de manière récurrente le tracker le plus adaptée à chaque trame, le système global peut switcher rapidement entre les différents tracker selon les changements dans la vidéo. Dans la seconde contribution de la thèse, le contexte de scène est utilisé dans le mécanisme de sélection de tracker. Nous avons conçu des features visuelles, extrait de l’image afin de caractériser les différentes conditions et variations de scène. Un classifieur (réseau de neurones) est appris grâce à ces features de scène dans le but de prédire à chaque instant le tracker qui performera le mieux sous les conditions de scènes données. Ce framework a été étendu et amélioré d’avantage en changeant les trackers individuels et optimisant l’apprentissage. Finalement, nous avons commencé à explorer une perspective intéressante où, au lieu d’utiliser des features conçu manuellement, nous avons utilisé un réseau de neurones convolutif dans le but d’apprendre automatiquement à extraire ces features de scène directement à partir de l’image d’entrée et prédire le tracker le plus adapté. Les méthodes proposées ont été évaluées sur plusieurs benchmarks publiques, et ont démontré que l’utilisation du contexte de scène améliore la performance globale du suivi d’objet. / With the increasing need for automated video analysis, visual object tracking became an important task in computer vision. Object tracking is used in a wide range of applications such as surveillance, human-computer interaction, medical imaging or vehicle navigation. A tracking algorithm in unconstrained environments faces multiple challenges : potential changes in object shape and background, lighting, camera motion, and other adverse acquisition conditions. In this setting, classic methods of background subtraction are inadequate, and more discriminative methods of object detection are needed. Moreover, in generic tracking algorithms, the nature of the object is not known a priori. Thus, off-line learned appearance models for specific types of objects such as faces, or pedestrians can not be used. Further, the recent evolution of powerful machine learning techniques enabled the development of new tracking methods that learn the object appearance in an online manner and adapt to the varying constraints in real time, leading to very robust tracking algorithms that can operate in non-stationary environments to some extent. In this thesis, we start from the observation that different tracking algorithms have different strengths and weaknesses depending on the context. To overcome the varying challenges, we show that combining multiple modalities and tracking algorithms can considerably improve the overall tracking performance in unconstrained environments. More concretely, we first introduced a new tracker selection framework using a spatial and temporal coherence criterion. In this algorithm, multiple independent trackers are combined in a parallel manner, each of them using low-level features based on different complementary visual aspects like colour, texture and shape. By recurrently selecting the most suitable tracker, the overall system can switch rapidly between different tracking algorithms with specific appearance models depending on the changes in the video. In the second contribution, the scene context is introduced to the tracker selection. We designed effective visual features, extracted from the scene context to characterise the different image conditions and variations. At each point in time, a classifier is trained based on these features to predict the tracker that will perform best under the given scene conditions. We further improved this context-based framework and proposed an extended version, where the individual trackers are changed and the classifier training is optimised. Finally, we started exploring one interesting perspective that is the use of a Convolutional Neural Network to automatically learn to extract these scene features directly from the input image and predict the most suitable tracker.
|
Page generated in 0.1248 seconds