Global ETD Search

11	Localisation et cartographie simultanées par ajustement de faisceaux local : propagation d'erreurs et réduction de la dérive à l'aide d'un odomètre / Simultaneous localization and mapping by local beam adjustment : error propagation and drift reduction using an odometer Eudes, Alexandre 14 March 2011 (has links) Les travaux présentés ici concernent le domaine de la localisation de véhicule par vision artificielle. Dans ce contexte, la trajectoire d’une caméra et la structure3D de la scène filmée sont estimées par une méthode d’odométrie visuelle monoculaire basée sur l’ajustement de faisceaux local. Les contributions de cette thèse sont plusieurs améliorations de cette méthode. L’incertitude associée à la position estimée n’est pas fournie par la méthode d’ajustement de faisceaux local. C’est pourtant une information indispensable pour pouvoir utiliser cette position, notamment dans un système de fusion multi-sensoriel. Une étude de la propagation d’incertitude pour cette méthode d’odométrie visuelle a donc été effectuée pour obtenir un calcul d’incertitude temps réel et représentant l’erreur de manière absolue (dans le repère du début de la trajectoire). Sur de longues séquences (plusieurs kilomètres), les méthodes monoculaires de localisation sont connues pour présenter des dérives importantes dues principalement à la dérive du facteur d’échelle (non observable). Pour réduire cette dérive et améliorer la qualité de la position fournie, deux méthodes de fusion ont été développées. Ces deux améliorations permettent de rendre cette méthode monoculaire exploitable dans le cadre automobile sur de grandes distances tout en conservant les critères de temps réel nécessaire dans ce type d’application. De plus, notre approche montre l’intérêt de disposer des incertitudes et ainsi de tirer parti de l’information fournie par d’autres capteurs. / The present work is about localisation of vehicle using computer vision methods. In this context, the camera trajectory and the 3D structure of the scene is estimated by a monocular visual odometry method based on local bundle adjustment. This thesis contributions are some improvements of this method. The uncertainty of the estimated position was not provided by the local bundle adjustment method. Indeed, this uncertainty is crucial in a multi-sensorial fusion system to use optimally the estimated position. A study of the uncertainty propagation in this visual odometry method has been done and an uncertainty calculus method has been designed to comply with real time performance. By the way, monocular visual localisation methods are known to have serious drift issues on long trajectories (some kilometers). This error mainly comes from bad propagation of the scale factor. To limit this drift and improve the quality of the given position, we proposed two data fusion methods between an odometer and the visual method. Finally, the two improvements presented here allow us to use visual localisation method in real urban environment on long trajectories under real time constraints. SLAM Visuel Localisation temps réel Monoculaire Ajustement de faisceaux local Calcul d'incertitude Visual SLAM Real time localisation Monocular vision Local bundle adjustment Uncertainty calculus
12	Contributions au RGBD-SLAM / RGBD-SLAM contributions Melbouci, Kathia 02 March 2017 (has links) Pour assurer la navigation autonome d’un robot mobile, les traitements effectués pour sa localisation doivent être faits en ligne et doivent garantir une précision suffisante pour permettre au robot d’effectuer des tâches de haut niveau pour la navigation et l’évitement d’obstacles. Les auteurs de travaux basés sur le SLAM visuel (Simultaneous Localization And Mapping) tentent depuis quelques années de garantir le meilleur compromis rapidité/précision. La majorité des solutions SLAM visuel existantes sont basées sur une représentation éparse de l’environnement. En suivant des primitives visuelles sur plusieurs images, il est possible d’estimer la position 3D de ces primitives ainsi que les poses de la caméra. La communauté du SLAM visuel a concentré ses efforts sur l’augmentation du nombre de primitives visuelles suivies et sur l’ajustement de la carte 3D, afin d’améliorer l’estimation de la trajectoire de la caméra et les positions 3D des primitives. Cependant, la localisation par SLAM visuel présente souvent des dérives dues au cumul d’erreurs, et dans le cas du SLAM visuel monoculaire, la position de la caméra n’est connue qu’à un facteur d’échelle près. Ce dernier peut être fixé initialement mais dérive au cours du temps. Pour faire face à ces limitations, nous avons centré nos travaux de thèse sur la problématique suivante : intégrer des informations supplémentaires dans un algorithme de SLAM visuel monoculaire afin de mieux contraindre la trajectoire de la caméra et la reconstruction 3D. Ces contraintes ne doivent pas détériorer les performances calculatoires de l’algorithme initial et leur absence ne doit pas mettre l’algorithme en échec. C’est pour cela que nous avons choisi d’intégrer l’information de profondeur fournie par un capteur 3D (e.g. Microsoft Kinect) et des informations géométriques sur la structure de la scène. La première contribution de cette thèse est de modifier l’algorithme SLAM visuel monoculaire proposé par Mouragnon et al. (2006b) pour prendre en compte la mesure de profondeur fournie par un capteur 3D, en proposant particulièrement un ajustement de faisceaux qui combine, d’une manière simple, des informations visuelles et des informations de profondeur. La deuxième contribution est de proposer une nouvelle fonction de coût du même ajustement de faisceaux qui intègre, en plus des contraintes sur les profondeurs des points, des contraintes géométriques d’appartenance aux plans de la scène. Les solutions proposées ont été validées sur des séquences de synthèse et sur des séquences réelles, représentant des environnements variés. Ces solutions ont été comparées aux récentes méthodes de l’état de l’art. Les résultats obtenus montrent que les différentes contraintes développées permettent d’améliorer significativement la précision de la localisation du SLAM. De plus les solutions proposées sont faciles à déployer et peu couteuses en temps de calcul. / To guarantee autonomous and safely navigation for a mobile robot, the processing achieved for its localization must be fast and accurate enough to enable the robot to perform high-level tasks for navigation and obstacle avoidance. The authors of Simultaneous Localization And Mapping (SLAM) based works, are trying since year, to ensure the speed/accuracy trade-off. Most existing works in the field of monocular (SLAM) has largely centered around sparse feature-based representations of the environment. By tracking salient image points across many frames of video, both the positions of the features and the motion of the camera can be inferred live. Within the visual SLAM community, there has been a focus on both increasing the number of features that can be tracked across an image and efficiently managing and adjusting this map of features in order to improve camera trajectory and feature location accuracy. However, visual SLAM suffers from some limitations. Indeed, with a single camera and without any assumptions or prior knowledge about the camera environment, rotation can be retrieved, but the translation is up to scale. Furthermore, visual monocular SLAM is an incremental process prone to small drifts in both pose measurement and scale, which when integrated over time, become increasingly significant over large distances. To cope with these limitations, we have centered our work around the following issues : integrate additional information into an existing monocular visual SLAM system, in order to constrain the camera localization and the mapping points. Provided that the high speed of the initial SLAM process is kept and the lack of these added constraints should not give rise to the failure of the process. For these last reasons, we have chosen to integrate the depth information provided by a 3D sensor (e.g. Microsoft Kinect) and geometric information about scene structure. The primary contribution of this work consists of modifying the SLAM algorithm proposed by Mouragnon et al. (2006b) to take into account the depth measurement provided by a 3D sensor. This consists of several rather straightforward changes, but also on a way to combine the depth and visual data in the bundle adjustment process. The second contribution is to propose a solution that uses, in addition to the depth and visual data, the constraints lying on points belonging to the plans of the scene. The proposed solutions have been validated on a synthetic sequences as well as on a real sequences, which depict various environments. These solutions have been compared to the state of art methods. The performances obtained with the previous solutions demonstrate that the additional constraints developed, improves significantly the accuracy and the robustness of the SLAM localization. Furthermore, these solutions are easy to roll out and not much time consuming. Capteur 3D Ajustement de faisceaux Plans RGBD-SLAM Simultaneous Localisation and Mapping 3D sensor Bundle adjustment Plans RGBD-SLAM
13	Etalonnage de caméras à champs disjoints et reconstruction 3D : Application à un robot mobile / Non-overlapping camera calibration and 3D reconstruction : Application to Vision-Based Robotics Lébraly, Pierre 18 January 2012 (has links) Ces travaux s’inscrivent dans le cadre du projet VIPA « Véhicule Individuel Public Autonome », au cours duquel le LASMEA et ses partenaires ont mis au point des véhicules capables de naviguer automatiquement, sans aucune infrastructure extérieure dédiée, dans des zones urbaines (parkings, zones piétonnes, aéroports). Il est doté de deux caméras, l’une à l’avant, et l’autre à l’arrière. Avant son déploiement, le véhicule doit tout d’abord être étalonné et conduit manuellement afin de reconstruire la carte d’amers visuels dans laquelle il naviguera ensuite automatiquement. Les travaux de cette thèse ont pour but de développer et de mettre en oeuvre des méthodes souples permettant d’étalonner cet ensemble de caméras dont les champs de vue sont totalement disjoints. Après une étape préalable d’étalonnage intrinsèque et un état de l’art sur les systèmes multi-caméra, nous développons et mettons en oeuvre différentes méthodes d’étalonnage extrinsèque (déterminant les poses relatives des caméras à champs de vue disjoints). La première méthode présentée utilise un miroir plan pour créer un champ de vision commun aux différentes caméras. La seconde approche consiste à manoeuvrer le véhicule pendant que chaque caméra observe une scène statique composée de cibles (dont la détection est sous-pixellique). Dans la troisième approche, nous montrons que l’étalonnage extrinsèque peut être obtenu simultanément à la reconstruction 3D (par exemple lors de la phase d’apprentissage), en utilisant des points d’intérêt comme amers visuels. Pour cela un algorithme d’ajustement de faisceaux multi-caméra a été développé avec une implémentation creuse. Enfin, nous terminons par un étalonnage déterminant l’orientation du système multi-caméra par rapport au véhicule. / My research was involved in the VIPA « Automatic Electric Vehicle for Passenger Transportation » project. During which, the LASMEA and its partnerships have developed vehicles able to navigate autonomously, without any outside dedicated infrastructure in an urban environment (parking lots, pedestrian areas, airports). Two cameras are rigidly embedded on a vehicle : one at the front, another at the back. Before being available for autonomous navigation tasks, the vehicle have to be calibrated and driven manually in order to build a visual 3D map (calibration and learning steps). Then, the vehicle will use this map to localize itself and drive autonomously. The goals of this thesis are to develop and apply user friendly methods, which calibrate this set of nonoverlapping cameras. After a first step of intrinsic calibration and a state of the art on multi-camera rigs, we develop and test several methods to extrinsically calibrate non-overlapping cameras (i.e. estimate the camera relative poses). The first method uses a planar mirror to create an overlap between views of the different cameras. The second procedure consists in manoeuvring the vehicle while each camera observes a static scene (composed of a set of targets, which are detected accurately). In a third procedure, we solve the 3D reconstruction and the extrinsic calibration problems simultaneously (the learning step can be used for that purpose) relying on visual features such as interest points. To achieve this goal a multi-camera bundle adjustment is proposed and implemented with a sparse data structures. Lastly, we present a calibration of the orientation of a multi-camera rig relative to the vehicle. Étalonnage Reconstruction 3D Ajustement de faisceaux Miroir plan VIPA Calibration 3D reconstruction Bundle adjustment Non-overlapping cameras Planar mirror VIPA
14	Approches 2D/2D pour le SFM à partir d'un réseau de caméras asynchrones / 2D/2D approaches for SFM using an asynchronous multi-camera network Mhiri, Rawia 14 December 2015 (has links) Les systèmes d'aide à la conduite et les travaux concernant le véhicule autonome ont atteint une certaine maturité durant ces dernières aimées grâce à l'utilisation de technologies avancées. Une étape fondamentale pour ces systèmes porte sur l'estimation du mouvement et de la structure de l'environnement (Structure From Motion) pour accomplir plusieurs tâches, notamment la détection d'obstacles et de marquage routier, la localisation et la cartographie. Pour estimer leurs mouvements, de tels systèmes utilisent des capteurs relativement chers. Pour être commercialisés à grande échelle, il est alors nécessaire de développer des applications avec des dispositifs bas coûts. Dans cette optique, les systèmes de vision se révèlent une bonne alternative. Une nouvelle méthode basée sur des approches 2D/2D à partir d'un réseau de caméras asynchrones est présentée afin d'obtenir le déplacement et la structure 3D à l'échelle absolue en prenant soin d'estimer les facteurs d'échelle. La méthode proposée, appelée méthode des triangles, se base sur l'utilisation de trois images formant un triangle : deux images provenant de la même caméra et une image provenant d'une caméra voisine. L'algorithme admet trois hypothèses: les caméras partagent des champs de vue communs (deux à deux), la trajectoire entre deux images consécutives provenant d'une même caméra est approximée par un segment linéaire et les caméras sont calibrées. La connaissance de la calibration extrinsèque entre deux caméras combinée avec l'hypothèse de mouvement rectiligne du système, permet d'estimer les facteurs d'échelle absolue. La méthode proposée est précise et robuste pour les trajectoires rectilignes et présente des résultats satisfaisants pour les virages. Pour affiner l'estimation initiale, certaines erreurs dues aux imprécisions dans l'estimation des facteurs d'échelle sont améliorées par une méthode d'optimisation : un ajustement de faisceaux local appliqué uniquement sur les facteurs d'échelle absolue et sur les points 3D. L'approche présentée est validée sur des séquences de scènes routières réelles et évaluée par rapport à la vérité terrain obtenue par un GPS différentiel. Une application fondamentale dans les domaines d'aide à la conduite et de la conduite automatisée est la détection de la route et d'obstacles. Pour un système asynchrone, une première approche pour traiter cette application est présentée en se basant sur des cartes de disparité éparses. / Driver assistance systems and autonomous vehicles have reached a certain maturity in recent years through the use of advanced technologies. A fundamental step for these systems is the motion and the structure estimation (Structure From Motion) that accomplish several tasks, including the detection of obstacles and road marking, localisation and mapping. To estimate their movements, such systems use relatively expensive sensors. In order to market such systems on a large scale, it is necessary to develop applications with low cost devices. In this context, vision systems is a good alternative. A new method based on 2D/2D approaches from an asynchronous multi-camera network is presented to obtain the motion and the 3D structure at the absolute scale, focusing on estimating the scale factors. The proposed method, called Triangle Method, is based on the use of three images forming a. triangle shape: two images from the same camera and an image from a neighboring camera. The algorithrn has three assumptions: the cameras share common fields of view (two by two), the path between two consecutive images from a single camera is approximated by a line segment, and the cameras are calibrated. The extrinsic calibration between two cameras combined with the assumption of rectilinear motion of the system allows to estimate the absolute scale factors. The proposed method is accurate and robust for straight trajectories and present satisfactory results for curve trajectories. To refine the initial estimation, some en-ors due to the inaccuracies of the scale estimation are improved by an optimization method: a local bundle adjustment applied only on the absolute scale factors and the 3D points. The presented approach is validated on sequences of real road scenes, and evaluated with respect to the ground truth obtained through a differential GPS. Finally, another fundamental application in the fields of driver assistance and automated driving is road and obstacles detection. A method is presented for an asynchronous system based on sparse disparity maps Odométrie visuelle Méthode des triangles Ajustement de faisceaux local Structure from motion Visual odometry Asynchronous multi-camera system Triangle-based method Local bundle adjustment Obstacle detection
15	SLAM temporel à contraintes multiples / Multiple constraints and temporal SLAM Ramadasan, Datta 15 December 2015 (has links) Ce mémoire décrit mes travaux de thèse de doctorat menés au sein de l’équipe ComSee (Computers that See) rattachée à l’axe ISPR (Image, Systèmes de Perception et Robotique) de l’Institut Pascal. Celle-ci a été financée par la Région Auvergne et le Fonds Européen de Développement Régional. Les travaux présentés s’inscrivent dans le cadre d’applications de localisation pour la robotique mobile et la Réalité Augmentée. Le framework réalisé au cours de cette thèse est une approche générique pour l’implémentation d’applications de SLAM : Simultaneous Localization And Mapping (algorithme de localisation par rapport à un modèle simultanément reconstruit). L’approche intègre une multitude de contraintes dans les processus de localisation et de reconstruction. Ces contraintes proviennent de données capteurs mais également d’a priori liés au contexte applicatif. Chaque contrainte est utilisée au sein d’un même algorithme d’optimisation afin d’améliorer l’estimation du mouvement ainsi que la précision du modèle reconstruit. Trois problèmes ont été abordés au cours de ce travail. Le premier concerne l’utilisation de contraintes sur le modèle reconstruit pour l’estimation précise d’objets 3D partiellement connus et présents dans l’environnement. La seconde problématique traite de la fusion de données multi-capteurs, donc hétérogènes et asynchrones, en utilisant un unique algorithme d’optimisation. La dernière problématique concerne la génération automatique et efficace d’algorithmes d’optimisation à contraintes multiples. L’objectif est de proposer une solution temps réel 1 aux problèmes de SLAM à contraintes multiples. Une approche générique est utilisée pour concevoir le framework afin de gérer une multitude de configurations liées aux différentes contraintes des problèmes de SLAM. Un intérêt tout particulier a été porté à la faible consommation de ressources (mémoire et CPU) tout en conservant une grande portabilité. De plus, la méta-programmation est utilisée pour générer automatiquement et spécifiquement les parties les plus complexes du code en fonction du problème à résoudre. La bibliothèque d’optimisation LMA qui a été développée au cours de cette thèse est mise à disposition de la communauté en open-source. Des expérimentations sont présentées à la fois sur des données de synthèse et des données réelles. Un comparatif exhaustif met en évidence les performances de la bibliothèque LMA face aux alternatives les plus utilisées de l’état de l’art. De plus, le framework de SLAM est utilisé sur des problèmes impliquant une difficulté et une quantité de contraintes croissantes. Les applications de robotique mobile et de Réalité Augmentée mettent en évidence des performances temps réel et un niveau de précision qui croît avec le nombre de contraintes utilisées. / This report describes my thesis work conducted within the ComSee (Computers That See) team related to the ISPR axis (ImageS, Perception Systems and Robotics) of Institut Pascal. It was financed by the Auvergne Région and the European Fund of Regional Development. The thesis was motivated by localization issues related to Augmented Reality and autonomous navigation. The framework developed during this thesis is a generic approach to implement SLAM algorithms : Simultaneous Localization And Mapping. The proposed approach use multiple constraints in the localization and mapping processes. Those constraints come from sensors data and also from knowledge given by the application context. Each constraint is used into one optimization algorithm in order to improve the estimation of the motion and the accuracy of the map. Three problems have been tackled. The first deals with constraints on the map to accurately estimate the pose of 3D objects partially known in the environment. The second problem is about merging multiple heterogeneous and asynchronous data coming from different sensors using an optimization algorithm. The last problem is to write an efficient and real-time implementation of the SLAM problem using multiple constraints. A generic approach is used to design the framework and to generate different configurations, according to the constraints, of each SLAM problem. A particular interest has been put in the low computational requirement (in term of memory and CPU) while offering a high portability. Moreover, meta-programming techniques have been used to automatically and specifically generate the more complex parts of the code according to the given problem. The optimization library LMA, developed during this thesis, is made available of the community in open-source. Several experiments were done on synthesis and real data. An exhaustive benchmark shows the performances of the LMA library compared to the most used alternatives of the state of the art. Moreover, the SLAM framework is used on different problems with an increasing difficulty and amount of constraints. Augmented Reality and autonomous navigation applications show the good performances and accuracies in multiple constraints context. Reconstruction 3D SLAM visuel SLAM contraint Temps réel Ajustement de faisceaux Réalité augmentée Navigation autonome Levenberg-Marquardt C++ Méta-programmation Structure from motion Visual SLAM Constraint SLAM Real-Time Bundle Adjustment Augmented Reality Autonomous Navigation Levenberg-Marquardt C++ Meta-programming
16	L'ajustement de faisceaux contraint comme cadre d'unification des méthodes de localisation : application à la réalité augmentée sur des objets 3D / Constrained beam adjustment as a framework for unifying location methods : application to augmented reality on 3D objects Tamaazousti, Mohamed 13 March 2013 (has links) Les travaux réalisés au cours de cette thèse s’inscrivent dans la problématique de localisation en temps réel d’une caméra par vision monoculaire. Dans la littérature, il existe différentes méthodes qui peuvent être classées en trois catégories. La première catégorie de méthodes considère une caméra évoluant dans un environnement complètement inconnu (SLAM). Cette méthode réalise une reconstruction enligne de primitives observées dans des images d’une séquence vidéo et utilise cette reconstruction pour localiser la caméra. Les deux autres permettent une localisation par rapport à un objet 3D de la scène en s’appuyant sur la connaissance, a priori, d’un modèle de cet objet (suivi basé modèle). L’une utilise uniquement l’information du modèle 3D de l’objet pour localiser la caméra, l’autre peut être considérée comme l’intermédiaire entre le SLAM et le suivi basé modèle. Cette dernière méthode consiste à localiser une caméra par rapport à un objet en utilisant, d’une part, le modèle de ce dernier et d’autre part, une reconstruction en ligne des primitives de l’objet d’intérêt. Cette reconstruction peut être assimilée à une mise à jour du modèle initial (suivi basé modèle avec mise à jour). Chacune de ces méthodes possède des avantages et des inconvénients. Dans le cadre de ces travaux de thèse, nous proposons une solution unifiant l’ensemble de ces méthodes de localisation dans un unique cadre désigné sous le terme de SLAM contraint. Cette solution, qui unifie ces différentes méthodes, permet de tirer profit de leurs avantages tout en limitant leurs inconvénients respectifs. En particulier, nous considérons que la caméra évolue dans un environnement partiellement connu, c’est-à-dire pour lequel un modèle (géométrique ou photométrique) 3D d’un objet statique de la scène est disponible. L’objectif est alors d’estimer de manière précise la pose de la caméra par rapport à cet objet 3D. L’information absolue issue du modèle 3D de l’objet d’intérêt est utilisée pour améliorer la localisation de type SLAM en incluant cette information additionnelle directement dans le processus d’ajustement de faisceaux. Afin de pouvoir gérer un large panel d’objets 3D et de scènes, plusieurs types de contraintes sont proposées dans ce mémoire. Ces différentes contraintes sont regroupées en deux approches. La première permet d’unifier les méthodes SLAM et de suivi basé modèle, en contraignant le déplacement de la caméra via la projection de primitives existantes extraites du modèle 3D dans les images. La seconde unifie les méthodes SLAM et de suivi basé modèle avec mise à jour en contraignant les primitives reconstruites par le SLAM à appartenir à la surface du modèle (unification SLAM et mise à jour du modèle). Les avantages de ces différents ajustements de faisceaux contraints, en terme de précision, de stabilité de recalage et de robustesse aux occultations, sont démontrés sur un grand nombre de données de synthèse et de données réelles. Des applications temps réel de réalité augmentée sont également présentées sur différents types d’objets 3D. Ces travaux ont fait l’objet de 4 publications internationales, de 2 publications nationales et d’un dépôt de brevet. / This thesis tackles the problem of real time location of a monocular camera. In the literature, there are different methods which can be classified into three categories. The first category considers a camera moving in a completely unknown environment (SLAM). This method performs an online reconstruction of the observed primitives in the images and uses this reconstruction to estimate the location of the camera. The two other categories of methods estimate the location of the camera with respect to a 3D object in the scene. The estimation is based on an a priori knowledge of a model of the object (Model-based). One of these two methods uses only the information of the 3D model of the object to locate the camera. The other method may be considered as an intermediary between the SLAM and Model-based approaches. It consists in locating the camera with respect to the object of interest by using, on one hand the 3D model of this object, and on the other hand an online reconstruction of the primitives of the latter. This last online reconstruction can be regarded as an update of the initial 3D model (Model-based with update). Each of these methods has advantages and disadvantages. In the context of this thesis, we propose a solution in order to unify all these localization methods in a single framework referred to as the constrained SLAM, by taking parts of their benefits and limiting their disadvantages. We, particularly, consider that the camera moves in a partially known environment, i.e. for which a 3D model (geometric or photometric) of a static object in the scene is available. The objective is then to accurately estimate the pose (position and orientation) of the camera with respect to this object. The absolute information provided by the 3D model of the object is used to improve the localization of the SLAM by directly including this additional information in the bundle adjustment process. In order to manage a wide range of 3D objets and scenes, various types of constraints are proposed in this study and grouped into two approaches. The first one allows to unify the SLAM and Model-based methods by constraining the trajectory of the camera through the projection, in the images, of the 3D primitives extracted from the model. The second one unifies the SLAM and Model-based with update methods, by constraining the reconstructed 3D primitives of the object to belong to the surface of the model (unification SLAM and model update). The benefits of the constrained bundle adjustment framework in terms of accuracy, stability, robustness to occlusions, are demonstrated on synthetic and real data. Real time applications of augmented reality are also presented on different types of 3D objects. This work has been the subject of four international publications, two national publications and one patent. Vision par ordinateur Réalité augmentée SLAM contraint Ajustement de faisceaux contraint Suivi basé modèle Computer vision Simultaneous Localization and Mapping Augmented Reality Constrained SLAM Constrained Bundle Adjustment Model-based tracking
17	Localisation d'objets 3D industriels à l'aide d'un algorithme de SLAM contraint au modèle / Localization of industtrial 3D objects using model-constrained SLAM Loesch, Angélique 01 December 2017 (has links) Un besoin applicatif existe en terme de localisation 3D d’objets par vision. Cette technologie devient en effet de plus en plus populaire dans le milieu industriel où elle peut être utile lors de contrôle qualité, de robotisation de tâches ou encore d’aide à la maintenance par Réalité Augmentée. Néanmoins, le déploiement de telles applications est actuellement limité en raison de la difficulté à allier qualité de localisation, facilité de mise en oeuvre et généricité de la solution. En effet, la majorité des solutions implique : soit des étapes de mise en oeuvre complexes comme avec l’installation de capteurs de mouvement ou une préparation supervisée du modèle CAO; soit un manque de précision de la localisation dans le cadre de certaines applications nécessitant de prendre en compte des mouvements de fortes amplitudes de la caméra (provoquant du flou de bouger et des tremblements dans le flux vidéo) ainsi que des occultations partielles ou totales de l’objet ; soit enfin une restriction sur la nature de l’objet, celui-ci devant être texturé, de petite taille ou encore polyédrique pour avoir une bonne localisation. La plupart des solutions de localisation existantes correspondent à des approches de suivi basé modèle. Cette méthode consiste à estimer la pose relative entre la caméra et l’objet d’intérêt par mises en correspondance de primitives 3D extraites du modèle avec des primitives 2D extraites d’images d’un flux vidéo. Pour autant, cette approche atteint ses limites lorsque l’objet est difficilement observable dans l’image.Afin d’améliorer la localisation lorsque l’application concerne un objet fixe, de récentes solutions se sont appuyées en complément des primitives du modèle, sur des primitives de l’environnement reconstruites au cours du processus de localisation. Ces approches combinent algorithmes de SLAM (Simultaneous Localization And Mapping) et de suivi d’objet basé contours en utilisant les informations du modèle comme contrainte dans le processus d’optimisation du SLAM. Pour cela, un terme d’erreur est ajouté à la fonction de coût classique.Celui-ci mesure l’erreur de re-projection entre des primitives 3D issues des arêtes franches du modèle et les points de contour 2D dans l’image qui leur sont associés. L’ajout de cette contrainte permet d’exprimer la localisation du SLAM dans le repère de l’objet d’intérêt tout en réduisant sa dérive. Les solutions de SLAM contraint au modèle n’exploitant cependant que les contours francs du modèle, ne sont pas génériques et ne permettent de localiser que des objets polyédriques. De plus, l’ajout de cette contrainte entraîne une forte augmentation de la consommation mémoire, les images de contours nécessaires à l’étape de mise en correspondance devant être conservées.Les travaux présentés dans ce mémoire de thèse visent à fournir une solution répondant simultanément à l’ensemble des besoins concernant la facilité de déploiement, la qualité de localisation et la généricité sur la nature des objets suivis. Aussi, notre solution basée sur un algorithme de SLAM visuel contraint basé images clés, se restreint-elle au seul usage d’une caméra couleur, les caméras RGBD impliquant généralement une limite sur le volume, la nature réflective ou absorbante de l’objet, et sur la luminosité de son environnement. Cette étude est en outre restreinte à la seule exploitation de modèles 3D géométrique non texturés, les textures pouvant difficilement être considérées comme stables dans le temps (usure, taches...) et pouvant varier pour un même objet manufacturé. De plus, les modèles à base de nuages de descripteurs locaux ou les modèles surfaciques texturés sont actuellement des données peu disponibles dans l’industrie. Enfin, nous faisons le choix d’estimer la pose de la caméra de manière géométrique et non par apprentissage. Le suivi d’objets à l’aide d’apprentissage automatique est en effet encore difficilement exploitable en milieu industriel. (...) / In the industry domain, applications such as quality control, automation of complex tasks or maintenance support with Augmented Reality (AR) could greatly benefit from visual tracking of 3D objects. However, this technology is under-exploited due to the difficulty of providing deployment easiness, localization quality and genericity simultaneously. Most existing solutions indeed involve a complex or an expensive deployment of motion capture sensors, or require human supervision to simplify the 3D model. And finally, most tracking solutions are restricted to textured or polyhedral objects to achieved an accurate camera pose estimation.Tracking any object is a challenging task due to the large variety of object forms and appearances. Industrial objects may indeed have sharp edges, or occluding contours that correspond to non-static and view-point dependent edges. They may also be textured or textureless. Moreover, some applications require to take large amplitude motions as well as object occlusions into account, tasks that are not always dealt with common model-based tracking methods. These approaches indeed exploit 3D features extracted from a model, that are matched with 2D features in the image of a video-stream. However the accuracy and robustness of the camera localization depend on the visibility of the object as well as on the motion of the camera. To better constrain the localization when the object is static, recent solutions rely on environment features that are reconstructed online, in addition to the model ones. These approaches combine SLAM (Simultaneous Localization And Mapping) and model-based tracking solutions by using constraints from the 3D model of the object of interest. Constraining SLAM algorithms with a 3D model results in a drift free localization. However, such approaches are not generic since they are only adapted for textured or polyhedral objects. Furthermore, using the 3D model to constrain the optimization process may generate high memory consumption,and limit the optimization to a temporal window of few cameras. In this thesis, we propose a solution that fulfills the requirements concerning deployment easiness, localization quality and genericity. This solution, based on a visual key-frame-based constrained SLAM, only exploits an RGB camera and a geometric CAD model of the static object of interest. An RGB camera is indeed preferred over an RGBD sensor, since the latter imposes limits on the volume, the reflectiveness or the absorptiveness of the object, and the lighting conditions. A geometric CAD model is also preferred over a textured model since textures may hardly be considered as stable in time (deterioration, marks,...) and may vary for one manufactured object. Furthermore, textured CAD models are currently not widely spread. Contrarily to previous methods, the presented approach deals with polyhedral and curved objects by extracting dynamically 3D contour points from a model rendered on GPU. This extraction is integrated as a structure constraint into the constrained bundle adjustment of a SLAM algorithm. Moreover we propose different formalisms of this constraint to reduce the memory consumption of the optimization process. These formalisms correspond to hybrid structure/trajectory constraints, that uses output camera poses of a model-based tracker. These formalisms take into account the structure information given by the 3D model while relying on the formalism of trajectory constraints. The proposed solution is real-time, accurate and robust to occlusion or sudden motion. It has been evaluated on synthetic and real sequences of different kind of objects. The results show that the accuracy achieved on the camera trajectory is sufficient to ensure a solution perfectly adapted for high-quality Augmented Reality experiences for the industry. Suivi d'objet 3D basé contours Contours d'occultation Ajustement de faisceaux Temps-réel Réalité Augmentée Model-based tracking Simultaneous Localisation and Mapping Occluding contours Bundle adjustment Real-time Augmented Reality

Page generated in 0.4937 seconds