Un besoin applicatif existe en terme de localisation 3D d’objets par vision. Cette technologie devient en effet de plus en plus populaire dans le milieu industriel où elle peut être utile lors de contrôle qualité, de robotisation de tâches ou encore d’aide à la maintenance par Réalité Augmentée. Néanmoins, le déploiement de telles applications est actuellement limité en raison de la difficulté à allier qualité de localisation, facilité de mise en oeuvre et généricité de la solution. En effet, la majorité des solutions implique : soit des étapes de mise en oeuvre complexes comme avec l’installation de capteurs de mouvement ou une préparation supervisée du modèle CAO; soit un manque de précision de la localisation dans le cadre de certaines applications nécessitant de prendre en compte des mouvements de fortes amplitudes de la caméra (provoquant du flou de bouger et des tremblements dans le flux vidéo) ainsi que des occultations partielles ou totales de l’objet ; soit enfin une restriction sur la nature de l’objet, celui-ci devant être texturé, de petite taille ou encore polyédrique pour avoir une bonne localisation. La plupart des solutions de localisation existantes correspondent à des approches de suivi basé modèle. Cette méthode consiste à estimer la pose relative entre la caméra et l’objet d’intérêt par mises en correspondance de primitives 3D extraites du modèle avec des primitives 2D extraites d’images d’un flux vidéo. Pour autant, cette approche atteint ses limites lorsque l’objet est difficilement observable dans l’image.Afin d’améliorer la localisation lorsque l’application concerne un objet fixe, de récentes solutions se sont appuyées en complément des primitives du modèle, sur des primitives de l’environnement reconstruites au cours du processus de localisation. Ces approches combinent algorithmes de SLAM (Simultaneous Localization And Mapping) et de suivi d’objet basé contours en utilisant les informations du modèle comme contrainte dans le processus d’optimisation du SLAM. Pour cela, un terme d’erreur est ajouté à la fonction de coût classique.Celui-ci mesure l’erreur de re-projection entre des primitives 3D issues des arêtes franches du modèle et les points de contour 2D dans l’image qui leur sont associés. L’ajout de cette contrainte permet d’exprimer la localisation du SLAM dans le repère de l’objet d’intérêt tout en réduisant sa dérive. Les solutions de SLAM contraint au modèle n’exploitant cependant que les contours francs du modèle, ne sont pas génériques et ne permettent de localiser que des objets polyédriques. De plus, l’ajout de cette contrainte entraîne une forte augmentation de la consommation mémoire, les images de contours nécessaires à l’étape de mise en correspondance devant être conservées.Les travaux présentés dans ce mémoire de thèse visent à fournir une solution répondant simultanément à l’ensemble des besoins concernant la facilité de déploiement, la qualité de localisation et la généricité sur la nature des objets suivis. Aussi, notre solution basée sur un algorithme de SLAM visuel contraint basé images clés, se restreint-elle au seul usage d’une caméra couleur, les caméras RGBD impliquant généralement une limite sur le volume, la nature réflective ou absorbante de l’objet, et sur la luminosité de son environnement. Cette étude est en outre restreinte à la seule exploitation de modèles 3D géométrique non texturés, les textures pouvant difficilement être considérées comme stables dans le temps (usure, taches...) et pouvant varier pour un même objet manufacturé. De plus, les modèles à base de nuages de descripteurs locaux ou les modèles surfaciques texturés sont actuellement des données peu disponibles dans l’industrie. Enfin, nous faisons le choix d’estimer la pose de la caméra de manière géométrique et non par apprentissage. Le suivi d’objets à l’aide d’apprentissage automatique est en effet encore difficilement exploitable en milieu industriel. (...) / In the industry domain, applications such as quality control, automation of complex tasks or maintenance support with Augmented Reality (AR) could greatly benefit from visual tracking of 3D objects. However, this technology is under-exploited due to the difficulty of providing deployment easiness, localization quality and genericity simultaneously. Most existing solutions indeed involve a complex or an expensive deployment of motion capture sensors, or require human supervision to simplify the 3D model. And finally, most tracking solutions are restricted to textured or polyhedral objects to achieved an accurate camera pose estimation.Tracking any object is a challenging task due to the large variety of object forms and appearances. Industrial objects may indeed have sharp edges, or occluding contours that correspond to non-static and view-point dependent edges. They may also be textured or textureless. Moreover, some applications require to take large amplitude motions as well as object occlusions into account, tasks that are not always dealt with common model-based tracking methods. These approaches indeed exploit 3D features extracted from a model, that are matched with 2D features in the image of a video-stream. However the accuracy and robustness of the camera localization depend on the visibility of the object as well as on the motion of the camera. To better constrain the localization when the object is static, recent solutions rely on environment features that are reconstructed online, in addition to the model ones. These approaches combine SLAM (Simultaneous Localization And Mapping) and model-based tracking solutions by using constraints from the 3D model of the object of interest. Constraining SLAM algorithms with a 3D model results in a drift free localization. However, such approaches are not generic since they are only adapted for textured or polyhedral objects. Furthermore, using the 3D model to constrain the optimization process may generate high memory consumption,and limit the optimization to a temporal window of few cameras. In this thesis, we propose a solution that fulfills the requirements concerning deployment easiness, localization quality and genericity. This solution, based on a visual key-frame-based constrained SLAM, only exploits an RGB camera and a geometric CAD model of the static object of interest. An RGB camera is indeed preferred over an RGBD sensor, since the latter imposes limits on the volume, the reflectiveness or the absorptiveness of the object, and the lighting conditions. A geometric CAD model is also preferred over a textured model since textures may hardly be considered as stable in time (deterioration, marks,...) and may vary for one manufactured object. Furthermore, textured CAD models are currently not widely spread. Contrarily to previous methods, the presented approach deals with polyhedral and curved objects by extracting dynamically 3D contour points from a model rendered on GPU. This extraction is integrated as a structure constraint into the constrained bundle adjustment of a SLAM algorithm. Moreover we propose different formalisms of this constraint to reduce the memory consumption of the optimization process. These formalisms correspond to hybrid structure/trajectory constraints, that uses output camera poses of a model-based tracker. These formalisms take into account the structure information given by the 3D model while relying on the formalism of trajectory constraints. The proposed solution is real-time, accurate and robust to occlusion or sudden motion. It has been evaluated on synthetic and real sequences of different kind of objects. The results show that the accuracy achieved on the camera trajectory is sufficient to ensure a solution perfectly adapted for high-quality Augmented Reality experiences for the industry.
Identifer | oai:union.ndltd.org:theses.fr/2017CLFAC059 |
Date | 01 December 2017 |
Creators | Loesch, Angélique |
Contributors | Clermont Auvergne, Dhome, Michel |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0126 seconds