Spelling suggestions: "subject:"estimation dde post"" "subject:"estimation dee post""
1 |
Vers l’immersion mobile en réalité augmentée : une approche basée sur le suivi robuste de cibles naturelles et sur l’interaction 3D / Toward mobile immersion in augmented reality : an approach based on robust natural feature tracking and 3D interactionBellarbi, Abdelkader 26 April 2017 (has links)
L’estimation de pose et l’interaction 3D sont les fondements de base d’un système de réalité augmentée (RA). L’objectif de cette thèse étant de traiter ces deux problématiques, nous présentons dans ce mémoire un état de l’art qui regroupe : approches, techniques et technologies relatives à l’estimation de pose et à l’interaction 3D en RA. Puis nous faisons le bilan sur les travaux menés jusqu'à aujourd’hui.A cet effet, nos contributions dans ce vaste domaine sont dans les deux parties : vision et interaction 3D. Nous avons proposé un nouveau détecteur et descripteur binaire nommé MOBIL qui effectue une comparaison binaire des moments géométriques. Par la suite nous avons proposé deux améliorations de notre descripteur. MOBIL_2B et POLAR_MOBIL.En outre, nous avons utilisé notre descripteur avec l’approche PTAM (Parallel Tracking and Mapping) afin d’assurer le recalage des objets virtuels en immersion mobile de l’utilisateur en RA.Nous avons également proposé une technique d’interaction pour la RA, appelée « Zoom-in » qui facilite la sélection et la manipulation des objets virtuels distants. Cette technique est basée sur le zoom de l’image et des objets virtuels recalé sur l’image. Les objets virtuels sont mis à la portée de l’utilisateur en gardant le recalage par rapport à la scène.Ce mémoire se termine par une conclusion générale qui fait le point sur l’essentiel de ce travail et ouvre de nouvelles perspectives. / Pose estimation and 3D interaction are the essential basis for any Augmented Reality (AR) system. We aim to treat those two fields in order to offer a pertinent AR system that allows a mobile immersion and natural interaction. In this optic, this thesis provides an overall consistent state of the art in both pose estimation and 3D interaction for AR.In addition, this thesis details our contributions that consists of MOBIL: a binary descriptor that compares geometric moments of the patch through a binary test. Two improvements of this descriptor: MOBIL_2B and POLAR_MOBIL are proposed in order to enhance its robustness.We used this descriptor with PTAM technique to ensure the user pose estimation respectively for the selection/manipulation task and the navigation task.On the other hand, we proposed a novel 3D interaction technique called “Zoom-In”, designed for augmented reality applications. This technique is based on the zoom of the captured image. It calculates the 3D transformation relative to the selected object. This technique allows user selecting and manipulating distant virtual objects by bringing them within the user arm’s reach by zooming in the captured image, and re-estimating the user pose thanks to our proposed descriptor. Finally, we present a conclusion that describes the essential of this work and provide perspective and future work.
|
2 |
Reconstruction de Surfaces Réfléchissantes à partir d'ImagesBonfort, Thomas 20 February 2006 (has links) (PDF)
La reconstruction de surfaces spéculaires à partir d'images est un domaine relativement peu exploré, du fait du caractère peu commun de ces objets, et la complexité induite par rapport aux surfaces mattes. Ceci est du au fait que la texture apparente de telles surfaces est dépendante du point de vue, ou formulé autrement, que le chemin lumineux entre un point d'intérêt et un pixel n'est pas une ligne droite. De ce fait, la plupart des algorithmes de reconstructions ignorent les contributions spéculaires, alors que nous montrons que le contraintes qu'elles apportent permettent d'obtenir des informations géométriques de localisation et d'orientation précises, et ce sans les contraintes de continuité ou de régularité habituellement requises. Cette thèse présente deux méthodes permettant d'obtenir la position et l'orientation de points d'une surface parfaitement spéculaire, à partir de la réflection de points environnants connus. La première étend les approches de ”space carving”, et obtient des voxels d'un objet spéculaire en utilisant une mesure de consistance géométrique putôt que photométrique, qui dans ce cas n'a pas de sens. La deuxième procède par triangulation, en supposant une caméra fixe observant la refléction d'au moins 2 points connus par point de la surface à reconstruire. Finalement, nous proposons des méthodes pour obtenir la pose d'objets de calibration alors qu'ils ne sont pas dans le champ de vue d'une caméra, à travers la reflection d'objets spéculaires. La première suppose que cet objet est vu à travers la réflection de 3 miroirs plans inconnus, et obtient par ailleurs la pose de ces miroirs. La seconde présente une contrainte géométrique permettant théoriquement d'obtenir la pose d'un tel objet placé à deux endroits différents, vu à travers la reflection d'une surface spéculaire quelconque.
|
3 |
Estimation de pose et asservissement de robot par vision omnidirectionnelleCaron, Guillaume 30 November 2010 (has links) (PDF)
Ce travail s'inscrit dans le cadre d'un programme de recherche sur la vision omnidirectionnelle, monoculaire et stéréoscopique. L'estimation de position et d'orientation de robot par ce type de vision artificielle repose sur le même formalisme de base que l'asservissement visuel. Cette technique consiste à commander le mouvement d'un robot en utilisant l'information visuelle apportée par une ou plusieurs caméras. Ce mouvement est virtuel dans le cas d'une estimation de pose. Utiliser le large champ de vue apporté par la vision omnidirectionnelle a généralement une bonne influence sur le comportement du robot mais les informations visuelles, et en particulier leur représentation, ont un impact important sur ce comportement. Un choix inadéquat de représentation d'information peut engendrer l'échec de l'asservissement ou du calcul de pose. Cette thèse vise à étudier et comparer différentes primitives visuelles et leurs représentations en vision omnidirectionnelle. Même si un modèle de projection stéréographique impliquant une sphère a été défini pour les caméras omnidirectionnelles centrales, un point, une droite ou un plan est presque toujours représenté dans le plan image. Quelques travaux ont certes formulé l'estimation de pose ou l'asservissement visuel à partir de primitives définies sur la sphère mais sans montrer, en pratique, quel est le meilleur lieu de définition : le plan image ou la sphère. C'est une des motivations de cette étude. Ce travail propose aussi d'utiliser les intensités des pixels d'une image omnidirectionnelle comme primitive visuelle pour l'asservissement de robot, permettant ainsi de s'affranchir du traitement d'image nécessaire à la détection de points, de droites, etc. La validation expérimentale montre une très grande précision de positionnement. Cette constatation a servi de base à l'utilisation de voisinage photométrique inclus dans une région pour le suivi de plan ou avoisinant un segment pour le suivi de droites verticales. Ce dernier point est une des contributions les plus importantes de cette thèse car cela permet de reconstruire une droite verticale par ajustement photométrique des voisinages de ses projections dans les images de stéréovision omnidirectionnelle. Ceci peut, de plus, être étendu à l'estimation de mouvement et à toute primitive géométrique.
|
4 |
Suivi multi-caméras de personnes dans un environnement contraintAziz, Kheir Eddine 11 May 2012 (has links)
La consommation est considérée comme étant l'une des formes simples de la vie quotidienne. L'évolution de la société moderne a entraîné un environnement fortement chargé d'objets, de signes et d'interactions fondées sur des transactions commerciales. À ce phénomène s'ajoutent l'accélération du renouvellement de l'offre disponible et le pouvoir d'achat qui devient une préoccupation grandissante pour la majorité des consommateurs et oú l'inflation des prix est un sujet récurrent. Compte tenu de cette complexité et de ces enjeux économiques aussi consé- quents, la nécessité de modéliser le comportement d'achat des consommateurs dans les diffé- rents secteurs d'activité présente une phase primordiale pour les grands acteurs économiques ou analystes. En 2008, la société Cliris s'est lancée dans le projet de suivi multi-caméras de trajectoires des clients. En effet, le projet repose sur la mise au point d'un système d'analyse automatique multi-flux basé sur le suivi multi-caméras de clients. Ce système permet d'analy- ser la fréquentation et les parcours des clients dans les surfaces de grandes distributions. Dans le cadre de cette thèse CIFRE, nous avons abordé l'ensemble du processus de suivi multi-caméras de personnes tout en mettant l'accent sur le côté applicatif du problème en apportant notre contribution à la réponse aux questions suivantes :1. Comment suivre un individu à partir d'un flux vidéo mono-caméra en assurant la gestion des occultations ?2. Comment effectuer un comptage de personnes dans les surfaces denses ?3. Comment reconnaître un individu en différents points du magasin à partir des flux vidéo multi-caméras et suivre ainsi son parcours ? / ...
|
5 |
Détection de Classes d'Objets et Estimation de leurs Poses à partir de Modèles 3D SynthétiquesLiebelt, Joerg 18 October 2010 (has links) (PDF)
Cette thèse porte sur la détection de classes d'objets et l'estimation de leur poses à partir d'une seule image en utilisant des étapes d'apprentissage, de détection et d'estimation adaptées aux données synthétiques. Nous proposons de créer des représentations en 3D de classes d'objets permettant de gérer simultanément des points de vue différents et la variabilité intra-classe. Deux méthodes différentes sont proposées : La première utilise des données d'entraînement purement synthétiques alors que la seconde approche est basée sur un modèle de parties combinant des images d'entraînement réelles avec des données géométriques synthétiques. Pour l'entraînement de la méthode purement synthétique, nous proposons une procédure non-supervisée de filtrage de descripteurs locaux afin de rendre les descripteurs discriminatifs pour leur pose et leur classe d'objet. Dans le cadre du modèle de parties, l'apparence d'une classe d'objets est apprise de manière discriminative à partir d'une base de données annotée et la géométrie en 3D est apprise de manière générative à partir d'une base de modèles CAO. Pendant la détection, nous introduisons d'abord une méthode de vote en 3D qui renforce la cohérence géométrique en se servant d'une estimation robuste de la pose. Ensuite, nous décrivons une deuxième méthode d'estimation de pose qui permet d'évaluer la probabilité de constellations de parties détectées en 2D en utilisant une géométrie 3D entière. Les estimations approximatives sont ensuite améliorées en se servant d'un alignement de modèles 3D CAO avec des images en 2D ce qui permet de résoudre des ambiguïtés et de gérer des occultations.
|
6 |
Avancements dans l'estimation de pose et la reconstruction 3D de scènes à 2 et 3 vues / Advances on Pose Estimation and 3D Resconstruction of 2 and 3-View ScenesFernandez Julia, Laura 13 December 2018 (has links)
L'étude des caméras et des images a été un sujet prédominant depuis le début de la vision par ordinateur, l'un des principaux axes étant l'estimation de la pose et la reconstruction 3D. Le but de cette thèse est d'aborder et d'étudier certains problèmes et méthodes spécifiques du pipeline de la structure-from-motion afin d'améliorer la précision, de réaliser de vastes études pour comprendre les avantages et les inconvénients des modèles existants et de créer des outils mis à la disposition du public. Plus spécifiquement, nous concentrons notre attention sur les pairs stéréoscopiques et les triplets d'images et nous explorons certaines des méthodes et modèles capables de fournir une estimation de la pose et une reconstruction 3D de la scène.Tout d'abord, nous abordons la tâche d'estimation de la profondeur pour les pairs stéréoscopiques à l'aide de la correspondance de blocs. Cette approche suppose implicitement que tous les pixels du patch ont la même profondeur, ce qui produit l'artefact commun dénommé "foreground-fattening effect". Afin de trouver un support plus approprié, Yoon et Kweon ont introduit l'utilisation de poids basés sur la similarité des couleurs et la distance spatiale, analogues à ceux utilisés dans le filtre bilatéral. Nous présentons la théorie de cette méthode et l'implémentation que nous avons développée avec quelques améliorations. Nous discutons de quelques variantes de la méthode et analysons ses paramètres et ses performances.Deuxièmement, nous considérons l'ajout d'une troisième vue et étudions le tenseur trifocal, qui décrit les contraintes géométriques reliant les trois vues. Nous explorons les avantages offerts par cet opérateur dans la tâche d'estimation de pose d'un triplet de caméras par opposition au calcul des poses relatives paire par paire en utilisant la matrice fondamentale. De plus, nous présentons une étude et l’implémentation de plusieurs paramétrisations du tenseur. Nous montrons que l'amélioration initiale de la précision du tenseur trifocal n'est pas suffisante pour avoir un impact remarquable sur l'estimation de la pose après ajustement de faisceau et que l'utilisation de la matrice fondamentale avec des triplets d'image reste pertinente.Enfin, nous proposons d'utiliser un modèle de projection différent de celui de la caméra à sténopé pour l'estimation de la pose des caméras en perspective. Nous présentons une méthode basée sur la factorisation matricielle due à Tomasi et Kanade qui repose sur la projection orthographique. Cette méthode peut être utilisée dans des configurations où d'autres méthodes échouent, en particulier lorsque l'on utilise des caméras avec des objectifs à longue distance focale. La performance de notre implémentation de cette méthode est comparée à celle des méthodes basées sur la perspective, nous considérons que l'exactitude obtenue et la robustesse démontré en font un élément à considérer dans toute procédure de la SfM / The study of cameras and images has been a prominent subject since the beginning of computer vision, one of the main focus being the pose estimation and 3D reconstruction. The goal of this thesis is to tackle and study some specific problems and methods of the structure-from-motion pipeline in order to provide improvements in accuracy, broad studies to comprehend the advantages and disadvantages of the state-of-the-art models and useful implementations made available to the public. More specifically, we center our attention to stereo pairs and triplets of images and discuss some of the methods and models able to provide pose estimation and 3D reconstruction of the scene.First, we address the depth estimation task for stereo pairs using block-matching. This approach implicitly assumes that all pixels in the patch have the same depth producing the common artifact known as the ``foreground fattening effect''. In order to find a more appropriate support, Yoon and Kweon introduced the use of weights based on color similarity and spatial distance, analogous to those used in the bilateral filter. We present the theory of this method and the implementation we have developed with some improvements. We discuss some variants of the method and analyze its parameters and performance.Secondly, we consider the addition of a third view and study the trifocal tensor, which describes the geometric constraints linking the three views. We explore the advantages offered by this operator in the pose estimation task of a triplet of cameras as opposed to computing the relative poses pair by pair using the fundamental matrix. In addition, we present a study and implementation of several parameterizations of the tensor. We show that the initial improvement in accuracy of the trifocal tensor is not enough to have a remarkable impact on the pose estimation after bundle adjustment and that using the fundamental matrix with image triplets remains relevant.Finally, we propose using a different projection model than the pinhole camera for the pose estimation of perspective cameras. We present a method based on the matrix factorization due to Tomasi and Kanade that relies on the orthographic projection. This method can be used in configurations where other methods fail, in particular, when using cameras with long focal length lenses. The performance of our implementation of this method is compared to that given by the perspective-based methods, we consider that the accuracy achieved and its robustness make it worth considering in any SfM procedure
|
7 |
Fusion de données visuo-inertielles pour l'estimation de pose et l'autocalibrageScandaroli, Glauco Garcia 14 June 2013 (has links) (PDF)
Les systèmes multi-capteurs exploitent les complémentarités des différentes sources sensorielles. Par exemple, le capteur visuo-inertiel permet d'estimer la pose à haute fréquence et avec une grande précision. Les méthodes de vision mesurent la pose à basse fréquence mais limitent la dérive causée par l'intégration des données inertielles. Les centrales inertielles mesurent des incréments du déplacement à haute fréquence, ce que permet d'initialiser la vision et de compenser la perte momentanée de celle-ci. Cette thèse analyse deux aspects du problème. Premièrement, nous étudions les méthodes visuelles directes pour l'estimation de pose, et proposons une nouvelle technique basée sur la corrélation entre des images et la pondération des régions et des pixels, avec une optimisation inspirée de la méthode de Newton. Notre technique estime la pose même en présence des changements d'illumination extrêmes. Deuxièmement, nous étudions la fusion des données a partir de la théorie de la commande. Nos résultats principaux concernent le développement d'observateurs pour l'estimation de pose, biais IMU et l'autocalibrage. Nous analysons la dynamique de rotation d'un point de vue non linéaire, et fournissons des observateurs stables dans le groupe des matrices de rotation. Par ailleurs, nous analysons la dynamique de translation en tant que système linéaire variant dans le temps, et proposons des conditions d'observabilité uniforme. Les analyses d'observabilité nous permettent de démontrer la stabilité uniforme des observateurs proposés. La méthode visuelle et les observateurs sont testés et comparés aux méthodes classiques avec des simulations et de vraies données visuo-inertielles.
|
8 |
Détection et estimation de pose d'instances d'objet rigide pour la manipulation robotisée / Detection and pose estimation of instances of a rigid object for robotic bin-pickingBrégier, Romain 11 June 2018 (has links)
La capacité à détecter des objets dans une scène et à estimer leur pose constitue un préalable essentiel à l'automatisation d'un grand nombre de tâches, qu'il s'agisse d'analyser automatiquement une situation, de proposer une expérience de réalité augmentée, ou encore de permettre à un robot d'interagir avec son environnement.Dans cette thèse, nous nous intéressons à cette problématique à travers le scénario du dévracage industriel, dans lequel il convient de détecter des instances d'un objet rigide au sein d'un vrac et d'estimer leur pose -- c'est-à-dire leur position et orientation -- à des fins de manipulation robotisée.Nous développons pour ce faire une méthode basée sur l'exploitation d'une image de profondeur, procédant par agrégation d'hypothèses générées par un ensemble d'estimateurs locaux au moyen d'une forêt de décision.La pose d'un objet rigide est usuellement modélisée sous forme d'une transformation rigide 6D dans la littérature. Cette représentation se révèle cependant inadéquate lorsqu'il s'agit de traiter des objets présentant des symétries, pourtant nombreux parmi les objets manufacturés.Afin de contourner ces difficultés, nous introduisons une formulation de la notion de pose compatible avec tout objet rigide physiquement admissible, et munissons l'espace des poses d'une distance quantifiant la longueur du plus petit déplacement entre deux poses. Ces notions fournissent un cadre théorique rigoureux à partir duquel nous développons des outils permettant de manipuler efficacement le concept de pose, et constituent le socle de notre approche du problème du dévracage.Les standards d'évaluation utilisés dans l'état de l'art souffrant de certaines limitations et n'étant que partiellement adaptés à notre contexte applicatif, nous proposons une méthodologie d'évaluation adaptée à des scènes présentant un nombre variable d'instances d'objet arbitraire, potentiellement occultées. Nous mettons celle-ci en œuvre sur des données synthétiques et réelles, et montrons la viabilité de la méthode proposée, compatible avec les problématiques de temps de cycle, de performance et de simplicité de mise en œuvre du dévracage industriel. / Visual object detection and estimation of their poses -- i.e. position and orientation for a rigid object -- is of utmost interest for automatic scene understanding.In this thesis, we address this topic through the bin-picking scenario, in which instances of a rigid object have to be automatically detected and localized in bulk, so as to be manipulated by a robot for various industrial tasks such as machine feeding, assembling, packing, etc.To this aim, we propose a novel method for object detection and pose estimation given an input depth image, based on the aggregation of local predictions through an Hough forest technique, that is suitable with industrial constraints of performance and ease of use.Overcoming limitations of existing approaches that assume objects not to have any proper symmetries, we develop a theoretical and practical framework enabling us to consider any physical rigid object, thanks to a novel definition of the notion of pose and an associated distance.This framework provides tools to deal with poses efficiently for operations such as pose averaging or neighborhood queries, and is based on rigorous mathematical developments.Evaluation benchmarks used in the literature are not very representative of our application scenario and suffer from some intrinsic limitations, therefore we formalize a methodology suited for scenes in which many object instances, partially occluded, in arbitrary poses may be considered. We apply this methodology on real and synthetic data, and demonstrate the soundness of our approach compared to the state of the art.
|
9 |
Utilisation de miroirs dans un système de reconstruction interactifEpstein, Emric January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
10 |
Vérification automatique des montages d'usinage par vision : application à la sécurisation de l'usinage / Vision-based automatic verification of machining setup : application to machine tools safetyKarabagli, Bilal 06 November 2013 (has links)
Le terme "usinage à porte fermée", fréquemment employé par les PME de l’aéronautique et de l’automobile, désigne l’automatisation sécurisée du processus d’usinage des pièces mécaniques. Dans le cadre de notre travail, nous nous focalisons sur la vérification du montage d’usinage, avant de lancer la phase d’usinage proprement dite. Nous proposons une solution sans contact, basée sur la vision monoculaire (une caméra), permettant de reconnaitre automatiquement les éléments du montage (brut à usiner, pions de positionnement, tiges de fixation,etc.), de vérifier que leur implantation réelle (réalisée par l’opérateur) est conforme au modèle 3D numérique de montage souhaité (modèle CAO), afin de prévenir tout risque de collision avec l’outil d’usinage. / In High Speed Machining it is of key importance to avoid any collision between the machining tool and the machining setup. If the machining setup has not been assembled correctly by the operator and is not conform to the 3D CAD model sent to the machining unit, such collisions can occur. We have developed a vision system, that utilizes a single camera, to automatically check the conformity of the actual machining setup within the desired 3D CAD model, before launching the machining operation. First, we propose a configuration of the camera within the machining setup to ensure a best acquisition of the scene. In the aim to segmente the image in regions of interest, e.g. regions of the clamping elements and piece, based-on 3D CAD model, we realise a matching between graphes, theorical and real graphe computed from theorical image of 3D-CAD model and real image given by real camera. The graphs are constructed from a simple feature, such as circles and lines, that are manely present in the machining setup. In the aim to define the regions of interest (ROI) in real image within ROI given by 3D CAD model, we project a 3D CAD model in the real image, e.g. augmented reality. To automatically check the accordance between every region defined, we propose to compute three parametres, such as skeleton to represente the form, edges to represent a geometry and Area to represent dimension. We compute a score of accordance between three parameters that will be analyzed in fuzzy system to get a decision of conformity of the clamping element within it definition given in the CAD model. Some cases of machining setup configurations require 3D information to test the trajectory of the machine tool. To get out this situation, we have proposed a new depth from defocus based-method to compute a depth map of the scene. Finally, we present the result of our solution and we show the feasibility and robustness of the proposed solution in differents case of machining setup.
|
Page generated in 0.1621 seconds