• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 81
  • 28
  • 6
  • Tagged with
  • 116
  • 116
  • 53
  • 49
  • 48
  • 35
  • 31
  • 29
  • 28
  • 23
  • 19
  • 19
  • 17
  • 17
  • 16
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Data-driven 3D reasoning for augmented reality

Garon, Mathieu 15 September 2022 (has links)
La réalité augmentée (RA) est un paradigme informatique non conventionnel dans lequel l’utilisateur interagit naturellement avec des ordinateurs en visualisant des informations en 3D et en interagissant physiquement avec du contenu virtuel. L’insertion de contenu 3D dans l’environnement nécessite que l’appareil informatique mesure le monde qui nous entoure. Les capteurs sont cependant physiquement limités et renvoient des informations brutes incomplètes ou complexes. Distiller ces données en concepts plus abstraits est donc nécessaire pour permettre de raisonner sur des concepts tels que la géométrie ou l’interaction de la lumière avec la scène. Dans cette thèse, nous explorons une question critique dans le contexte de la RA : comment les caméras de qualité grand public et les approches basées sur les données peuvent-elles être combinées pour parvenir à un raisonnement 3D du monde pour les problèmes fondamentaux de la RA ? Nous répondons à cette affirmation en nous concentrant sur trois objectifs importants couramment rencontrés dans la plupart des applications de réalité augmentée. Tout d’abord, nous estimons une pose 3D robuste de diverses instances d’objets dans des séquences temporelles à l’aide d’une seule caméra RGB-D. Notre nouvelle méthode d’apprentissage par réseaux profond permet une estimation robuste et précise de la pose malgré la présence d’occlusion. De plus, nous améliorons la stratégie d’évaluation de suiveurs d’objets en six degrées de libertés avec une méthodologie méticuleuse et un nouvel ensemble de données. Nous démontrons que l’utilisation du système de coordonnées de l’objet estimé nous permet d’éffectuer le rendu de contenu virtuel sur des objets inanimés. Deuxièmement, nous détectons les articulations du haut du corps en 3D à l’aide d’un casque de réalité virtuelle muni de plusieurs caméras pour améliorer les interactions entre le contenu humain et virtuel. Notre méthode tire partie des multiples caméras à large champ de vision sur l’appareil pour estimer une position 3D précise des articulations du corps de l’utilisateur. L’architecture du réseau neuronal utilise explicitement la géométrie projective de chaque caméra pour estimer les caractéristiques 3D pouvant être utilisées lors de la régression des positions des différentes articulations ainsi que d’autres tâches telles que la segmentation du corps. Nos expériences démontrent que l’utilisation de sources de supervision faibles améliore la précision du suiveur tout en permettant de collecter des données qui ne contiennent pas de position d’articulation 3D en vérité terrain. Enfin, nous proposons une méthode pour raisonner sur des conditions de lumière variant dans l’espace à partir d’une seule image couleur. Estimer uniquement l’éclairage global n’est pas précis lorsque les sources lumineuses sont proches du sujet et lorsque les objets de la scène occultent les sources lumineuses, un scénario courant dans les scènes d’intérieur. Notre méthode prend une image couleur et une coordonnée iii d’image 2D comme entrée pour estimer une représentation harmonique sphérique de la lumière à ce point de la scène. Nous montrons que les prédictions sont cohérentes avec les sources de lumière 3D et l’occlusion. La méthode est également une solution en temps réel en utilisant une architecture légère et des harmoniques sphériques pour effectuer des rendus rapidement. Chacun de ces objectifs est soutenu par des expériences approfondies et des analyses de résultats et, espérons-le, aide à combler le fossé vers de meilleures expériences utilisateur en RA. / Augmented Reality (AR) is an unconventional computing paradigm where the user interacts naturally with machines by visualizing information in 3D and physically interacting with virtual content. Inserting 3D content in the environment requires the computing device to measure the world surrounding us. Sensors are however physically limited and return incomplete or complex raw information. Distilling this data in more abstract concepts is thus mandatory to allow reasoning about numerous concepts such as geometry or light interaction with the scene. In this thesis, we explore a critical question in the context of AR: how consumer grade cameras and data-driven approaches can be combined to achieve 3D reasoning of the world for fundamental AR problems? We address this statement by focusing on three important objectives commonly encountered in most augmented reality applications. First, we estimate a robust 3D pose of various object instances in temporal sequences using a single RGB-D camera. Our novel deep learning framework allows robust and accurate pose estimation despite the presence of occlusion. We further improve the evaluation strategy of 6 DOF object trackers with a meticulous methodology and challenging new dataset. We demonstrate that using the estimated object reference allows us to render virtual content over inanimate objects. Second, we detect the upper body joints in 3D using an off-the-shelf head mounted display (HMD) to improve human and virtual content interactions. Our method takes advantage of the multiple wide field of view cameras on the HMD to estimate an accurate 3D position of the user body joints. The neural network architecture explicitly uses the projective geometry of each cameras to estimate 3D features that can be used to regress the joint position and other tasks such as body segmentation. Our experiments demonstrate that using weak sources of supervision enhance the accuracy of the tracker while allowing to gather data that does not contain ground truth 3D joint position. Finally, we propose a method to reason about spatially-varying light conditions from a single RGB image. Estimating only global lighting does not provide accurate illumination when light sources are near the subject and when objects in the scene occlude the light sources, a common scenario in indoor scenes. Our method takes an RGB image and 2D image coordinate as input to estimate a spherical harmonic representation of light at that point in the scene. We show that the predictions are consistent with 3D light sources and occlusion. The method is also a real-time solution for the full render pipeline by using a lightweight architecture and spherical harmonics. Each of these objectives is supported by extensive experiments and result analyzes and hopefully help closing the gap to better AR experiences.
2

Data-driven 3D reasoning for augmented reality

Garon, Mathieu 15 September 2022 (has links)
La réalité augmentée (RA) est un paradigme informatique non conventionnel dans lequel l'utilisateur interagit naturellement avec des ordinateurs en visualisant des informations en 3D et en interagissant physiquement avec du contenu virtuel. L'insertion de contenu 3D dans l'environnement nécessite que l'appareil informatique mesure le monde qui nous entoure. Les capteurs sont cependant physiquement limités et renvoient des informations brutes incomplètes ou complexes. Distiller ces données en concepts plus abstraits est donc nécessaire pour permettre de raisonner sur des concepts tels que la géométrie ou l'interaction de la lumière avec la scène. Dans cette thèse, nous explorons une question critique dans le contexte de la RA : comment les caméras de qualité grand public et les approches basées sur les données peuvent-elles être combinées pour parvenir à un raisonnement 3D du monde pour les problèmes fondamentaux de la RA ? Nous répondons à cette affirmation en nous concentrant sur trois objectifs importants couramment rencontrés dans la plupart des applications de réalité augmentée. Tout d'abord, nous estimons une pose 3D robuste de diverses instances d'objets dans des séquences temporelles à l'aide d'une seule caméra RGB-D. Notre nouvelle méthode d'apprentissage par réseaux profond permet une estimation robuste et précise de la pose malgré la présence d'occlusion. De plus, nous améliorons la stratégie d'évaluation de suiveurs d'objets en six degrées de libertés avec une méthodologie méticuleuse et un nouvel ensemble de données. Nous démontrons que l'utilisation du système de coordonnées de l'objet estimé nous permet d'éffectuer le rendu de contenu virtuel sur des objets inanimés. Deuxièmement, nous détectons les articulations du haut du corps en 3D à l'aide d'un casque de réalité virtuelle muni de plusieurs caméras pour améliorer les interactions entre le contenu humain et virtuel. Notre méthode tire partie des multiples caméras à large champ de vision sur l'appareil pour estimer une position 3D précise des articulations du corps de l'utilisateur. L'architecture du réseau neuronal utilise explicitement la géométrie projective de chaque caméra pour estimer les caractéristiques 3D pouvant être utilisées lors de la régression des positions des différentes articulations ainsi que d'autres tâches telles que la segmentation du corps. Nos expériences démontrent que l'utilisation de sources de supervision faibles améliore la précision du suiveur tout en permettant de collecter des données qui ne contiennent pas de position d'articulation 3D en vérité terrain. Enfin, nous proposons une méthode pour raisonner sur des conditions de lumière variant dans l'espace à partir d'une seule image couleur. Estimer uniquement l'éclairage global n'est pas précis lorsque les sources lumineuses sont proches du sujet et lorsque les objets de la scène occultent les sources lumineuses, un scénario courant dans les scènes d'intérieur. Notre méthode prend une image couleur et une coordonnée d'image 2D comme entrée pour estimer une représentation harmonique sphérique de la lumière à ce point de la scène. Nous montrons que les prédictions sont cohérentes avec les sources de lumière 3D et l'occlusion. La méthode est également une solution en temps réel en utilisant une architecture légère et des harmoniques sphériques pour effectuer des rendus rapidement. Chacun de ces objectifs est soutenu par des expériences approfondies et des analyses de résultats et, espérons-le, aide à combler le fossé vers de meilleures expériences utilisateur en RA. / Augmented Reality (AR) is an unconventional computing paradigm where the user interacts naturally with machines by visualizing information in 3D and physically interacting with virtual content. Inserting 3D content in the environment requires the computing device to measure the world surrounding us. Sensors are however physically limited and return incomplete or complex raw information. Distilling this data in more abstract concepts is thus mandatory to allow reasoning about numerous concepts such as geometry or light interaction with the scene. In this thesis, we explore a critical question in the context of AR: how consumer grade cameras and data-driven approaches can be combined to achieve 3D reasoning of the world for fundamental AR problems? We address this statement by focusing on three important objectives commonly encountered in most augmented reality applications. First, we estimate a robust 3D pose of various object instances in temporal sequences using a single RGB-D camera. Our novel deep learning framework allows robust and accurate pose estimation despite the presence of occlusion. We further improve the evaluation strategy of 6 DOF object trackers with a meticulous methodology and challenging new dataset. We demonstrate that using the estimated object reference allows us to render virtual content over inanimate objects. Second, we detect the upper body joints in 3D using an off-the-shelf head mounted display (HMD) to improve human and virtual content interactions. Our method takes advantage of the multiple wide field of view cameras on the HMD to estimate an accurate 3D position of the user body joints. The neural network architecture explicitly uses the projective geometry of each cameras to estimate 3D features that can be used to regress the joint position and other tasks such as body segmentation. Our experiments demonstrate that using weak sources of supervision enhance the accuracy of the tracker while allowing to gather data that does not contain ground truth 3D joint position. Finally, we propose a method to reason about spatially-varying light conditions from a single RGB image. Estimating only global lighting does not provide accurate illumination when light sources are near the subject and when objects in the scene occlude the light sources, a common scenario in indoor scenes. Our method takes an RGB image and 2D image coordinate as input to estimate a spherical harmonic representation of light at that point in the scene. We show that the predictions are consistent with 3D light sources and occlusion. The method is also a real-time solution for the full render pipeline by using a lightweight architecture and spherical harmonics. Each of these objectives is supported by extensive experiments and result analyzes and hopefully help closing the gap to better AR experiences.
3

Utilisation d'un casque de réalité augmentée lors de la numérisation avec un scanner 3D portable

Isabelle, Jérome 03 February 2021 (has links)
Un scanner 3D portable est un appareil manuel qui permet de convertir un objet réel en un modèle 3D numérique de l’objet. De nos jours, les scanners 3D portables sont utilisés dans plusieurs secteurs de notre société, comme l’industrie manufacturière, la santé, le divertissement ou l’archéologie. Pour numériser un objet, l’utilisateur doit pointer le scanner vers l’objet et le déplacer autour de l’objet afin d’acquérir l’entièreté de sa surface. Pour faciliter la tâche de l’utilisateur, la plupart des scanners 3D portables modernes comprennent une interface graphique qui offre une visualisation de la surface reconstruite en temps réel. Cette rétroaction est essentielle car elle permet à l’utilisateur d’ajuster la trajectoire du scanner en fonction de ce qui reste à numériser. Or, l’écran comporte certains inconvénients sur le plan de l’utilisabilité. Dans ce projet de recherche, nous proposons donc une alternative aux écrans en exploitant la technologie des casques de réalité augmentée. Notre solution consiste à superposer le scan directement par-dessus l’objet réel grâce au casque de réalité augmentée. Afin de valider la faisabilité de la solution proposée, nous avons développé un prototype basé sur le système de reconstruction 3D KinectFusion et sur le système de réalité virtuelle HTC Vive Pro. / A portable 3D scanner is a handheld device that can convert a real object into a digital 3D model of the object. Nowadays, portable 3D scanners are used in many sectors of our society, such as manufacturing, healthcare, entertainment or archeology. To scan an object, the user must point the scanner at the object and move it around the object in order to acquire the entirety of its surface. To help the user accomplish this task, most modern portable 3D scanners include a graphical user interface that offers a visualization of the reconstructed surface in real time. This feedback is essential since it allows the user to adjust the trajectory of the scanner depending on what remains to be scanned. However, the computer screen has some drawbacks in terms of usability. In this research project, we propose an alternative to computer screens by using augmented reality headsets. Our solution is to superimpose the scan directly over the real object using an augmented reality headset. In order to validate the feasibility of the proposed solution, we have developed a prototype based on the KinectFusion 3D reconstruction system and the HTC Vive Pro virtual reality system.
4

Réalité augmentée automatique à partir d'une séquence vidéo et utilisant la stéréoscopie dense

Holloway, Patrick January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
5

Interaction and introspection with tangible augmented objects / Intéraction et introspection avec des objets tangibles augmentés

Gervais, Renaud 09 December 2015 (has links)
La plupart des métiers du travail de l’information requièrent maintenant de passer la majeure partie de nos journée devant un écran. Ceci s’ajoute au temps déjà consacré à ce médium dans nos temps libres pour le divertissement et la communication, que ce soit en utilisant des téléphones intelligents, tablettes ou ordinateurs. Alors que les avancées technologiques dans le domaine des écrans tactiles nous ont permis d’interagir avec ces appareils de manière plus expressive, par exemple en utilisant nos doigts pour interagir directement avec le contenu numérique, ce que nous voyons et manipulons sur écran reste “intouchable” ; nos doigts ne pouvant pénétrer la surface de l’écran pour toucher le contenu numérique qui se trouve derrière. Pour que l’interaction avec le monde numérique soit écologique dans le futur, elle doit mettre à profit l’ensemble des différentes capacités de l’humain au lieu de ne se concentrer que sur certaines d’entre elles (comme le toucher et la vision), laissant les autres sens s’atrophier. Une façon de considérer le problème est d’utiliser le monde réel physique comme support pour le monde numérique, permettant d’imaginer un futur où les objets du quotidien auront de riches et expressives fonctions numériques, tout en étant ancrés dans le monde réel. La réalité augmentée spatiale est une modalité permettant d’aller dans cette direction. Cette thèse s’intéresse principalement à deux aspects en lien avec ces objets tangibles augmentés. Dans un premier temps, nous soulevons la question de comment interagir avec du contenu numérique lorsqu’il est supporté par des objets physiques. Comme point de départ de notre investigation, nous avons étudié différentes modalités qui utilisent des dispositifs d’entrée/sortie typiquement retrouvés dans un environnement de bureau. Cette approche est justifiée par le désir d’utiliser au maximum l’expérience que les utilisateurs ont déjà acquise avec leurs outils numériques tout en se dirigeant vers un espace d’interaction comprenant des éléments physiques. Dans un second temps, nous sommes allés au delà du thème de l’interaction avec le contenu numérique pour se questionner sur le potentiel des objets tangibles augmentés comme support pour un médium plus humain. Nous avons investigué comment ces artéfacts augmentés, combinés à différents capteurs physiologiques, pourraient permettre d’améliorer notre conscience des processus internes de notre corps et de notre esprit, pour éventuellement favoriser l’introspection. Cette partie a pris la forme de deux projets où un avatar tangible a été proposé pour laisser les utilisateurs explorer et personnaliser le retour d’information sur leurs propres états internes en temps réel. / Most of our waking hours are now spent staring at a screen. While the advances in touch screens have enabled a more expressive interaction space with our devices, by using our fingers to interact with digital content, what we see and manipulate on screen is still being kept away from us, locked behind a glassy surface. The range of capabilities of the human senses is much richer than what screens can currently offer. In order to be sustainable in the future, interaction with the digital world should leverage these human capabilities instead of letting them atrophy. One way to provide richer interaction and visualization modalities is to rely on the physical world itself as a host for digital content. Spatial Augmented Reality provides a technical mean towards this idea, by using projectors to shed digitally controlled light onto real-world objects to augment them and their environment with features and content. This paves the way to a future where everyday objects will be embedded with rich and expressive capabilities, while still being anchored in the real world. In this thesis, we are interested in two main aspects related to these tangible augmented objects. In a first time, we are raising the question on how to interact with digital content when it is hosted on physical objects. As a basis for our investigation, we studied interaction modalities that leverage traditional input and output devices found in a typical desktop environment. Our rationale for this approach is to leverage the experience of users with traditional digital tools – tools which researchers and developers spent decades to make simpler and more efficient to use – while at the same time steering towards a physically enriched interaction space. In a second time, we go beyond theinteraction with the digital content of augmented objects and reflect on their potential as a humane medium support. We investigate how these augmented artifacts, combined with physiological computing, can be used to raise our awareness of the processes of our own bodies and minds and, eventually, foster introspection activities. This took the form of two different projects where we used tangible avatars to let users explore and customize real-time physiological feedback of their own inner states.
6

Localisation et cartographie simultanées en vision monoculaire et en temps réel basé sur les structures planes

Servant, F. 18 June 2009 (has links) (PDF)
Le travail présenté dans ce manuscrit se situe dans le domaine de la réalité augmen- tée. Dans le contexte de la réalité augmentée, il est nécessaire de calculer la position relative entre la caméra et la scène en temps réel. Cette thèse présente une méthode complète de calcul de pose reposant sur l'utilisation de structures planes présentes dans les environnements urbains intérieurs et extérieurs. Le suivi de pose est effectué à l'aide d'une caméra bas coût et d'un capteur inertiel. Notre approche consiste à tirer parti des plans pour faciliter le calcul de la pose. Les homographies obtenues par un algorithme de suivi dans l'image de régions planes, présenté dans cette thèse, servent de mesures à notre méthode de localisation et car- tographie simultanées. Cette méthode de SLAM permet d'assurer un suivi de la pose robuste tout en permettant une reconstruction de la scène 3D et fonctionnant sur le long terme en propageant les incertitudes des mesures. Des travaux sur la sélection des régions à suivre et sur l'initialisation des paramètres des plans, correspondant à ces régions, sont également présentés. Des expériences en simulation et sur des séquences d'images réelles montrent la validité de notre approche.
7

Conception d'une interface avec réalité augmentée pour la conduite automobile autonome / Design of an interface with augmented reality for autonomous driving

Pokam Meguia, Raïssa 31 August 2018 (has links)
Cette thèse a été réalisée dans le cadre d’un projet intitulé Localisation et Réalité Augmentée (LRA). Mettant en relation plusieurs structures industrielles et universitaires, ce projet était appliqué à la fois au domaine ferroviaire et aux voitures autonomes. Elle aborde trois questions principales relatives à la conception des interfaces Humain-Machine dans les voitures autonomes : quelles informations faut-il présenter au conducteur ? Sous quelle forme ? À quel moment ou dans quel contexte ? Elle vise, au travers des réponses apportées à ces questions, à rendre le système « transparent », de façon à susciter une calibration de la confiance appropriée du conducteur en la voiture autonome mais aussi à susciter une expérience utilisateur satisfaisante. Nous nous sommes focalisés en particulier sur la tâche de changement de voie réalisée entièrement réalisée par la voiture autonome. Pour atteindre cet objectif, nous avons déployé une méthodologie comportant cinq étapes. Sur la base du modèle de LYONS (2013), des principes généraux de transparence ont été définis, et ont ensuite été opérationnalisées grâce à la démarche Cognitive Work Analysis. La forme des informations utiles ou potentiellement utiles au conducteur a été définie lors de de séances de créativité et en utilisant la Réalité Augmentée qui est au cœur du projet LRA. Ces informations ont été catégorisées selon les différentes fonctions dont elles résultent (prise d’information, analyse de l’information, prise de décision, implémentation de l’action). Cinq interfaces ont été conçues ; elles présentent des informations relevant de tout ou partie de ces 4 catégories. Elles représentent donc des niveaux de transparence plus ou moins élevés. La validité des principes de transparence a été éprouvée grâce à une expérimentation menée sur simulateur, auprès d’un échantillon de 45 personnes, durant laquelle différents indicateurs des activités cognitives et de l’Expérience Utilisateur ont été mesurés. L’analyse de ces données conduit à mettre en évidence des différences entre les cinq interfaces. L’interface présentant les informations issues des fonctions « prise d’information » et « implémentation de l’action » facilite les activités cognitives du conducteur/ Superviseur. Du point de vue de l’Expérience Utilisateur, c’est l’interface présentant toutes les catégories d’informations qui s’est distinguée des autres. / This doctoral thesis was conducted under the canopy of the Localization and Augmented Reality (LAR) project. The research project was focused on railway yard and autonomous vehicles. The thesis provides answers to three main questions about the Human-Machine interface design in autonomous vehicles: Which information should be conveyed to the human agent? In which form? And when? Answers will enable an appropriate trust calibration of the human agent in the autonomous vehicle and improve driver’s experience by making automation “transparent”. We focus especially on the lane changing task entirely realized by the autonomous vehicle. The aim and the objectives were achieved by a five-steps methodology. Some general principles of transparency have been redefined on the LYONS (2013) model. These principles have been then operationalized by means of Cognitive Work Analysis. Graphical representation of useful information or potentially useful information was defined during creative sessions, by using Augmented Reality that lies at the heart of the LAR project. This information was categorized according to the functions from which it results: information acquisition, information analysis, decision making and action execution. Five interfaces were designed. Each of these interfaces presents information from some of these functions. Therefore, these interfaces corresponded to different transparency configurations more or less high. The validity of transparency principles was tested through an experiment on driving simulator with a sample of 45 participants. In this experiment, some indicators of cognitive activities and User Experience were measured. Data analysis has led to some differences between 5 interfaces. Indeed, the interface with related information to “information acquisition” and “action execution” functions improves the cognitive activities of the human agent. Considering the User Experience, it is the interface with the information related from the 4 functions which provides the best User Experience.
8

Réalité augmentée et droits fondamentaux

Soufflard, Gauthier 22 May 2018 (has links)
L’objet de ce mémoire est d’étudier les relations entre les droits fondamentaux à travers l’usage de la réalité augmentée, et donc également les relations entre les droits fondamentaux et la réalité augmentée. Ce faisant, cela permet d’observer comment les droits fondamentaux, qui ont su évoluer face au numérique, sont susceptibles de s’adapter à la réalité augmentée, une technologie qui, bien qu’à ses balbutiements à l’heure de la rédaction de ce travail, s’avère novatrice, pleine de promesses mêlant réel et virtuel. A travers l’étude de la jurisprudence dans les univers physique et numérique, ce travail essayera de déduire les principes applicables à la réalité augmentée et ceux nécessiteront d’être adaptés par le juge, afin d’être au mieux garantis.
9

Estimation de pose omnidirectionnelle dans un contexte de réalité augmentée

Poirier, Stéphane 18 April 2018 (has links)
Estimer la pose de la caméra est un défi fondamental en réalité augmentée et permet la superposition d’un modèle à la réalité. Estimer précisément la pose est souvent critique en ingénierie d’infrastructures. Les images omnidirectionnelles ont un champ de vision supérieur aux images planaires communément utilisées en RA. Cette propriété peut bénéficier à l’estimation de la pose. Or, aucun travail ne présente de résultats montrant clairement un gain de précision. Notre objectif est de quantifier la précision de l’estimation de pose omnidirectionnelle et la tester en pratique. Nous proposons une méthode d’estimation de pose pour images omnidirectionnelles et en avons mesuré la précision par des simulations automatisées. Les résultats obtenus confirment que le champ de vision large des images omnidirectionnelles permet d’atteindre une précision de pose supérieure à celle d’images planaires. Nous avons également testé notre méthode sur des données tirées d’environnements réels et discutons les défis et limitations à son utilisation en pratique. / Camera pose estimation is a fundamental problem of augmented reality, and enables registration of a model to the reality. An accurate estimate of the pose is often critical in infrastructure engineering. Omnidirectional images cover a larger field of view than planar images commonly used in AR. This property can be beneficial to pose estimation. However, no existing work present results clearly showing accuracy gains. Our objective is therefore to quantify the accuracy of omnidirectional pose estimation and test it in practice. We propose a pose estimation method for omnidirectional images and have measured its accuracy using automated simulations. Our results show that the large field of view of omnidirectional images increases pose accuracy, compared to poses from planar images. We also tested our method in practice, using data from real environments and discuss challenges and limitations to its use in practice.
10

Analysis of camera pose estimation using 2D scene features for augmented reality applications

Meshkat Alsadat, Shabnam 03 July 2018 (has links)
La réalité augmentée (RA) a récemment eu un impact énorme sur les ingénieurs civils et les travailleurs de l'industrie de la construction, ainsi que sur leur interaction avec les plans ar-chitecturaux. La RA introduit une superposition du modèle 3D d'un bâtiment sur une image 2D non seulement comme une image globale, mais aussi potentiellement comme une repré-sentation complexe de ce qui va être construit et qui peut être visualisée par l'utilisateur. Pour insérer un modèle 3D, la caméra doit être localisée par rapport à son environnement. La lo-calisation de la caméra consiste à trouver les paramètres extérieurs de la caméra (i.e. sa po-sition et son orientation) par rapport à la scène observée et ses caractéristiques. Dans ce mémoire, des méthodes d'estimation de la pose de la caméra (position et orientation) par rapport à la scène utilisant des correspondances cercle-ellipse et lignes droites-lignes droites sont explorées. Les cercles et les lignes sont deux des caractéristiques géométriques qui sont principalement présentes dans les structures et les bâtiments. En fonction de la rela-tion entre les caractéristiques 3D et leurs images 2D correspondantes détectées dans l'image, la position et l'orientation de la caméra sont estimées. / Augmented reality (AR) had recently made a huge impact on field engineers and workers in construction industry, as well as the way they interact with architectural plans. AR brings in a superimposition of the 3D model of a building onto the 2D image not only as the big picture, but also as an intricate representation of what is going to be built. In order to insert a 3D model, the camera has to be localized regarding its surroundings. Camera localization con-sists of finding the exterior parameters (i.e. its position and orientation) of the camera with respect to the viewed scene and its characteristics. In this thesis, camera pose estimation methods using circle-ellipse and straight line corre-spondences has been investigated. Circles and lines are two of the geometrical features that are mostly present in structures and buildings. Based on the relationship between the 3D features and their corresponding 2D data detected in the image, the position and orientation of the camera is estimated.

Page generated in 0.11 seconds