21 |
Data-driven 3D reasoning for augmented realityGaron, Mathieu 15 September 2022 (has links)
La réalité augmentée (RA) est un paradigme informatique non conventionnel dans lequel l’utilisateur interagit naturellement avec des ordinateurs en visualisant des informations en 3D et en interagissant physiquement avec du contenu virtuel. L’insertion de contenu 3D dans l’environnement nécessite que l’appareil informatique mesure le monde qui nous entoure. Les capteurs sont cependant physiquement limités et renvoient des informations brutes incomplètes ou complexes. Distiller ces données en concepts plus abstraits est donc nécessaire pour permettre de raisonner sur des concepts tels que la géométrie ou l’interaction de la lumière avec la scène. Dans cette thèse, nous explorons une question critique dans le contexte de la RA : comment les caméras de qualité grand public et les approches basées sur les données peuvent-elles être combinées pour parvenir à un raisonnement 3D du monde pour les problèmes fondamentaux de la RA ? Nous répondons à cette affirmation en nous concentrant sur trois objectifs importants couramment rencontrés dans la plupart des applications de réalité augmentée. Tout d’abord, nous estimons une pose 3D robuste de diverses instances d’objets dans des séquences temporelles à l’aide d’une seule caméra RGB-D. Notre nouvelle méthode d’apprentissage par réseaux profond permet une estimation robuste et précise de la pose malgré la présence d’occlusion. De plus, nous améliorons la stratégie d’évaluation de suiveurs d’objets en six degrées de libertés avec une méthodologie méticuleuse et un nouvel ensemble de données. Nous démontrons que l’utilisation du système de coordonnées de l’objet estimé nous permet d’éffectuer le rendu de contenu virtuel sur des objets inanimés. Deuxièmement, nous détectons les articulations du haut du corps en 3D à l’aide d’un casque de réalité virtuelle muni de plusieurs caméras pour améliorer les interactions entre le contenu humain et virtuel. Notre méthode tire partie des multiples caméras à large champ de vision sur l’appareil pour estimer une position 3D précise des articulations du corps de l’utilisateur. L’architecture du réseau neuronal utilise explicitement la géométrie projective de chaque caméra pour estimer les caractéristiques 3D pouvant être utilisées lors de la régression des positions des différentes articulations ainsi que d’autres tâches telles que la segmentation du corps. Nos expériences démontrent que l’utilisation de sources de supervision faibles améliore la précision du suiveur tout en permettant de collecter des données qui ne contiennent pas de position d’articulation 3D en vérité terrain. Enfin, nous proposons une méthode pour raisonner sur des conditions de lumière variant dans l’espace à partir d’une seule image couleur. Estimer uniquement l’éclairage global n’est pas précis lorsque les sources lumineuses sont proches du sujet et lorsque les objets de la scène occultent les sources lumineuses, un scénario courant dans les scènes d’intérieur. Notre méthode prend une image couleur et une coordonnée iii d’image 2D comme entrée pour estimer une représentation harmonique sphérique de la lumière à ce point de la scène. Nous montrons que les prédictions sont cohérentes avec les sources de lumière 3D et l’occlusion. La méthode est également une solution en temps réel en utilisant une architecture légère et des harmoniques sphériques pour effectuer des rendus rapidement. Chacun de ces objectifs est soutenu par des expériences approfondies et des analyses de résultats et, espérons-le, aide à combler le fossé vers de meilleures expériences utilisateur en RA. / Augmented Reality (AR) is an unconventional computing paradigm where the user interacts naturally with machines by visualizing information in 3D and physically interacting with virtual content. Inserting 3D content in the environment requires the computing device to measure the world surrounding us. Sensors are however physically limited and return incomplete or complex raw information. Distilling this data in more abstract concepts is thus mandatory to allow reasoning about numerous concepts such as geometry or light interaction with the scene. In this thesis, we explore a critical question in the context of AR: how consumer grade cameras and data-driven approaches can be combined to achieve 3D reasoning of the world for fundamental AR problems? We address this statement by focusing on three important objectives commonly encountered in most augmented reality applications. First, we estimate a robust 3D pose of various object instances in temporal sequences using a single RGB-D camera. Our novel deep learning framework allows robust and accurate pose estimation despite the presence of occlusion. We further improve the evaluation strategy of 6 DOF object trackers with a meticulous methodology and challenging new dataset. We demonstrate that using the estimated object reference allows us to render virtual content over inanimate objects. Second, we detect the upper body joints in 3D using an off-the-shelf head mounted display (HMD) to improve human and virtual content interactions. Our method takes advantage of the multiple wide field of view cameras on the HMD to estimate an accurate 3D position of the user body joints. The neural network architecture explicitly uses the projective geometry of each cameras to estimate 3D features that can be used to regress the joint position and other tasks such as body segmentation. Our experiments demonstrate that using weak sources of supervision enhance the accuracy of the tracker while allowing to gather data that does not contain ground truth 3D joint position. Finally, we propose a method to reason about spatially-varying light conditions from a single RGB image. Estimating only global lighting does not provide accurate illumination when light sources are near the subject and when objects in the scene occlude the light sources, a common scenario in indoor scenes. Our method takes an RGB image and 2D image coordinate as input to estimate a spherical harmonic representation of light at that point in the scene. We show that the predictions are consistent with 3D light sources and occlusion. The method is also a real-time solution for the full render pipeline by using a lightweight architecture and spherical harmonics. Each of these objectives is supported by extensive experiments and result analyzes and hopefully help closing the gap to better AR experiences.
|
22 |
Data-driven 3D reasoning for augmented realityGaron, Mathieu 13 December 2023 (has links)
La réalité augmentée (RA) est un paradigme informatique non conventionnel dans lequel l'utilisateur interagit naturellement avec des ordinateurs en visualisant des informations en 3D et en interagissant physiquement avec du contenu virtuel. L'insertion de contenu 3D dans l'environnement nécessite que l'appareil informatique mesure le monde qui nous entoure. Les capteurs sont cependant physiquement limités et renvoient des informations brutes incomplètes ou complexes. Distiller ces données en concepts plus abstraits est donc nécessaire pour permettre de raisonner sur des concepts tels que la géométrie ou l'interaction de la lumière avec la scène. Dans cette thèse, nous explorons une question critique dans le contexte de la RA : comment les caméras de qualité grand public et les approches basées sur les données peuvent-elles être combinées pour parvenir à un raisonnement 3D du monde pour les problèmes fondamentaux de la RA ? Nous répondons à cette affirmation en nous concentrant sur trois objectifs importants couramment rencontrés dans la plupart des applications de réalité augmentée. Tout d'abord, nous estimons une pose 3D robuste de diverses instances d'objets dans des séquences temporelles à l'aide d'une seule caméra RGB-D. Notre nouvelle méthode d'apprentissage par réseaux profond permet une estimation robuste et précise de la pose malgré la présence d'occlusion. De plus, nous améliorons la stratégie d'évaluation de suiveurs d'objets en six degrées de libertés avec une méthodologie méticuleuse et un nouvel ensemble de données. Nous démontrons que l'utilisation du système de coordonnées de l'objet estimé nous permet d'éffectuer le rendu de contenu virtuel sur des objets inanimés. Deuxièmement, nous détectons les articulations du haut du corps en 3D à l'aide d'un casque de réalité virtuelle muni de plusieurs caméras pour améliorer les interactions entre le contenu humain et virtuel. Notre méthode tire partie des multiples caméras à large champ de vision sur l'appareil pour estimer une position 3D précise des articulations du corps de l'utilisateur. L'architecture du réseau neuronal utilise explicitement la géométrie projective de chaque caméra pour estimer les caractéristiques 3D pouvant être utilisées lors de la régression des positions des différentes articulations ainsi que d'autres tâches telles que la segmentation du corps. Nos expériences démontrent que l'utilisation de sources de supervision faibles améliore la précision du suiveur tout en permettant de collecter des données qui ne contiennent pas de position d'articulation 3D en vérité terrain. Enfin, nous proposons une méthode pour raisonner sur des conditions de lumière variant dans l'espace à partir d'une seule image couleur. Estimer uniquement l'éclairage global n'est pas précis lorsque les sources lumineuses sont proches du sujet et lorsque les objets de la scène occultent les sources lumineuses, un scénario courant dans les scènes d'intérieur. Notre méthode prend une image couleur et une coordonnée d'image 2D comme entrée pour estimer une représentation harmonique sphérique de la lumière à ce point de la scène. Nous montrons que les prédictions sont cohérentes avec les sources de lumière 3D et l'occlusion. La méthode est également une solution en temps réel en utilisant une architecture légère et des harmoniques sphériques pour effectuer des rendus rapidement. Chacun de ces objectifs est soutenu par des expériences approfondies et des analyses de résultats et, espérons-le, aide à combler le fossé vers de meilleures expériences utilisateur en RA. / Augmented Reality (AR) is an unconventional computing paradigm where the user interacts naturally with machines by visualizing information in 3D and physically interacting with virtual content. Inserting 3D content in the environment requires the computing device to measure the world surrounding us. Sensors are however physically limited and return incomplete or complex raw information. Distilling this data in more abstract concepts is thus mandatory to allow reasoning about numerous concepts such as geometry or light interaction with the scene. In this thesis, we explore a critical question in the context of AR: how consumer grade cameras and data-driven approaches can be combined to achieve 3D reasoning of the world for fundamental AR problems? We address this statement by focusing on three important objectives commonly encountered in most augmented reality applications. First, we estimate a robust 3D pose of various object instances in temporal sequences using a single RGB-D camera. Our novel deep learning framework allows robust and accurate pose estimation despite the presence of occlusion. We further improve the evaluation strategy of 6 DOF object trackers with a meticulous methodology and challenging new dataset. We demonstrate that using the estimated object reference allows us to render virtual content over inanimate objects. Second, we detect the upper body joints in 3D using an off-the-shelf head mounted display (HMD) to improve human and virtual content interactions. Our method takes advantage of the multiple wide field of view cameras on the HMD to estimate an accurate 3D position of the user body joints. The neural network architecture explicitly uses the projective geometry of each cameras to estimate 3D features that can be used to regress the joint position and other tasks such as body segmentation. Our experiments demonstrate that using weak sources of supervision enhance the accuracy of the tracker while allowing to gather data that does not contain ground truth 3D joint position. Finally, we propose a method to reason about spatially-varying light conditions from a single RGB image. Estimating only global lighting does not provide accurate illumination when light sources are near the subject and when objects in the scene occlude the light sources, a common scenario in indoor scenes. Our method takes an RGB image and 2D image coordinate as input to estimate a spherical harmonic representation of light at that point in the scene. We show that the predictions are consistent with 3D light sources and occlusion. The method is also a real-time solution for the full render pipeline by using a lightweight architecture and spherical harmonics. Each of these objectives is supported by extensive experiments and result analyzes and hopefully help closing the gap to better AR experiences.
|
23 |
3D Reasoning for Indoor Lighting EstimationWeber, Henrique 26 March 2024 (has links)
Titre de l'écran-titre (visionné le 10 octobre 2023) / Comprendre l'éclairage intérieur est fondamental pour une variété de tâches. Cela peut avoir un impact significatif sur la segmentation sémantique, la décomposition intrinsèque des images, la navigation des robots, les effets spéciaux pour les films, et bien plus encore. L'estimer à partir d'une seule photographie est un problème mal posé, car de nombreuses combinaisons de lumière, de géométrie et de propriétés des matériaux peuvent conduire à la même image. Les travaux antérieurs se concentrent principalement sur le placement de matériel spécialisé dans la scène avant la séance photo, ce qui nécessite d'avoir accès à la scène, ou de modéliser la lumière avec des caractéristiques conçues manuellement. Récemment, l'apprentissage profond a été utilisé pour récupérer automatiquement ces caractéristiques à partir d'ensembles de données sans avoir besoin de matériel supplémentaire, et a fourni des résultats prometteurs. La majorité des travaux, cependant, ne se concentrent que sur l'aspect couleur de l'image et négligent d'autres propriétés comme la géométrie de la scène, qui peut maintenant être facilement estimée avec des approches standard. Dans cette thèse, nous explorons les avantages de l'intégration d'informations 3D dans le processus d'estimation de la lumière. Cela se fait avec les trois sous-objectifs suivants : 1) récupérer automatiquement une texture d'environnement HDR à partir de la couleur et de la géométrie d'un objet connu, 2) estimer une lumière éditable qui combine une représentation paramétrique et non paramétrique à l'aide de la disposition 3D de la scène, et 3) développer une représentation personnalisée conçue spécifiquement pour les panoramas 360° RGB-D. Nous effectuons des expériences approfondies pour valider nos hypothèses, les comparer à d'autres approches et montrer les contributions de l'utilisation de la 3D pour l'estimation de la lumière. / Understanding indoor lighting is fundamental for a variety of tasks. It can significantly impact semantic segmentation, intrinsic image decomposition, robot navigation, special effects for movies, and much more. Estimating it from a single photograph is an ill-posed problem, since many combinations of light, geometry, and material properties can lead to the same picture. Previous work mainly focus on placing specialized hardware in the scene before the photo shoot, which requires having access to the scene, or to model light with hand-crafted features. Recently, Deep Learning has been used to automatically retrieve these features from datasets without the need of additional hardware, and delivered promissing results. The majority of works, however, only focus on the color intensity of the photograph and neglect other properties like the scene geometry, which can be now easily estimated with off-the-shelf approaches. In this thesis, we explore the benefits of incorporating 3D information into the light estimation process. This is done with the following three sub-objectives: 1) automatically recover an HDR environment texture from the color and geometry of a known object, 2) estimate an editable light that combines a parametric and a non-parametric representation with the help of indoor 3D layouts, and 3) develop a customized representation designed specifically for 360° RGB-D panoramas. We perform extensive experiments to validate our assumptions, compare to other approaches, and show the contributions of leveraging 3D for light estimation.
|
24 |
Contributions à la vision par ordinateur tridimensionnelleBorianne, Paul-Louis. Latombe, Jean-Claude. January 2008 (has links)
Reproduction de : Thèse de 3e cycle : informatique : Grenoble, INPG : 1984. / Titre provenant de l'écran-titre. Bibliogr. p. 105-109.
|
25 |
"La fenêtre brisée" : traité de perspective appliquée à l'holographie de synthèseDesbiens, Jacques 11 1900 (has links) (PDF)
La Fenêtre Brisée est un Traité de Perspective Appliquée à l'Holographie de Synthèse. Cette approche de la représentation spatiale met à contribution la géométrie, l'optique diffractive et l'infographie 30 pour produire des hologrammes de synthèse composés de centaines de vues sur une scène tridimensionnelle. L'opticité et la spatialité de ces hologrammes sont caractérisées par le volume, la multiplicité des points de vue et la nomadicité de l'observation. Au-delà de l'analyse des fondements perspectivistes de l'holographie de synthèse, ma thèse développe l'hypothèse que tous les procédés de représentation optique de l'espace tridimensionnel se définissent par leurs dispositifs de présentation de l'image. Ces dispositifs se regroupent sous trois formes : la fenêtre, l'environnement et l'objet. Ils décrivent la géométrie du dispositif alors que leurs corollaires, « devant », « dans » et « autour », sont des concepts qui décrivent la relation spatiale entre l'observateur et le dispositif. Les quatre premiers chapitres de cette thèse examinent les bases historiques, méthodologiques et structurelles qui préfigurent et soutiennent le développement d'une perspective à multiple points de vue. Les postulats présentés au chapitre cinq ont pour objectif de soutenir l'expérimentation de l'holographie synthétique dans la composition d'images tirant avantage des attributs optiques, spatiaux, cinétiques et interactifs de la perspective holographique. Ces postulats sont issus de mes expérimentations holographiques en lien avec mes dessins et mes photographies qui sont traités plus spécifiquement dans le chapitre six. La conclusion fait le point sur le volet exposition de la thèse et un glossaire des principaux termes spécialisés est présenté en Annexe. Cet ouvrage s'inscrit dans la tradition des Traités de dessin, de perspective et d'optique qui ont habité l'histoire des méthodes de représentation. Optique et géométrie, art et science, Orient et Occident, recherche historique et expérimentation s'y rencontrent dans une multitude de procédés et de dispositifs artistiques.
______________________________________________________________________________
|
26 |
Couplage de données laser aéroporté et photogrammétriques pour l'analyse de scènes tridimensionnelles /Bretar, Frédéric. January 1900 (has links)
Thèse de doctorat--Signal et images--Paris--ENST, 2006. / Bibliogr. p. 153-166. Résumé en français et en anglais.
|
27 |
Caractérisation et modélisation de la sensibilité du macrophage alvéolaire aux propriétés mécaniques et adhésives du substratFéréol, Sophie Isabey, Daniel Planus, Emmanuelle. January 2005 (has links) (PDF)
Thèse de doctorat : Mécanique. Biophysique-Biomécanique : Paris 12 : 2005. / Titre provenant de l'écran-titre. Pagination : 151 f. Bibliogr. f. 142-151.
|
28 |
Modélisation et quantification tridimensionnelles des écarts de fabrication pour la simulation d'usinageTichadou, Stéphane Hascoët, Jean-Yves. Legoff, Olivier. January 2005 (has links)
Thèse doctorat : Génie mécanique : Nantes : 2005. / Bibliographie p. 211-219. Index.
|
29 |
Échographie tridimensionnelle /Robert, Bruno, January 2000 (has links)
Th. doct.--Signal et images--Paris--ENST, 1999. / Bibliogr. p. 57-67, p. 105 et p. 181-186. Résumé.
|
30 |
Reconstitution de l'image d'un objet biologique à partir de la mesure du champ diffracté.Wang, Shaoqi, January 1900 (has links)
Th. doct.-ing.--Électron.--Grenoble--I.N.P., 1983. N°: DI 361.
|
Page generated in 0.1009 seconds