Return to search

Learning to estimate indoor illumination

La création d’images combinant éléments réels et virtuels ne peut être faite de manière réaliste qu’en connaissant les conditions d’illumination de la scène sous-jacente. En effet, les engins de rendu requièrent cette information afin d’ajuster l’apparence des objets virtuels de telle manière qu’ils s’incorporent naturellement à l’environnement, réel celui-là, qui les entoure. Par conséquent, toute erreur dans l’estimation de la lumière peut en quelque sorte briser l’illusion et révéler la présence d’objets insérés. À l’heure où les créations artistiques générées par ordinateur commencent à peine à apparaître authentiquement réalistes, il est plus important que jamais pour les artistes d’avoir accès à une estimation réaliste et précise des conditions d’illumination. Des méthodes existent à cet effet, mais sont limitées de par le matériel spécialisé qu’elles requièrent et du fait qu’elles ne peuvent être appliquées a posteriori, par exemple lorsqu’un artiste souhaite utiliser une photographie déjà capturée. Cette thèse se concentre sur l’application de l’apprentissage profond au problème de l’estimation de l’illumination. Nous démontrons comment ce problème, à la base radiométrique, peut être formulé comme un problème d’apprentissage de bout en bout, où le réseau profond reçoit directement une image en entrée pour produire une estimation de l’éclairage de la scène. Les résultats expérimentaux obtenus soutiennent également notre hypothèse à l’effet qu’un réseau profond peut parvenir à estimer de manière fiable les conditions d’illumination en utilisant une seule image au champ de vue limité, telle que pourrait capturer un appareil photo standard. Plus spécifiquement, nous introduisons deux modèles d’apprentissage adaptés à cette tâche, l’un capable de produire un panorama HDR à partir d’une seule image en entrée, l’autre estimant l’illumination sous la forme d’un jeu de paramètres réduit. Nous présentons également une extension de ce dernier modèle, capable cette fois de recevoir et tirer profit d’un nombre arbitraire d’images en entrée. Pour chacune de ces approches, nous faisons suivre leur présentation détaillée par une analyse poussée et quantitative de leurs performances. Nous présentons également des résultats qualitatifs à chaque étape afin de démontrer leur applicabilité à des tâches artistiques communes. Le champ d’application des méthodes présentées dans cette thèse ne se restreint cependant pas aux applications graphiques telles que les effets spéciaux, la réalité augmentée ou l’édition d’images. Bien au contraire, les possibilités d’application sont multiples dans des domaines aussi variés que l’architecture (production de maquettes de projet plus réalistes), la simulation de conduite et de pilotage, la recherche de nouveaux concepts éducatifs et le divertissement personnel, pour ne nommer qu’eux. Au final, tout élément relié à l’image et à la lumière peut potentiellement être amélioré par les idées et concepts énoncés dans cette thèse, ce qui souligne l’importance du problème abordé ici. / Producing images mixing real and virtual elements in a realistic fashion requires knowing the illumination conditions. Indeed, rendering engines need this lighting information to adjust the appearance of the objects in such a way that they visually blend in the surrounding scene. As such, any mismatch can break the illusion and reveal the presence of these virtual inserted objects. At a time when computer generated graphics are barely out of the infamous uncanny valley, obtaining accurate lighting conditions is thus a crucial part of many artistic pipelines. There exist approaches to measure a scene illumination, but they rely on specialized hardware, require careful calibration, and cannot be applied a posteriori, for instance when the picture we want to work with is already taken. In this thesis, we show how indoor illumination estimation can be framed as an end-to-end learning problem, and how a deep neural network can reliably estimate lighting information using a single, limited field-of-view, low dynamic range image (as a regular camera would produce). More specifically, we introduce two learning models for this task: 1) a method regressing an entire high dynamic range (HDR) panorama from a single image, and 2) a method estimating illumination in the form of a reduced set of lighting parameters. We also extend the latter to support an arbitrary number of images as input, in addition to the single image case. We provide detailed justifications and performance analysis for each of these methods, in addition to qualitative results demonstrating the effectiveness of our approaches for common artistic tasks and pipelines. The work presented in this thesis has several important and practical applications. Graphics domains such as special effects, augmented and virtual reality, and image editing immediately come to mind, but the field of potential applications is far vaster. From architecture (with the production or realistic mock-ups) to piloting and driving simulators (which would benefit from a more realistic illumination), from better personal entertainment to more interactive and intuitive approaches in education, the potential applications are virtually limitless. Overall, everything somehow linked to imaging and lighting can potentially be improved using the techniques we present in this thesis, which underlines the importance of the problem tackled in this work.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/67302
Date27 January 2024
CreatorsGardner, Marc-André
ContributorsGagné, Christian, Lalonde, Jean-François
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
Typethèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xi, 164 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0028 seconds