Global ETD Search

Towards deep unsupervised inverse graphics

Un objectif de longue date dans le domaine de la vision par ordinateur est de déduire le
contenu 3D d’une scène à partir d’une seule photo, une tâche connue sous le nom d’inverse
graphics. L’apprentissage automatique a, dans les dernières années, permis à de nombreuses
approches de faire de grands progrès vers la résolution de ce problème. Cependant, la plupart
de ces approches requièrent des données de supervision 3D qui sont coûteuses et parfois
impossible à obtenir, ce qui limite les capacités d’apprentissage de telles œuvres. Dans
ce travail, nous explorons l’architecture des méthodes d’inverse graphics non-supervisées
et proposons deux méthodes basées sur des représentations 3D et algorithmes de rendus
différentiables distincts: les surfels ainsi qu’une nouvelle représentation basée sur Voronoï.
Dans la première méthode basée sur les surfels, nous montrons que, bien qu’efficace pour
maintenir la cohérence visuelle, la production de surfels à l’aide d’une carte de profondeur
apprise entraîne des ambiguïtés car la relation entre la carte de profondeur et le rendu n’est
pas bijective. Dans notre deuxième méthode, nous introduisons une nouvelle représentation
3D basée sur les diagrammes de Voronoï qui modélise des objets/scènes à la fois explicitement
et implicitement, combinant ainsi les avantages des deux approches. Nous montrons comment
cette représentation peut être utilisée à la fois dans un contexte supervisé et non-supervisé
et discutons de ses avantages par rapport aux représentations 3D traditionnelles / A long standing goal of computer vision is to infer the underlying 3D content in a scene from
a single photograph, a task known as inverse graphics. Machine learning has, in recent years,
enabled many approaches to make great progress towards solving this problem. However,
most approaches rely on 3D supervision data which is expensive and sometimes impossible
to obtain and therefore limits the learning capabilities of such work. In this work, we explore
the deep unsupervised inverse graphics training pipeline and propose two methods based on
distinct 3D representations and associated differentiable rendering algorithms: namely surfels
and a novel Voronoi-based representation. In the first method based on surfels, we show that,
while effective at maintaining view-consistency, producing view-dependent surfels using a
learned depth map results in ambiguities as the mapping between depth map and rendering
is non-bijective. In our second method, we introduce a novel 3D representation based on
Voronoi diagrams which models objects/scenes both explicitly and implicitly simultaneously,
thereby combining the benefits of both. We show how this representation can be used in both
a supervised and unsupervised context and discuss its advantages compared to traditional
3D representations.

http://hdl.handle.net/1866/25467

Inverse graphics

Vision par ordinateur

Apprentissage non-supervisé

Rendu différentiable

Modélisation 3D

Réseaux de neuronnes génératifs

Infographie

Apprentissage profond

Apprentissage automatique

Computer vision

Unsupervised learning

Differentiable rendering

3D modeling

Generative neural networks

Computer graphics

Deep learning

Machine learning

Identifer	oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/25467
Date	12 1900
Creators	Parent-Lévesque, Jérôme
Contributors	Courville, Aaron, Nowrouzezahrai, Derek
Source Sets	Université de Montréal
Language	English
Detected Language	French
Type	thesis, thèse
Format	application/pdf

Page generated in 0.0029 seconds

Towards deep unsupervised inverse graphics

Description

Links & Downloads

Tags

Additional Fields