Indoor environment modeling has become a relevant topic in several applications fields including Augmented, Virtual and Mixed Reality. Furthermore, with the Digital Transformation, many industries have moved toward this technology trying to generate detailed models of an environment allowing the viewers to navigate through it or mapping surfaces to insert virtual elements in a real scene. Therefore, this Thesis project has been conducted with the purpose to review well- established deterministic methods for 3D scene reconstruction and researching the state- of- the- art, such as machine learning- based approaches, and a possible implementation on mobile devices. Initially, we focused on the well- established methods such as Structure from Motion (SfM) that use photogrammetry to estimate camera poses and depth using only RGB images. Lastly, the research has been centered on the most innovative methods that make use of machine learning to predict depth maps and camera poses from a video stream. Most of the methods reviewed are completely unsupervised and are based on a combination of two subnetwork, the disparity network (DispNet) for the depth estimation and pose network (PoseNet) for camera pose estimation. Despite the fact that the results in outdoor application show high quality depth map and and reliable odometry, there are still some limitations for the deployment of this technology in indoor environment. Overall, the results are promising. / Modellering av inomhusmiljö har blivit ett relevant ämne inom flera applikationsområden, inklusive Augmented, Virtual och Mixed Reality. Dessutom, med den digitala transformationen, har många branscher gått mot denna teknik som försöker generera detaljerade modeller av en miljö som gör det möjligt för tittarna att navigera genom den eller kartlägga ytor för att infoga virtuella element i en riktig scen. Därför har detta avhandlingsprojekt genomförts med syftet att granska väletablerade deterministiska metoder för 3Dscenrekonstruktion och undersöka det senaste inom teknik, såsom maskininlärningsbaserade metoder och en möjlig implementering på mobil. Inledningsvis fokuserade vi på de väletablerade metoderna som Structure From Motion (SfM) som använder fotogrammetri för att uppskatta kameraställningar och djup med endast RGBbilder. Slutligen har forskningen varit inriktad på de mest innovativa metoderna som använder maskininlärning för att förutsäga djupkartor och kameraposer från en videoström. De flesta av de granskade metoderna är helt utan tillsyn och baseras på en kombination av två undernätverk, skillnadsnätverket (DispNet) för djupuppskattning och posenätverk (PoseNet) för kameraposestimering. Trots att resultaten i utomhusanvändning visar djupkarta av hög kvalitet och tillförlitlig vägmätning, finns det fortfarande vissa begränsningar för användningen av denna teknik i inomhusmiljön, men ändå är resultaten lovande.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-298024 |
Date | January 2021 |
Creators | De Pellegrini, Martin |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:216 |
Page generated in 0.0024 seconds