Return to search

Research and Application of 6D Pose Estimation for Mobile 3D Cameras / Forskning och tillämpning av 6D Pose Estimation för mobila 3D-kameror

This work addresses the deep-learning-based 6 Degree-of-Freedom (DoF) pose estimation utilizing 3D cameras on an iPhone 13 Pro. The task of pose estimation is to estimate the spatial rotation and translation of an object given its 2D or 3D images. During the pose estimation network training process, a common way to expand the training dataset is to generate synthetic images, which requires the 3D mesh of the target object. Although several famous datasets provide the 3D object files, it is still a problem when one wants to generate a customized real-world object. The typical 3D scanners are mainly designed for industrial usage and are usually expensive. We investigated in this project whether the 3D cameras on Apple devices can replace the industrial 3D scanners in the pose estimation pipeline and what might influence the results during scanning. During the data synthesis, we introduced a pose sampling method to equally sample on a sphere. Random transformation and background images from the SUN2012 dataset are applied, and the synthetic image is rendered through Blender. We picked five testing objects with different sizes and surfaces. Each object is scanned both by front TrueDepth camera and rear Light Detection and Ranging (LiDAR) camera with the ‘3d Scanner App’ on iOS. The network we used is based on PVNet, which uses a pixel-wise voting scheme to find 2D keypoints on RGB images and utilizes uncertainty-driven Perspective-n-Point (PnP) to compute the pose. We achieved both quantitative and qualitative results for each instance. i) TrueDepth camera outperforms Light Detection and Ranging (LiDAR) camera in most scenarios, ii) when an object has less reflective surface and high-contrast texture, the advantage of TrueDepth is more obvious. We also picked three baseline objects from Linemod dataset. Although the average accuracy is lower than the original paper, the performance of our baseline instances shows a similar trend to the original paper’s results. In conclusion, we proved that the 3D cameras on iPhone are capable of the pose estimation pipeline. / Detta arbete tar upp den djupinlärningsbaserade 6 Degree-of-Freedom (DoF) poseringsuppskattning med 3D-kameror på en iPhone 13 Pro. Uppgiften med poseuppskattning är att uppskatta den rumsliga rotationen och translationen av ett objekt givet dess 2D- eller 3D-bilder. Ett vanligt sätt att utöka träningsdataup- psättningen under träningsprocessen för positionsuppskattning är att generera syntetiska bilder, vilket kräver 3D-nätet för målobjektet. Även om flera kända datamängder tillhandahåller 3D-objektfilerna, är det fortfarande ett problem när man vill generera ett anpassat verkligt objekt. De typiska 3D-skannrarna är främst designade för industriell användning och är vanligtvis dyra. Vi undersökte i detta projekt om 3D-kamerorna på Apple-enheter kan ersätta de industriella 3D-skannrarna i poseskattningspipelinen och vad som kan påverka resultaten under skanning. Under datasyntesen introducerade vi en posesamplingsmetod för att sampla lika mycket på en sfär. Slumpmässig transformation och bakgrundsbilder från SUN2012-datauppsättningen tillämpas, och den syntetiska bilden renderas genom Blender. Vi valde ut fem testobjekt med olika storlekar och ytor. Varje objekt skannas både av den främre TrueDepth-kameran och den bakre ljusdetektions- och avståndskameran (LiDAR) med "3d-skannerappenpå iOS. Nätverket vi använde är baserat på PVNet, som använder ett pixelvis röstningsschema för att hitta 2D-nyckelpunkter på RGB-bilder och använder osäkerhetsdrivet Perspective-n-Point (PnP) för att beräkna poseringen. Vi uppnådde både kvantitativa och kvalitativa resultat för varje instans. i) TrueDepth-kameran överträffar Light Detection and Ranging-kameran (LiDAR) i de flesta scenarier, ii) när ett objekt har mindre reflekterande yta och högkontraststruktur är fördelen med TrueDepth högre. Vi valde också tre baslinjeobjekt från Linemod dataset. Även om den genomsnittliga noggrannheten är lägre än originalpapperet, visar prestandan för våra baslinjeinstanser en liknande trend som originalpapperets resultat. Sammanfattningsvis bevisade vi att 3D-kamerorna på iPhone är kapabla att göra positionsuppskattning.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-320370
Date January 2022
CreatorsRuichao, Qian
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:371

Page generated in 0.0031 seconds