The use of realistic 3D avatars in Virtual Reality (VR) has gained significant traction in applications such as telecommunication and gaming, offering immersive experiences and face-to-face interactions. However, standalone VR devices often face limitations in computational resources and real-time rendering requirements, necessitating the optimization of 3D models through mesh simplification to enhance performance and ensure a smooth user experience. This thesis presents a pipeline that utilizes a Convolutional Neural Network to reconstruct realistic 3D human facial models in a static form from single RGB head images. The reconstructed models are then subjected to the Quadric Error Metrics simplification algorithm, enabling different levels of simplification to be achieved. An evaluation was conducted, utilizing 30 photos from the NoW dataset, to examine the trade-offs associated with employing mesh simplification on the generated facial models within the VR environment. The evaluation results demonstrate that reducing the polygon count improves frame rates and reduces GPU usage in VR, thereby enhancing overall performance. However, this improvement comes at the cost of increased simplification execution time and geometric errors, and decreased perceptual quality. This research contributes to the understanding of mesh simplification’s impact on human facial models within the VR context, providing insights into balancing model complexity and real-time rendering performance, particularly in resource-constrained environments such as mobile devices or cloud-based applications, as well as for models located farther away from the cameras. / Användningen av realistiska 3D-avatarer inom Virtuell Verklighet (VR) har fått betydande uppmärksamhet inom tillämpningar som telekommunikation och spel, vilket erbjuder en uppslukande upplevelse och ansikte mot ansikte-interaktioner. Dock möter fristående VR-enheter ofta begränsningar i beräkningsresurser och krav på realtidsrendering, vilket gör det nödvändigt att optimera 3D-modeller genom nätverksförenkling för att förbättra prestanda och säkerställa en smidig användarupplevelse. Denna avhandling presenterar en pipeline som använder sig av ett konvolutionellt neuralt nätverk för att rekonstruera realistiska 3D-modeller av mänskliga ansikten i en statisk form från enstaka RGB-bilder av huvudet. De rekonstruerade modellerna genomgår sedan nätverksförenkling med Quadric Error Metrics-algoritmen, vilket möjliggör olika nivåer av förenkling. En utvärdering genomfördes, med hjälp av 30 foton från NoW-datasetet, för att undersöka avvägningarna i samband med att använda nätverksförenkling på de genererade ansiktsmodellerna inom VR-miljön. Utvärderingsresultaten visar att minskning av polygonantal förbättrar bildhastigheten och minskar GPU-användningen inom VR, vilket förbättrar den övergripande prestandan. Dock sker denna förbättring på bekostnad av ökad tid för förenklingsexekvering och geometriska fel, samt minskad perceptuell kvalitet. Denna forskning bidrar till förståelsen av nätverksförenklingens påverkan på mänskliga ansiktsmodeller inom VR-sammanhanget och ger insikter om att balansera modellkomplexitet och realtidsrenderingsprestanda, särskilt i resursbegränsade miljöer som mobilenheter eller molnbaserade applikationer, samt för modeller som är längre bort från kamerorna.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-343009 |
Date | January 2023 |
Creators | Liu, Beiqian |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:838 |
Page generated in 0.0013 seconds