We, as humans, purposely alter our facial expression to convey information during our daily interactions. However, our facial expressions can also unconsciously change based on external stimuli. In the current thesis, we focus on visual stimuli and hypothesize that our facial expression is indicative of the perceived valence -namely the pleasantness- of the former. To evaluate our hypothesis, we experiment with different neural network architectures on a 3D facial mesh-valence dataset. At first, various VAE-based architectures, adapted accordingly to operate on 3D meshes, were employed to extract representation embeddings of facial meshes. Thereafter an LSTM head was utilized to address the different sequential downstream tasks, including the valence estimation. In addition, representation disentanglement approaches were considered, aiming at representing the facial shape and expression independently. Although our experiments suggest that the facial expression is not a reliable estimator of the perceived valence, we demonstrate that mesh VAE-based architectures can be employed to extract competent mesh representations and address less ambiguous downstream tasks such as expression classification. Additionally, we observed that representation disentanglement boosts the performance in both terms of facial expression classification and valence estimation. Finally, we highlight the mesh VAE capabilities in morphing between existing meshes as well as generating novel samples. / Vi, som människor, ändrar medvetet våra ansiktsuttryck för att förmedla information under våra dagliga interaktioner. Men våra ansiktsuttryck kan också omedvetet förändras baserat på yttre stimuli. I den aktuella avhandlingen fokuserar vi på visuella stimuli och antar att vårt ansiktsuttryck är ett tecken på den upplevda valensen -nämligen behagligheten- hos den förra. För att utvärdera vår hypotes experimenterar vi med olika neurala nätverksarkitekturer på en 3D-ansikts-mesh-valensdatauppsättning. Till en början användes olika VAE-baserade arkitekturer, anpassade för att fungera på 3D-nät, för att extrahera representationsinbäddningar av ansiktsnät. Därefter användes ett LSTM-huvud för att hantera de olika sekventiella nedströmsuppgifterna, inklusive valensuppskattningen. Dessutom övervägdes metoder för att distrahera representation, som syftade till att representera ansiktsformen och uttrycket oberoende. Även om våra experiment tyder på att ansiktsuttrycket inte är en tillförlitlig estimerare av den upplevda valensen, visar vi att mesh-VAE-baserade arkitekturer kan användas för att extrahera kompetenta mesh-representationer och adressera mindre tvetydiga nedströmsuppgifter såsom uttrycksklassificering. Dessutom observerade vi att representationsupplösning ökar prestandan både vad gäller klassificering av ansiktsuttryck och valensuppskattning. Slutligen lyfter vi fram mesh-VAE-förmågan vid morphing mellan befintliga maskor samt generering av nya prover.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-320938 |
Date | January 2022 |
Creators | Athanasiadis, Ioannis |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:616 |
Page generated in 0.0026 seconds