Global ETD Search

1	Real-Time Probabilistic Locomotion Synthesis for Uneven Terrain / Probabilistisk Rörelsesyntes for ojämn terräng i realtid Jonsson, Emil January 2021 (has links) In modern games and animation there is a constant strive for more realistic motion. Today a lot of games use motion matching and blending with lots of post-processing steps to produce animations, but these methods often require huge amounts of motions clips while still having problems with realistic joint weights. Using machine learning for generating motion is a fairly new technique, and is proving to be a viable option due to the lower cost and potentially more realistic results. Probabilistic models could be suitable candidates for solving a problem such as this as the are able to model a wide variety of motions due to their built-in randomness. This thesis examines a few different models which could be used for generating motion for character when interacting with terrain, such as when walking up an incline. The main models examined in this thesis are the MoGlow model and a CVAE model. Firstly virtual scenes are built in Unity based upon loads of motion capture clips containing movements interacting with the terrain. A character is then inserted into the scene and the animation clips are played. Data is exported consisting of the character’s joint positions and rotations in relation to the surrounding terrain. This data is then used to train the models using supervised learning. Evaluation of this is done by having character go through an obstacles course of varying terrains, generating motion from the different models. After this foot sliding was measured as well as frame-rates. This was also compared to values from that of a selection of motion capture clips. In addition to this a user study is conducted where the users are asked to rate the quality of generated motion in certain video clips. The results show that both the MoGlow and CVAE models produced movement resembling real human movement on uneven terrain, with the MoGlow model’s results being most similar to that of a the motion capture training data. These were also found to be executable at interactive frame-rates, making them suitable for use in video games. / I moderna spel och animationer finns det en konstant strävan efter mer realistisk rörelse. I dagsläget använder många spel teknologier så som rörelsematchning och flera efterprocessering steg för att producera animationer, men ett problem med dessa metoder är att det oftast krävs enorma mängder rörelse klipp för att kunna anpassas till alla möjliga situationer, samtidigt som man ofta tappar lite av vikten i rörelserna. Användet av maskinginlärning för att generera rörelser är en relativt ny utveckling, och ses som en möjlig lösning till dessa problem. Probabilistka modeller är en typ av modeller som kan användas för detta, eftersom att de kan representera en bred variation av rörelser med samma model, på grund av den underligande slumpmässigheten. Det här pappret kommer att undersöka olika probabilistka modeller som kan användas för att generera rörelse när man även tar hansyn till omgivningen, tex när man går i en uppförsbacke. De huvudsakliga modellerna som kommer undersökas är en MoGlow model och en CVAE model. Först så byggs virtuella scener in Unity utifrån en mängd animationsklipp. Därefter stoppas en karaktär in och de här klippen spelas upp. I detta steg är data exporterad som innehåller karaktärens position och benens rotationer i relation till omgivningen. Denna data används sedan för att träna modellerna med väglett lärande. Evaluering är genomförd genom att ha karaktärer gå igenom hinderbanor uppbyggda av varierande terränger, där modeller genererar rörelser för karaktären. Fotglidande och bildhastighet är avmätt och resultatet av metoderna är jämfört med varandra och med utvald data från inspelade träningsdatan. Utöver detta görs även en användarstudie där personer får ge betyg till generarde rörelser utifrån en mängd videoklipp. Resultaten visar att båda MoGlow och CVAE modellen producerar rörelse som liknar realsiska männsklig rörelse vid interaktion mod ojämn terräng. MoGlow modellen visar resultat mest likt den inspelade data. Alla modeller testade går att kör interaktiva bildhastigheter, vilket gör dem lämpliga för använding i dataspel. Machine learning Probabilistic models Normalising flow Environment interaction Animation Synthesis Maskinginlärning Probabilistiska metoder Normaliserande flöden Interaktion med omgivning Animations-syntes Computer Sciences Datavetenskap (datalogi)
2	Believable and Manipulable Facial Behaviour in a Robotic Platform using Normalizing Flows / Trovärda och Manipulerbara Ansiktsuttryck i en Robotplattform med Normaliserande Flöde Alias, Kildo January 2021 (has links) Implicit communication is important in interaction because it plays a role in conveying the internal mental states of an individual. For example, emotional expressions that are shown through unintended facial gestures can communicate underlying affective states. People can infer mental states from implicit cues and have strong expectations of what those cues mean. This is true for human-human interactions, as well as human-robot interactions. A Normalizing flow model is used as a generative model that can produce facial gestures and head movements. The invertible nature of the Normalizing flow model makes it possible to manipulate attributes of the generated gestures. The model in this work is capable of generating facial expressions that look real and human-like. Furthermore, the model can manipulate the generated output to change the perceived affective state of the facial expressions. / Implicit kommunikation är viktig i interaktioner eftersom den spelar en roll för att förmedla individens inre mentala tillstånd. Till exempel kan känslomässiga uttryck som visas genom oavsiktliga ansiktsgester kommunicera underliggande affektiva tillstånd. Människor kan härleda mentala tillstånd från implicita ledtrådar och har starka förväntningar på vad dessa ledtrådar betyder. Detta gäller för interaktion mellan människor, liksom interaktion mellan människa och robot. En normaliserande flödesmodell används som en generativ modell som kan producera ansiktsgester och huvudrörelser. Den inverterbara naturen hos normaliseringsflödesmodellen gör det också möjligt att manipulera det genererade ansiktsuttrycken. Utgången manipuleras i två dimensioner som vanligtvis används för att beskriva affektivt tillstånd, valens och upphetsning. Modellen i detta arbete kan generera ansiktsuttryck som ser verkliga och mänskliga ut och kan manipuleras for att ändra det affektiva tillstånd. Nonverbal Behaviour Machine Learning Generative Models Normalizing Flows Human-Robot Interaction Icke-verbalt beteende Maskininlärning Generativa modeller Normaliserande Flöden Människa-robot interaktion. Computer and Information Sciences Data- och informationsvetenskap
3	Exploring Normalizing Flow Modifications for Improved Model Expressivity / Undersökning av normalizing flow-modifikationer för förbättrad modelluttrycksfullhet Juschak, Marcel January 2023 (has links) Normalizing flows represent a class of generative models that exhibit a number of attractive properties, but do not always achieve state-of-the-art performance when it comes to perceived naturalness of generated samples. To improve the quality of generated samples, this thesis examines methods to enhance the expressivity of discrete-time normalizing flow models and thus their ability to capture different aspects of the data. In the first part of the thesis, we propose an invertible neural network architecture as an alternative to popular architectures like Glow that require an individual neural network per flow step. Although our proposal greatly reduces the number of parameters, it has not been done before, as such architectures are believed to not be powerful enough. For this reason, we define two optional extensions that could greatly increase the expressivity of the architecture. We use augmentation to add Gaussian noise variables to the input to achieve arbitrary hidden-layer widths that are no longer dictated by the dimensionality of the data. Moreover, we implement Piecewise Affine Activation Functions that represent a generalization of Leaky ReLU activations and allow for more powerful transformations in every individual step. The resulting three models are evaluated on two simple synthetic datasets – the two moons dataset and one generated from a mixture of eight Gaussians. Our findings indicate that the proposed architectures cannot adequately model these simple datasets and thus do not represent alternatives to current stateof-the-art models. The Piecewise Affine Activation Function significantly improved the expressivity of the invertible neural network, but could not make use of its full potential due to inappropriate assumptions about the function’s input distribution. Further research is needed to ensure that the input to this function is always standard normal distributed. We conducted further experiments with augmentation using the Glow model and could show minor improvements on the synthetic datasets when only few flow steps (two, three or four) were used. However, in a more realistic scenario, the model would encompass many more flow steps. Lastly, we generalized the transformation in the coupling layers of modern flow architectures from an elementwise affine transformation to a matrixbased affine transformation and studied the effect this had on MoGlow, a flow-based model of motion. We could show that McMoGlow, our modified version of MoGlow, consistently achieved a better training likelihood than the original MoGlow on human locomotion data. However, a subjective user study found no statistically significant difference in the perceived naturalness of the samples generated. As a possible reason for this, we hypothesize that the improvements are subtle and more visible in samples that exhibit slower movements or edge cases which may have been underrepresented in the user study. / Normalizing flows representerar en klass av generativa modeller som besitter ett antal eftertraktade egenskaper, men som inte alltid uppnår toppmodern prestanda när det gäller upplevd naturlighet hos genererade data. För att förbättra kvaliteten på dessa modellers utdata, undersöker detta examensarbete metoder för att förbättra uttrycksfullheten hos Normalizing flows-modeller i diskret tid, och därmed deras förmåga att fånga olika aspekter av datamaterialet. I den första delen av uppsatsen föreslår vi en arkitektur uppbyggt av ett inverterbart neuralt nätverk. Vårt förslag är ett alternativ till populära arkitekturer som Glow, vilka kräver individuella neuronnät för varje flödessteg. Även om vårt förslag kraftigt minskar antalet parametrar har detta inte gjorts tidigare, då sådana arkitekturer inte ansetts vara tillräckligt kraftfulla. Av den anledningen definierar vi två oberoende utökningar till arkitekturen som skulle kunna öka dess uttrycksfullhet avsevärt. Vi använder så kallad augmentation, som konkatenerar Gaussiska brusvariabler till observationsvektorerna för att uppnå godtyckliga bredder i de dolda lagren, så att deras bredd inte längre begränsas av datadimensionaliteten. Dessutom implementerar vi Piecewise Affine Activation-funktioner (PAAF), vilka generaliserar Leaky ReLU-aktiveringar genom att möjliggöra mer kraftfulla transformationer i varje enskilt steg. De resulterande tre modellerna utvärderas med hjälp av två enkla syntetiska datamängder - ”the two moons dataset” och ett som genererats genom att blanda av åtta Gaussfördelningar. Våra resultat visar att de föreslagna arkitekturerna inte kan modellera de enkla datamängderna på ett tillfredsställande sätt, och därmed inte utgör kompetitiva alternativ till nuvarande moderna modeller. Den styckvisa aktiveringsfunktionen förbättrade det inverterbara neurala nätverkets uttrycksfullhet avsevärt, men kunde inte utnyttja sin fulla potential på grund av felaktiga antaganden om funktionens indatafördelning. Ytterligare forskning behövs för att hantera detta problem. Vi genomförde ytterligare experiment med augmentation av Glow-modellen och kunde påvisa vissa förbättringar på de syntetiska dataseten när endast ett fåtal flödessteg (två, tre eller fyra) användes. Däremot omfattar modeller i mer realistiska scenarion många fler flödessteg. Slutligen generaliserade vi transformationen i kopplingslagren hos moderna flödesarkitekturer från en elementvis affin transformation till en matrisbaserad affin transformation, samt studerade vilken effekt detta hade på MoGlow, en flödesbaserad modell av 3D-rörelser. Vi kunde visa att McMoGlow, vår modifierade version av MoGlow, konsekvent uppnådde bättre likelihood i träningen än den ursprungliga MoGlow gjorde på mänskliga rörelsedata. En subjektiv användarstudie på exempelrörelser genererade från MoGlow och McMoGlow visade dock ingen statistiskt signifikant skillnad i användarnas uppfattning av hur naturliga rörelserna upplevdes. Som en möjlig orsak till detta antar vi att förbättringarna är subtila och mer synliga i situationer som uppvisar långsammare rörelser eller i olika gränsfall som kan ha varit underrepresenterade i användarstudien. Normalizing Flows Motion Synthesis Invertible Neural Networks Glow MoGlow Maximum Likelihood Estimation Generative models normaliserande flöden rörelsesyntes inverterbara neurala nätverk Glow MoGlow Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.063 seconds