• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 11
  • Tagged with
  • 11
  • 11
  • 11
  • 10
  • 7
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Generating synthetic golf courses with deep learning : Investigation into the uses and limitations of generative deep learning / Generera syntetiska golfbanor med djupinlärning : Undersökning av användningsområden och begränsningar för generativ djupinlärning

Lundqvist, Carl January 2022 (has links)
The power of generative deep learning has increased very quickly in the past ten years and modern models are now able to generate human faces that are indistinguishable from real ones. This thesis project will investigate the uses and limitations of this technology by attempting to generate very specific data, images of golf holes. Generative adverserial networks, GANs, were used to solve this problem. Two different GAN models were chosen as candidates and these were trained on some different datasets that were extracted from the project provider Topgolf Sweden AB’s virtual golf game. This golf game contained data of many different types of golf holes from all over the world. The best performing model was Progressive Growing GAN, ProGAN, which works by iteratively increasing the size of the images until the desired size is reached. This model was able to produce results of very high quality and with large variety. To further investigate the quality of the results a survey was sent out to the employees of Topgolf Sweden AB. A survey that showed that it was difficult for the participants to correctly determine if a given image was real or had been generated by the model. These results further showed that the generated samples had a high quality. This thesis project also investigated how height data could be incorporated in the process. The results showed that the ProGAN model was able to generate height maps that capture the most important aspects of a golf hole. Furthermore, the overall results showed that the generative model had learned a good representation of the data’s underlying probability distribution. More work needs to be done before a model like the one presented here can be used to generate complete golf holes that can be used in a virtual golf game, but this project clearly shows that GANs are a worthwhile investment for this purpose. / Kraften i generativ djupinlärning har ökat snabbt under de senaste tio åren och moderna modeller kan generera bilder på människoansikten som är omöjliga att urskilja från riktiga ansikten. Detta examensarbete undersöker hur denna teknologi kan användas och vad det finns för begränsningar genom att försöka generera väldigt specifik data, bilder på golfhål. Generativa adversiella nätverk, GANs, användas för att lösa detta problem. Två modeller valdes som kandidater och dessa tränades på olika datasets som hade extraherats från projektleverantören Topgolf Sweden ABs virtuella golfspel. Detta golfspel innehöll data från en mängd olika typer av golfhål från hela världen. Modellen som presterade bäst var Progressive Growing GAN, ProGAN, som iterativt ökar storleken på bilderna tills den önskade storleken har nåtts. Denna modell lyckades skapa bilder av väldigt hög kvalitet och med stor variation. För att ytterligare undersöka kvaliten på resultaten så genomfördes en enkät. Enkäten skickades till anställda hos Topgolf Sweden AB. Svaren visade att det var svårt för deltagarna att urskilja äkta bilder från genererade bilder vilket ytterligare visade att de genererade bilderna hade hög kvalitet. Detta examensarbete undersökte också hur höjddata kunde integreras i processen. Resultaten av detta visade att ProGAN modellen kunde generera höjddata som innehöll de viktigaste delarna av ett golfhål. Dessutom så visade resultaten i helhet att den generativa modellen hade lärt sig en bra representation av träningsdatans underliggande sannolikhetsfördelning. Mer arbete krävs för att en liknande modell ska kunna generera kompletta golfhål som kan användas i ett virtuellt golfspel, men projektet visar att GANs är ett väldigt bra alternativ för att lyckas med det.
2

Understanding people movement and detecting anomalies using probabilistic generative models / Att förstå personförflyttningar och upptäcka anomalier genom att använda probabilistiska generativa modeller

Hansson, Agnes January 2020 (has links)
As intelligent access solutions begin to dominate the world, the statistical learning methods to answer for the behavior of these needs attention, as there is no clear answer to how an algorithm could learn and predict exactly how people move. This project aims at investigating if, with the help of unsupervised learning methods, it is possible to distinguish anomalies from normal events in an access system, and if the most probable choice of cylinder to be unlocked by a user can be calculated.Given to do this is a data set of the previous events in an access system, together with the access configurations - and the algorithms that were used consisted of an auto-encoder and a probabilistic generative model.The auto-encoder managed to, with success, encode the high-dimensional data set into one of significantly lower dimension, and the probabilistic generative model, which was chosen to be a Gaussian mixture model, identified clusters in the data and assigned a measure of unexpectedness to the events.Lastly, the probabilistic generative model was used to compute the conditional probability of which the user, given all the details except which cylinder that was chosen during an event, would choose a certain cylinder. The result of this was a correct guess in 65.7 % of the cases, which can be seen as a satisfactory number for something originating from an unsupervised problem. / Allt eftersom att intelligenta åtkomstlösningar tar över i samhället, så är det nödvändigt att ägna de statistiska inlärnings-metoderna bakom dessa tillräckligt med uppmärksamhet, eftersom det inte finns något självklart svar på hur en algoritm ska kunna lära sig och förutspå människors exakta rörelsemönster.Det här projektet har som mål att, med hjälp av oövervakad inlärning, undersöka huruvida det är möjligt att urskilja anomalier från normala iakttagelser, och om den låscylinder med högst sannolikhet att en användare väljer att försöka låsa upp går att beräknda.Givet för att genomföra detta projekt är en datamängd där händelser från ett åtkomstsystem finns, tillsammans med tillhörande åtkomstkonfig-urationer. Algoritmerna som användes i projektet har bestått av en auto-encoder och en probabilistisk generativ modell.Auto-encodern lyckades, med tillfredsställande resultat, att koda det hög-dimensionella datat till ett annat med betydligt lägre dimension, och den probabilistiska generativa modellen, som valdes till en Gaussisk mixtur-modell, lyckades identifiera kluster i datat och med att tilldela varje observation ett mått på dess otrolighet.Till slut så användes den probabilistiska generativa modellen för att beräkna en villkorad sannolikhet, för vilken användaren, given alla attribut för en händelse utom just vilken låscylinder som denna försökte öppna, skulle välja.Resultatet av dessa var en korrekt gissning i 65,7 % av fallen, vilket kan ses som en tillfredställande siffra för något som härrör från ett oövervakat problem.
3

Technology Acceptance for AI implementations : A case study in the Defense Industry about 3D Generative Models / Teknologisk Acceptans för AI implementationer : En fallstudie i försvarsindustrin om 3D Generativa Modeller

Arenander, Michael January 2023 (has links)
Advancements in Artificial Intelligence (AI), Machine Learning (ML), and Deep Learning (DL) has emerged into 3D object creation processes through the rise of 3D Generative Adversarial Networks (3D GAN). These networks contain 3D generative models capable of analyzing and constructing 3D objects. 3D generative models have therefore become an increasingly important area to consider for the automation of design processes in the manufacturing and defense industry. This case study explores areas of automation enabled by 3D generative models for an incumbent in the Swedish defense industry. This study additionally evaluates discovered types of implementations of 3D generative models from a sociotechnical perspective by conducting qualitative interviews with employees. This study applies the Unified Theory of Acceptance and Use of Technology (UTAUT) for understanding the adoption and intention to use 3D generative models. A description of 3D objects, CAD, 3D generative models, and point cloud data is given in this study. A literature review is additionally given in the three fields of AI, technology acceptance, and the defense industry to funnel the literature to the context of this study. 21 types of implementations are discovered and categorized into four distinct groups. In conclusion a lot of potential is found for the adoption of 3D generative models for especially AI simulation processes, but challenges with data collection and security are discovered as the most significant obstacle to overcome. / Framsteg inom artificiell intelligens (AI), maskininlärning (ML) och djupinlärning (DL) har resulterat i att 3D-objektskapandeprocesser har utvecklats genom framväxten av 3D Generative Adversarial Networks (3D GAN). Dessa nätverk innehåller 3D-generativa modeller som är kapabla till att analysera och konstruera 3D-objekt. 3D-generativa modeller har därmed blivit ett allt viktigare område att beakta för automatisering av designprocesser inom tillverknings- och försvarsindustrin. Denna fallstudie undersöker automatiseringsområden som möjliggörs av 3D-generativamodeller för en etablerad aktör inom den svenska försvarsindustrin. Studien utvärderar dessutom identifierade typer av implementeringar av 3D-generativa modeller ur ett socio-tekniskt perspektiv genom att genomföra kvalitativa intervjuer med anställda. Denna studie tillämpar Unified Theory of Acceptance and Use of Technology (UTAUT) för att förstå acceptans och avsikt att använda 3D-generativa modeller. En beskrivning av 3D-objekt, CAD, 3D-generativa modeller och punktmolnsdata ges i denna studie. Dessutom ges en litteraturöversikt inom tre områden: AI, teknologianvändning och försvarsindustrin för att rikta in litteraturen mot denna studiens sammanhang. 21 typer av tillämpningar identifieras och kategoriseras i fyra distinkta grupper. Som slutsats finns det stor potential för antagande av 3D-generativamodeller, särskilt inom AI-simuleringsprocesser, men utmaningar med datainsamling och säkerhet identifieras som de mest betydande hindren att överkomma.
4

A study about Active Semi-Supervised Learning for Generative Models / En studie om Aktivt Semi-Övervakat Lärande för Generativa Modeller

Fernandes de Almeida Quintino, Elisio January 2023 (has links)
In many relevant scenarios, there is an imbalance between abundant unlabeled data and scarce labeled data to train predictive models. Semi-Supervised Learning and Active Learning are two distinct approaches to deal with this issue. The first one directly uses the unlabeled data to improve model parameter learning, while the second performs a smart choice of unlabeled points to be sent to an annotator, or oracle, which can label these points and increase the labeled training set. In this context, Generative Models are highly appropriate, since they internally represent the data generating process, naturally benefiting from data samples independently of the presence of labels. This Thesis proposes Expectation-Maximization with Density-Weighted Entropy, a novel active semi-supervised learning framework tailored towards generative models. The method is theoretically explored and experiments are conducted to evaluate its application to Gaussian Mixture Models and Multinomial Mixture Models. Based on its partial success, several questions are raised and discussed as to identify possible improvements and decide which shortcomings need to be dealt with before the method is considered robust and generally applicable. / I många relevanta scenarier finns det en obalans mellan god tillgång på oannoterad data och sämre tillgång på annoterad data för att träna prediktiva modeller. Semi-Övervakad Inlärning och Aktiv Inlärning är två distinkta metoder för att hantera denna fråga. Den första använder direkt oannoterad data för att förbättra inlärningen av modellparametrar, medan den andra utför ett smart val av oannoterade punkter som ska skickas till en annoterare eller ett orakel, som kan annotera dessa punkter och öka det annoterade träningssetet. I detta sammanhang är Generativa Modeller mycket lämpliga eftersom de internt representerar data-genereringsprocessen och naturligt gynnas av dataexempel oberoende av närvaron av etiketter. Denna Masteruppsats föreslår Expectation-Maximization med Density-Weighted Entropy, en ny aktiv semi-övervakad inlärningsmetod som är skräddarsydd för generativa modeller. Metoden utforskas teoretiskt och experiment genomförs för att utvärdera dess tillämpning på Gaussiska Mixturmodeller och Multinomiala Mixturmodeller. Baserat på dess partiella framgång ställs och diskuteras flera frågor för att identifiera möjliga förbättringar och avgöra vilka brister som måste hanteras innan metoden anses robust och allmänt tillämplig.
5

Believable and Manipulable Facial Behaviour in a Robotic Platform using Normalizing Flows / Trovärda och Manipulerbara Ansiktsuttryck i en Robotplattform med Normaliserande Flöde

Alias, Kildo January 2021 (has links)
Implicit communication is important in interaction because it plays a role in conveying the internal mental states of an individual. For example, emotional expressions that are shown through unintended facial gestures can communicate underlying affective states. People can infer mental states from implicit cues and have strong expectations of what those cues mean. This is true for human-human interactions, as well as human-robot interactions. A Normalizing flow model is used as a generative model that can produce facial gestures and head movements. The invertible nature of the Normalizing flow model makes it possible to manipulate attributes of the generated gestures. The model in this work is capable of generating facial expressions that look real and human-like. Furthermore, the model can manipulate the generated output to change the perceived affective state of the facial expressions. / Implicit kommunikation är viktig i interaktioner eftersom den spelar en roll för att förmedla individens inre mentala tillstånd. Till exempel kan känslomässiga uttryck som visas genom oavsiktliga ansiktsgester kommunicera underliggande affektiva tillstånd. Människor kan härleda mentala tillstånd från implicita ledtrådar och har starka förväntningar på vad dessa ledtrådar betyder. Detta gäller för interaktion mellan människor, liksom interaktion mellan människa och robot. En normaliserande flödesmodell används som en generativ modell som kan producera ansiktsgester och huvudrörelser. Den inverterbara naturen hos normaliseringsflödesmodellen gör det också möjligt att manipulera det genererade ansiktsuttrycken. Utgången manipuleras i två dimensioner som vanligtvis används för att beskriva affektivt tillstånd, valens och upphetsning. Modellen i detta arbete kan generera ansiktsuttryck som ser verkliga och mänskliga ut och kan manipuleras for att ändra det affektiva tillstånd.
6

Deep Scenario Generation of Financial Markets / Djup scenario generering av finansiella marknader

Carlsson, Filip, Lindgren, Philip January 2020 (has links)
The goal of this thesis is to explore a new clustering algorithm, VAE-Clustering, and examine if it can be applied to find differences in the distribution of stock returns and augment the distribution of a current portfolio of stocks and see how it performs in different market conditions. The VAE-clustering method is as mentioned a newly introduced method and not widely tested, especially not on time series. The first step is therefore to see if and how well the clustering works. We first apply the algorithm to a dataset containing monthly time series of the power demand in Italy. The purpose in this part is to focus on how well the method works technically. When the model works well and generates proper results with the Italian Power Demand data, we move forward and apply the model on stock return data. In the latter application we are unable to find meaningful clusters and therefore unable to move forward towards the goal of the thesis. The results shows that the VAE-clustering method is applicable for time series. The power demand have clear differences from season to season and the model can successfully identify those differences. When it comes to the financial data we hoped that the model would be able to find different market regimes based on time periods. The model is though not able distinguish different time periods from each other. We therefore conclude that the VAE-clustering method is applicable on time series data, but that the structure and setting of the financial data in this thesis makes it to hard to find meaningful clusters. The major finding is that the VAE-clustering method can be applied to time series. We highly encourage further research to find if the method can be successfully used on financial data in different settings than tested in this thesis. / Syftet med den här avhandlingen är att utforska en ny klustringsalgoritm, VAE-Clustering, och undersöka om den kan tillämpas för att hitta skillnader i fördelningen av aktieavkastningar och förändra distributionen av en nuvarande aktieportfölj och se hur den presterar under olika marknadsvillkor. VAE-klusteringsmetoden är som nämnts en nyinförd metod och inte testad i stort, särskilt inte på tidsserier. Det första steget är därför att se om och hur klusteringen fungerar. Vi tillämpar först algoritmen på ett datasätt som innehåller månatliga tidsserier för strömbehovet i Italien. Syftet med denna del är att fokusera på hur väl metoden fungerar tekniskt. När modellen fungerar bra och ger tillfredställande resultat, går vi vidare och tillämpar modellen på aktieavkastningsdata. I den senare applikationen kan vi inte hitta meningsfulla kluster och kan därför inte gå framåt mot målet som var att simulera olika marknader och se hur en nuvarande portfölj presterar under olika marknadsregimer. Resultaten visar att VAE-klustermetoden är väl tillämpbar på tidsserier. Behovet av el har tydliga skillnader från säsong till säsong och modellen kan framgångsrikt identifiera dessa skillnader. När det gäller finansiell data hoppades vi att modellen skulle kunna hitta olika marknadsregimer baserade på tidsperioder. Modellen kan dock inte skilja olika tidsperioder från varandra. Vi drar därför slutsatsen att VAE-klustermetoden är tillämplig på tidsseriedata, men att strukturen på den finansiella data som undersöktes i denna avhandling gör det svårt att hitta meningsfulla kluster. Den viktigaste upptäckten är att VAE-klustermetoden kan tillämpas på tidsserier. Vi uppmuntrar ytterligare forskning för att hitta om metoden framgångsrikt kan användas på finansiell data i andra former än de testade i denna avhandling
7

Synthesis of Tabular Financial Data using Generative Adversarial Networks / Syntes av tabulär finansiell data med generativa motstridande nätverk

Karlsson, Anton, Sjöberg, Torbjörn January 2020 (has links)
Digitalization has led to tons of available customer data and possibilities for data-driven innovation. However, the data needs to be handled carefully to protect the privacy of the customers. Generative Adversarial Networks (GANs) are a promising recent development in generative modeling. They can be used to create synthetic data which facilitate analysis while ensuring that customer privacy is maintained. Prior research on GANs has shown impressive results on image data. In this thesis, we investigate the viability of using GANs within the financial industry. We investigate two state-of-the-art GAN models for synthesizing tabular data, TGAN and CTGAN, along with a simpler GAN model that we call WGAN. A comprehensive evaluation framework is developed to facilitate comparison of the synthetic datasets. The results indicate that GANs are able to generate quality synthetic datasets that preserve the statistical properties of the underlying data and enable a viable and reproducible subsequent analysis. It was however found that all of the investigated models had problems with reproducing numerical data. / Digitaliseringen har fört med sig stora mängder tillgänglig kunddata och skapat möjligheter för datadriven innovation. För att skydda kundernas integritet måste dock uppgifterna hanteras varsamt. Generativa Motstidande Nätverk (GANs) är en ny lovande utveckling inom generativ modellering. De kan användas till att syntetisera data som underlättar dataanalys samt bevarar kundernas integritet. Tidigare forskning på GANs har visat lovande resultat på bilddata. I det här examensarbetet undersöker vi gångbarheten av GANs inom finansbranchen. Vi undersöker två framstående GANs designade för att syntetisera tabelldata, TGAN och CTGAN, samt en enklare GAN modell som vi kallar för WGAN. Ett omfattande ramverk för att utvärdera syntetiska dataset utvecklas för att möjliggöra jämförelse mellan olika GANs. Resultaten indikerar att GANs klarar av att syntetisera högkvalitativa dataset som bevarar de statistiska egenskaperna hos det underliggande datat, vilket möjliggör en gångbar och reproducerbar efterföljande analys. Alla modellerna som testades uppvisade dock problem med att återskapa numerisk data.
8

Attribute Embedding for Variational Auto-Encoders : Regularization derived from triplet loss / Inbäddning av attribut för Variationsautokodare : Strukturering av det Latenta Rummet

E. L. Dahlin, Anton January 2022 (has links)
Techniques for imposing a structure on the latent space of neural networks have seen much development in recent years. Clustering techniques used for classification have been used to great success, and with this work we hope to bridge the gap between contrastive losses and Generative models. We introduce an embedding loss derived from Triplet loss to show that attributes and information can be clustered in specific dimensions in the latent space of Variational Auto-Encoders. This allows control over the embedded attributes via manipulation of these latent space dimensions. This work also serves to take steps towards the usage of any data augmentation when applying Triplet loss to Variational Auto-Encoders. In this work three different Variational Auto-Encoders are trained on three different datasets to embed information in three different ways using this novel method. Our results show the method working to varying degrees depending on the implementation and the information embedded. Two experiments using image data and one using waveform audio shows that the method is modality invariant. / Tekniker för att införa en struktur i det latenta utrymmet i neurala nätverk har sett mycket utveckling under de senaste åren. Kluster metoder som används för klassificering har använts till stor framgång, och med detta arbete hoppas vi kunna brygga gapet mellan kontrastiva förlustfunktioner och generativa modeller. Vi introducerar en förlustfunktion för inbäddning härledd från triplet loss för att visa att attribut och information kan klustras i specifika dimensioner i det latenta utrymmet hos variationsautokodare. Detta tillåter kontroll över de inbäddade attributen via manipulering av dessa dimensioner i latenta utrymmet. Detta arbete tjänar också till att ta steg mot användningen av olika data augmentationer när triplet loss tillämpas på generativa modeller. Tre olika Variationsautokodare tränas på tre olika dataset för att bädda in information på tre olika sätt med denna nya metod. Våra resultat visar att metoden fungerar i varierande grad beroende på hur den tillämpas och vilken information som inbäddas. Två experiment använder bild-data och ett använder sig av ljud, vilket visar på att metoden är modalitetsinvariant.
9

Basil-GAN / Basilika-GAN

Risberg, Jonatan January 2022 (has links)
Developments in computer vision has sought to design deep neural networks which trained on a large set of images are able to generate high quality artificial images which share semantic qualities with the original image set. A pivotal shift was made with the introduction of the generative adversarial network (GAN) by Goodfellow et al.. Building on the work by Goodfellow more advanced models using the same idea have shown great improvements in terms of both image quality and data diversity. GAN models generate images by feeding samples from a vector space into a generative neural network. The structure of these so called latent vector samples show to correspond to semantic similarities of their corresponding generated images. In this thesis the DCGAN model is trained on a novel data set consisting of image sequences of the growth process of basil plants from germination to harvest. We evaluate the trained model by comparing the DCGAN performance on benchmark data sets such as MNIST and CIFAR10 and conclude that the model trained on the basil plant data set achieved similar results compared to the MNIST data set and better results in comparison to the CIFAR10 data set. To argue for the potential of using more advanced GAN models we compare the results from the DCGAN model with the contemporary StyleGAN2 model. We also investigate the latent vector space produced by the DCGAN model and confirm that in accordance with previous research, namely that the DCGAN model is able to generate a latent space with data specific semantic structures. For the DCGAN model trained on the data set of basil plants, the latent space is able to distinguish between images of early stage basil plants from late stage plants in the growth phase. Furthermore, utilizing the sequential semantics of the basil plant data set, an attempt at generating an artificial growth sequence is made using linear interpolation. Finally we present an unsuccessful attempt at visualising the latent space produced by the DCGAN model using a rudimentary approach at inverting the generator network function. / Utvecklingen inom datorseende har syftat till att utforma djupa neurala nätverk som tränas på en stor mängd bilder och kan generera konstgjorda bilder av hög kvalitet med samma semantiska egenskaper som de ursprungliga bilderna. Ett avgörande skifte skedde när Goodfellow et al. introducerade det generativa adversariella nätverket (GAN). Med utgångspunkt i Goodfellows arbete har flera mer avancerade modeller som använder samma idé uppvisat stora förbättringar när det gäller både bildkvalitet och datamångfald. GAN-modeller genererar bilder genom att mata in vektorer från ett vektorrum till ett generativt neuralt nätverk. Strukturen hos dessa så kallade latenta vektorer visar sig motsvara semantiska likheter mellan motsvarande genererade bilder. I detta examensarbete har DCGAN-modellen tränats på en ny datamängd som består av bildsekvenser av basilikaplantors tillväxtprocess från groning till skörd. Vi utvärderar den tränade modellen genom att jämföra DCGAN-modellen mot referensdataset som MNIST och CIFAR10 och drar slutsatsen att DCGAN tränad på datasetet för basilikaväxter uppnår liknande resultat jämfört med MNIST-dataset och bättre resultat jämfört med CIFAR10-datasetet. För att påvisa potentialen av att använda mer avancerade GAN-modeller jämförs resultaten från DCGAN-modellen med den mer avancerade StyleGAN2-modellen. Vi undersöker också det latenta vektorrum som produceras av DCGAN-modellen och bekräftar att DCGAN-modellen i enlighet med tidigare forskning kan generera ett latent rum med dataspecifika semantiska strukturer. För DCGAN-modellen som tränats på datamängden med basilikaplantor lyckas det latenta rummet skilja mellan bilder av basilikaplantor i tidiga stadier och sena stadier av plantor i tillväxtprocessen. Med hjälp av den sekventiella semantiken i datamängden för basilikaväxter gjörs dessutom ett försök att generera en artificiell tillväxtsekvens med hjälp av linjär interpolation. Slutligen presenterar vi ett misslyckat försök att visualisera det latenta rummet som produceras av DCGAN-modellen med hjälp av ett rudimentärt tillvägagångssätt för att invertera den generativa nätverksfunktionen.
10

Exploring Normalizing Flow Modifications for Improved Model Expressivity / Undersökning av normalizing flow-modifikationer för förbättrad modelluttrycksfullhet

Juschak, Marcel January 2023 (has links)
Normalizing flows represent a class of generative models that exhibit a number of attractive properties, but do not always achieve state-of-the-art performance when it comes to perceived naturalness of generated samples. To improve the quality of generated samples, this thesis examines methods to enhance the expressivity of discrete-time normalizing flow models and thus their ability to capture different aspects of the data. In the first part of the thesis, we propose an invertible neural network architecture as an alternative to popular architectures like Glow that require an individual neural network per flow step. Although our proposal greatly reduces the number of parameters, it has not been done before, as such architectures are believed to not be powerful enough. For this reason, we define two optional extensions that could greatly increase the expressivity of the architecture. We use augmentation to add Gaussian noise variables to the input to achieve arbitrary hidden-layer widths that are no longer dictated by the dimensionality of the data. Moreover, we implement Piecewise Affine Activation Functions that represent a generalization of Leaky ReLU activations and allow for more powerful transformations in every individual step. The resulting three models are evaluated on two simple synthetic datasets – the two moons dataset and one generated from a mixture of eight Gaussians. Our findings indicate that the proposed architectures cannot adequately model these simple datasets and thus do not represent alternatives to current stateof-the-art models. The Piecewise Affine Activation Function significantly improved the expressivity of the invertible neural network, but could not make use of its full potential due to inappropriate assumptions about the function’s input distribution. Further research is needed to ensure that the input to this function is always standard normal distributed. We conducted further experiments with augmentation using the Glow model and could show minor improvements on the synthetic datasets when only few flow steps (two, three or four) were used. However, in a more realistic scenario, the model would encompass many more flow steps. Lastly, we generalized the transformation in the coupling layers of modern flow architectures from an elementwise affine transformation to a matrixbased affine transformation and studied the effect this had on MoGlow, a flow-based model of motion. We could show that McMoGlow, our modified version of MoGlow, consistently achieved a better training likelihood than the original MoGlow on human locomotion data. However, a subjective user study found no statistically significant difference in the perceived naturalness of the samples generated. As a possible reason for this, we hypothesize that the improvements are subtle and more visible in samples that exhibit slower movements or edge cases which may have been underrepresented in the user study. / Normalizing flows representerar en klass av generativa modeller som besitter ett antal eftertraktade egenskaper, men som inte alltid uppnår toppmodern prestanda när det gäller upplevd naturlighet hos genererade data. För att förbättra kvaliteten på dessa modellers utdata, undersöker detta examensarbete metoder för att förbättra uttrycksfullheten hos Normalizing flows-modeller i diskret tid, och därmed deras förmåga att fånga olika aspekter av datamaterialet. I den första delen av uppsatsen föreslår vi en arkitektur uppbyggt av ett inverterbart neuralt nätverk. Vårt förslag är ett alternativ till populära arkitekturer som Glow, vilka kräver individuella neuronnät för varje flödessteg. Även om vårt förslag kraftigt minskar antalet parametrar har detta inte gjorts tidigare, då sådana arkitekturer inte ansetts vara tillräckligt kraftfulla. Av den anledningen definierar vi två oberoende utökningar till arkitekturen som skulle kunna öka dess uttrycksfullhet avsevärt. Vi använder så kallad augmentation, som konkatenerar Gaussiska brusvariabler till observationsvektorerna för att uppnå godtyckliga bredder i de dolda lagren, så att deras bredd inte längre begränsas av datadimensionaliteten. Dessutom implementerar vi Piecewise Affine Activation-funktioner (PAAF), vilka generaliserar Leaky ReLU-aktiveringar genom att möjliggöra mer kraftfulla transformationer i varje enskilt steg. De resulterande tre modellerna utvärderas med hjälp av två enkla syntetiska datamängder - ”the two moons dataset” och ett som genererats genom att blanda av åtta Gaussfördelningar. Våra resultat visar att de föreslagna arkitekturerna inte kan modellera de enkla datamängderna på ett tillfredsställande sätt, och därmed inte utgör kompetitiva alternativ till nuvarande moderna modeller. Den styckvisa aktiveringsfunktionen förbättrade det inverterbara neurala nätverkets uttrycksfullhet avsevärt, men kunde inte utnyttja sin fulla potential på grund av felaktiga antaganden om funktionens indatafördelning. Ytterligare forskning behövs för att hantera detta problem. Vi genomförde ytterligare experiment med augmentation av Glow-modellen och kunde påvisa vissa förbättringar på de syntetiska dataseten när endast ett fåtal flödessteg (två, tre eller fyra) användes. Däremot omfattar modeller i mer realistiska scenarion många fler flödessteg. Slutligen generaliserade vi transformationen i kopplingslagren hos moderna flödesarkitekturer från en elementvis affin transformation till en matrisbaserad affin transformation, samt studerade vilken effekt detta hade på MoGlow, en flödesbaserad modell av 3D-rörelser. Vi kunde visa att McMoGlow, vår modifierade version av MoGlow, konsekvent uppnådde bättre likelihood i träningen än den ursprungliga MoGlow gjorde på mänskliga rörelsedata. En subjektiv användarstudie på exempelrörelser genererade från MoGlow och McMoGlow visade dock ingen statistiskt signifikant skillnad i användarnas uppfattning av hur naturliga rörelserna upplevdes. Som en möjlig orsak till detta antar vi att förbättringarna är subtila och mer synliga i situationer som uppvisar långsammare rörelser eller i olika gränsfall som kan ha varit underrepresenterade i användarstudien.

Page generated in 0.4826 seconds