• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 12
  • Tagged with
  • 12
  • 12
  • 12
  • 11
  • 8
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Generating synthetic golf courses with deep learning : Investigation into the uses and limitations of generative deep learning / Generera syntetiska golfbanor med djupinlärning : Undersökning av användningsområden och begränsningar för generativ djupinlärning

Lundqvist, Carl January 2022 (has links)
The power of generative deep learning has increased very quickly in the past ten years and modern models are now able to generate human faces that are indistinguishable from real ones. This thesis project will investigate the uses and limitations of this technology by attempting to generate very specific data, images of golf holes. Generative adverserial networks, GANs, were used to solve this problem. Two different GAN models were chosen as candidates and these were trained on some different datasets that were extracted from the project provider Topgolf Sweden AB’s virtual golf game. This golf game contained data of many different types of golf holes from all over the world. The best performing model was Progressive Growing GAN, ProGAN, which works by iteratively increasing the size of the images until the desired size is reached. This model was able to produce results of very high quality and with large variety. To further investigate the quality of the results a survey was sent out to the employees of Topgolf Sweden AB. A survey that showed that it was difficult for the participants to correctly determine if a given image was real or had been generated by the model. These results further showed that the generated samples had a high quality. This thesis project also investigated how height data could be incorporated in the process. The results showed that the ProGAN model was able to generate height maps that capture the most important aspects of a golf hole. Furthermore, the overall results showed that the generative model had learned a good representation of the data’s underlying probability distribution. More work needs to be done before a model like the one presented here can be used to generate complete golf holes that can be used in a virtual golf game, but this project clearly shows that GANs are a worthwhile investment for this purpose. / Kraften i generativ djupinlärning har ökat snabbt under de senaste tio åren och moderna modeller kan generera bilder på människoansikten som är omöjliga att urskilja från riktiga ansikten. Detta examensarbete undersöker hur denna teknologi kan användas och vad det finns för begränsningar genom att försöka generera väldigt specifik data, bilder på golfhål. Generativa adversiella nätverk, GANs, användas för att lösa detta problem. Två modeller valdes som kandidater och dessa tränades på olika datasets som hade extraherats från projektleverantören Topgolf Sweden ABs virtuella golfspel. Detta golfspel innehöll data från en mängd olika typer av golfhål från hela världen. Modellen som presterade bäst var Progressive Growing GAN, ProGAN, som iterativt ökar storleken på bilderna tills den önskade storleken har nåtts. Denna modell lyckades skapa bilder av väldigt hög kvalitet och med stor variation. För att ytterligare undersöka kvaliten på resultaten så genomfördes en enkät. Enkäten skickades till anställda hos Topgolf Sweden AB. Svaren visade att det var svårt för deltagarna att urskilja äkta bilder från genererade bilder vilket ytterligare visade att de genererade bilderna hade hög kvalitet. Detta examensarbete undersökte också hur höjddata kunde integreras i processen. Resultaten av detta visade att ProGAN modellen kunde generera höjddata som innehöll de viktigaste delarna av ett golfhål. Dessutom så visade resultaten i helhet att den generativa modellen hade lärt sig en bra representation av träningsdatans underliggande sannolikhetsfördelning. Mer arbete krävs för att en liknande modell ska kunna generera kompletta golfhål som kan användas i ett virtuellt golfspel, men projektet visar att GANs är ett väldigt bra alternativ för att lyckas med det.
2

Understanding people movement and detecting anomalies using probabilistic generative models / Att förstå personförflyttningar och upptäcka anomalier genom att använda probabilistiska generativa modeller

Hansson, Agnes January 2020 (has links)
As intelligent access solutions begin to dominate the world, the statistical learning methods to answer for the behavior of these needs attention, as there is no clear answer to how an algorithm could learn and predict exactly how people move. This project aims at investigating if, with the help of unsupervised learning methods, it is possible to distinguish anomalies from normal events in an access system, and if the most probable choice of cylinder to be unlocked by a user can be calculated.Given to do this is a data set of the previous events in an access system, together with the access configurations - and the algorithms that were used consisted of an auto-encoder and a probabilistic generative model.The auto-encoder managed to, with success, encode the high-dimensional data set into one of significantly lower dimension, and the probabilistic generative model, which was chosen to be a Gaussian mixture model, identified clusters in the data and assigned a measure of unexpectedness to the events.Lastly, the probabilistic generative model was used to compute the conditional probability of which the user, given all the details except which cylinder that was chosen during an event, would choose a certain cylinder. The result of this was a correct guess in 65.7 % of the cases, which can be seen as a satisfactory number for something originating from an unsupervised problem. / Allt eftersom att intelligenta åtkomstlösningar tar över i samhället, så är det nödvändigt att ägna de statistiska inlärnings-metoderna bakom dessa tillräckligt med uppmärksamhet, eftersom det inte finns något självklart svar på hur en algoritm ska kunna lära sig och förutspå människors exakta rörelsemönster.Det här projektet har som mål att, med hjälp av oövervakad inlärning, undersöka huruvida det är möjligt att urskilja anomalier från normala iakttagelser, och om den låscylinder med högst sannolikhet att en användare väljer att försöka låsa upp går att beräknda.Givet för att genomföra detta projekt är en datamängd där händelser från ett åtkomstsystem finns, tillsammans med tillhörande åtkomstkonfig-urationer. Algoritmerna som användes i projektet har bestått av en auto-encoder och en probabilistisk generativ modell.Auto-encodern lyckades, med tillfredsställande resultat, att koda det hög-dimensionella datat till ett annat med betydligt lägre dimension, och den probabilistiska generativa modellen, som valdes till en Gaussisk mixtur-modell, lyckades identifiera kluster i datat och med att tilldela varje observation ett mått på dess otrolighet.Till slut så användes den probabilistiska generativa modellen för att beräkna en villkorad sannolikhet, för vilken användaren, given alla attribut för en händelse utom just vilken låscylinder som denna försökte öppna, skulle välja.Resultatet av dessa var en korrekt gissning i 65,7 % av fallen, vilket kan ses som en tillfredställande siffra för något som härrör från ett oövervakat problem.
3

Technology Acceptance for AI implementations : A case study in the Defense Industry about 3D Generative Models / Teknologisk Acceptans för AI implementationer : En fallstudie i försvarsindustrin om 3D Generativa Modeller

Arenander, Michael January 2023 (has links)
Advancements in Artificial Intelligence (AI), Machine Learning (ML), and Deep Learning (DL) has emerged into 3D object creation processes through the rise of 3D Generative Adversarial Networks (3D GAN). These networks contain 3D generative models capable of analyzing and constructing 3D objects. 3D generative models have therefore become an increasingly important area to consider for the automation of design processes in the manufacturing and defense industry. This case study explores areas of automation enabled by 3D generative models for an incumbent in the Swedish defense industry. This study additionally evaluates discovered types of implementations of 3D generative models from a sociotechnical perspective by conducting qualitative interviews with employees. This study applies the Unified Theory of Acceptance and Use of Technology (UTAUT) for understanding the adoption and intention to use 3D generative models. A description of 3D objects, CAD, 3D generative models, and point cloud data is given in this study. A literature review is additionally given in the three fields of AI, technology acceptance, and the defense industry to funnel the literature to the context of this study. 21 types of implementations are discovered and categorized into four distinct groups. In conclusion a lot of potential is found for the adoption of 3D generative models for especially AI simulation processes, but challenges with data collection and security are discovered as the most significant obstacle to overcome. / Framsteg inom artificiell intelligens (AI), maskininlärning (ML) och djupinlärning (DL) har resulterat i att 3D-objektskapandeprocesser har utvecklats genom framväxten av 3D Generative Adversarial Networks (3D GAN). Dessa nätverk innehåller 3D-generativa modeller som är kapabla till att analysera och konstruera 3D-objekt. 3D-generativa modeller har därmed blivit ett allt viktigare område att beakta för automatisering av designprocesser inom tillverknings- och försvarsindustrin. Denna fallstudie undersöker automatiseringsområden som möjliggörs av 3D-generativamodeller för en etablerad aktör inom den svenska försvarsindustrin. Studien utvärderar dessutom identifierade typer av implementeringar av 3D-generativa modeller ur ett socio-tekniskt perspektiv genom att genomföra kvalitativa intervjuer med anställda. Denna studie tillämpar Unified Theory of Acceptance and Use of Technology (UTAUT) för att förstå acceptans och avsikt att använda 3D-generativa modeller. En beskrivning av 3D-objekt, CAD, 3D-generativa modeller och punktmolnsdata ges i denna studie. Dessutom ges en litteraturöversikt inom tre områden: AI, teknologianvändning och försvarsindustrin för att rikta in litteraturen mot denna studiens sammanhang. 21 typer av tillämpningar identifieras och kategoriseras i fyra distinkta grupper. Som slutsats finns det stor potential för antagande av 3D-generativamodeller, särskilt inom AI-simuleringsprocesser, men utmaningar med datainsamling och säkerhet identifieras som de mest betydande hindren att överkomma.
4

A study about Active Semi-Supervised Learning for Generative Models / En studie om Aktivt Semi-Övervakat Lärande för Generativa Modeller

Fernandes de Almeida Quintino, Elisio January 2023 (has links)
In many relevant scenarios, there is an imbalance between abundant unlabeled data and scarce labeled data to train predictive models. Semi-Supervised Learning and Active Learning are two distinct approaches to deal with this issue. The first one directly uses the unlabeled data to improve model parameter learning, while the second performs a smart choice of unlabeled points to be sent to an annotator, or oracle, which can label these points and increase the labeled training set. In this context, Generative Models are highly appropriate, since they internally represent the data generating process, naturally benefiting from data samples independently of the presence of labels. This Thesis proposes Expectation-Maximization with Density-Weighted Entropy, a novel active semi-supervised learning framework tailored towards generative models. The method is theoretically explored and experiments are conducted to evaluate its application to Gaussian Mixture Models and Multinomial Mixture Models. Based on its partial success, several questions are raised and discussed as to identify possible improvements and decide which shortcomings need to be dealt with before the method is considered robust and generally applicable. / I många relevanta scenarier finns det en obalans mellan god tillgång på oannoterad data och sämre tillgång på annoterad data för att träna prediktiva modeller. Semi-Övervakad Inlärning och Aktiv Inlärning är två distinkta metoder för att hantera denna fråga. Den första använder direkt oannoterad data för att förbättra inlärningen av modellparametrar, medan den andra utför ett smart val av oannoterade punkter som ska skickas till en annoterare eller ett orakel, som kan annotera dessa punkter och öka det annoterade träningssetet. I detta sammanhang är Generativa Modeller mycket lämpliga eftersom de internt representerar data-genereringsprocessen och naturligt gynnas av dataexempel oberoende av närvaron av etiketter. Denna Masteruppsats föreslår Expectation-Maximization med Density-Weighted Entropy, en ny aktiv semi-övervakad inlärningsmetod som är skräddarsydd för generativa modeller. Metoden utforskas teoretiskt och experiment genomförs för att utvärdera dess tillämpning på Gaussiska Mixturmodeller och Multinomiala Mixturmodeller. Baserat på dess partiella framgång ställs och diskuteras flera frågor för att identifiera möjliga förbättringar och avgöra vilka brister som måste hanteras innan metoden anses robust och allmänt tillämplig.
5

Believable and Manipulable Facial Behaviour in a Robotic Platform using Normalizing Flows / Trovärda och Manipulerbara Ansiktsuttryck i en Robotplattform med Normaliserande Flöde

Alias, Kildo January 2021 (has links)
Implicit communication is important in interaction because it plays a role in conveying the internal mental states of an individual. For example, emotional expressions that are shown through unintended facial gestures can communicate underlying affective states. People can infer mental states from implicit cues and have strong expectations of what those cues mean. This is true for human-human interactions, as well as human-robot interactions. A Normalizing flow model is used as a generative model that can produce facial gestures and head movements. The invertible nature of the Normalizing flow model makes it possible to manipulate attributes of the generated gestures. The model in this work is capable of generating facial expressions that look real and human-like. Furthermore, the model can manipulate the generated output to change the perceived affective state of the facial expressions. / Implicit kommunikation är viktig i interaktioner eftersom den spelar en roll för att förmedla individens inre mentala tillstånd. Till exempel kan känslomässiga uttryck som visas genom oavsiktliga ansiktsgester kommunicera underliggande affektiva tillstånd. Människor kan härleda mentala tillstånd från implicita ledtrådar och har starka förväntningar på vad dessa ledtrådar betyder. Detta gäller för interaktion mellan människor, liksom interaktion mellan människa och robot. En normaliserande flödesmodell används som en generativ modell som kan producera ansiktsgester och huvudrörelser. Den inverterbara naturen hos normaliseringsflödesmodellen gör det också möjligt att manipulera det genererade ansiktsuttrycken. Utgången manipuleras i två dimensioner som vanligtvis används för att beskriva affektivt tillstånd, valens och upphetsning. Modellen i detta arbete kan generera ansiktsuttryck som ser verkliga och mänskliga ut och kan manipuleras for att ändra det affektiva tillstånd.
6

Towards Generative Modeling of Mitotic Cells Using Latent Diffusion Models / Generativ modellering av celler i mitos med latenta diffusionsmodeller

Kuttainen Thyni, Emma January 2024 (has links)
The integration of artificial intelligence (AI) into biomedical research has given rise to new models and research topics in biomedicine. Whole-cell modeling aims to create a holistic understanding of the cell by integrating diverse data. One method of comprehension is the characterization and imitation of a system. Phenomenological cell models imitate cell structure and behavior based on, for example, images. Thus generative AI image models present one approach to developing such phenomenological models of cell systems. Diffusion models are a popular generative model class for image generation. Briefly, diffusion models consist of a forward and reverse diffusion process, where the forward process iteratively adds noise to an image and the reverse process learns to remove it. Image generation is achieved by sampling from noise and applying the learned reverse process. The generation may be conditioned to achieve a specific output. The diffusion process is computationally expensive to evaluate in pixel space. The latent diffusion model presents a solution by moving the diffusion process to the latent space of an autoencoder. A latent diffusion model has been trained to develop a phenomenological model of cells in mitosis. The aim is to identify spatial and temporal patterns in the dataset, consisting of fluorescence microscopy images of cells in mitosis, and condition the output of the latent diffusion model on labels associated with the data. The latent diffusion can generate images unconditionally and conditionally. The unconditionally generated images appear visually similar, but quantitative metrics suggest the potential for improvement. Qualitative analysis of the conditionally generated images indicates opportunities for enhancement. The analysis from the proposed method for objective assessment of conditionally generated images, feature extraction of images followed by dimension reduction using uniform manifold approximation and projection, concurs with the visual assessment. However, the quantitative metrics and the proposed method of conditional assessment rely upon InceptionV3 to extract features from the images. InceptionV3 has not been trained on biomedical images and thus the metrics and methods should not be overly relied upon. In general, there is a need for new assessment techniques suitable for non-class conditionally generated images that are unsuitable for evaluation using user studies. / Integrering av artificiell intelligens (AI) i biomedicinsk forskning har gett upphov till nya modeller och forskningsfrågor inom biomedicin. Helcellsmodellering syftar till att skapa ett kvantitativt perspektiv på cellbiologi och skapa holistisk kunskap om cellen. Ett system kan förstås genom karaktärisering och imitation. Generativ AI är ett tillvägagångssätt för att utveckla modeller som kan imitera och karaktärisera celler baserat på bilder. Diffusionsmodeller är en populär klass av generativa modeller för bildgenerering. Diffusionsmodeller består av en framåt- och bakåtdiffusionsprocess, där den framåtriktade processen iterativt lägger till brus i en bild och den bakåtriktade processen lär sig att ta bort det. Nya bilder genereras genom att tillämpa den inlärda bakåtriktade processen på en bild av brus. Generationen kan göras villkorlig för att forma bilden efter givna villkor. Den beräkningsintensiva diffusionsprocessen kan effektiviseras genom att introducera en "autoencoder" som flyttar diffusionsprocessen från pixelrummets stora dimension till det latenta rummet, som har en mindre dimension. Det utgör basen för en latent diffusionsmodell. För att utveckla en fenomenologisk modell av celler i mitos har en latent diffusionsmodell tränats på fluorescensmikroskopibilder på celler som genomgår mitos. Målet är att identifiera spatiala och temporala mönster i bilderna och skapa en modell som kan villkora bildgenerationen baserat på givna spatiala och temporala villkor associerade med bilderna. Latenta diffusionsmodeller kan skapa bilder både villkorligen och helt fritt från den underliggande datadistributionen. Den fria generationen av bilder resulterar i visuellt lika bilder men kvantitativa mått indikerar att modellen kan förbättras. Villkorligt genererade bilder håller inte samma visuella kvalité. Behovet av tekniker för att utvärdera villkorligt genererade bilder har identifierats och en metod har föreslagits. Metoden involverar att extrahera attribut från bilderna och reducera dimensionen av attributen för att visualisera de olika villkoren. Utvärderingen av de villkorligt genererade bilderna visar att den villkorliga generationen kan förbättras. Däremot beror metoden och de kvantitativa mått som beräknades för den fria generationen av bilder på ett neuralt nätverk som inte tränats på biomedicinska bilder. Därför bör resultaten tolkas med viss reservation.
7

Deep Scenario Generation of Financial Markets / Djup scenario generering av finansiella marknader

Carlsson, Filip, Lindgren, Philip January 2020 (has links)
The goal of this thesis is to explore a new clustering algorithm, VAE-Clustering, and examine if it can be applied to find differences in the distribution of stock returns and augment the distribution of a current portfolio of stocks and see how it performs in different market conditions. The VAE-clustering method is as mentioned a newly introduced method and not widely tested, especially not on time series. The first step is therefore to see if and how well the clustering works. We first apply the algorithm to a dataset containing monthly time series of the power demand in Italy. The purpose in this part is to focus on how well the method works technically. When the model works well and generates proper results with the Italian Power Demand data, we move forward and apply the model on stock return data. In the latter application we are unable to find meaningful clusters and therefore unable to move forward towards the goal of the thesis. The results shows that the VAE-clustering method is applicable for time series. The power demand have clear differences from season to season and the model can successfully identify those differences. When it comes to the financial data we hoped that the model would be able to find different market regimes based on time periods. The model is though not able distinguish different time periods from each other. We therefore conclude that the VAE-clustering method is applicable on time series data, but that the structure and setting of the financial data in this thesis makes it to hard to find meaningful clusters. The major finding is that the VAE-clustering method can be applied to time series. We highly encourage further research to find if the method can be successfully used on financial data in different settings than tested in this thesis. / Syftet med den här avhandlingen är att utforska en ny klustringsalgoritm, VAE-Clustering, och undersöka om den kan tillämpas för att hitta skillnader i fördelningen av aktieavkastningar och förändra distributionen av en nuvarande aktieportfölj och se hur den presterar under olika marknadsvillkor. VAE-klusteringsmetoden är som nämnts en nyinförd metod och inte testad i stort, särskilt inte på tidsserier. Det första steget är därför att se om och hur klusteringen fungerar. Vi tillämpar först algoritmen på ett datasätt som innehåller månatliga tidsserier för strömbehovet i Italien. Syftet med denna del är att fokusera på hur väl metoden fungerar tekniskt. När modellen fungerar bra och ger tillfredställande resultat, går vi vidare och tillämpar modellen på aktieavkastningsdata. I den senare applikationen kan vi inte hitta meningsfulla kluster och kan därför inte gå framåt mot målet som var att simulera olika marknader och se hur en nuvarande portfölj presterar under olika marknadsregimer. Resultaten visar att VAE-klustermetoden är väl tillämpbar på tidsserier. Behovet av el har tydliga skillnader från säsong till säsong och modellen kan framgångsrikt identifiera dessa skillnader. När det gäller finansiell data hoppades vi att modellen skulle kunna hitta olika marknadsregimer baserade på tidsperioder. Modellen kan dock inte skilja olika tidsperioder från varandra. Vi drar därför slutsatsen att VAE-klustermetoden är tillämplig på tidsseriedata, men att strukturen på den finansiella data som undersöktes i denna avhandling gör det svårt att hitta meningsfulla kluster. Den viktigaste upptäckten är att VAE-klustermetoden kan tillämpas på tidsserier. Vi uppmuntrar ytterligare forskning för att hitta om metoden framgångsrikt kan användas på finansiell data i andra former än de testade i denna avhandling
8

Synthesis of Tabular Financial Data using Generative Adversarial Networks / Syntes av tabulär finansiell data med generativa motstridande nätverk

Karlsson, Anton, Sjöberg, Torbjörn January 2020 (has links)
Digitalization has led to tons of available customer data and possibilities for data-driven innovation. However, the data needs to be handled carefully to protect the privacy of the customers. Generative Adversarial Networks (GANs) are a promising recent development in generative modeling. They can be used to create synthetic data which facilitate analysis while ensuring that customer privacy is maintained. Prior research on GANs has shown impressive results on image data. In this thesis, we investigate the viability of using GANs within the financial industry. We investigate two state-of-the-art GAN models for synthesizing tabular data, TGAN and CTGAN, along with a simpler GAN model that we call WGAN. A comprehensive evaluation framework is developed to facilitate comparison of the synthetic datasets. The results indicate that GANs are able to generate quality synthetic datasets that preserve the statistical properties of the underlying data and enable a viable and reproducible subsequent analysis. It was however found that all of the investigated models had problems with reproducing numerical data. / Digitaliseringen har fört med sig stora mängder tillgänglig kunddata och skapat möjligheter för datadriven innovation. För att skydda kundernas integritet måste dock uppgifterna hanteras varsamt. Generativa Motstidande Nätverk (GANs) är en ny lovande utveckling inom generativ modellering. De kan användas till att syntetisera data som underlättar dataanalys samt bevarar kundernas integritet. Tidigare forskning på GANs har visat lovande resultat på bilddata. I det här examensarbetet undersöker vi gångbarheten av GANs inom finansbranchen. Vi undersöker två framstående GANs designade för att syntetisera tabelldata, TGAN och CTGAN, samt en enklare GAN modell som vi kallar för WGAN. Ett omfattande ramverk för att utvärdera syntetiska dataset utvecklas för att möjliggöra jämförelse mellan olika GANs. Resultaten indikerar att GANs klarar av att syntetisera högkvalitativa dataset som bevarar de statistiska egenskaperna hos det underliggande datat, vilket möjliggör en gångbar och reproducerbar efterföljande analys. Alla modellerna som testades uppvisade dock problem med att återskapa numerisk data.
9

Attribute Embedding for Variational Auto-Encoders : Regularization derived from triplet loss / Inbäddning av attribut för Variationsautokodare : Strukturering av det Latenta Rummet

E. L. Dahlin, Anton January 2022 (has links)
Techniques for imposing a structure on the latent space of neural networks have seen much development in recent years. Clustering techniques used for classification have been used to great success, and with this work we hope to bridge the gap between contrastive losses and Generative models. We introduce an embedding loss derived from Triplet loss to show that attributes and information can be clustered in specific dimensions in the latent space of Variational Auto-Encoders. This allows control over the embedded attributes via manipulation of these latent space dimensions. This work also serves to take steps towards the usage of any data augmentation when applying Triplet loss to Variational Auto-Encoders. In this work three different Variational Auto-Encoders are trained on three different datasets to embed information in three different ways using this novel method. Our results show the method working to varying degrees depending on the implementation and the information embedded. Two experiments using image data and one using waveform audio shows that the method is modality invariant. / Tekniker för att införa en struktur i det latenta utrymmet i neurala nätverk har sett mycket utveckling under de senaste åren. Kluster metoder som används för klassificering har använts till stor framgång, och med detta arbete hoppas vi kunna brygga gapet mellan kontrastiva förlustfunktioner och generativa modeller. Vi introducerar en förlustfunktion för inbäddning härledd från triplet loss för att visa att attribut och information kan klustras i specifika dimensioner i det latenta utrymmet hos variationsautokodare. Detta tillåter kontroll över de inbäddade attributen via manipulering av dessa dimensioner i latenta utrymmet. Detta arbete tjänar också till att ta steg mot användningen av olika data augmentationer när triplet loss tillämpas på generativa modeller. Tre olika Variationsautokodare tränas på tre olika dataset för att bädda in information på tre olika sätt med denna nya metod. Våra resultat visar att metoden fungerar i varierande grad beroende på hur den tillämpas och vilken information som inbäddas. Två experiment använder bild-data och ett använder sig av ljud, vilket visar på att metoden är modalitetsinvariant.
10

Basil-GAN / Basilika-GAN

Risberg, Jonatan January 2022 (has links)
Developments in computer vision has sought to design deep neural networks which trained on a large set of images are able to generate high quality artificial images which share semantic qualities with the original image set. A pivotal shift was made with the introduction of the generative adversarial network (GAN) by Goodfellow et al.. Building on the work by Goodfellow more advanced models using the same idea have shown great improvements in terms of both image quality and data diversity. GAN models generate images by feeding samples from a vector space into a generative neural network. The structure of these so called latent vector samples show to correspond to semantic similarities of their corresponding generated images. In this thesis the DCGAN model is trained on a novel data set consisting of image sequences of the growth process of basil plants from germination to harvest. We evaluate the trained model by comparing the DCGAN performance on benchmark data sets such as MNIST and CIFAR10 and conclude that the model trained on the basil plant data set achieved similar results compared to the MNIST data set and better results in comparison to the CIFAR10 data set. To argue for the potential of using more advanced GAN models we compare the results from the DCGAN model with the contemporary StyleGAN2 model. We also investigate the latent vector space produced by the DCGAN model and confirm that in accordance with previous research, namely that the DCGAN model is able to generate a latent space with data specific semantic structures. For the DCGAN model trained on the data set of basil plants, the latent space is able to distinguish between images of early stage basil plants from late stage plants in the growth phase. Furthermore, utilizing the sequential semantics of the basil plant data set, an attempt at generating an artificial growth sequence is made using linear interpolation. Finally we present an unsuccessful attempt at visualising the latent space produced by the DCGAN model using a rudimentary approach at inverting the generator network function. / Utvecklingen inom datorseende har syftat till att utforma djupa neurala nätverk som tränas på en stor mängd bilder och kan generera konstgjorda bilder av hög kvalitet med samma semantiska egenskaper som de ursprungliga bilderna. Ett avgörande skifte skedde när Goodfellow et al. introducerade det generativa adversariella nätverket (GAN). Med utgångspunkt i Goodfellows arbete har flera mer avancerade modeller som använder samma idé uppvisat stora förbättringar när det gäller både bildkvalitet och datamångfald. GAN-modeller genererar bilder genom att mata in vektorer från ett vektorrum till ett generativt neuralt nätverk. Strukturen hos dessa så kallade latenta vektorer visar sig motsvara semantiska likheter mellan motsvarande genererade bilder. I detta examensarbete har DCGAN-modellen tränats på en ny datamängd som består av bildsekvenser av basilikaplantors tillväxtprocess från groning till skörd. Vi utvärderar den tränade modellen genom att jämföra DCGAN-modellen mot referensdataset som MNIST och CIFAR10 och drar slutsatsen att DCGAN tränad på datasetet för basilikaväxter uppnår liknande resultat jämfört med MNIST-dataset och bättre resultat jämfört med CIFAR10-datasetet. För att påvisa potentialen av att använda mer avancerade GAN-modeller jämförs resultaten från DCGAN-modellen med den mer avancerade StyleGAN2-modellen. Vi undersöker också det latenta vektorrum som produceras av DCGAN-modellen och bekräftar att DCGAN-modellen i enlighet med tidigare forskning kan generera ett latent rum med dataspecifika semantiska strukturer. För DCGAN-modellen som tränats på datamängden med basilikaplantor lyckas det latenta rummet skilja mellan bilder av basilikaplantor i tidiga stadier och sena stadier av plantor i tillväxtprocessen. Med hjälp av den sekventiella semantiken i datamängden för basilikaväxter gjörs dessutom ett försök att generera en artificiell tillväxtsekvens med hjälp av linjär interpolation. Slutligen presenterar vi ett misslyckat försök att visualisera det latenta rummet som produceras av DCGAN-modellen med hjälp av ett rudimentärt tillvägagångssätt för att invertera den generativa nätverksfunktionen.

Page generated in 0.1269 seconds