• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 200
  • 59
  • Tagged with
  • 259
  • 259
  • 210
  • 153
  • 150
  • 132
  • 119
  • 112
  • 100
  • 85
  • 83
  • 81
  • 68
  • 59
  • 53
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
211

Enhancing the Value Proposition of Live Esports Consumption with AI Technology / Förbättrat Värdeerbjudande av Live Esports Konsumtion med AI Teknologi

Larsson, Marcus January 2018 (has links)
When a company includes a new technology or innovation into their value proposition, customers may perceive it as an enhancement or deterioration. This phenomenon was explored in this study with a case study of a present case in the esports industry. Research have shown that AI (Artificial Intelligence) technology can be used to predict which team is going to win in a match in the esports game DotA 2. A prototype AI called Znipe Sense was developed and analyzed during this study to answer the question: How can a predictive AI affect the value proposition of live esports consumption? Znipe Sense was included into Znipe Esports’ value proposition during a tournament in February 2018. It was observed that Znipe Sense could predict outcomes of professional matches with a higher accuracy than human experts. The observations of Znipe Sense, an interview with experienced players, interviews with business professionals and internal company documents were used as empirical material for the analysis. How Znipe Sense affected the value proposition was analyzed through the factors: Performance, Ease-of-use, Reliability, Flexibility and Affectivity, also known as the PERFA framework. It was concluded that a predictive AI can enhance the value proposition of live esports consumption through the Performance and Ease-of-use factors, and it would not affect the value proposition through Reliability or Flexibility. However, in the analysis of the Affectivity factor it was identified that there is a risk related to negative effects of gambling addiction that could deteriorate the value proposition. / När ett företag inkluderar en ny teknik eller innovation i sitt värdeerbjudande kan kunderna uppleva det som en förbättring eller försämring. Detta fenomen undersöktes i denna studie med en fallstudie av ett aktuellt fall i esportsindustrin. Forskning har visat att AI (Artificiell Intelligens) teknik kan användas för att förutsäga vilket lag som kommer att vinna i en match i esports spelet DotA 2. En AI prototyp, Znipe Sense, utvecklades och analyserades under denna studie för att svara på frågan: Hur kan ett prediktivt AI påverka värdeerbjudandet av live esports konsumtion? Znipe Sense inkluderades i Znipe Esports värdeerbjudande under en turnering i februari 2018. Det observerades att Znipe Sense var bättre än mänskliga experter på att förutse det vinnande laget i professionella matcher. Observationerna av Znipe Sense, en intervju med erfarna spelare, intervjuer med affärsfolk och interna företagsdokument användes som empiriskt material. Hur Znipe Sense påverkade värdeerbjudandet analyserades genom faktorerna: ”Performance”, ”Ease-of-use”, ”Reliability”, ”Flexibility” och ”Affectivity”, även känt som PERFA-ramverket. Slutsatsen visar på att ett prediktivt AI kan öka värdeerbjudandet av live esports konsumtion genom Performance och Ease- of-use faktorerna, och att värdeerbjudandet inte skulle påverkas genom Reliability och Flexibility. I analysen av Affectivity-faktorn identifierades emellertid att det finns en risk i relaterat till negativa effekter av spelberoende som kan försämra värdeerbjudandet.
212

On dysgraphia diagnosis support via the automation of the BVSCO test scoring : Leveraging deep learning techniques to support medical diagnosis of dysgraphia / Om dysgrafi diagnosstöd via automatisering av BVSCO-testpoäng : Utnyttja tekniker för djupinlärning för att stödja medicinsk diagnos av dysgrafi

Sommaruga, Riccardo January 2022 (has links)
Dysgraphia is a rather widespread learning disorder in the current society. It is well established that an early diagnosis of this writing disorder can lead to improvement in writing skills. However, as of today, although there is no comprehensive standard process for the evaluation of dysgraphia, most of the tests used for this purpose must be done at a physician’s office. On the other hand, the pandemic triggered by COVID-19 has forced people to stay at home and opened the door to the development of online medical consultations. The present study therefore aims to propose an automated pipeline to provide pre-clinical diagnosis of dysgraphia. In particular, it investigates the possibility of applying deep learning techniques to the most widely used test for assessing writing difficulties in Italy, the BVSCO-2. This test consists of several writing exercises to be performed by the child on paper under the supervision of a doctor. To test the hypothesis that it is possible to enable children to have their writing impairment recognized even at a distance, an innovative system has been developed. It leverages an already developed customized tablet application that captures the graphemes produced by the child and an artificial neural network that processes the images and recognizes the handwritten text. The experimental results were analyzed using different methods and were compared with the actual diagnosis that a doctor would have provided if the test had been carried out normally. It turned out that, despite a slight fixed bias introduced by the machine for some specific exercises, these results seemed very promising in terms of both handwritten text recognition and diagnosis of children with dysgraphia, thus giving a satisfactory answer to the proposed research question. / Dysgrafi är en ganska utbredd inlärningsstörning i dagens samhälle. Det är väl etablerat att en tidig diagnos av denna skrivstörning kan leda till en förbättring av skrivförmågan. Även om det i dag inte finns någon omfattande standardprocess för utvärdering av dysgrafi måste dock de flesta av de tester som används för detta ändamål göras på en läkarmottagning. Å andra sidan har den pandemi som utlöstes av COVID-19 tvingat människor att stanna hemma och öppnat dörren för utvecklingen av medicinska konsultationer online. Syftet med denna studie är därför att föreslå en automatiserad pipeline för att ge preklinisk diagnos av dysgrafi. I synnerhet undersöks möjligheten att tillämpa djupinlärningstekniker på det mest använda testet för att bedöma skrivsvårigheter i Italien, BVSCO-2. Testet består av flera skrivövningar som barnet ska utföra på papper under överinseende av en läkare. För att testa hypotesen att det är möjligt att göra det möjligt för barn att få sina skrivsvårigheter erkända även på distans har ett innovativt system utvecklats. Det utnyttjar en redan utvecklad skräddarsydd applikation för surfplattor som fångar de grafem som barnet producerar och ett artificiellt neuralt nätverk som bearbetar bilderna och känner igen den handskrivna texten. De experimentella resultaten analyserades med hjälp av olika metoder och jämfördes med den faktiska diagnos som en läkare skulle ha ställt om testet hade utförts normalt. Det visade sig att, trots en liten fast bias som maskinen införde för vissa specifika övningar, verkade dessa resultat mycket lovande när det gäller både igenkänning av handskriven text och diagnos av barn med dysgrafi, vilket gav ett tillfredsställande svar på den föreslagna forskningsfrågan.
213

Object detection for autonomous trash and litter collection / Objektdetektering för autonom skräpupplockning

Edström, Simon January 2022 (has links)
Trashandlitter discarded on the street is a large environmental issue in Sweden and across the globe. In Swedish cities alone it is estimated that 1.8 billion articles of trash are thrown to the street each year, constituting around 3 kilotons of waste. One avenue to combat this societal and environmental problem is to use robotics and AI. A robot could learn to detect trash in the wild and collect it in order to clean the environment. A key component of such a robot would be its computer vision system which allows it to detect litter and trash. Such systems are not trivially designed or implemented and have only recently reached high enough performance in order to work in industrial contexts. This master thesis focuses on creating and analysing such an algorithm by gathering data for use in a machine learning model, developing an object detection pipeline and evaluating the performance of that pipeline based on varying its components. Specifically, methods using hyperparameter optimisation, psuedolabeling and the preprocessing methods tiling and illumination normalisation were implemented and analysed. This thesis shows that it is possible to create an object detection algorithm with high performance using currently available state-of-the-art methods. Within the analysed context, hyperparameter optimisation did not significantly improve performance and psuedolabeling could only briefly be analysed but showed promising results. Tiling greatly increased mean average precision (mAP) for the detection of small objects, such as cigarette butts, but decreased the mAP for large objects and illumination normalisation improved mAPforimagesthat were brightly lit. Both preprocessing methods reduced the frames per second that a full detector could run at whilst psuedolabeling and hyperparameter optimisation greatly increased training times. / Skräp som slängs på marken har en stor miljöpåverkan i Sverige och runtom i världen. Enbart i Svenska städer uppskattas det att 1,8 miljarder bitar skräp slängs på gatan varje år, bestående av cirka 3 kiloton avfall. Ett sätt att lösa detta samhälleliga och miljömässiga problem är att använda robotik och AI. En robot skulle kunna lära siga att detektera skräp i utomhusmiljöer och samla in den för att på så sätt rengöra våra städer och vår natur. En nyckelkomponent av en sådan robot skulle vara dess system för datorseende som tillåter den att se och hitta skräp. Sådana system är inte triviala att designa eller implementera och har bara nyligen påvisat tillräckligt hög prestanda för att kunna användas i kommersiella sammanhang. Detta masterexamensarbete fokuserar på att skapa och analysera en sådan algoritm genom att insamla data för att använda i en maskininlärningsmodell, utveckla en objektdetekterings pipeline och utvärdera prestandan när dess komponenter modifieras. Specifikt analyseras metoderna pseudomarkering, hyperparameter optimering samt förprocesseringsmetoderna kakling och ljusintensitetsnormalisering. Examensarbetet visar att det är möjligt att skapa en objektdetekteringsalgoritm med hög prestanda med hjälp av den senaste tekniken på området. Inom det undersökta sammanhanget gav hyperparameter optimering inte någon större förbättring av prestandan och pseudomarkering kunde enbart ytligt analyseras men uppvisade preliminärt lovande resultat. Kakling förbättrade resultatet för detektering av små objekt, som cigarettfimpar, men minskade prestandan för större objekt och ljusintensitetsnormalisering förbättrade prestandan för bilder som var starkt belysta. Båda förprocesseringsmetoderna minskade bildhastigheten som en detektor skulle kunna köra i och psuedomarkering samt hyperparameter optimering ökade träningstiden kraftigt.
214

Attention based Knowledge Tracing in a language learning setting

Vergunst, Sebastiaan January 2022 (has links)
Knowledge Tracing aims to predict future performance of users of learning platforms based on historical data, by modeling their knowledge state. In this task, the target is a binary variable representing the correctness of the exercise, where an exercise is a word uttered by the user. Current state-of-the-art models add attention layers to autoregressive models or rely on self-attention networks. However, these models are built on publicly available datasets that lack useful information about the interactions users have with exercises. In this work, various techniques are introduced that allow for the incorporation of additional information made available in a dataset provided by Astrid Education. They consist of encoding a time dimension, modeling the skill needed for each exercise explicitly, and adjusting the length of the interaction sequence. Introducing new information to the Knowledge Tracing framework allows Astrid to craft a more personalized experience for its users; thus fulfilling the purpose and goal of the thesis. Additionally, we perform experiments to understand what aspects influence the models. Results show that modeling the skills needed to solve an exercise using an encoding strategy and reducing the length of the interaction sequence lead to improvements in terms of both accuracy and AUC. The time-encoding did not lead to better results, further experimentation is needed to include the time dimension successfully. / Mänsklig kunskap är ett försök att förutsäga användarnas framtida prestanda på lärandeplattformar baserat på historiska data, genom att modellera deras kunskaps tillstånd. I denna uppgift är målet en binär variabel som representerar överensstämmelsen av övningen. Nuvarande state-of-the-art-modeller lägger till uppmärksamhetslager på autoregressiva modeller eller förlitar sig på self-attention-nätverk. Dessa modeller bygger dock på offentligt tillgängliga databaser som saknar användbar information om de interaktioner som användare har med övningar. I detta arbete introduceras olika tekniker som gör det möjligt att inkludera ytterligare information som görs tillgänglig i en databas som tillhandahålls av Astrid Education AB. De består av att koda en tidsdimension, modellera färdigheten som krävs för varje övning explicit och justera interaktionssekvenslängden. Genom att introducera ny information i ramverket för kunskapstracing tillåter Astrid att skapa en mer personlig upplevelse för sina användare; därmed uppfyller syftet och målet med denna avhandling. Dessutom genomför vi experiment för att förstå vilka aspekter som påverkar modellerna. Resultaten visar att modellering av färdigheter med en kodningsstrategi och reducering av interaktionssekvenslängden leder till förbättringar både vad gäller noggrannhet och AUC. Tidskodningen ledde inte till bättre resultat, ytterligare experimentering krävs för att inkludera tidsdimensionen på ett framgångsrikt sätt.
215

Cyber Threat Detection using Machine Learning on Graphs : Continuous-Time Temporal Graph Learning on Provenance Graphs / Detektering av cyberhot med hjälp av maskininlärning på grafer : Inlärning av kontinuerliga tidsdiagram på härkomstgrafer

Reha, Jakub January 2023 (has links)
Cyber attacks are ubiquitous and increasingly prevalent in industry, society, and governmental departments. They affect the economy, politics, and individuals. Ever-increasingly skilled, organized, and funded threat actors combined with ever-increasing volumes and modalities of data require increasingly sophisticated and innovative cyber defense solutions. Current state-of-the-art security systems conduct threat detection on dynamic graph representations of computer systems and enterprise communication networks known as provenance graphs. Most of these security systems are statistics-based, based on rules defined by domain experts, or discard temporal information, and as such come with a set of drawbacks (e.g., incapability to pinpoint the attack, incapability to adapt to evolving systems, reduced expressibility due to lack of temporal information). At the same time, there is little research in the machine learning community on graphs such as provenance graphs, which are a form of largescale, heterogeneous, and continuous-time dynamic graphs, as most research on graph learning has been devoted to static homogeneous graphs to date. Therefore, this thesis aims to bridge these two fields and investigate the potential of learning-based methods operating on continuous-time dynamic provenance graphs for cyber threat detection. Without loss of generality, this work adopts the general Temporal Graph Networks framework for learning representations and detecting anomalies in such graphs. This method explicitly addresses the drawbacks of current security systems by considering the temporal setting and bringing the adaptability of learning-based methods. In doing so, it also introduces and releases two large-scale, continuoustime temporal, heterogeneous benchmark graph datasets with expert-labeled anomalies to foster future research on representation learning and anomaly detection on complex real-world networks. To the best of the author’s knowledge, these are one of the first datasets of their kind. Extensive experimental analyses of modules, datasets, and baselines validate the potency of continuous-time graph neural network-based learning, endorsing its practical applicability to the detection of cyber threats and possibly other semantically meaningful anomalies in similar real-world systems. / Cyberattacker är allestädes närvarande och blir allt vanligare inom industrin, samhället och statliga myndigheter. De påverkar ekonomin, politiken och enskilda individer. Allt skickligare, organiserade och finansierade hotaktörer i kombination med ständigt ökande volymer och modaliteter av data kräver alltmer sofistikerade och innovativa cyberförsvarslösningar. Dagens avancerade säkerhetssystem upptäcker hot på dynamiska grafrepresentationer (proveniensgrafer) av datorsystem och företagskommunikationsnät. De flesta av dessa säkerhetssystem är statistikbaserade, baseras på regler som definieras av domänexperter eller bortser från temporär information, och som sådana kommer de med en rad nackdelar (t.ex. oförmåga att lokalisera attacken, oförmåga att anpassa sig till system som utvecklas, begränsad uttrycksmöjlighet på grund av brist på temporär information). Samtidigt finns det lite forskning inom maskininlärning om grafer som proveniensgrafer, som är en form av storskaliga, heterogena och dynamiska grafer med kontinuerlig tid, eftersom den mesta forskningen om grafinlärning hittills har ägnats åt statiska homogena grafer. Därför syftar denna avhandling till att överbrygga dessa två områden och undersöka potentialen hos inlärningsbaserade metoder som arbetar med dynamiska proveniensgrafer med kontinuerlig tid för detektering av cyberhot. Utan att för den skull göra avkall på generaliserbarheten använder detta arbete det allmänna Temporal Graph Networks-ramverket för inlärning av representationer och upptäckt av anomalier i sådana grafer. Denna metod tar uttryckligen itu med nackdelarna med nuvarande säkerhetssystem genom att beakta den temporala induktiva inställningen och ge anpassningsförmågan hos inlärningsbaserade metoder. I samband med detta introduceras och släpps också två storskaliga, kontinuerliga temporala, heterogena referensgrafdatauppsättningar med expertmärkta anomalier för att främja framtida forskning om representationsinlärning och anomalidetektering i komplexa nätverk i den verkliga världen. Såvitt författaren vet är detta en av de första datamängderna i sitt slag. Omfattande experimentella analyser av moduler, dataset och baslinjer validerar styrkan i induktiv inlärning baserad på kontinuerliga grafneurala nätverk, vilket stöder dess praktiska tillämpbarhet för att upptäcka cyberhot och eventuellt andra semantiskt meningsfulla avvikelser i liknande verkliga system.
216

Physics-Informed Neural Networks and Machine Learning Algorithms for Sustainability Advancements in Power Systems Components

Bragone, Federica January 2023 (has links)
A power system consists of several critical components necessary for providing electricity from the producers to the consumers. Monitoring the lifetime of power system components becomes vital since they are subjected to electrical currents and high temperatures, which affect their ageing. Estimating the component's ageing rate close to the end of its lifetime is the motivation behind our project. Knowing the ageing rate and life expectancy, we can possibly better utilize and re-utilize existing power components and their parts. In return, we could achieve better material utilization, reduce costs, and improve sustainability designs, contributing to the circular industry development of power system components. Monitoring the thermal distribution and the degradation of the insulation materials informs the estimation of the components' health state. Moreover, further study of the employed paper material of their insulation system can lead to a deeper understanding of its thermal characterization and a possible consequent improvement. Our study aims to create a model that couples the physical equations that govern the deterioration of the insulation systems of power components with modern machine learning algorithms.  As the data is limited and complex in the field of components' ageing, Physics-Informed Neural Networks (PINNs) can help to overcome the problem. PINNs exploit the prior knowledge stored in partial differential equations (PDEs) or ordinary differential equations (ODEs) modelling the involved systems. This prior knowledge becomes a regularization agent, constraining the space of available solutions and consequently reducing the training data needed.  This thesis is divided into two parts: the first focuses on the insulation system of power transformers, and the second is an exploration of the paper material concentrating on cellulose nanofibrils (CNFs) classification. The first part includes modelling the thermal distribution and the degradation of the cellulose inside the power transformer. The deterioration of one of the two systems can lead to severe consequences for the other. Both abilities of PINNs to approximate the solution of the equations and to find the parameters that best describe the data are explored. The second part could be conceived as a standalone; however, it leads to a further understanding of the paper material. Several CNFs materials and concentrations are presented, and this thesis proposes a basic unsupervised learning using clustering algorithms like k-means and Gaussian Mixture Models (GMMs) for their classification. / Ett kraftsystem består av många kritiska komponenter som är nödvändiga för att leverera el från producenter till konsumenter. Att övervaka livslängden på kraftsystemets komponenter är avgörande eftersom de utsätts för elektriska strömmar och höga temperaturer som påverkar deras åldrande. Att uppskatta komponentens åldringshastighet nära slutet av dess livslängd är motivationen bakom vårt projekt. Genom att känna till åldringshastigheten och den förväntade livslängden kan vi eventuellt utnyttja och återanvända befintliga kraftkomponenter och deras delar   bättre. I gengäld kan vi uppnå bättre materialutnyttjande, minska kostnaderna och förbättra hållbarhetsdesignen vilket bidrar till den cirkulära industriutvecklingen av kraftsystemskomponenter. Övervakning av värmefördelningen och nedbrytningen av isoleringsmaterialen indikerar komponenternas hälsotillstånd. Dessutom kan ytterligare studier av pappersmaterial i kraftkomponenternas isoleringssystem leda till en djupare förståelse av dess termiska karaktärisering och en möjlig förbättring.  Vår studie syftar till att skapa en modell som kombinerar de fysiska ekvationer som styr försämringen av isoleringssystemen i kraftkomponenter med moderna algoritmer för maskininlärning. Eftersom datan är begränsad och komplex när det gäller komponenters åldrande kan  fysikinformerade neurala nätverk (PINNs) hjälpa till att lösa problemet. PINNs utnyttjar den förkunskap som finns lagrad i partiella differentialekvationer (PDE) eller ordinära differentialekvationer (ODE) för att modellera system och använder dessa ekvationer för att begränsa antalet tillgängliga lösningar och därmed minska den mängd träningsdata som behövs.  Denna avhandling är uppdelad i två delar: den första fokuserar på krafttransformatorers isoleringssystem, och den andra är en undersökning av pappersmaterialet som används med fokus på klassificering av cellulosananofibriller (CNF). Den första delen omfattar modellering av värmefördelningen och nedbrytningen av cellulosan inuti krafttransformatorn. En försämring av ett av de två systemen kan leda till allvarliga konsekvenser för det andra. Både PINNs förmåga att approximera lösningen av ekvationerna och att hitta de parametrar som bäst beskriver datan undersöks. Den andra delen skulle kunna ses som en fristående del, men den leder till en utökad förståelse av själva pappersmaterialet. Flera CNF-material och koncentrationer presenteras och denna avhandling föreslår en simpel oövervakad inlärning med klusteralgoritmer som k-means och Gaussian Mixture Models (GMMs) för deras klassificering. / <p>QC 20231010</p>
217

Image-Based Classification Solutions for Robust Automated Molecular Biology Labs / Bildbaserade klassificeringslösningar för robusta automatiserade molekylärbiologiska labb

Teo, Arnold January 2023 (has links)
Single-cell genomics (SCG) are methods for investigating heterogeneity between biological cells, among these is Smart-seq which sequences from RNA molecules. A more recent version of this method is Smart-seq3xpress which is currently in the process of being automated by the Sandberg lab at Karolinska Institutet. As part of this automated lab system, microwell plates are moved by a robot arm between molecular biology instuments. The purpose of this project was to create and integrate an image-based classification solution to validate the placement of these plates. This was done by building upon the VGG-16 convolutional neural network (CNN) model and specialising it through transfer learning to train models which classify microwell plate placement as correct or incorrect. These models were then integrated into the automated lab pipeline so that the system could self-correct or warn lab personnel of misplacement, removing the need for constant human supervision. / Enskild cellgenomik (eng. single-cell genomics) är metoder för att undersöka heterogenitet mellan biologiska celler, bland dessa metoder är Smart-seq vilken sekvenserar från RNA molekyler. En nyare version av denna metod är Smart-seq3xpress vilken nu håller på att automatiseras av Sandberglabbet vid Karolinska Institutet. Som del av detta automatiserade labbsystem förflyttas mikrobrunnplattor av en robotarm mellan molekylärbiologiska mätinstrument. Syftet med detta projekt var att skapa samt integrera en bildbaserad klassificeringslösning för att säkerställa placeringen av dessa plattor. Detta gjordes genom att bygga på djupinlärningsmodellen VGG-16 och specialisera den med överförd inlärning för att kunna träna modeller vilka klassificerar om mikrobrunnplattornas placeringar är korrekta eller inkorrekta. Sedan integrerades dessa modeller som en del av det automatiserade labbsystemet sådan att systemet kunde självkorrigera eller varna labbpersonal vid felplaceringar, och därmed ta bort behovet av konstant mänsklig tillsyn.
218

Basil-GAN / Basilika-GAN

Risberg, Jonatan January 2022 (has links)
Developments in computer vision has sought to design deep neural networks which trained on a large set of images are able to generate high quality artificial images which share semantic qualities with the original image set. A pivotal shift was made with the introduction of the generative adversarial network (GAN) by Goodfellow et al.. Building on the work by Goodfellow more advanced models using the same idea have shown great improvements in terms of both image quality and data diversity. GAN models generate images by feeding samples from a vector space into a generative neural network. The structure of these so called latent vector samples show to correspond to semantic similarities of their corresponding generated images. In this thesis the DCGAN model is trained on a novel data set consisting of image sequences of the growth process of basil plants from germination to harvest. We evaluate the trained model by comparing the DCGAN performance on benchmark data sets such as MNIST and CIFAR10 and conclude that the model trained on the basil plant data set achieved similar results compared to the MNIST data set and better results in comparison to the CIFAR10 data set. To argue for the potential of using more advanced GAN models we compare the results from the DCGAN model with the contemporary StyleGAN2 model. We also investigate the latent vector space produced by the DCGAN model and confirm that in accordance with previous research, namely that the DCGAN model is able to generate a latent space with data specific semantic structures. For the DCGAN model trained on the data set of basil plants, the latent space is able to distinguish between images of early stage basil plants from late stage plants in the growth phase. Furthermore, utilizing the sequential semantics of the basil plant data set, an attempt at generating an artificial growth sequence is made using linear interpolation. Finally we present an unsuccessful attempt at visualising the latent space produced by the DCGAN model using a rudimentary approach at inverting the generator network function. / Utvecklingen inom datorseende har syftat till att utforma djupa neurala nätverk som tränas på en stor mängd bilder och kan generera konstgjorda bilder av hög kvalitet med samma semantiska egenskaper som de ursprungliga bilderna. Ett avgörande skifte skedde när Goodfellow et al. introducerade det generativa adversariella nätverket (GAN). Med utgångspunkt i Goodfellows arbete har flera mer avancerade modeller som använder samma idé uppvisat stora förbättringar när det gäller både bildkvalitet och datamångfald. GAN-modeller genererar bilder genom att mata in vektorer från ett vektorrum till ett generativt neuralt nätverk. Strukturen hos dessa så kallade latenta vektorer visar sig motsvara semantiska likheter mellan motsvarande genererade bilder. I detta examensarbete har DCGAN-modellen tränats på en ny datamängd som består av bildsekvenser av basilikaplantors tillväxtprocess från groning till skörd. Vi utvärderar den tränade modellen genom att jämföra DCGAN-modellen mot referensdataset som MNIST och CIFAR10 och drar slutsatsen att DCGAN tränad på datasetet för basilikaväxter uppnår liknande resultat jämfört med MNIST-dataset och bättre resultat jämfört med CIFAR10-datasetet. För att påvisa potentialen av att använda mer avancerade GAN-modeller jämförs resultaten från DCGAN-modellen med den mer avancerade StyleGAN2-modellen. Vi undersöker också det latenta vektorrum som produceras av DCGAN-modellen och bekräftar att DCGAN-modellen i enlighet med tidigare forskning kan generera ett latent rum med dataspecifika semantiska strukturer. För DCGAN-modellen som tränats på datamängden med basilikaplantor lyckas det latenta rummet skilja mellan bilder av basilikaplantor i tidiga stadier och sena stadier av plantor i tillväxtprocessen. Med hjälp av den sekventiella semantiken i datamängden för basilikaväxter gjörs dessutom ett försök att generera en artificiell tillväxtsekvens med hjälp av linjär interpolation. Slutligen presenterar vi ett misslyckat försök att visualisera det latenta rummet som produceras av DCGAN-modellen med hjälp av ett rudimentärt tillvägagångssätt för att invertera den generativa nätverksfunktionen.
219

Exploring Normalizing Flow Modifications for Improved Model Expressivity / Undersökning av normalizing flow-modifikationer för förbättrad modelluttrycksfullhet

Juschak, Marcel January 2023 (has links)
Normalizing flows represent a class of generative models that exhibit a number of attractive properties, but do not always achieve state-of-the-art performance when it comes to perceived naturalness of generated samples. To improve the quality of generated samples, this thesis examines methods to enhance the expressivity of discrete-time normalizing flow models and thus their ability to capture different aspects of the data. In the first part of the thesis, we propose an invertible neural network architecture as an alternative to popular architectures like Glow that require an individual neural network per flow step. Although our proposal greatly reduces the number of parameters, it has not been done before, as such architectures are believed to not be powerful enough. For this reason, we define two optional extensions that could greatly increase the expressivity of the architecture. We use augmentation to add Gaussian noise variables to the input to achieve arbitrary hidden-layer widths that are no longer dictated by the dimensionality of the data. Moreover, we implement Piecewise Affine Activation Functions that represent a generalization of Leaky ReLU activations and allow for more powerful transformations in every individual step. The resulting three models are evaluated on two simple synthetic datasets – the two moons dataset and one generated from a mixture of eight Gaussians. Our findings indicate that the proposed architectures cannot adequately model these simple datasets and thus do not represent alternatives to current stateof-the-art models. The Piecewise Affine Activation Function significantly improved the expressivity of the invertible neural network, but could not make use of its full potential due to inappropriate assumptions about the function’s input distribution. Further research is needed to ensure that the input to this function is always standard normal distributed. We conducted further experiments with augmentation using the Glow model and could show minor improvements on the synthetic datasets when only few flow steps (two, three or four) were used. However, in a more realistic scenario, the model would encompass many more flow steps. Lastly, we generalized the transformation in the coupling layers of modern flow architectures from an elementwise affine transformation to a matrixbased affine transformation and studied the effect this had on MoGlow, a flow-based model of motion. We could show that McMoGlow, our modified version of MoGlow, consistently achieved a better training likelihood than the original MoGlow on human locomotion data. However, a subjective user study found no statistically significant difference in the perceived naturalness of the samples generated. As a possible reason for this, we hypothesize that the improvements are subtle and more visible in samples that exhibit slower movements or edge cases which may have been underrepresented in the user study. / Normalizing flows representerar en klass av generativa modeller som besitter ett antal eftertraktade egenskaper, men som inte alltid uppnår toppmodern prestanda när det gäller upplevd naturlighet hos genererade data. För att förbättra kvaliteten på dessa modellers utdata, undersöker detta examensarbete metoder för att förbättra uttrycksfullheten hos Normalizing flows-modeller i diskret tid, och därmed deras förmåga att fånga olika aspekter av datamaterialet. I den första delen av uppsatsen föreslår vi en arkitektur uppbyggt av ett inverterbart neuralt nätverk. Vårt förslag är ett alternativ till populära arkitekturer som Glow, vilka kräver individuella neuronnät för varje flödessteg. Även om vårt förslag kraftigt minskar antalet parametrar har detta inte gjorts tidigare, då sådana arkitekturer inte ansetts vara tillräckligt kraftfulla. Av den anledningen definierar vi två oberoende utökningar till arkitekturen som skulle kunna öka dess uttrycksfullhet avsevärt. Vi använder så kallad augmentation, som konkatenerar Gaussiska brusvariabler till observationsvektorerna för att uppnå godtyckliga bredder i de dolda lagren, så att deras bredd inte längre begränsas av datadimensionaliteten. Dessutom implementerar vi Piecewise Affine Activation-funktioner (PAAF), vilka generaliserar Leaky ReLU-aktiveringar genom att möjliggöra mer kraftfulla transformationer i varje enskilt steg. De resulterande tre modellerna utvärderas med hjälp av två enkla syntetiska datamängder - ”the two moons dataset” och ett som genererats genom att blanda av åtta Gaussfördelningar. Våra resultat visar att de föreslagna arkitekturerna inte kan modellera de enkla datamängderna på ett tillfredsställande sätt, och därmed inte utgör kompetitiva alternativ till nuvarande moderna modeller. Den styckvisa aktiveringsfunktionen förbättrade det inverterbara neurala nätverkets uttrycksfullhet avsevärt, men kunde inte utnyttja sin fulla potential på grund av felaktiga antaganden om funktionens indatafördelning. Ytterligare forskning behövs för att hantera detta problem. Vi genomförde ytterligare experiment med augmentation av Glow-modellen och kunde påvisa vissa förbättringar på de syntetiska dataseten när endast ett fåtal flödessteg (två, tre eller fyra) användes. Däremot omfattar modeller i mer realistiska scenarion många fler flödessteg. Slutligen generaliserade vi transformationen i kopplingslagren hos moderna flödesarkitekturer från en elementvis affin transformation till en matrisbaserad affin transformation, samt studerade vilken effekt detta hade på MoGlow, en flödesbaserad modell av 3D-rörelser. Vi kunde visa att McMoGlow, vår modifierade version av MoGlow, konsekvent uppnådde bättre likelihood i träningen än den ursprungliga MoGlow gjorde på mänskliga rörelsedata. En subjektiv användarstudie på exempelrörelser genererade från MoGlow och McMoGlow visade dock ingen statistiskt signifikant skillnad i användarnas uppfattning av hur naturliga rörelserna upplevdes. Som en möjlig orsak till detta antar vi att förbättringarna är subtila och mer synliga i situationer som uppvisar långsammare rörelser eller i olika gränsfall som kan ha varit underrepresenterade i användarstudien.
220

Modelling synaptic rewiring in brain-like neural networks for representation learning / Modellering av synaptisk omkoppling i hjärnliknande neurala nätverk för representationsinlärning

Bhatnagar, Kunal January 2023 (has links)
This research investigated the concept of a sparsity method inspired by the principles of structural plasticity in the brain in order to create a sparse model of the Bayesian Confidence Propagation Neural Networks (BCPNN) during the training phase. This was done by extending the structural plasticity in the implementation of the BCPNN. While the initial algorithm presented two synaptic states (Active and Silent), this research extended it to three synaptic states (Active, Silent and Absent) with the aim to enhance sparsity configurability and emulate a more brain-like algorithm, drawing parallels with synaptic states observed in the brain. Benchmarking was conducted using the MNIST and Fashion-MNIST dataset, where the proposed threestate model was compared against the previous two-state model in terms of representational learning. The findings suggest that the three-state model not only provides added configurability but also, in certain low-sparsity settings, showcases similar representational learning abilities as the two-state model. Moreover, in high-sparsity settings, the three-state model demonstrates a commendable balance between accuracy and sparsity trade-off. / Denna forskning undersökte en konceptuell metod för gleshet inspirerad av principerna för strukturell plasticitet i hjärnan för att skapa glesa BCPNN. Forskningen utvidgade strukturell plasticitet i en implementering av BCPNN. Medan den ursprungliga algoritmen presenterade två synaptiska tillstånd (Aktiv och Tyst), utvidgade denna forskning den till tre synaptiska tillstånd (Aktiv, Tyst och Frånvarande) med målet att öka konfigurerbarheten av sparsitet och efterlikna en mer hjärnliknande algoritm, med paralleller till synaptiska tillstånd observerade i hjärnan. Jämförelse gjordes med hjälp av MNIST och Fashion-MNIST datasetet, där det föreslagna tre-tillståndsmodellen jämfördes med den tidigare tvåtillståndsmodellen med avseende på representationslärande. Resultaten tyder på att tre-tillståndsmodellen inte bara ger ökad konfigurerbarhet utan också, i vissa lågt glesa inställningar, visar samma inlärningsförmåga som två-tillståndsmodellen. Dessutom visar den tre-tillståndsmodellen i högsparsamma inställningar en anmärkningsvärd balans mellan noggrannhet och avvägningen mellan sparsitet.

Page generated in 0.0805 seconds