Global ETD Search

1	Genomic Data Augmentation with Variational Autoencoder Thyrum, Emily 12 1900 (has links) In order to treat cancer effectively, medical practitioners must predict pathological stages accurately, and machine learning methods can be employed to make such predictions. However, biomedical datasets, including genomic datasets, often have disproportionately more samples from people of European ancestry than people of other ethnic or racial groups, which can cause machine learning methods to perform better on the European samples than on the people of the under-represented groups. Data augmentation can be employed as a potential solution in order to artificially increase the number of samples from people of under-represented racial groups, and can in turn improve pathological stage predictions for future patients from such under-represented groups. Genomic data augmentation has been explored previously, for example using a Generative Adversarial Network, but to the best of our knowledge, the use of the variational autoencoder for the purpose of genomic data augmentation remains largely unexplored. Here we utilize a geometry-based variational autoencoder that models the latent space as a Riemannian manifold so that samples can be generated without the use of a prior distribution to show that the variational autoencoder can indeed be used to reliably augment genomic data. Using TCGA prostate cancer genotype data, we show that our VAE-generated data can improve pathological stage predictions on a test set of European samples. Because we only had European samples that were labeled in terms of pathological stage, we were not able to validate the African generated samples in this way, but we still attempt to show how such samples may be realistic. / Computer and Information Science Computer science Genomic data augmentation Variational autoencoder
2	Machine Architecture / Maskinarkitektur Spett, Max Viktor January 2018 (has links) Recent developments in AI is changing our world. It already governs our digital life. In my thesis I take the position that AI involvement in the field of architecture is inevitable, and indeed already here. AI is neither something we can simply accept, nor wholly ignore. Rather, we should try to understand and work with it. These algorithms should not be seen as mere tools with predictable, repeatable outcomes, they are something more complex. I’ve explored the world of AI by means of teaching a machine to design diverse, typologically similar objects: residential doorways from Stockholm. By instructing the machine to read and recreate these objects it has learned to design objects similar to them. While the machine does not know what it has designed, it has nevertheless reinterpreted the residential gate, thus offering an opportunity to glimpse into to the “mind” of AI, a world equally as unknown as omnipresent. Machine Learning Variational Autoencoder Architecture Thesis Architecture Arkitektur
3	Perceptual facial expression representation Mikheeva, Olga January 2017 (has links) Facial expressions play an important role in such areas as human communication or medical state evaluation. For machine learning tasks in those areas, it would be beneficial to have a representation of facial expressions which corresponds to human similarity perception. In this work, the data-driven approach to representation learning of facial expressions is taken. The methodology is built upon Variational Autoencoders and eliminates the appearance-related features from the latent space by using neutral facial expressions as additional inputs. In order to improve the quality of the learned representation, we modify the prior distribution of the latent variable to impose the structure on the latent space that is consistent with human perception of facial expressions. We conduct the experiments on two datasets and the additionally collected similarity data, show that the human-like topology in the latent representation helps to improve the performance on the stereotypical emotion classification task and demonstrate the benefits of using a probabilistic generative model in exploring the roles of latent dimensions through the generative process. / Ansiktsuttryck spelar en viktig roll i områden som mänsklig kommunikation eller vid utvärdering av medicinska tillstånd. För att tillämpa maskininlärning i dessa områden skulle det vara fördelaktigt att ha en representation av ansiktsuttryck som bevarar människors uppfattning av likhet. I det här arbetet används ett data-drivet angreppssätt till representationsinlärning av ansiktsuttryck. Metodologin bygger på s. k. Variational Autoencoders och eliminerar utseende-relaterade drag från den latenta rymden genom att använda neutrala ansiktsuttryck som extra input-data. För att förbättra kvaliteten på den inlärda representationen så modifierar vi a priori-distributionen för den latenta variabeln för att ålägga den struktur på den latenta rymden som är överensstämmande med mänsklig perception av ansiktsuttryck. Vi utför experiment på två dataset och även insamlad likhets-data och visar att den människolika topologin i den latenta representationen hjälper till att förbättra prestandan på en typisk emotionsklassificeringsuppgift samt fördelarna med att använda en probabilistisk generativ modell när man undersöker latenta dimensioners roll i den generativa processen. representation learning facial expression variational autoencoder Computer Sciences Datavetenskap (datalogi)
4	Credit Card Transaction Fraud Detection Using Neural Network Classifiers / Detektering av bedrägliga korttransaktioner m.h.a neurala nätverk Nazeriha, Ehsan January 2023 (has links) With increasing usage of credit card payments, credit card fraud has also been increasing. Therefore a fast and accurate fraud detection system is vital for the banks. To solve the problem of fraud detection, different machine learning classifiers have been designed and trained on a credit card transaction dataset. However, the dataset is heavily imbalanced which poses a problem for the performance of the algorithms. To resolve this issue, the generative methods Generative Adversarial Network (GAN), Variational Autoencoders (VAE) and Synthetic Minority Oversampling Technique (SMOTE) have been used to generate synthetic samples for the minority class in order to achieve a more balanced dataset. The main purpose of this study is to evaluate the generative methods and investigate the impact of their generated minority samples on the classifiers. The results from this study indicated that GAN does not outperform the other classifiers as the generated samples from VAE were most effective in three out of five classifiers. Also the validation and histogram of the generated samples indicate that the VAE samples have captured the distribution of the data better than SMOTE and GAN. A suggestion to improve on this work is to perform data engineering on the dataset. For instance, using correlation analysis for the features and analysing which features have the greatest impact on the classification and subsequently dropping the less important features and train the generative methods and classifiers with the trimmed down samples. / Med ökande användning av kreditkort som betalningsmetod i världen, har även kreditkort bedrägeri ökat. Därför finns det behov av ett snabbt och tillförligt system för att upptäcka bedrägliga transkationer. För att lösa problemet med att detektera kreditkort bedrägerier, har olika maskininlärnings klassifiseringsmetoder designats och tränats med ett dataset som innehåller kreditkortstransaktioner. Dock är dessa dataset väldigt obalanserade och innehåller mest normala transaktioner, vilket är problematiskt för systemets noggranhet vid klassificering. Därför har generativa metoderna Generative adversarial networks, Variational autoencoder och Synthetic minority oversampling technique använs för att skapa syntetisk data av minoritetsklassen för att balansera datasetet och uppnå bättre noggranhet. Det centrala målet med denna studie var därmed att evaluera dessa generativa metoder och invetigera påverkan av de syntetiska datapunkterna på klassifiseringsmetoderna. Resultatet av denna studie visade att den generativa metoden generative adversarial networks inte överträffade de andra generativa metoderna då syntetisk data från variational autoencoders var mest effektiv i tre av de fem klassifisieringsmetoderna som testades i denna studie. Dessutom visar valideringsmetoden att variational autoencoder lyckades bäst med att lära sig distributionen av orginal datat bättre än de andra generativa metoderna. Ett förslag för vidare utveckling av denna studie är att jobba med data behandling på datasetet innan datasetet används för träning av algoritmerna. Till exempel kan man använda korrelationsanalys för att analysera vilka features i datasetet har störst påverkan på klassificeringen och därmed radera de minst viktiga och sedan träna algortimerna med data som innehåller färre features. GAN Deep Learning Variational Autoencoder Anomaly Detection SMOTE GAN Djupinlärning Variational Autoencoder Anomali detektering SMOTE Computer and Information Sciences Data- och informationsvetenskap
5	Decoding Neural Signals Associated to Cytokine Activity / Identifiering av Nervsignaler Associerade Till Cytokin Aktivitet Andersson, Gabriel January 2021 (has links) The Vagus nerve has shown to play an important role regarding inflammatory diseases, regulating the production of proteins that mediate inflammation. Two important such proteins are the pro-inflammatory cytokines, TNF and IL-1β. This thesis makes use of Vagus nerve recordings, where TNF and IL-1β are subsequently injected in mice, with the aim to see if cytokine-specific information can be extracted. To this end, a type of semi-supervised learning approach is applied, where the observed waveform-data are modeled using a conditional probability distribution. The conditioning is done based on an estimate of how often each observed waveform occurs and local maxima of the conditional distribution are interpreted as candidate-waveforms to encode cytokine information. The methodology yields varying, but promising results. The occurrence of several candidate waveforms are found to increase substantially after exposure to cytokine. Difficulties obtaining coherent results are discussed, as well as different approaches for future work. / Vagusnerven har visat sig spela en viktig roll beträffande inflammatoriska sjukdomar. Denna nerv reglerar produktionen av inflammatoriska protein, som de inflammationsfrämjande cytokinerna TNF och IL-1β. Detta arbete använder sig av elektroniska mätningar av Vagusnerven i möss som under tiden blir injicerade med de två cytokinerna TNF och IL-1β. Syftet med arbetet är att undersöka om det är möjligt att extrahera information om de specifika cytokinerna från Vagusnervmätningarna. För att uppnå detta designar vi en semi-vägledd lärandemetod som modellerar dem observerade vågformerna med en betingad sannolikhetsfunktion. Betingandet baseras på en uppskattning av hur ofta varje enskild vågform förekommer och lokala maximum av den betingade sannolikhetsfunktionen tolkas som möjliga kandidat-vågformer att innehålla cytokin-information. Metodiken ger varierande, men lovande resultat. Förekomsten av flertalet kandidat-vågformer har en tydlig ökning efter tidpunkten för cytokin-injektion. Vidare så diskuteras svårigheter i att uppnå konsekventa resultat för alla mätningar, samt olika möjligheter för framtida arbete inom området. Cytokines Neural Signals Vagus Nerve Variational Inference Variational Autoencoder Cytokiner Nervsignaler Vagusnerven Variational inference Variational autoencoder Mathematics Matematik
6	VAE-clustering of neural signals and their association to cytokines / VAE-klustring av nervsignaler och dess associationer till cytokiner Eskandari, Aram January 2020 (has links) In this thesis we start by reproducing previous experiments by Zanos et al., where they have shown that it is possible to associate neural signals with specific cytokines. One future aim of this project is to send synthetic neural signals through the efferent arc of the vagus nerve and observe reactions without the corresponding catalyst of the symptoms. We use a variational autoencoder (VAE) in our experiment to create a model able to generate new neural signals, and we introduce a novel clustering technique called VAE-clustering, which will be used to cluster neural signals with their associated cytokines. The focus of this paper is the implementation of this method and applying it on the neural signals. Running VAE-clustering on the MNIST dataset shows it to be viable for finding detailed properties of a dataset. We also find that using a VAE as a generative model for neural signals is a good way for recreating detailed waveforms. / I detta examensarbete börjar vi med att reproducera tidigare experiment av Zanos et al., där dom visat att det är möjligt att associera nervsignaler med specifika cytokiner. Ett framtida mål med detta projekt är att skicka syntetiska nervsignaler till kroppen för att observera reaktioner utan motsvarande katalysator av symptomen. Vi använder en variational autoencoder (VAE) i våra experiment för att skapa en modell kapabel till att generera nya nervsignaler, och vi introducerar en ny klusterings-teknik kallad VAE-klustring, vilken kommer att användas för att klustra nervsignaler med dess associerade cytokiner. Fokuset i detta arbete ligger i implementationen av denna metod och applicerandet på nervsignaler. Efter att ha kört VAE-klustring på MNIST dataset fann vi att det det är användbart för att hitta detaljerade egenskaper hos ett dataset. Vi har även funnit att användningen av en VAE som en generativ modell för nervsignaler är ett bra sätt att återskapa detaljerade vågformer. Statistics applied mathematics variational autoencoder cytokines VAE-clustering neuron signals Statistik tillämpad matematik variational autoencoder cytokiner VAE-klustring nervsignaler Probability Theory and Statistics Sannolikhetsteori och statistik
7	MmWave Radar-based Deep Learning Collision Prediction Lauren V'dovec, Taylor January 2023 (has links) Autonomous drone navigation in classical approaches typically involves constructing a map representation and employing path planning and collision checking algorithms within that map. Recently, novel deep learning techniques combined with depth camera observations have emerged as alternative approaches capable of achieving comparable collision-free performance. While these methods have demonstrated effective collision-free performance in dense environments, they rely on low-noise range or visual data, which may not be feasible in extreme degraded environments characterized by factors such as dust, smoke, weak geometries, or low-texture areas. A possible alternative is to leverage recent progress in mmWave radar imaging, which previously has produced data of insufficient resolution for such purposes. Through the use of a Variational Autoencoder and existing collision prediction algorithms, the goal of this study is to prove the use of mmWave radar for navigating difficult environments. The results of the study exhibit successful navigation in simulated scenarios featuring sparse obstacles. Additionally, results of utilizing real-world mmWave radar data in example scenarios is provided to demonstrate the potential for further application of this technology. / Autonom navigation för drönare i klassiska tillvägagångssätt innebär vanligtvis att man konstruerar en kartrepresentation och använder vägplanerings- och kollisionskontrollalgoritmer inom den kartan. Nyligen har nya djupinlärningstekniker kombinerat med djupkameraobservationer framträtt som alternativa tillvägagångssätt som kan uppnå jämförbar prestanda utan kollisioner. Även om dessa metoder har visat effektiv prestanda utan kollisioner i täta miljöer, är de beroende av störningsfria avstånds- eller visuella data, vilket kanske inte är genomförbart i extrema försämrade miljöer som karakteriseras av faktorer som damm, rök, svaga geometrier eller områden med låg textur. Ett möjligt alternativ är att dra nytta av de senaste framstegen inom mmWave-radaravbildning, vilket tidigare har producerat data med otillräcklig upplösning för sådana ändamål. Genom användning av en varieabel autoencoder och befintliga kollisionsprognosalgoritmer syftar denna studie till att bevisa användningen av mmWave-radar för att navigera i svåra miljöer. Resultaten från studien visar framgångsrik navigering i simulerade scenarier med glesa hinder. Dessutom presenteras resultat från användning av verkliga mmWave-radardata i exempelscenarier för att visa potentialen för ytterligare tillämpningar av denna teknik. collision prediction mmWave radar deep learning variational autoencoder (VAE) drone autonomous navigation kollisionsprognos mmWave radar djupinlärning variational autoencoder (VAE) drönare autonom navigation Computer and Information Sciences Data- och informationsvetenskap
8	Applying Machine Learning for Generating Radio Channel Coefficients : Practical insights into the process of selectingand implementing machine learning algorithms for spatial channel modelling Zander, Adrian January 2021 (has links) One cornerstone in building future 5G and beyond wireless systems is to mimic the real-world environment using a simulator. The simulator needs to reflect the experienced propagation environment by the device in different scenarios. Today, the methods used to generate such an environment and finding the signal qualities at certain locations can be time-consuming for large cities with many base stations and devices. The objective of this project is speed up an existing SCM channel generator by replacing certain time-critical numerical formulas with a machine learning (ML) model that can generate the channel coefficients directly. The expectation is that this setup will provide much faster generations than any existing solution. A machine learning paradigm is suggested and implemented. The results suggests that a model can learn and generalize from the training data, and that provided solution is a possible configuration for modelling radio channels. Conclusions regarding the implementational considerations are made as guidance for future work. / En av hörnstenarna för att kunna bygga framtida trådlösa 5G system är att kunna efterlikna den verkliga miljön med hjälp av en simulator. Simulatorn måste återspegla enhetens upplevda propageringsmiljö i olika scenarier. I dagens läge kan metoderna som används för att skapa en sådan miljö, och hitta signalkvaliteterna på vissa platser vara tidskrävande för scenarier med stora städer med många basstationer och enheter. Målet med detta projekt är att påskynda en befintlig SCM-kanalgenerator genom att ersätta vissa tidskritiska numeriska formler med en maskininlärningsmodell (ML) som kan generera kanalkoefficienterna direkt. Förväntningen är att denna lösning kommer att generera data mycket snabbare än någon befintlig lösning. En sådan lösning föreslås och implementeras. Resultaten tyder på att en modell kan lära sig och generalisera av träningsdatat, och att den tillhandahållna lösningen är en möjlig konfiguration för modellering av radiokanaler. Slutsatser gällande övervägningarna vid implementeringen dras som vägledning för framtida arbete. Spatial Channel Model Deep Generative Networks Variational Autoencoder Simulation Spatial Channel Model Deep Generative Networks Variational Autoencoder Simulation Computer and Information Sciences Data- och informationsvetenskap
9	Hybrid Variational Autoencoder for Clustering of Single-Cell RNA-seq Data : Introducing HybridVI, a Variational Autoencoder with two Latent Spaces / Hybrid Variational autoencoder för analys av enkelcells RNA-sekvensering data Narrowe Danielsson, Sarah January 2022 (has links) Single-cell analysis means to analyze cells on an individual level. This individual analysis enhances the investigation of the heterogeneity among and the classification of individual cells. Single-cell analysis is a broad term and can include various measurements. This thesis utilizes single-cell RNA sequence data that measures RNA sequences representing genes for individual cells. This data is often high-dimensional, with tens of thousands of RNA sequences measured for each cell. Dimension reduction is therefore necessary when analyzing the data. One proposed dimension reduction method is the unsupervised machine learning method variational autoencoders. The scVI framework has previously implemented a variational autoencoder for analyzing single-cell RNA sequence data. The variational autoencoder of the scVI has one latent space with a Gaussian distribution. Several extensions have been made to the scVI framework since its creation. This thesis proposes an additional extension consisting of a variational autoencoder with two latent spaces, called hybridVI. One of these latent spaces has a Gaussian distribution and the other a von Mises-Fisher distribution. The data is separated between these two latent spaces, meaning that some of the genes go through one latent space and the rest go through the other. In this thesis the cell cycle genes go through the von Mises-Fisher latent space and the rest of the genes go through the Gaussian latent space. The motivation behind the von Mises-Fisher latent space is that cell cycle genes are believed to follow a circular distribution. Putting these genes through a von Mises-Fisher latent space instead of a Gaussian latent space could provide additional insights into the data. The main focus of this thesis was to analyze the impact this separation. The analysis consisted of comparing the performance of the hybridVI model, to the original scVI variational autoencoder. The comparison utilized three annotated datasets, one peripheral blood mononuclear cell dataset, one cortex cell dataset, and one B cell dataset collected by the Henriksson lab at Umeå University. The evaluation metrics used were the adjusted rand index, normalized mutual information and a Wilcoxon signed ranks test was used to determine if the results had statistical significance. The results indicate that the size of the dataset was essential for achieving robust and statistically significant results. For the two datasets that yielded statistically significant results, the scVI model performed better than the hybridVI model. However, more research analyzing biological aspects is necessary to declare the hybridVI model’s effect on the biological interpretation of the results. / Individuell cellanalys är en relativt ny metod som möjliggör undersökning av celler på indivudiell nivå. Det här examensarbetet analyserar RNA sekvens data, där RNA sekvenser är specifierade för individuella celler. Den här sortens data är ofta högdimensionell med flera tusen gener noterade för varje cell. För att möjliggöra en analys av den här datan krävs någon form av dimensionreducering. En föreslagen metod är den ovövervakade maskininlärningsmetoden variational autoencoders. Ett ramverk, scVI, har framtagit en variational autoencoder designad för att hantera den här sortens data. Den här modellen har endast en latentrymd med en normalfördelning. Det här examensarbetet föreslår en utökning av det här ramverket med en variational autoencoder med två latentrymder,där den ena är normalfördelad och den andra följer en von Mises-Fisher fördelning. Motiveringen till en sådan fördelning är att cellcykelgener är antagna att tillhöra en cirkulär fördelning. Cellcykelgenerna i datan kan därmed hanteras av den cirkulära latentrymden. Huvudfokuset i den här studien är att undersöka om den här separationen av gener kan förbättra modellens förmåga att hitta korrekta kluster. Experimentet utfördes på tre annoterade dataset, ett som bestod av perifera mononukleära blodceller, ett som bestod av hjärnbarksceller och ett som bestod av B celler insamlat av Henrikssongruppen vid Umeå universitet. Modellen från scVI ramverket jämfördes med den nya metoden med två latentrymder, hybridVI. Måtten som användes för att bedöma de modellerna var adjusted rand index och normaliserad mutual information och ett Wilcoxon Signed-Ranks test användes för att bedöma resultatens statistiska signifikans. Resultaten påvisar att de båda modellerna preseterar bättre och mer konsekvent för större dataset. Två dataset gav statistiskt signifikanta resultat och visade att scVI modellen presterade bättre än hybridmodellen. Det behövs dock en biologisk analys av resultaten för att undersöka vilken modells resultat som har mest biologisk relevans. Bioinformatics scRNAseq Variational Autoencoder Single-Cell Analysis Bioinformatik scRNAseq Variational Autoencoder individuell cellanalys Bioinformatics (Computational Biology) Bioinformatik (beräkningsbiologi) Computer and Information Sciences Data- och informationsvetenskap
10	MCMC estimation of causal VAE architectures with applications to Spotify user behavior / MCMC uppskattning av kausala VAE arkitekturer med tillämpningar på Spotify användarbeteende Harting, Alice January 2023 (has links) A common task in data science at internet companies is to develop metrics that capture aspects of the user experience. In this thesis, we are interested in systems of measurement variables without direct causal relations such that covariance is explained by unobserved latent common causes. A framework for modeling the data generating process is given by Neuro-Causal Factor Analysis (NCFA). The graphical model consists of a directed graph with edges pointing from the latent common causes to the measurement variables; its functional relations are approximated with a constrained Variational Auto-Encoder (VAE). We refine the estimation of the graphical model by developing an MCMC algorithm over Bayesian networks from which we read marginal independence relations between the measurement variables. Unlike standard independence testing, the method is guaranteed to yield an identifiable graphical model. Our algorithm is competitive with the benchmark, and it admits additional flexibility via hyperparameters that are natural to the approach. Tuning these parameters yields superior performance over the benchmark. We train the improved NCFA model on Spotify user behavior data. It is competitive with the standard VAE on data reconstruction with the benefit of causal interpretability and model identifiability. We use the learned latent space representation to characterize clusters of Spotify users. Additionally, we train an NCFA model on data from a randomized control trial and observe treatment effects in the latent space. / En vanlig uppgift för en data scientist på ett internetbolag är att utveckla metriker som reflekterar olika aspekter av användarupplevelsen. I denna uppsats är vi intresserade av system av mätvariabler utan direkta kausala relationer, så till vida att kovarians förklaras av latenta gemensamma orsaker. Ett ramverk för att modellera den datagenererande processen ges av Neuro-Causal Factor Analysis (NCFA). Den grafiska modellen består av en riktad graf med kanter som pekar från de latenta orsaksvariablerna till mätvariablerna; funktionssambanden uppskattas med en begränsad Variational Auto-Encoder (VAE). Vi förbättrar uppskattningen av den grafiska modellen genom att utveckla en MCMC algoritm över Bayesianska nätverk från vilka vi läser de obetingade beroendesambanden mellan mätvariablerna. Till skillnad från traditionella oberoendetest så garanterar denna metod en identifierbar grafisk modell. Vår algoritm är konkurrenskraftig jämfört med referensmetoderna, och den tillåter ytterligare flexibilitet via hyperparametrar som är naturliga för metoden. Optimal justering av dessa hyperparametrar resulterar i att vår metod överträffar referensmetoderna. Vi tränar den förbättrade NCFA modellen på data om användarbeteende på Spotify. Modellen är konkurrenskraftig jämfört med en standard VAE vad gäller rekonstruktion av data, och den tillåter dessutom kausal tolkning och identifierbarhet. Vi analyserar representationen av Spotify-användarna i termer av de latenta orsaksvariablerna. Specifikt så karakteriserar vi grupper av liknande användare samt observerar utfall av en randomiserad kontrollerad studie. causal inference bayesian network variational autoencoder factor analysis neuro-causal factor analysis kausal inferens bayesianskt nätverk variational autoencoder faktoranalys neuro-causal factor analysis Other Mathematics Annan matematik

Search results