Spelling suggestions: "subject:"djup neural nätverk"" "subject:"ocupa neural nätverk""
1 |
On the Use of Model-Agnostic Interpretation Methods as Defense Against Adversarial Input Attacks on Tabular DataKanerva, Anton, Helgesson, Fredrik January 2020 (has links)
Context. Machine learning is a constantly developing subfield within the artificial intelligence field. The number of domains in which we deploy machine learning models is constantly growing and the systems using these models spread almost unnoticeably in our daily lives through different devices. In previous years, lots of time and effort has been put into increasing the performance of these models, overshadowing the significant risks of attacks targeting the very core of the systems, the trained machine learning models themselves. A specific attack with the aim of fooling the decision-making of a model, called the adversarial input attack, has almost exclusively been researched for models processing image data. However, the threat of adversarial input attacks stretches beyond systems using image data, to e.g the tabular domain which is the most common data domain used in the industry. Methods used for interpreting complex machine learning models can help humans understand the behavior and predictions of these complex machine learning systems. Understanding the behavior of a model is an important component in detecting, understanding and mitigating vulnerabilities of the model. Objectives. This study aims to reduce the research gap of adversarial input attacks and defenses targeting machine learning models in the tabular data domain. The goal of this study is to analyze how model-agnostic interpretation methods can be used in order to mitigate and detect adversarial input attacks on tabular data. Methods. The goal is reached by conducting three consecutive experiments where model interpretation methods are analyzed and adversarial input attacks are evaluated as well as visualized in terms of perceptibility. Additionally, a novel method for adversarial input attack detection based on model interpretation is proposed together with a novel way of defensively using feature selection to reduce the attack vector size. Results. The adversarial input attack detection showed state-of-the-art results with an accuracy over 86%. The proposed feature selection-based mitigation technique was successful in hardening the model from adversarial input attacks by reducing their scores by 33% without decreasing the performance of the model. Conclusions. This study contributes with satisfactory and useful methods for adversarial input attack detection and mitigation as well as methods for evaluating and visualizing the imperceptibility of attacks on tabular data. / Kontext. Maskininlärning är ett område inom artificiell intelligens som är under konstant utveckling. Mängden domäner som vi sprider maskininlärningsmodeller i växer sig allt större och systemen sprider sig obemärkt nära inpå våra dagliga liv genom olika elektroniska enheter. Genom åren har mycket tid och arbete lagts på att öka dessa modellers prestanda vilket har överskuggat risken för sårbarheter i systemens kärna, den tränade modellen. En relativt ny attack, kallad "adversarial input attack", med målet att lura modellen till felaktiga beslutstaganden har nästan uteslutande forskats på inom bildigenkänning. Men, hotet som adversarial input-attacker utgör sträcker sig utom ramarna för bilddata till andra datadomäner som den tabulära domänen vilken är den vanligaste datadomänen inom industrin. Metoder för att tolka komplexa maskininlärningsmodeller kan hjälpa människor att förstå beteendet hos dessa komplexa maskininlärningssystem samt de beslut som de tar. Att förstå en modells beteende är en viktig komponent för att upptäcka, förstå och mitigera sårbarheter hos modellen. Syfte. Den här studien försöker reducera det forskningsgap som adversarial input-attacker och motsvarande försvarsmetoder i den tabulära domänen utgör. Målet med denna studie är att analysera hur modelloberoende tolkningsmetoder kan användas för att mitigera och detektera adversarial input-attacker mot tabulär data. Metod. Det uppsatta målet nås genom tre på varandra följande experiment där modelltolkningsmetoder analyseras, adversarial input-attacker utvärderas och visualiseras samt där en ny metod baserad på modelltolkning föreslås för detektion av adversarial input-attacker tillsammans med en ny mitigeringsteknik där feature selection används defensivt för att minska attackvektorns storlek. Resultat. Den föreslagna metoden för detektering av adversarial input-attacker visar state-of-the-art-resultat med över 86% träffsäkerhet. Den föreslagna mitigeringstekniken visades framgångsrik i att härda modellen mot adversarial input attacker genom att minska deras attackstyrka med 33% utan att degradera modellens klassifieringsprestanda. Slutsats. Denna studie bidrar med användbara metoder för detektering och mitigering av adversarial input-attacker såväl som metoder för att utvärdera och visualisera svårt förnimbara attacker mot tabulär data.
|
2 |
Precipitation Nowcasting using Deep Neural Networks / Nederbördsprognoser med Djupa Neurala NätverkFallenius, Valter January 2022 (has links)
Deep neural networks (DNNs) based on satellite and radar data have shown promising results for precipitation nowcasting, beating physical models and optical flow for time horizons up to 8 hours. “MetNet”, developed by Google AI, is a 225 million parameter DNN combining three different types of architectures that was trained on satellite and radar data over the United States. They claim to be the first machine learning model to outperform physical models at such a scale. In this work, we implemented a similar but simplified model trained on radar-only Swedish data, with the aim to perform precipitation nowcasting for up to 2 hours into the future. Furthermore, we compare the model to another, simpler model that omits the spatial aggregator of the DNN architecture which is a state-of-the-art vision transformer. Our results show that, although the adopted training dataset was too small to prevent overfitting, the model is still able to outperform the persistence benchmark for lead times longer than 30 minutes with a threshold of 0.2mm/h precipitation. Our simplified model, perhaps unsurprisingly, is outperformed by MetNet because of having too few training data samples or variances in the models’ implementation. We show, nonetheless, that the adopted spatial aggregator fulfills a vital role as expected, aggregating global information into spatial and temporal contexts. Due to the limitations imposed by the reduced size of the model, we cannot, unfortunately, draw definitive conclusions on whether a radar-only model could yield similar forecast skills as MetNet. To improve on these results, more training data is certainly needed. This would require that more robust computation resources are available, but pre-training the model on a larger dataset — or even implementing a model that takes in different geographical locations for training — can naturally lead to significant improvements in the predictions. / Djupa neurala nätverk (DNN) baserade på satellit och radar data har gett bra resultat för korta nederbördsprognoser och kan slå fysikaliska modeller och optical flow f ̈or prognoser upp till 8 timmar i framtiden. “MetNet” ̈ar ett 225 million DNN publicerat av Google som kombinerar tre olika typer av djupa arkitekturer, det är tränat på satellit och radar data över USA och är enligt dom den första maskininlärningsmodellen som presterar bättre än fysikaliska modeller. I denna uppsats har vi konstruerat en modell som liknar deras på ett nedskalat problem. Vi har färre parametrar, lägre upplöst data, endast 2 timmar prognostisering och använder bara radar data över Sverige för att träna modellen. Vi använder F1-score för att evaluera modellens prestanda och jämför prognosen mot persistens som referens. Vidare undersöker vi en mindre komplicerad modell där den tredje arkitekturen inte används för att se vilken roll vision transformern har. Våra resultat visar att datasetet vi tränat på är för litet och modellen överanpassas men modellen lyckas ändå slå persistens referensen för prognoser 30–120 minuter när en 0.2mm/h regntröskel tillämpas. Resultaten är sämre än MetNet av Google och vi kan inte dra några slutsatser huruvida en modell med endast radar-data skulle kunna ge liknande resultat eller inte, eftersom modellen inte tränats till dess fulla potential. Vi visar att den tredje arkitekturen, vision transformern, är en viktig del av nätverket och aggregerar global information till lokala kontexter över tid och rum. För att förbättra våra resultat skulle vi pröva att låta modellen träna på det amerikanska datasetet använt av Google och implementera en modell vars input varierar geografisk position.
|
3 |
Modelling Proxy Credit Cruves Using Recurrent Neural Networks / Modellering av Proxykreditkurvor med Rekursiva Neurala NätverkFageräng, Lucas, Thoursie, Hugo January 2023 (has links)
Since the global financial crisis of 2008, regulatory bodies worldwide have implementedincreasingly stringent requirements for measuring and pricing default risk in financialderivatives. Counterparty Credit Risk (CCR) serves as the measure for default risk infinancial derivatives, and Credit Valuation Adjustment (CVA) is the pricing method used toincorporate this default risk into derivatives prices. To calculate the CVA, one needs the risk-neutral Probability of Default (PD) for the counterparty, which is the centre in this type ofderivative.The traditional method for calculating risk-neutral probabilities of default involves constructingcredit curves, calibrated using the credit derivative Credit Default Swap (CDS). However,liquidity issues in CDS trading present a major challenge, as the majority of counterpartieslack liquid CDS spreads. This poses the difficult question of how to model risk-neutral PDwithout liquid CDS spreads.The current method for generating proxy credit curves, introduced by the Japanese BankNomura in 2013, involves a cross-sectional linear regression model. Although this model issufficient in most cases, it often generates credit curves unsuitable for larger counterpartiesin more volatile times. In this thesis, we introduce two Long Short-Term Memory (LSTM)models trained on similar entities, which use CDS spreads as input. Our introduced modelsshow some improvement in generating proxy credit curves compared to the Nomura model,especially during times of higher volatility. While the result were more in line with the tradedCDS-market, there remains room for improvement in the model structure by using a moreextensive dataset. / Ända sedan 2008 års finanskris har styrande finansiella organ ökat kraven för mätning ochprissättning av konkursrisk inom derivat. Ett område av särskilt högt intresse för detta arbete ärmotpartskreditrisker (CCR). I detta är Kreditvärdesjustering (CVA) den huvudsakliga metodenför prissättning av konkursrisk inom finansiella derivat och för att kunna få fram ett värde avCVA behövs en risk-neutral konkurssannolikhet (PD).En av de traditionella metoderna för att räkna ut denna sannolikhet är genom att skapakreditkurvor som sedan är kalibrerade utifrån CDS:ar. Detta handlade derivat (CDS) finns baraför ett mindre antal företag över hela världen vilket gör att en majoritet av marknaden saknaren tillräckligt handlad CDS. Lösning på detta är att ta fram proxy CDS för ett motsvarande bolag.Idag görs detta framförallt med en tvärsnitts-regressionsmodell som introducerades 2013 avden japanska banken Nomura. Den skapar i många fall rimliga kurvor men ett problem den harär att den oftare gör proxyn lägre än vad den borde vara.I detta arbete introducerar vi istället en LSTM modell som tränas på liknande företag. Resultatetav detta är att vi får en bättre modell i många fall för att skapa en proxy kurva men som delvishar liknande brister som Nomura modellen. Men med fortsatta undersökningar inom områdetsamt med mer data kan detta skapa en mer exakt och säkrare proxy modell.
|
4 |
Improving the Robustness of Deep Neural Networks against Adversarial Examples via Adversarial Training with Maximal Coding Rate Reduction / Förbättra Robustheten hos Djupa Neurala Nätverk mot Exempel på en Motpart genom Utbildning för motståndare med Maximal Minskning av KodningshastighetenChu, Hsiang-Yu January 2022 (has links)
Deep learning is one of the hottest scientific topics at the moment. Deep convolutional networks can solve various complex tasks in the field of image processing. However, adversarial attacks have been shown to have the ability of fooling deep learning models. An adversarial attack is accomplished by applying specially designed perturbations on the input image of a deep learning model. The noises are almost visually indistinguishable to human eyes, but can fool classifiers into making wrong predictions. In this thesis, adversarial attacks and methods to improve deep learning ’models robustness against adversarial samples were studied. Five different adversarial attack algorithm were implemented. These attack algorithms included white-box attacks and black-box attacks, targeted attacks and non-targeted attacks, and image-specific attacks and universal attacks. The adversarial attacks generated adversarial examples that resulted in significant drop in classification accuracy. Adversarial training is one commonly used strategy to improve the robustness of deep learning models against adversarial examples. It is shown that adversarial training can provide an additional regularization benefit beyond that provided by using dropout. Adversarial training is performed by incorporating adversarial examples into the training process. Traditionally, during this process, cross-entropy loss is used as the loss function. In order to improve the robustness of deep learning models against adversarial examples, in this thesis we propose two new methods of adversarial training by applying the principle of Maximal Coding Rate Reduction. The Maximal Coding Rate Reduction loss function maximizes the coding rate difference between the whole data set and the sum of each individual class. We evaluated the performance of different adversarial training methods by comparing the clean accuracy, adversarial accuracy and local Lipschitzness. It was shown that adversarial training with Maximal Coding Rate Reduction loss function would yield a more robust network than the traditional adversarial training method. / Djupinlärning är ett av de hetaste vetenskapliga ämnena just nu. Djupa konvolutionella nätverk kan lösa olika komplexa uppgifter inom bildbehandling. Det har dock visat sig att motståndarattacker har förmågan att lura djupa inlärningsmodeller. En motståndarattack genomförs genom att man tillämpar särskilt utformade störningar på den ingående bilden för en djup inlärningsmodell. Störningarna är nästan visuellt omöjliga att särskilja för mänskliga ögon, men kan lura klassificerare att göra felaktiga förutsägelser. I den här avhandlingen studerades motståndarattacker och metoder för att förbättra djupinlärningsmodellers robusthet mot motståndarexempel. Fem olika algoritmer för motståndarattack implementerades. Dessa angreppsalgoritmer omfattade white-box-attacker och black-box-attacker, riktade attacker och icke-målinriktade attacker samt bildspecifika attacker och universella attacker. De negativa attackerna genererade motståndarexempel som ledde till en betydande minskning av klassificeringsnoggrannheten. Motståndsträning är en vanligt förekommande strategi för att förbättra djupinlärningsmodellernas robusthet mot motståndarexempel. Det visas att motståndsträning kan ge en ytterligare regulariseringsfördel utöver den som ges genom att använda dropout. Motståndsträning utförs genom att man införlivar motståndarexempel i träningsprocessen. Traditionellt används under denna process cross-entropy loss som förlustfunktion. För att förbättra djupinlärningsmodellernas robusthet mot motståndarexempel föreslår vi i den här avhandlingen två nya metoder för motståndsträning genom att tillämpa principen om maximal minskning av kodningshastigheten. Förlustfunktionen Maximal Coding Rate Reduction maximerar skillnaden i kodningshastighet mellan hela datamängden och summan av varje enskild klass. Vi utvärderade prestandan hos olika metoder för motståndsträning genom att jämföra ren noggrannhet, motstånds noggrannhet och lokal Lipschitzness. Det visades att motståndsträning med förlustfunktionen Maximal Coding Rate Reduction skulle ge ett mer robust nätverk än den traditionella motståndsträningsmetoden.
|
5 |
Transformer Offline Reinforcement Learning for Downlink Link AdaptationMo, Alexander January 2023 (has links)
Recent advancements in Transformers have unlocked a new relational analysis technique for Reinforcement Learning (RL). This thesis researches the models for DownLink Link Adaptation (DLLA). Radio resource management methods such as DLLA form a critical facet for radio-access networks, where intricate optimization problems are continuously resolved under strict latency constraints in the order of milliseconds. Although previous work has showcased improved downlink throughput in an online RL approach, time dependence of DLLA obstructs its wider adoption. Consequently, this thesis ventures into uncharted territory by extending the DLLA framework with sequence modelling to fit the Transformer architecture. The objective of this thesis is to assess the efficacy of an autoregressive sequence modelling based offline RL Transformer model for DLLA using a Decision Transformer. Experimentally, the thesis demonstrates that the attention mechanism models environment dynamics effectively. However, the Decision Transformer framework lacks in performance compared to the baseline, calling for a different Transformer model. / De senaste framstegen inom Transformers har möjliggjort ny teknik för Reinforcement Learning (RL). I denna uppsats undersöks modeller för länkanpassning, närmare bestämt DownLink Link Adaptation (DLLA). Metoder för hantering av radioresurser som DLLA utgör en kritisk aspekt för radioåtkomstnätverk, där invecklade optimeringsproblem löses kontinuerligt under strikta villkor kring latens och annat, i storleksordningen millisekunder. Även om tidigare arbeten har påvisat förbättrad länkgenomströmning med en online-RL-metod, så gäller att tidsberoenden i DLLA hindrar dess bredare användning. Följaktligen utökas här DLLA-ramverket med sekvensmodellering för att passa Transformer-arkitekturer. Syftet är att bedöma effekten av en autoregressiv sekvensmodelleringsbaserad offline-RL-modell för DLLA med en Transformer för beslutsstöd. Experimentellt visas att uppmärksamhetsmekanismen modellerar miljöns dynamik effektivt. Men ramverket saknar prestanda jämfört med tidigare forsknings- och utvecklingprojekt, vilket antyder att en annan Transformer-modell krävs.
|
6 |
Basil-GAN / Basilika-GANRisberg, Jonatan January 2022 (has links)
Developments in computer vision has sought to design deep neural networks which trained on a large set of images are able to generate high quality artificial images which share semantic qualities with the original image set. A pivotal shift was made with the introduction of the generative adversarial network (GAN) by Goodfellow et al.. Building on the work by Goodfellow more advanced models using the same idea have shown great improvements in terms of both image quality and data diversity. GAN models generate images by feeding samples from a vector space into a generative neural network. The structure of these so called latent vector samples show to correspond to semantic similarities of their corresponding generated images. In this thesis the DCGAN model is trained on a novel data set consisting of image sequences of the growth process of basil plants from germination to harvest. We evaluate the trained model by comparing the DCGAN performance on benchmark data sets such as MNIST and CIFAR10 and conclude that the model trained on the basil plant data set achieved similar results compared to the MNIST data set and better results in comparison to the CIFAR10 data set. To argue for the potential of using more advanced GAN models we compare the results from the DCGAN model with the contemporary StyleGAN2 model. We also investigate the latent vector space produced by the DCGAN model and confirm that in accordance with previous research, namely that the DCGAN model is able to generate a latent space with data specific semantic structures. For the DCGAN model trained on the data set of basil plants, the latent space is able to distinguish between images of early stage basil plants from late stage plants in the growth phase. Furthermore, utilizing the sequential semantics of the basil plant data set, an attempt at generating an artificial growth sequence is made using linear interpolation. Finally we present an unsuccessful attempt at visualising the latent space produced by the DCGAN model using a rudimentary approach at inverting the generator network function. / Utvecklingen inom datorseende har syftat till att utforma djupa neurala nätverk som tränas på en stor mängd bilder och kan generera konstgjorda bilder av hög kvalitet med samma semantiska egenskaper som de ursprungliga bilderna. Ett avgörande skifte skedde när Goodfellow et al. introducerade det generativa adversariella nätverket (GAN). Med utgångspunkt i Goodfellows arbete har flera mer avancerade modeller som använder samma idé uppvisat stora förbättringar när det gäller både bildkvalitet och datamångfald. GAN-modeller genererar bilder genom att mata in vektorer från ett vektorrum till ett generativt neuralt nätverk. Strukturen hos dessa så kallade latenta vektorer visar sig motsvara semantiska likheter mellan motsvarande genererade bilder. I detta examensarbete har DCGAN-modellen tränats på en ny datamängd som består av bildsekvenser av basilikaplantors tillväxtprocess från groning till skörd. Vi utvärderar den tränade modellen genom att jämföra DCGAN-modellen mot referensdataset som MNIST och CIFAR10 och drar slutsatsen att DCGAN tränad på datasetet för basilikaväxter uppnår liknande resultat jämfört med MNIST-dataset och bättre resultat jämfört med CIFAR10-datasetet. För att påvisa potentialen av att använda mer avancerade GAN-modeller jämförs resultaten från DCGAN-modellen med den mer avancerade StyleGAN2-modellen. Vi undersöker också det latenta vektorrum som produceras av DCGAN-modellen och bekräftar att DCGAN-modellen i enlighet med tidigare forskning kan generera ett latent rum med dataspecifika semantiska strukturer. För DCGAN-modellen som tränats på datamängden med basilikaplantor lyckas det latenta rummet skilja mellan bilder av basilikaplantor i tidiga stadier och sena stadier av plantor i tillväxtprocessen. Med hjälp av den sekventiella semantiken i datamängden för basilikaväxter gjörs dessutom ett försök att generera en artificiell tillväxtsekvens med hjälp av linjär interpolation. Slutligen presenterar vi ett misslyckat försök att visualisera det latenta rummet som produceras av DCGAN-modellen med hjälp av ett rudimentärt tillvägagångssätt för att invertera den generativa nätverksfunktionen.
|
7 |
Semi- Supervised and Fully Supervised Learning for Fashion Images : A Comparison StudyMannerstråle, Carl January 2021 (has links)
Image recognition is a subfield in computer vision, representing a set of methods for analyzing images. Image recognition systems allow computers to automatically find patterns and draw conclusions directly from images. The recent growth of the ecommerce fashion industry has sparked an increased interest from research community, and subsequently industry participants have started to apply image recognition technologies to automate various processes and applications like clothing categorization, attribute tagging, automatic product recommendations and many more. However, most research have been concerned with supervised learning, which require large labeled datasets. This thesis investigates an alternative approach which could potentially mitigate the reliance of large labeled datasets. Specifically, it investigates how Semi- Supervised Learning (SSL) compares to supervised learning in the context of fashion category classification. This thesis demonstrates that a state- of- the- art SSL method to train Deep Convolutional Neural Networks can provide very close accuracy to supervised learning by a margin of approximately 1 to 3 percent for the considered set of images. / Bildigenkänning är ett delområde inom datorseende, det representerar en uppsättning metoder för att analysera bilder. Bildigenkänningssystem tillåter datorer att automatiskt hitta mönster och dra slutsatser direkt från bilder. Den senaste tillväxten inom mode e- handeln har ökat forskningsintresset inom området, detta har bidragit till att aktörer på marknaden har börjat applicera bildigenkänningstekniker för att automatisera diverse processer och applikationer, som till exempel klädeskategorisering, märkning av attribut, automatiska produktrekommendationer med flera. Dock så har majoriteten av all forskning inom detta område har fokuserat på övervakad inlärning, vilket kräver stora annoterade dataset, den här uppsatsen undersöker istället en alternativ metod, som potentiellt kan minska beroendet på stora annoterade dataset. Specifikt så undersöks och jämförs semiövervakad inlärning med övervakad inlärning vid kategorisering av modebilder. Resultaten visar att en toppmodern semiövervakad inlärningsmetod för att träna ett djupt neuralt nätverk kan åstadkomma en precision väldigt nära övervakad inlärning, med en marginal på ungefär 1 till 3 procent för de använda modebilderna.
|
8 |
Multivariate Time Series Data Generation using Generative Adversarial Networks : Generating Realistic Sensor Time Series Data of Vehicles with an Abnormal Behaviour using TimeGANNord, Sofia January 2021 (has links)
Large datasets are a crucial requirement to achieve high performance, accuracy, and generalisation for any machine learning task, such as prediction or anomaly detection, However, it is not uncommon for datasets to be small or imbalanced since gathering data can be difficult, time-consuming, and expensive. In the task of collecting vehicle sensor time series data, in particular when the vehicle has an abnormal behaviour, these struggles are present and may hinder the automotive industry in its development. Synthetic data generation has become a growing interest among researchers in several fields to handle the struggles with data gathering. Among the methods explored for generating data, generative adversarial networks (GANs) have become a popular approach due to their wide application domain and successful performance. This thesis focuses on generating multivariate time series data that are similar to vehicle sensor readings from the air pressures in the brake system of vehicles with an abnormal behaviour, meaning there is a leakage somewhere in the system. A novel GAN architecture called TimeGAN was trained to generate such data and was then evaluated using both qualitative and quantitative evaluation metrics. Two versions of this model were tested and compared. The results obtained proved that both models learnt the distribution and the underlying information within the features of the real data. The goal of the thesis was achieved and can become a foundation for future work in this field. / När man applicerar en modell för att utföra en maskininlärningsuppgift, till exempel att förutsäga utfall eller upptäcka avvikelser, är det viktigt med stora dataset för att uppnå hög prestanda, noggrannhet och generalisering. Det är dock inte ovanligt att dataset är små eller obalanserade eftersom insamling av data kan vara svårt, tidskrävande och dyrt. När man vill samla tidsserier från sensorer på fordon är dessa problem närvarande och de kan hindra bilindustrin i dess utveckling. Generering av syntetisk data har blivit ett växande intresse bland forskare inom flera områden som ett sätt att hantera problemen med datainsamling. Bland de metoder som undersökts för att generera data har generative adversarial networks (GANs) blivit ett populärt tillvägagångssätt i forskningsvärlden på grund av dess breda applikationsdomän och dess framgångsrika resultat. Denna avhandling fokuserar på att generera flerdimensionell tidsseriedata som liknar fordonssensoravläsningar av lufttryck i bromssystemet av fordon med onormalt beteende, vilket innebär att det finns ett läckage i systemet. En ny GAN modell kallad TimeGAN tränades för att genera sådan data och utvärderades sedan både kvalitativt och kvantitativt. Två versioner av denna modell testades och jämfördes. De erhållna resultaten visade att båda modellerna lärde sig distributionen och den underliggande informationen inom de olika signalerna i den verkliga datan. Målet med denna avhandling uppnåddes och kan lägga grunden för framtida arbete inom detta område.
|
9 |
A Deep Learning Approach to Predicting the Length of Stay of Newborns in the Neonatal Intensive Care Unit / En djupinlärningsstrategi för att förutsäga vistelsetiden för nyfödda i neonatala intensivvårdsavdelingenStraathof, Bas Theodoor January 2020 (has links)
Recent advancements in machine learning and the widespread adoption of electronic healthrecords have enabled breakthroughs for several predictive modelling tasks in health care. One such task that has seen considerable improvements brought by deep neural networks is length of stay (LOS) prediction, in which research has mainly focused on adult patients in the intensive care unit. This thesis uses multivariate time series extracted from the publicly available Medical Information Mart for Intensive Care III database to explore the potential of deep learning for classifying the remaining LOS of newborns in the neonatal intensive care unit (NICU) at each hour of the stay. To investigate this, this thesis describes experiments conducted with various deep learning models, including long short-term memory cells, gated recurrentunits, fully-convolutional networks and several composite networks. This work demonstrates that modelling the remaining LOS of newborns in the NICU as a multivariate time series classification problem naturally facilitates repeated predictions over time as the stay progresses and enables advanced deep learning models to outperform a multinomial logistic regression baseline trained on hand-crafted features. Moreover, it shows the importance of the newborn’s gestational age and binary masks indicating missing values as variables for predicting the remaining LOS. / Framstegen inom maskininlärning och det utbredda införandet av elektroniska hälsoregister har möjliggjort genombrott för flera prediktiva modelleringsuppgifter inom sjukvården. En sådan uppgift som har sett betydande förbättringar förknippade med djupa neurala nätverk är förutsägelsens av vistelsetid på sjukhus, men forskningen har främst inriktats på vuxna patienter i intensivvården. Den här avhandlingen använder multivariata tidsserier extraherade från den offentligt tillgängliga databasen Medical Information Mart for Intensive Care III för att undersöka potentialen för djup inlärning att klassificera återstående vistelsetid för nyfödda i den neonatala intensivvårdsavdelningen (neonatal-IVA) vid varje timme av vistelsen. Denna avhandling beskriver experiment genomförda med olika djupinlärningsmodeller, inklusive longshort-term memory, gated recurrent units, fully-convolutional networks och flera sammansatta nätverk. Detta arbete visar att modellering av återstående vistelsetid för nyfödda i neonatal-IVA som ett multivariat tidsserieklassificeringsproblem på ett naturligt sätt underlättar upprepade förutsägelser över tid och gör det möjligt för avancerade djupa inlärningsmodeller att överträffaen multinomial logistisk regressionsbaslinje tränad på handgjorda funktioner. Dessutom visar det vikten av den nyfödda graviditetsåldern och binära masker som indikerar saknade värden som variabler för att förutsäga den återstående vistelsetiden.
|
10 |
Flight search engine CPU consumption predictionTao, Zhaopeng January 2021 (has links)
The flight search engine is a technology used in the air travel industry. It allows the traveler to search and book for the best flight options, such as the combination of flights while keeping the best services, options, and price. The computation for a flight search query can be very intensive given its parameters and complexity. The project goal is to predict the flight search queries computation cost for a new flight search engine product when dealing with parameters change and optimizations. The problem of flight search cost prediction is a regression problem. We propose to solve the problem by delimiting the problem based on its business logic and meaning. Our problem has data defined as a graph, which is why we have chosen Graph Neural Network. We have investigated multiple pretraining strategies for the evaluation of node embedding concerning a realworld regression task, including using a line graph for the training. The embeddings are used for downstream regression tasks. Our work is based on some stateoftheart Machine Learning, Deep Learning, and Graph Neural Network methods. We conclude that for some business use cases, the predictions are suitable for production use. In addition, the prediction of tree ensemble boosting methods produces negatives predictions which further degrade the R2 score by 4% because of the business meaning. The Deep Neural Network outperformed the most performing Machine Learning methods by 8% to 12% of R2 score. The Deep Neural Network also outperformed Deep Neural Network with pretrained node embedding from the Graph Neural Network methods by 11% to 17% R2 score. The Deep Neural Network achieved 93%, 81%, and 63% R2 score for each task with increasing difficulty. The training time range from 1 hour for Machine Learning models, 2 to 10 hours for Deep Learning models, and 8 to 24 hours for Deep Learning model for tabular data trained end to end with Graph Neural Network layers. The inference time is around 15 minutes. Finally, we found that using Graph Neural Network for the node regression task does not outperform Deep Neural Network. / Flygsökmotor är en teknik som används inom flygresebranschen. Den gör det möjligt för resenären att söka och boka de bästa flygalternativen, t.ex. kombinationer av flygningar med bästa service, alternativ och pris. Beräkningen av en flygsökning kan vara mycket intensiv med tanke på dess parametrar och komplexitet. Projektets mål är att förutsäga beräkningskostnaden för flygsökfrågor för en ny produkt för flygsökmotor när parametrar ändras och optimeringar görs. Problemet med att förutsäga kostnaderna för flygsökning är ett regressionsproblem. Vi föreslår att man löser problemet genom att avgränsa det utifrån dess affärslogik och innebörd. Vårt problem har data som definieras som en graf, vilket är anledningen till att vi har valt Graph Neural Network. Vi har undersökt flera förträningsstrategier för utvärdering av nodinbäddning när det gäller en regressionsuppgift från den verkliga världen, bland annat genom att använda ett linjediagram för träningen. Inbäddningarna används för regressionsuppgifter i efterföljande led. Vårt arbete bygger på några toppmoderna metoder för maskininlärning, djupinlärning och grafiska neurala nätverk. Vi drar slutsatsen att förutsägelserna är lämpliga för produktionsanvändning i vissa Vi drar slutsatsen att förutsägelserna är lämpliga för produktionsanvändning i vissa fall. Dessutom ger förutsägelserna från trädens ensemble av boostingmetoder negativa förutsägelser som ytterligare försämrar R2poängen med 4% på grund av affärsmässiga betydelser. Deep Neural Network överträffade de mest effektiva metoderna för maskininlärning med 812% av R2poängen. Det djupa neurala nätverket överträffade också det djupa neurala nätverket med förtränad node embedding från metoderna för grafiska neurala nätverk med 11 till 17% av R2poängen. Deep Neural Network uppnådde 93, 81 och 63% R2poäng för varje uppgift med stigande svårighetsgrad. Träningstiden varierar från 1 timme för maskininlärningsmodeller, 2 till 10 timmar för djupinlärningsmodeller och 8 till 24 timmar för djupinlärningsmodeller för tabelldata som tränats från början till slut med grafiska neurala nätverkslager. Inferenstiden är cirka 15 minuter. Slutligen fann vi att användningen av Graph Neural Network för uppgiften om regression av noder inte överträffar Deep Neural Network.
|
Page generated in 0.0648 seconds