Global ETD Search

51	Identification of Fundamental Driving Scenarios Using Unsupervised Machine Learning / Identifiering av grundläggande körscenarier med icke-guidad maskininlärning Anantha Padmanaban, Deepika January 2020 (has links) A challenge to release autonomous vehicles to public roads is safety verification of the developed features. Safety test driving of vehicles is not practically feasible as the acceptance criterion is driving at least 2.1 billion kilometers [1]. An alternative to this distance-based testing is the scenario-based approach, where the intelligent vehicles are exposed to known scenarios. Identification of such scenarios from the driving data is crucial for this validation. The aim of this thesis is to investigate the possibility of unsupervised identification of driving scenarios from the driving data. The task is performed in two major parts. The first is the segmentation of the time series driving data by detecting changepoints, followed by the clustering of the previously obtained segments. Time-series segmentation is approached using a Deep Learning method, while the second task is performed using time series clustering. The work also includes a visual approach for validating the time-series segmentation, followed by a quantitative measure of the performance. The approach is also qualitatively compared against a Bayesian Nonparametric approach to identify the usefulness of the proposed method. Based on the analysis of results, there is a discussion about the usefulness and drawbacks of the method, followed by the scope for future research. / En utmaning att släppa autonoma fordon på allmänna vägar är säkerhetsverifiering av de utvecklade funktionerna. Säkerhetstestning av fordon är inte praktiskt genomförbart eftersom acceptanskriteriet kör minst 2,1 miljarder kilometer [1]. Ett alternativ till denna distansbaserade testning är det scenaribaserade tillväga-gångssättet, där intelligenta fordon utsätts för kända scenarier. Identifiering av sådana scenarier från kördata är avgörande för denna validering. Syftet med denna avhandling är att undersöka möjligheten till oövervakad identifiering av körscenarier från kördata. Uppgiften utförs i två huvuddelar. Den första är segmenteringen av tidsseriedrivdata genom att detektera ändringspunkter, följt av klustring av de tidigare erhållna segmenten. Tidsseriesegmentering närmar sig med en Deep Learningmetod, medan den andra uppgiften utförs med hjälp av tidsseriekluster. Arbetet innehåller också ett visuellt tillvägagångssätt för att validera tidsserierna, följt av ett kvantitativt mått på prestanda. Tillvägagångssättet jämförs också med en Bayesian icke-parametrisk metod för att identifiera användbarheten av den föreslagna metoden. Baserat på analysen av resultaten diskuteras metodens användbarhet och nackdelar, följt av möjligheten för framtida forskning. Time-series Segmentation Time-series Clustering Stacked Sparse Autoencoders Unsupervised Learning Autonomous Driving Feature Extraction Segment av tidsserier Tidsserie-kluster Staplade autokodare Oövervakat lärande Autonom körning Särdragsextraktion Computer and Information Sciences Data- och informationsvetenskap
52	Analysing User Viewing Behaviour in Video Streaming Services Markou, Ioannis January 2021 (has links) The user experience offered by a video streaming service plays a fundamental role in customer satisfaction. This experience can be degraded by poor playback quality and buffering issues. These problems can be caused by a user demand that is higher than the video streaming service capacity. Resource scaling methods can increase the available resources to cover the need. However, most resource scaling systems are reactive and scale up in an automated fashion when a certain demand threshold is exceeded. During popular live streaming content, the demand can be so high that even by scaling up at the last minute, the system might still be momentarily under-provisioned, resulting in a bad user experience. The solution to this problem is proactive scaling which is event-based, using content-related information to scale up or down, according to knowledge from past events. As a result, proactive resource scaling is a key factor in providing reliable video streaming services. Users viewing habits heavily affect demand. To provide an accurate model for proactive resource scaling tools, these habits need to be modelled. This thesis provides such a forecasting model for user views that can be used by a proactive resource scaling mechanism. This model is created by applying machine learning algorithms to data from both live TV and over-the-top streaming services. To produce a model with satisfactory accuracy, numerous data attributes were considered relating to users, content and content providers. The findings of this thesis show that user viewing demand can be modelled with high accuracy, without heavily relying on user-related attributes but instead by analysing past event logs and with knowledge of the schedule of the content provider, whether it is live tv or a video streaming service. / Användarupplevelsen som erbjuds av en videostreamingtjänst spelar en grundläggande roll för kundnöjdheten. Denna upplevelse kan försämras av dålig uppspelningskvalitet och buffertproblem. Dessa problem kan orsakas av en efterfrågan från användare som är högre än videostreamingtjänstens kapacitet. Resursskalningsmetoder kan öka tillgängliga resurser för att täcka behovet. De flesta resursskalningssystem är dock reaktiva och uppskalas automatiskt när en viss behovströskel överskrids. Under populärt livestreaminginnehåll kan efterfrågan vara så hög att även genom att skala upp i sista minuten kan systemet fortfarande vara underutnyttjat tillfälligt, vilket resulterar i en dålig användarupplevelse. Lösningen på detta problem är proaktiv skalning som är händelsebaserad och använder innehållsrelaterad information för att skala upp eller ner, enligt kunskap från tidigare händelser. Som ett resultat är proaktiv resursskalning en nyckelfaktor för att tillhandahålla tillförlitliga videostreamingtjänster. Användares visningsvanor påverkar efterfrågan kraftigt. För att ge en exakt modell för proaktiva resursskalningsverktyg måste dessa vanor modelleras. Denna avhandling ger en sådan prognosmodell för användarvyer som kan användas av en proaktiv resursskalningsmekanism. Denna modell är skapad genom att använda maskininlärningsalgoritmer på data från både live-TV och streamingtjänster. För att producera en modell med tillfredsställande noggrannhet ansågs ett flertal dataattribut relaterade till användare, innehåll och innehållsleverantörer. Resultaten av den här avhandlingen visar att efterfrågan på användare kan modelleras med hög noggrannhet utan att starkt förlita sig på användarrelaterade attribut utan istället genom att analysera tidigare händelseloggar och med kunskap om innehållsleverantörens schema, vare sig det är live-tv eller tjänster för videostreaming. Computer and Information Sciences Data- och informationsvetenskap
53	Machine learning in predictive maintenance of industrial robots Morettini, Simone January 2021 (has links) Industrial robots are a key component for several industrial applications. Like all mechanical tools, they do not last forever. The solution to extend the life of the machine is to perform maintenance on the degraded components. The optimal approach is called predictive maintenance, which aims to forecast the best moment for performing maintenance on the robot. This minimizes maintenance costs as well as prevents mechanical failure that can lead to unplanned production stops. There already exist methods to perform predictive maintenance on industrial robots, but these methods require additional sensors. This research aims to predict the anomalies by only using data from the sensors that already are used to control the robot. A machine learning approach is proposed for implementing predictive maintenance of industrial robots, using the torque profiles as input data. The algorithms selected are tested on simulated data created using wear and temperature models. The torque profiles from the simulator are used to extract a health index for each joint, which in turn are used to detect anomalous states of the robot. The health index has a fast exponential growth trend which is difficult to predict in advance. A Gaussian process regressor, an Exponentron, and hybrid algorithms are applied for the prediction of the time series of the health state to implement the predictive maintenance. The predictions are evaluated considering the accuracy of the time series prediction and the precision of anomaly forecasting. The investigated methods are shown to be able to predict the development of the wear and to detect the anomalies in advance. The results reveal that the hybrid approach obtained by combining predictions from different algorithms outperforms the other solutions. Eventually, the analysis of the results shows that the algorithms are sensitive to the quality of the data and do not perform well when the data present a low sampling rate or missing samples. / Industrirobotar är en nyckelkomponent för flera industriella applikationer. Likt alla mekaniska verktyg håller de inte för alltid. Lösningen för att förlänga maskinens livslängd är att utföra underhåll på de slitna komponenterna. Det optimala tillvägagångssättet kallas prediktivt underhåll, vilket innebär att förutsäga den bästa tidpunkten för att utföra underhåll på roboten. Detta minimerar både kostnaderna för underhåll samt förebygger mekaniska fel som kan leda till oplanerade produktionsstopp. Det finns redan metoder för att utföra prediktivt underhåll på industriella robotar, men dessa metoder kräver ytterligare sensorer. Denna forskning syftar till att förutsäga avvikelserna genom att endast använda data från de sensorer som redan används för att reglera roboten. En maskininlärningsmetod föreslås för implementering av prediktivt underhåll av industriella robotar, med hjälp av vridmomentprofiler som indata. Metoderna testas på simulerad data som skapats med hjälp av slitage- och temperaturmodeller. Vridmomenten används för att extrahera ett hälsoindex för varje axel, vilket i sin tur används för att upptäcka anomalier hos roboten. Hälsoindexet har en snabb exponentiell tillväxttrend som är svår att förutsäga i förväg. En Gaussisk processregressor, en Exponentron och hybridalgoritmer används för prediktion av tidsserien för hälsoindexet för att implementera det prediktiva underhållet. Förutsägelserna utvärderas baserat på träffsäkerheten av förutsägelsen för tidsserien samt precisionen för förutsagda avvikelser. De undersökta metoderna visar sig kunna förutsäga utvecklingen av slitage och upptäcka avvikelser i förväg. Resultaten uppvisar att hybridmetoden som erhålls genom att kombinera prediktioner från olika algoritmer överträffar de andra lösningarna. I analysen av prestandan visas att algoritmerna är känsliga för kvaliteten av datat och att de inte fungerar bra när datat har låg samplingsfrekvens eller då datapunkter saknas. Predictive maintenance Industrial robots Gaussian process regression Exponentron Hybrid algorithms Time series prediction. Prediktivt underhåll Industriella robotar Gaussian process regression Exponentron Hybridalgoritmer Prediktivt av tidsserier. Computer and Information Sciences Data- och informationsvetenskap
54	Unsupervised Anomaly Detection on Time Series Data: An Implementation on Electricity Consumption Series / Oövervakad anomalidetektion i tidsseriedata: en implementation på elförbrukningsserier Lindroth Henriksson, Amelia January 2021 (has links) Digitization of the energy industry, introduction of smart grids and increasing regulation of electricity consumption metering have resulted in vast amounts of electricity data. This data presents a unique opportunity to understand the electricity usage and to make it more efficient, reducing electricity consumption and carbon emissions. An important initial step in analyzing the data is to identify anomalies. In this thesis the problem of anomaly detection in electricity consumption series is addressed using four machine learning methods: density based spatial clustering for applications with noise (DBSCAN), local outlier factor (LOF), isolation forest (iForest) and one-class support vector machine (OC-SVM). In order to evaluate the methods synthetic anomalies were introduced to the electricity consumption series and the methods were then evaluated for the two anomaly types point anomaly and collective anomaly. In addition to electricity consumption data, features describing the prior consumption, outdoor temperature and date-time properties were included in the models. Results indicate that the addition of the temperature feature and the lag features generally impaired anomaly detection performance, while the inclusion of date-time features improved it. Of the four methods, OC-SVM was found to perform the best at detecting point anomalies, while LOF performed the best at detecting collective anomalies. In an attempt to improve the models' detection power the electricity consumption series were de-trended and de-seasonalized and the same experiments were carried out. The models did not perform better on the decomposed series than on the non-decomposed. / Digitaliseringen av elbranschen, införandet av smarta nät samt ökad reglering av elmätning har resulterat i stora mängder eldata. Denna data skapar en unik möjlighet att analysera och förstå fastigheters elförbrukning för att kunna effektivisera den. Ett viktigt inledande steg i analysen av denna data är att identifiera möjliga anomalier. I denna uppsats testas fyra olika maskininlärningsmetoder för detektering av anomalier i elförbrukningsserier: densitetsbaserad spatiell klustring för applikationer med brus (DBSCAN), lokal avvikelse-faktor (LOF), isoleringsskog (iForest) och en-klass stödvektormaskin (OC-SVM). För att kunna utvärdera metoderna infördes syntetiska anomalier i elförbrukningsserierna och de fyra metoderna utvärderades därefter för de två anomalityperna punktanomali och gruppanomali. Utöver elförbrukningsdatan inkluderades även variabler som beskriver tidigare elförbrukning, utomhustemperatur och tidsegenskaper i modellerna. Resultaten tyder på att tillägget av temperaturvariabeln och lag-variablerna i allmänhet försämrade modellernas prestanda, medan införandet av tidsvariablerna förbättrade den. Av de fyra metoderna visade sig OC-SVM vara bäst på att detektera punktanomalier medan LOF var bäst på att detektera gruppanomalier. I ett försök att förbättra modellernas detekteringsförmåga utfördes samma experiment efter att elförbrukningsserierna trend- och säsongsrensats. Modellerna presterade inte bättre på de rensade serierna än på de icke-rensade. Unsupervised learning machine learning anomaly detection time series electricity consumption synthetic anomalies DBSCAN LOF iForest OC-SVM Oövervakad inlärning maskininlärning anomalidetektion tidsserier elförbrukning syntetiska anomalier DBSCAN LOF iForest OC-SVM Mathematics Matematik
55	Uncertainty Analysis of Long Term Correction Methods for Annual Average Winds / Osäkerhetsanalys av beräkningsmetoder för normalårskorrigerad medelvind Klinkert, Rickard January 2012 (has links) For the construction of a wind farm, one needs to assess the wind resources of the considered site location. Using reference time series from numerical weather prediction models, global assimilation databases or observations close to the area considered, the on-site measured wind speeds and wind directions are corrected in order to represent the actual long-term wind conditions. This long-term correction (LTC) is in the typical case performed by making use of the linear regression within the Measure-Correlate-Predict (MCP) method. This method and two other methods, Sector-Bin (SB) and Synthetic Time Series (ST), respectively, are used for the determination of the uncertainties that are associated with LTC.The test area that has been chosen in this work, is located in the region of the North Sea, using 22 quality controlled meteorological (met) station observations from offshore or nearby shore locations in Denmark, Norway and Sweden. The time series that has been used cover the eight year period from 2002 to 2009 and the year with the largest variability in the wind speeds, 2007, is used as the short-term measurement period. The long-term reference datasets that have been used are the Weather Research and Forecast model, based on both ECMWF Interim Re-Analysis (ERA-Interim) and National Centers for Environmental Prediction Final Analysis (NCEP/FNL), respectively and additional reference datasets of Modern Era Re-Analysis (MERRA) and QuikSCAT satellite observations. The long-term period for all of the reference datasets despite QuikSCAT, correspond to the one of stations observations. The QuikSCAT period of observations used cover the period from November 1st, 1999 until October 31st, 2009.The analysis is divided into three parts. Initially, the uncertainty connected to the corresponding reference dataset, when used in LTC method, is investigated. Thereafter the uncertainty due to the concurrent length of the on-site measurements and reference dataset is analyzed. Finally, the uncertainty is approached using a re-sampling method of the Non-Parametric Bootstrap. The uncertainty of the LTC method SB, for a fixed concurrent length of the datasets is assessed by this methodology, in an effort to create a generic model for the estimation of uncertainty in the predicted values for SB.The results show that LTC with WRF model datasets based on NCEP/FNL and ERA-Interim, respectively, is slightly different, but does not deviate considerably in comparison when comparing with met station observations. The results also suggest the use of MERRA reference dataset in connection with long-term correction methods. However, the datasets of QuikSCAT does not provide much information regarding the overall quality of long-term correction, and a different approach than using station coordinates for the withdrawal of QuikSCAT time series is preferred. Additionally, the LTC model of Sector-Bin is found to be robust against variation in the correlation coefficient between the concurrent datasets. For the uncertainty dependence of concurrent time, the results show that an on-site measurement period of one consistent year or more, gives the lowest uncertainties compared to measurements of shorter time. An additional observation is that the standard deviation of long-term corrected means decreases with concurrent time. Despite the efforts of using the re-sampling method of Non-Parametric Bootstrap the estimation of the uncertainties is not fully determined. However, it does give promising results that are suggested for investigation in further work. / För att bygga en vindkraftspark är man i behov av att kartlägga vindresurserna i det aktuella området. Med hjälp av tidsserier från numeriska vädermodeller (NWP), globala assimileringsdatabaser och intilliggande observationer korrigeras de uppmätta vindhastigheterna och vindriktningarna för att motsvara långtidsvärdena av vindförhållandena. Dessa långtidskorrigeringsmetoder (LTC) genomförs generellt sett med hjälp av linjär regression i Mät-korrelera-predikera-metoden (MCP). Denna metod, och två andra metoder, Sektor-bin (SB) och Syntetiska tidsserier (ST), används i denna rapport för att utreda de osäkerheter som är knutna till långtidskorrigering.Det testområde som är valt för analys i denna rapport omfattas av Nordsjöregionen, med 22 meteorologiska väderobservationsstationer i Danmark, Norge och Sverige. Dessa stationer är till största del belägna till havs eller vid kusten. Tidsserierna som används täcker åttaårsperioden från 2002 till 2009, där det året med högst variabilitet i uppmätt vindhastighet, år 2007, används som den korta mätperiod som blir föremål för långtidskorrigeringen. De långa referensdataseten som använts är väderprediktionsmodellen WRF ( Weather Research and Forecast Model), baserad både på data från NCEP/FNL (National Centers for Environmental Prediciton Final Analysis) och ERA-Interim (ECMWF Interim Re-analysis). Dessutom används även data från MERRA (Modern Era Re-Analysis) och satellitobservationer från QuikSCAT. Långtidsperioden för alla dataset utom QuikSCAT omfattar samma period som observationsstationerna. QuikSCAT-datat som använts omfattar perioden 1 november 1999 till 31 oktober 2009.Analysen är indelad i tre delar. Inledningsvis behandlas osäkerheten som är kopplad till referensdatans ingående i långtidskorrigeringsmetoderna. Därefter analyseras osäkerhetens beroende av längden på den samtidiga datan i referens- och observationsdataseten. Slutligen utreds osäkerheten med hjälp av en icke-parametrisk metod, en s.k. Bootstrap: Osäkerheten i SB-metoden för en fast samtidig längd av tidsserierna från observationer och referensdatat uppskattas genom att skapa en generell modell som estimerar osäkerheten i estimatet.Resultatet visar att skillnaden när man använder WRF-modellen baserad både på NCEP/FNL och ERA-Interim i långtidskorrigeringen är marginell och avviker inte markant i förhållande till stationsobservationerna. Resultatet pekar också på att MERRA-datat kan användas som långtidsreferensdataset i långtidsdkorrigeringsmetoderna. Däremot ger inte QuikSCAT-datasetet tillräckligt med information för att avgöra om det går att använda i långtidskorrigeringsmetoderna. Därför föreslås ett annat tillvägagångssätt än stationsspecifika koordinater vid val av koordinater lämpliga för långtidskorrigering. Ytterligare ett resultat vid analys av långtidskorrigeringsmetoden SB, visar att metoden är robust mot variation i korrelationskoefficienten.Rörande osäkerhetens beroende av längden på samtidig data visar resultaten att en sammanhängande mätperiod på ett år eller mer ger den lägsta osäkerheten i årsmedelvindsestimatet, i förhållande till mätningar av kortare slag. Man kan även se att standardavvikelsen av de långtidskorrigerade medelvärdena avtar med längden på det samtidiga datat. Den implementerade ickeparametriska metoden Bootstrap, som innefattar sampling med återläggning, kan inte estimera osäkerheten till fullo. Däremot ger den lovande resultat som föreslås för vidare arbete. Uncertainty Long-term-correction Measure-Correlate-Predict Sector-Bin Synthetic time series Reference dataset Weather observation stations WRF MERRA QuikSCAT NCEP/FNL Bootstrap sampling North Sea. Osäkerhet Measure-Correlate-Predict årsmedelvind Sektor-Bin Syntetiska tidsserier referensdataset väderobservationsstationer WRF MERRA QuikSCAT NCEP/FNL Bootstrap sampling Nordsjön.
56	Sequence-to-sequence learning of financial time series in algorithmic trading / Sekvens-till-sekvens-inlärning av finansiella tidsserier inom algoritmiskhandel Arvidsson, Philip, Ånhed, Tobias January 2017 (has links) Predicting the behavior of financial markets is largely an unsolved problem. The problem hasbeen approached with many different methods ranging from binary logic, statisticalcalculations and genetic algorithms. In this thesis, the problem is approached with a machinelearning method, namely the Long Short-Term Memory (LSTM) variant of Recurrent NeuralNetworks (RNNs). Recurrent neural networks are artificial neural networks (ANNs)—amachine learning algorithm mimicking the neural processing of the mammalian nervoussystem—specifically designed for time series sequences. The thesis investigates the capabilityof the LSTM in modeling financial market behavior as well as compare it to the traditionalRNN, evaluating their performances using various measures. / Prediktion av den finansiella marknadens beteende är i stort ett olöst problem. Problemet hartagits an på flera sätt med olika metoder så som binär logik, statistiska uträkningar ochgenetiska algoritmer. I den här uppsatsen kommer problemet undersökas medmaskininlärning, mer specifikt Long Short-Term Memory (LSTM), en variant av rekurrentaneurala nätverk (RNN). Rekurrenta neurala nätverk är en typ av artificiellt neuralt nätverk(ANN), en maskininlärningsalgoritm som ska efterlikna de neurala processerna hos däggdjursnervsystem, specifikt utformat för tidsserier. I uppsatsen undersöks kapaciteten hos ett LSTMatt modellera finansmarknadens beteenden och jämförs den mot ett traditionellt RNN, merspecifikt mäts deras effektivitet på olika vis. deep learning machine learning quantitative finance algorithmic trading blackbox trading lstm rnn time series forecasting prediction tensorflow keras forex neural network econometrics finans algoritmisk handel tidsserier prediktion maskininlärning forex neurala nätverk tensorflow keras kvantitativ finans lstm rnn ekonometri Information Systems
57	Time series monitoring and prediction of data deviations in a manufacturing industry Lantz, Robin January 2020 (has links) An automated manufacturing industry makes use of many interacting moving parts and sensors. Data from these sensors generate complex multidimensional data in the production environment. This data is difficult to interpret and also difficult to find patterns in. This project provides tools to get a deeper understanding of Swedsafe’s production data, a company involved in an automated manufacturing business. The project is based on and will show the potential of the multidimensional production data. The project mainly consists of predicting deviations from predefined threshold values in Swedsafe’s production data. Machine learning is a good method of finding relationships in complex datasets. Supervised machine learning classification is used to predict deviation from threshold values in the data. An investigation is conducted to identify the classifier that performs best on Swedsafe's production data. The technique sliding window is used for managing time series data, which is used in this project. Apart from predicting deviations, this project also includes an implementation of live graphs to easily get an overview of the production data. A steady production with stable process values is important. So being able to monitor and predict events in the production environment can provide the same benefit for other manufacturing companies and is therefore suitable not only for Swedsafe. The best performing machine learning classifier tested in this project was the Random Forest classifier. The Multilayer Perceptron did not perform well on Swedsafe’s data, but further investigation in recurrent neural networks using LSTM neurons would be recommended. During the projekt a web based application displaying the sensor data in live graphs is also developed. Machine learning Supervised learning Time series classification Manufacturing industry Production data Data deviations Support Vector Machine K-Nearest Neighbours Linear Regression Decision Tree Random Forest Neural Network Recurrent Neural Network Computer Science Maskininlärning Tidsserier Tillverkningsindustri Klassificerare Avvikelser Computer Sciences Datavetenskap (datalogi) Mathematical Analysis Matematisk analys
58	Preprocesserings påverkan på prediktiva modeller : En experimentell analys av tidsserier från fjärrvärme / Impact of preprocessing on predictive models : An experimental analysis of time series from district heating Andersson, Linda, Laurila, Alex, Lindström, Johannes January 2021 (has links) Värme står för det största energibehovet inom hushåll och andra byggnader i samhället och olika tekniker används för att kunna reducera mängden energi som går åt för att spara på både miljö och pengar. Ett angreppssätt på detta problem är genom informatiken, där maskininlärning kan användas för att analysera och förutspå värmebehovet. I denna studie används maskininlärning för att prognostisera framtida energiförbrukning för fjärrvärme utifrån historisk fjärrvärmedata från ett fjärrvärmebolag tillsammans med exogena variabler i form av väderdata från Sveriges meteorologiska och hydrologiska institut. Studien är skriven på svenska och utforskar effekter av preprocessering hos prediktionsmodeller som använder tidsseriedata för att prognostisera framtida datapunkter. Stegen som utförs i studien är normalisering, interpolering, hantering av numeric outliers och missing values, datetime feature engineering, säsongsmässighet, feature selection, samt korsvalidering. Maskininlärningsmodellen som används i studien är Multilayer Perceptron som är en subkategori av artificiellt neuralt nätverk. Forskningsfrågan som besvaras fokuserar på effekter av preprocessering och feature selection för prediktiva modellers prestanda inom olika datamängder och kombinationer av preprocesseringsmetoder. Modellerna delades upp i tre olika datamängder utifrån datumintervall: 2009, 2007–2011, samt 2007–2017, där de olika kombinationerna utgörs av preprocesseringssteg som kombineras inom en iterativ process. Procentuella ökningar på R2-värden för dessa olika intervall har uppnått 47,45% för ett år, 9,97% för fem år och 32,44% för 11 år. I stora drag bekräftar och förstärker resultatet befintlig teori som menar på att preprocessering kan förbättra prediktionsmodeller. Ett antal mindre observationer kring enskilda preprocesseringsmetoders effekter har identifierats och diskuterats i studien, såsom DateTime Feature Engineerings negativa effekter på modeller som tränats med ett mindre antal iterationer. / Heat accounts for the greatest energy needs in households and other buildings in society. Effective production and distribution of heat energy require techniques for minimising economic and environmental costs. One approach to this problem is through informatics where machine learning is used to analyze and predict the heating needs with the help of historical data from a district heating company and exogenous variables in the form of weather data from Sweden's Meteorological and Hydrological Institute (SMHI). This study is written in Swedish and explores the importance of preprocessing practices before training and using prediction models which utilizes time-series data to predict future energy consumption. The preprocessing steps explored in this study consists of normalization, interpolation, identification and management of numerical outliers and missing values, datetime feature engineering, seasonality, feature selection and cross-validation. The machine learning model used in this study is Multilayer Perceptron which is a subcategory of artificial neural network. The research question focuses on the effects of preprocessing and feature selection for predictive model performance within different datasets and combinations of preprocessing methods. The models were divided into three different data sets based on date ranges: 2009, 2007–2011, and 2007–2017, where the different combinations consist of preprocessing steps that are combined within an iterative process. Percentage increases in R2 values for these different ranges have reached 47,45% for one year, 9,97% for five years and 32,44% for 11 years. The results broadly confirm and reinforce the existing theory that preprocessing can improve prediction models. A few minor observations about the effects of individual preprocessing methods have been identified and discussed in the study, such as DateTime Feature Engineering having a detrimental effect on models with very few training iterations. Machine Learning District Heating Preprocessing Time Series Forecasting Artificial Neural Network Cross-validation Feature Selection Seasonality Exogenous Variables Interpolation MultiLayer Perceptrons. Maskininlärning Fjärrvärme Preprocessering Tidsserier Prognostisering Artificiellt Neuralt Nätverk Korsvalidering Feature Selection Säsongsmässighet Exogena Variabler Interpolering Multilayer Perceptron. Computer and Information Sciences Data- och informationsvetenskap
59	Software Fault Detection in Telecom Networks using Bi-level Federated Graph Neural Networks / Upptäckt av SW-fel i telekommunikationsnätverk med hjälp av federerade grafiska neurala nätverk på två nivåer Bourgerie, Rémi January 2023 (has links) The increasing complexity of telecom networks, induced by the recent development of 5G, is a challenge for detecting faults in the telecom network. In addition to the structural complexity of telecommunication systems, data accessibility has become an issue both in terms of privacy and access cost. We propose a method relying on bi-level Federated Graph Neural Networks to identify anomalies in the telecom network while ensuring reduced communication costs as well as data privacy. Our method considers telecom data as a bi-level graph, where the highest level graph represents the interaction between sites, and each site is further expanded to its software (SW) performance behaviour graph. We developed and compared 4G/5G SW Fault Detection models under 3 settings: (1) Centralized Temporal Graph Neural Networks model: we propose a model to detect anomalies in 4G/5G telecom data. (2) Federated Temporal Graph Neural Networks model: we propose Federated Learning (FL) as a mechanism for privacy-aware training of models for fault detection. (3) Personalized Federated Temporal Graph Neural Networks model: we propose a novel aggregation technique, referred to as FedGraph, leveraging both a graph and the similarities between sites for aggregating the models and proposing models more personalized to each site’s behaviour. We compare the benefits of Federated Learning (FL) models (2) and (3) with centralized training (1) in terms of SW performance data modelling, anomaly detection, and communication cost. The evaluation includes both a scenario with normal functioning sites and a scenario where only a subset of sites exhibit faulty behaviour. The combination of SW execution graphs with GNNs has shown improved modelling performance and minor gains in centralized settings (1). In a normal network context, FL models (2) and (3) perform comparably to centralized training (CL), with slight improvements observed when using the personalized strategy (3). However, in abnormal network scenarios, Federated Learning falls short of achieving comparable detection performance to centralized training. This is due to the unintended learning of abnormal site behaviour, particularly when employing the personalized model (3). These findings highlight the importance of carefully assessing and selecting suitable FL strategies for anomaly detection and model training on telecom network data. / Den ökande komplexiteten i telenäten, som är en följd av den senaste utvecklingen av 5G, är en utmaning när det gäller att upptäcka fel i telenäten. Förutom den strukturella komplexiteten i telekommunikationssystem har datatillgänglighet blivit ett problem både när det gäller integritet och åtkomstkostnader. Vi föreslår en metod som bygger på Federated Graph Neural Networks på två nivåer för att identifiera avvikelser i telenätet och samtidigt säkerställa minskade kommunikationskostnader samt dataintegritet. Vår metod betraktar telekomdata som en graf på två nivåer, där grafen på den högsta nivån representerar interaktionen mellan webbplatser, och varje webbplats utvidgas ytterligare till sin graf för programvarans (SW) prestandabeteende. Vi utvecklade och jämförde 4G/5G SW-feldetekteringsmodeller under 3 inställningar: (1) Central Temporal Graph Neural Networks-modell: vi föreslår en modell för att upptäcka avvikelser i 4G/5G-telekomdata. (2) Federated Temporal Graph Neural Networks-modell: vi föreslår Federated Learning (FL) som en mekanism för integritetsmedveten utbildning av modeller för feldetektering. I motsats till centraliserad inlärning aggregeras lokalt tränade modeller på serversidan och skickas tillbaka till klienterna utan att data läcker ut mellan klienterna och servern, vilket säkerställer integritetsskyddande samarbetsutbildning. (3) Personaliserad Federated Temporal Graph Neural Networks-modell: vi föreslår en ny aggregeringsteknik, kallad FedGraph, som utnyttjar både en graf och likheterna mellan webbplatser för att aggregera modellerna. Vi jämför fördelarna med modellerna Federated Learning (FL) (2) och (3) med centraliserad utbildning (1) när det gäller datamodellering av SW-prestanda, anomalidetektering och kommunikationskostnader. Utvärderingen omfattar både ett scenario med normalt fungerande anläggningar och ett scenario där endast en delmängd av anläggningarna uppvisar felaktigt beteende. Kombinationen av SW-exekveringsgrafer med GNN har visat förbättrad modelleringsprestanda och mindre vinster i centraliserade inställningar (1). I en normal nätverkskontext presterar FL-modellerna (2) och (3) jämförbart med centraliserad träning (CL), med små förbättringar observerade när den personliga strategin används (3). I onormala nätverksscenarier kan Federated Learning dock inte uppnå jämförbar detekteringsprestanda med centraliserad träning. Detta beror på oavsiktlig inlärning av onormalt beteende på webbplatsen, särskilt när man använder den personliga modellen (3). Dessa resultat belyser vikten av att noggrant bedöma och välja lämpliga FL-strategier för anomalidetektering och modellträning på telekomnätdata. 5G/4G Federated Learning Graoh Learning Graph-based Federated Learning Temporal Graph Neural Networks Time Series Anomaly Detection Fault Detection 5G/4G Federerat lärande Graf lärande Grafbaserat federerat lärande Temporal Graph Neural Networks Tidsserier Upptäckt av anomalier Upptäckt av fel Computer and Information Sciences Data- och informationsvetenskap
60	Sign of the Times : Unmasking Deep Learning for Time Series Anomaly Detection / Skyltarna på Tiden : Avslöjande av djupinlärning för detektering av anomalier i tidsserier Richards Ravi Arputharaj, Daniel January 2023 (has links) Time series anomaly detection has been a longstanding area of research with applications across various domains. In recent years, there has been a surge of interest in applying deep learning models to this problem domain. This thesis presents a critical examination of the efficacy of deep learning models in comparison to classical approaches for time series anomaly detection. Contrary to the widespread belief in the superiority of deep learning models, our research findings suggest that their performance may be misleading and the progress illusory. Through rigorous experimentation and evaluation, we reveal that classical models outperform deep learning counterparts in various scenarios, challenging the prevailing assumptions. In addition to model performance, our study delves into the intricacies of evaluation metrics commonly employed in time series anomaly detection. We uncover how it inadvertently inflates the performance scores of models, potentially leading to misleading conclusions. By identifying and addressing these issues, our research contributes to providing valuable insights for researchers, practitioners, and decision-makers in the field of time series anomaly detection, encouraging a critical reevaluation of the role of deep learning models and the metrics used to assess their performance. / Tidsperiods avvikelsedetektering har varit ett långvarigt forskningsområde med tillämpningar inom olika områden. Under de senaste åren har det uppstått ett ökat intresse för att tillämpa djupinlärningsmodeller på detta problemområde. Denna avhandling presenterar en kritisk granskning av djupinlärningsmodellers effektivitet jämfört med klassiska metoder för tidsperiods avvikelsedetektering. I motsats till den allmänna övertygelsen om överlägsenheten hos djupinlärningsmodeller tyder våra forskningsresultat på att deras prestanda kan vara vilseledande och framsteg illusoriskt. Genom rigorös experimentell utvärdering avslöjar vi att klassiska modeller överträffar djupinlärningsalternativ i olika scenarier och därmed utmanar de rådande antagandena. Utöver modellprestanda går vår studie in på detaljerna kring utvärderings-metoder som oftast används inom tidsperiods avvikelsedetektering. Vi avslöjar hur dessa oavsiktligt överdriver modellernas prestandapoäng och kan därmed leda till vilseledande slutsatser. Genom att identifiera och åtgärda dessa problem bidrar vår forskning till att erbjuda värdefulla insikter för forskare, praktiker och beslutsfattare inom området tidsperiods avvikelsedetektering, och uppmanar till en kritisk omvärdering av djupinlärningsmodellers roll och de metoder som används för att bedöma deras prestanda. Anomaly detection multivariate time series data deep learning models model complexity resource-constrained systems Variational Autoencoders (VAEs) Convolutional Variational Autoencoders evaluation metrics in time series Anomalidetektering Multivariata tidsseriedata Djupinlärningsmodeller Modellkomplexitet Resursbegränsade system Variational Autoencoders (VAEs) Konvolutionella Variational Autoencoders Utvärderingsmått inom tidsserier Computer and Information Sciences Data- och informationsvetenskap

Search results