• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 22
  • 6
  • Tagged with
  • 28
  • 22
  • 22
  • 14
  • 13
  • 12
  • 12
  • 11
  • 11
  • 10
  • 9
  • 6
  • 6
  • 6
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Encoder-Decoder Networks for Cloud Resource Consumption Forecasting

Mejdi, Sami January 2020 (has links)
Excessive resource allocation in telecommunications networks can be prevented by forecasting the resource demand when dimensioning the networks and then allocating the necessary resources accordingly, which is an ongoing effort to achieve a more sustainable development. In this work, traffic data from cloud environments that host deployed virtualized network functions (VNFs) of an IP Multimedia Subsystem (IMS) has been collected along with the computational resource consumption of the VNFs. A supervised learning approach was adopted to address the forecasting problem by considering encoder-decoder networks. These networks were applied to forecast future resource consumption of the VNFs by regarding the problem as a time series forecasting problem, and recasting it as a sequence-to-sequence (seq2seq) problem. Different encoder-decoder network architectures were then utilized to forecast the resource consumption. The encoder-decoder networks were compared against a widely deployed classical time series forecasting model that served as a baseline model. The results show that while the considered encoder-decoder models failed to outperform the baseline model in overall Root Mean Squared Error (RMSE) and Mean Absolute Error (MAE), the forecasting capabilities were more resilient to degradation over time. This suggests that the encoder-decoder networks are more appropriate for long-term forecasting, which is in agreement with related literature. Furthermore, the encoder-decoder models achieved competitive performance when compared to the baseline, despite being treated with limited hyperparameter-tuning and the absence of more sophisticated functionality such as attention. This work has shown that there is indeed potential for deep learning applications in forecasting of cloud resource consumption. / Överflödig allokering av resurser i telekommunikationsnätverk kan förhindras genom att prognosera resursbehoven vid dimensionering av dessa nätverk. Detta görs i syfte att bidra till en mer hållbar utveckling. Infor  detta  projekt har  trafikdata från molnmiljon som hyser aktiva virtuella komponenter (VNFs) till ett  IP Multimedia Subsystem (IMS) samlats in tillsammans med resursförbrukningen  av dessa komponenter. Detta examensarbete avhandlar hur effektivt övervakad maskininlärning i form av encoder-decoder natverk kan användas för att prognosera resursbehovet hos ovan nämnda VNFs. Encoder-decoder nätverken appliceras genom att betrakta den samlade datan som en tidsserie. Problemet med att förutspå utvecklingen av tidsserien formuleras sedan som ett sequence-to-sequence (seq2seq) problem. I detta arbete användes en samling encoder-decoder nätverk med olika arkitekturer for att prognosera resursförbrukningen och dessa jämfördes med en populär modell hämtad från klassisk tidsserieanalys. Resultaten visar att encoder- decoder nätverken misslyckades med att överträffa den klassiska tidsseriemodellen med avseende på Root Mean Squared Error (RMSE) och Mean Absolute Error (MAE). Dock visade encoder-decoder nätverken en betydlig motståndskraft mot prestandaförfall över tid i jämförelse med den klassiska tidsseriemodellen. Detta indikerar att encoder-decoder nätverk är lämpliga för prognosering över en längre tidshorisont. Utöver detta visade encoder-decoder nätverken en konkurrenskraftig förmåga att förutspå det korrekta resursbehovet, trots en begränsad justering av disponeringsparametrarna och utan mer sofistikerad funktionalitet implementerad som exempelvis attention.
12

Extraction of Global Features for enhancing Machine Learning Performance / Extraktion av Globala Egenskaper för förbättring av Maskininlärningsprestanda

Tesfay, Abyel January 2023 (has links)
Data Science plays an essential role in many organizations and industries to become data-driven in their decision-making and workflow, as models can provide relevant input in areas such as social media, the stock market, and manufacturing industries. To train models of quality, data preparation methods such as feature extraction are used to extract relevant features. However, global features are often ignored when feature extraction is performed on time-series datasets. This thesis aims to investigate how state-of-the-art tools and methods in data preparation and analytics can be used to extract global features and evaluate if such data could improve the performance of ML models. Global features refer to information that summarizes a full dataset such as the mean and median values from a numeric dataset. They could be used as inputs to make models understand the dataset and generalize better towards new data. The thesis went through a literature study to analyze feature extraction methods, time-series data, the definition of global features, and their benefits in bioprocessing. An effort was conducted to analyze and extract global features using tools and methods for data manipulation and feature extraction. The data used in the study consists of bioprocessing measurements of E. Coli cell growth as time-series data. The global features were evaluated through a performance comparison between models trained on a combined set of the dataset and global features, and models trained only on the full dataset. The study presents a method to extract global features with open-source tools and libraries, namely the Python language and the Numpy, Pandas, Matplot, and Scikit libraries. The quality of the global features depends on the experience in data science, data structure complexity, and domain area knowledge. The results show that the best models, trained on the dataset and global features combined, perform on average 15-18% better than models trained only on the dataset. The performance depends on the type and the number of global features combined with the dataset. Global features could be useful in manufacturing industries such as pharmaceutical and chemical, by helping models predict the inputs that lead to the desired trends and output. This could help promote sustainable production in various industries. / Datavetenskap spelar en stor roll inom många organsationer och industrier för att bli data-drivna inom beslutsfattande och arbetsflöde, varav maskininlärningsmodeller kan ge relevanta förslag inom områden som social media, aktiemarknaden samt tillverkningsindustrin. För att träna kvalitativa modeller används dataförberedande verktyg som funktionsextraktion för att utvinna relevanta egenskaper från data. Dock tar man ej hänsyn till globala egenskaper när funktionsextraktion utförs på tidsserie data. Denna examensarbete undersöker hur nuvarande verktyg inom dataförberededning och analys can användas för att utvinna global funktioner och utvärderar om sådan data kan förbättra prestandan hos maskinlärningsmodeller. Globla funktioner beskriver information som sammanfattar hel data, till exempel medelvärdet och medianen. De kan användas som indata för att få modeller förstå data och generalizera bättre mot ny data. Först utfördes en litteraturstudie inom metoder för funktionsextraktion, tidsserie data, definition av globala egenskaper samt möjligheter inom bioutvinning. Därefter utfördes en analys och utvinning av globala egenskaper med verktyg och metoder för data manipulation och funktionsutvinning. Den data som användes i arbetet består av mätningar från bioutvinning av E. Coli bakterier i form av tidsserie data. De globala funktionerna utvärderades genom en jämnförelse mellan modeller tränade på kombination av hel data och globala funktioner, och modeller tränade enbart på hel data. Studien presenterar en metod för att extrahera globala funktioner med öppet tillgänglig verktyg och bibliotek, som Python språket och Numpy, Pandas, Matplot och Scikit bibloteken. Kvaliteten på de globala funktionerna baseras på erfarenheten inom datavetenskap, datas komplexitet samt förståelse för domänområdet. Resultat visar att de bästa modellerna, tränade på data och globala funktioner, presterar i genomsnitt 15-18% bättre än modeller som tränats enbart på hel data. Prestandan detta beror på typen och antalet globala funktioner som kobineras med ursprungliga datat. Globala funktioner kan vara till nytta inom tillverkningsindustrier som farmaceutisk eller kemiska, genom att hjälpa modeller att förutsäga ingångsparametrar som leder till önskad produktion. Detta kan bidra till en hållbar produktion imon flera industrier.
13

Modeling Credit Default Swap Spreads with Transformers : A Thesis in collaboration with Handelsbanken / Modellera Kreditswapp spreadar med Transformers : Ett projekt I samarbete med Handelsbanken

Luhr, Johan January 2023 (has links)
In the aftermath of the credit crisis in 2007, the importance of Credit Valuation Adjustment (CVA) rose in the Over The Counter (OTC) derivative pricing process. One important part of the pricing process is to determine Probability of Defaults (PDs) of the counterparty in question. The normal way of doing this is to use Credit Default Swap (CDS) spreads from the CDS market. In some cases, there is no associated liquid CDS market, and in those cases, it is market practice to use proxy CDS spreads. In this thesis, transformer models are used to generate proxy CDS spreads with a certain region, rating, and tenor from stand-alone CDS spread data. Two different models are created to do this. The first simpler model is an encoder-based model that uses stand-alone CDS data from a single company to generate one proxy spread per inference. The second, more advanced model is an encoder-decoder model that uses stand-alone CDS data from three companies to generate one proxy spread per inference. The performance of the models is compared, and it is shown that the more advanced model outperforms the simpler model. It should, be noted that the simpler model is faster to train. Both models could be used for data validation. To create the transformer models, it was necessary to implement custom embeddings that embedd specific corporate information and temporal information regarding the CDS spreads. The importance of the different embeddings was also investigated, and it is clear that certain embeddings are more important than others. / I efterdyningarna av kreditkrisen 2007 så ökade betydelsen av CVA vid prissättning av OTC derivat. En viktig del av prissättningen av OTC derivat är att avgöra PDs för den aktuella motparten. Om det finns en likvid CDS marknad för motparten så kan man använda sig av CDSs spreadar dirket från marknaden för att avgöra PDs. I många fall så saknas en sådan likvid CDS marknad. Då är det praksis att istället använda sig av proxy CDS spreadar. I den här uppsatsen så presenteras två transformer modeller för att generera proxy CDS spreadar för bestämda kombinationer av region, rating och löptid från enskilda företags CDS spreadar. Den först enklare modellen är en encoder baserad modell som använder sig av data från ett enskilt företag för att generera en proxy spread per inferens. Den andra modellen är en mer avancerad encoder-decoder modell. Den mer avancerade modellen använder sig av data från tre företag för att generera en proxy spread. I uppsatsen jämförs dessa modeller och man kan konstatera att den mer avancereade modellen genererar mer exakta CDS spreadar. Den enklare modellen är dock betydligt enklare att träna och båda modellerna kan användas i syfte att validera det riktiga proxy datat. För att kunna skapa modellerna så var det en nödvändighet att implementera specialbyggda embeddings som kodad in temporal information och företagsspecifik information om CDS spreadarna. Dessutom så testades vikten av enskilda embeddings och det var uppenbart att vissa embeddings var viktigare än andra.
14

An empirical study of the impact of data dimensionality on the performance of change point detection algorithms / En empirisk studie av data dimensionalitetens påverkan på change point detection algoritmers prestanda

Noharet, Léo January 2023 (has links)
When a system is monitored over time, changes can be discovered in the time series of monitored variables. Change Point Detection (CPD) aims at finding the time point where a change occurs in the monitored system. While CPD methods date back to the 1950’s with applications in quality control, few studies have been conducted on the impact of data dimensionality on CPD algorithms. This thesis intends to address this gap by examining five different algorithms using synthetic data that incorporates changes in mean, covariance, and frequency across dimensionalities up to 100. Additionally, the algorithms are evaluated on a collection of data sets originating from various domains. The studied methods are then assessed and ranked based on their performance on both synthetic and real data sets, to aid future users in selecting an appropriate CPD method. Finally, stock data from the 30 most traded companies on the Swedish stock market are collected to create a new CPD data set to which the CPD algorithms are applied. The changes of the monitored system that the CPD algorithms aim to detect are the changes in policy rate set by the Swedish central bank, Riksbank. The results of the thesis show that the dimensionality impacts the accuracy of the methods when noise is present and when the degree of mean or covariance change is small. Additionally, the application of the algorithms on real world data sets reveals large differences in performance between the studied methods, underlining the importance of comparison studies. Ultimately, the kernel based CPD method performed the best across the real world data set employed in the thesis. / När system övervakas över tid kan förändringar upptäckas i de uppmätade variablers tidsseriedata. Change Point Detection (CPD) syftar till att hitta tidpunkten då en förändring inträffar i det övervakade systemet’s tidseriedata. Medan CPD-metoder har sitt urspring i kvalitetskontroll under 1950-talet, har få studier undersökt datans dimensionalitets påverkan på CPD-algoritmer’s förmåga. Denna avhandling avser att fylla denna kunskapslucka genom att undersöka fem olika algoritmer med hjälp av syntetiska data som inkorporerar förändringar i medelvärde, kovarians och frekvens över dimensioner upp till 100. Dessutom jämförs algoritmerna med hjälp av en samling av data från olika domäner. De studerade metoderna bedöms och rangordnas sedan baserat på deras prestanda på både syntetiska och verkliga datauppsättningar för att hjälpa framtida användare att välja en lämplig CPD algoritm. Slutligen har aktiedata samlats från de 30 mest handlade företagen på den svenska aktiemarknaden för att skapa ett nytt data set. De förändringar i det övervakade systemet som CPD-algoritmerna syftar till att upptäcka är förändringarna i styrräntan som fastställs av Riksbanken. Resultaten av studien tyder på att dimensionaliteten påverkar förmågan hos algoritmerna att upptäcka förändringspunkterna när brus förekommer i datan och när graden av förändringen är liten. Dessutom avslöjar tillämpningen av algoritmerna på den verkliga datan stora skillnader i prestanda mellan de studerade metoderna, vilket understryker vikten av jämförelsestudier för att avslöja dessa skillnader. Slutligen presterade den kernel baserade CPD metoden bäst.
15

Short-term Forecasting of EV Charging Stations Power Consumption at Distribution Scale / Korttidsprognoser för elbils laddstationer Strömförbrukning i distributionsskala

Clerc, Milan January 2022 (has links)
Due to the intermittent nature of renewable energy production, maintaining the stability of the power supply system is becoming a significant challenge of the energy transition. Besides, the penetration of Electric Vehicles (EVs) and the development of a large network of charging stations will inevitably increase the pressure on the electrical grid. However, this network and the batteries that are connected to it also constitute a significant resource to provide ancillary services and therefore a new opportunity to stabilize the power grid. This requires to be able to produce accurate short term forecasts of the power consumption of charging stations at distribution scale. This work proposes a full forecasting framework, from the transformation of discrete charging sessions logs into a continuous aggregated load profile, to the pre-processing of the time series and the generation of predictions. This framework is used to identify the most appropriate model to provide two days ahead predictions of the hourly load profile of large charging stations networks. Using three years of data collected at Amsterdam’s public stations, the performance of several state-of-the-art forecasting models, including Gradient Boosted Trees (GBTs) and Recurrent Neural Networks (RNNs) is evaluated and compared to a classical time series model (Auto Regressive Integrated Moving Average (ARIMA)). The best performances are obtained with an Extreme Gradient Boosting (XGBoost) model using harmonic terms, past consumption values, calendar information and temperature forecasts as prediction features. This study also highlights periodical patterns in charging behaviors, as well as strong calendar effects and an influence of temperature on EV usage. / På grund av den intermittenta karaktären av förnybar energiproduktion, blir upprätthållandet av elnäts stabilitet en betydande utmaning. Dessutom kommer penetrationen av elbilar och utvecklingen av ett stort nät av laddstationer att öka trycket på elnätet. Men detta laddnät och batterierna som är anslutna till det utgör också en betydande resurs för att tillhandahålla kompletterande tjänster och därför en ny möjlighet att stabilisera elnätet. För att göra sådant bör man kunna producera korrekta kortsiktiga prognoser för laddstationens strömförbrukning i distributions skala. Detta arbete föreslår ett fullständigt prognos protokoll, från omvandlingen av diskreta laddnings sessioner till en kontinuerlig förbrukningsprofil, till förbehandling av tidsserier och generering av förutsägelser. Protokollet används för att identifiera den mest lämpliga metoden för att ge två dagars förutsägelser av timförbrukning profilen för ett stort laddstation nät. Med hjälp av tre års data som samlats in på Amsterdams publika stationer utvärderas prestanda för flera avancerade prognosmodeller som är gradient boosting och återkommande neurala nätverk, och jämförs med en klassisk tidsseriemodell (ARIMA). De bästa resultaten uppnås med en XGBoost modell med harmoniska termer, tidigare förbrukningsvärden, kalenderinformation och temperatur prognoser som förutsägelse funktioner. Denna studie belyser också periodiska mönster i laddningsbeteenden, liksom starka kalendereffekter och temperaturpåverkan på elbilar-användning.
16

Försäljningsprediktion : en jämförelse mellan regressionsmodeller / Sales prediction : a comparison between regression models

Fridh, Anton, Sandbecker, Erik January 2021 (has links)
Idag finns mängder av företag i olika branscher, stora som små, som vill förutsäga sin försäljning. Det kan bland annat bero på att de vill veta hur stort antal produkter de skall köpa in eller tillverka, och även vilka produkter som bör investeras i över andra. Vilka varor som är bra att investera i på kort sikt och vilka som är bra på lång sikt. Tidigare har detta gjorts med intuition och statistik, de flesta vet att skidjackor inte säljer så bra på sommaren, eller att strandprylar inte säljer bra under vintern. Det här är ett simpelt exempel, men hur blir det när komplexiteten ökar, och det finns ett stort antal produkter och butiker? Med hjälp av maskininlärning kan ett sånt här problem hanteras. En maskininlärningsalgoritm appliceras på en tidsserie, som är en datamängd med ett antal ordnade observationer vid olika tidpunkter under en viss tidsperiod. I den här studiens fall är detta försäljning av olika produkter som säljs i olika butiker och försäljningen ska prediceras på månadsbasis. Tidsserien som behandlas är ett dataset från Kaggle.com som kallas för “Predict Future Sales”. Algoritmerna som används i för den här studien för att hantera detta tidsserieproblem är XGBoost, MLP och MLR. XGBoost, MLR och MLP har i tidigare forskning gett bra resultat på liknande problem, där bland annat bilförsäljning, tillgänglighet och efterfrågan på taxibilar och bitcoin-priser legat i fokus. Samtliga algoritmer presterade bra utifrån de evalueringsmått som användes för studierna, och den här studien använder samma evalueringsmått. Algoritmernas prestation beskrivs enligt så kallade evalueringsmått, dessa är R², MAE, RMSE och MSE. Det är dessa mått som används i resultat- och diskussionskapitlen för att beskriva hur väl algoritmerna presterar. Den huvudsakliga forskningsfrågan för studien lyder därför enligt följande: Vilken av algoritmerna MLP, XGBoost och MLR kommer att prestera bäst enligt R², MAE, RMSE och MSE på tidsserien “Predict Future Sales”. Tidsserien behandlas med ett känt tillvägagångssätt inom området som kallas CRISP-DM, där metodens olika steg följs. Dessa steg innebär bland annat dataförståelse, dataförberedelse och modellering. Denna metod är vad som i slutändan leder till resultatet, där resultatet från de olika modellerna som skapats genom CRISP-DM presenteras. I slutändan var det MLP som fick bäst resultat enligt mätvärdena, följt av MLR och XGBoost. MLP fick en RMSE på 0.863, MLR på 1.233 och XGBoost på 1.262 / Today, there are a lot of companies in different industries, large and small, that want to predict their sales. This may be due, among other things, to the fact that they want to know how many products they should buy or manufacture, and also which products should be invested in over others. In the past, this has been done with intuition and statistics. Most people know that ski jackets do not sell so well in the summer, or that beach products do not sell well during the winter. This is a simple example, but what happens when complexity increases, and there are a large number of products and stores? With the help of machine learning, a problem like this can be managed easier. A machine learning algorithm is applied to a time series, which is a set of data with several ordered observations at different times during a certain time period. In the case of this study, it is the sales of different products sold in different stores, and sales are to be predicted on a monthly basis. The time series in question is a dataset from Kaggle.com called "Predict Future Sales". The algorithms used in this study to handle this time series problem are XGBoost, MLP and MLR. XGBoost, MLR and MLP. These have in previous research performed well on similar problems, where, among other things, car sales, availability and demand for taxis and bitcoin prices were in focus. All algorithms performed well based on the evaluation metrics used by the studies, and this study uses the same evaluation metrics. The algorithms' performances are described according to so-called evaluation metrics, these are R², MAE, RMSE and MSE. These measures are used in the results and discussion chapters to describe how well the algorithms perform. The main research question for the study is therefore as follows: Which of the algorithms MLP, XGBoost and MLR will perform best according to R², MAE, RMSE and MSE on the time series "Predict Future Sales". The time series is treated with a known approach called CRISP-DM, where the methods are followed in different steps. These steps include, among other things, data understanding, data preparation and modeling. This method is what ultimately leads to the results, where the results from the various models created by CRISP-DM are presented. In the end, it was the MLP algorithm that got the best results according to the measured values, followed by MLR and XGBoost. MLP got an RMSE of 0.863, MLR of 1,233 and XGBoost of 1,262
17

Evaluating machine learning models for time series forecasting in smart buildings / Utvärdera maskininlärningsmodeller för tidsserieprognos inom smarta byggnader

Balachandran, Sarugan, Perez Legrand, Diego January 2023 (has links)
Temperature regulation in buildings can be tricky and expensive. A common problem when heating buildings is that an unnecessary amount of energy is supplied. This waste of energy is often caused by a faulty regulation system. This thesis presents a machine learning ap- proach, using time series data, to predict the energy supply needed to keep the inside tem- perature at around 21 degrees Celsius. The machine learning models LSTM, Ensemble LSTM, AT-LSTM, ARIMA, and XGBoost were used for this project. The validation showed that the ensemble LSTM model gave the most accurate predictions with the Mean Absolute Error of 22486.79 (Wh) and Symmetric Mean Absolute Percentage Error of 5.41 % and was the model used for comparison with the current system. From the performance of the different models, the conclusion is that machine learning can be a useful tool to pre- dict the energy supply. But on the other hand, there exist other complex factors that need to be given more attention to, to evaluate the model in a better way. / Temperaturreglering i byggnader kan vara knepigt och dyrt. Ett vanligt problem vid upp- värmning av byggnader är att det tillförs onödigt mycket energi. Detta energispill orsakas oftast av ett felaktigt regleringssystem. Denna rapport studerar möjligheten att, med hjälp av tidsseriedata, kunna träna olika maskininlärningmodeller för att förutsäga den energitill- försel som behövs för att hålla inomhustemperaturen runt 21 grader Celsius. Maskininlär- ningsmodellerna LSTM, Ensemble LSTM, AT-LSTM, ARIMA och XGBoost användes för detta projekt. Valideringen visade att ensemble LSTM-modellen gav den mest exakta förut- sägelserna med Mean Absolute Error på 22486.79 (Wh) och Symmetric Mean Absolute Percentage Error på 5.41% och var modellen som användes för att jämföra med det befint- liga systemet. Från modellernas prestation är slutsatsen att maskininlärning kan vara ett an- vändbart verktyg för att förutsäga energitillförseln. Men å andra sidan finns det andra kom- plexa faktorer som bör tas hänsyn till så att modellen kan evalueras på ett bättre sätt.
18

Risk Modeling of Sustainable Mutual Funds Using GARCH Time Series / Riskmodellering av hållbara fonder med GARCH-tidsserier

Malmgren, Erik, Zhang, Annie January 2020 (has links)
The demand for sustainable investments has seen an increase in recent years. There is considerable literature covering backtesting of the performance and risk of socially responsible investments (SRI) compared to conventional investments. However, literature that models and examines the risk characteristics of SRI compared to conventional investments is limited. This thesis seeks to model and compare the risk of mutual funds scoring in the top 10% in terms of sustainability, based on Morningstar Portfolio Sustainability Score, to those scoring in the bottom 10%. We create one portfolio consisting of the top 10% funds and one portfolio consisting of the bottom 10%, for European and global mutual funds separately, thus in total creating 4 portfolios. The analysis is based on data of the funds' returns and Morningstar Portfolio Sustainability Scores during December 2015 to August 2019. Investigating several GARCH models, we find an ARMA-GARCH model with skewed Student's t-distribution as innovation distribution to give the best fit to the daily log-returns of each portfolio. Based on the fitted ARMA-GARCH models with skewed Student's t-distribution, we use a parametric bootstrap method to compute 95% confidence intervals for the difference in long-run volatility and value at risk (VaR) between the portfolios with high and low Morningstar Portfolio Sustainability Scores. This is performed on the portfolios of European and global funds separately. We conclude that, for global and European funds respectively, no significant difference in terms of long-run volatility and VaR is found between the funds in each of the 10% ends of the Morningstar Portfolio Sustainability Score. / Efterfrågan av hållbara investeringar har ökat kraftigt de senaste åren. Det finns många studier som genomför backtesting av hållbara investeringars avkastning och risk jämfört med konventionella investeringar. Färre studier har däremot gjorts för att modellera och jämföra investeringarnas riskegenskaper. Denna uppsats syftar till att modellera risken av hållbara investeringar genom att jämföra de 10% fonder med högst Morningstar Portfolio Sustainability Score mot de 10% fonder med lägst score. Jämförelsen görs separat för globala fonder och europeiska fonder, vilket resulterar i totalt 4 portföljer. Analysen baseras på data på fondernas avkasting och Morningstar Portfolio Sustainability Score under tidsperioden december 2015 till augusti 2019. Genom att undersöka flera olika GARCH-modeller, kommer vi fram till att en ARMA-GARCH-modell med skev t-fördelning bäst beskriver den dagliga logaritmerade avkastningen för varje portfölj. Baserat på de anpassade ARMA-GARCH-modellerna, används en "parametric bootstrap"-metod för att beräkna 95%-iga konfidensintervall för skillnaden i långsiktig volatilitet och value at risk (VaR) mellan portföljerna med högt och lågt Morningstar Portfolio Sustainability Score. Detta görs separat för de europeiska och globala fonderna. Vår slutsats är att det, för globala och europeiska fonder, inte råder en signifikant skillnad i långsiktig volatilitet eller VaR mellan fonder med högt och lågt Morningstar Portfolio Sustainability Score.
19

Football Trajectory Modeling Using Masked Autoencoders : Using Masked Autoencoder for Anomaly Detection and Correction for Football Trajectories / Modellering av Fotbollsbana med Maskerade Autoencoders : Maskerade Autoencoders för Avvikelsedetektering och Korrigering av Fotbollsbanor

Tor, Sandra January 2023 (has links)
Football trajectory modeling is a powerful tool for predicting and evaluating the movement of a football and its dynamics. Masked autoencoders are scalable self-supervised learners used for representation learning of partially observable data. Masked autoencoders have been shown to provide successful results in pre-training for computer vision and natural language processing tasks. Using masked autoencoders in the multivariate time-series data field has not been researched to the same extent. This thesis aims to investigate the potential of using masked autoencoders for multivariate time-series modeling for football trajectory data in collaboration with Tracab. Two versions of the masked autoencoder network with alterations are tested, which are implemented to be used with multivariate time-series data. The resulting models are used to detect anomalies in the football trajectory and propose corrections based on the reconstruction. The results are evaluated, discussed, and compared against the tracked and manually corrected value of the ball trajectory. The performance of the different frameworks is compared and the overall anomaly detection capabilities are discussed. The result suggested that even though the regular autoencoder version had a smaller average reconstruction error during training and testing, using masked autoencoders improved the anomaly detection performance. The result suggested that neither the regular autoencoder nor the masked autoencoder managed to propose plausible trajectories to correct anomalies in the data. This thesis promotes further research to be done in the field of using masked autoencoders for time series and trajectory modeling. / Modellering av en fotbolls bollbana är ett kraftfullt verktyg för att förutse och utvärdera rörelsen och dynamiken hos en fotboll. Maskerade autoencoders är skalbara självövervakande inlärare som används för representationsinlärning av delvis synlig data. Maskerade autoencoders har visat sig ge framgångsrika resultat vid förträning inom datorseende och naturlig språkbearbetning. Användningen av maskerade autoencoders för multivariat tidsserie-data har det inte forskats om i samma omfattning. Syftet med detta examensarbete är att undersöka potentialen för maskerade autoencoders inom tidsseriemodellering av bollbanor för fotboll i samarbete med Tracab. Två versioner av maskerade autoencoders anpassade för tidsserier testas. De tränade modellerna används för att upptäcka avvikelser i detekterade fotbollsbanor och föreslå korrigeringar baserat på rekonstruktionen. Resultaten utvärderas, diskuteras och jämförs med det detekterade och manuellt korrigerade värdet för fotbollens bollbana. De olika ramverken jämförs och deras förmåga för detektion och korrigering av avvikelser diskuteras. Resultatet visade att även om den vanliga autoencoder-versionen hade ett mindre genomsnittligt rekonstruktionsfel efter träning, så bidrog användningen av maskerade autoencoders till en förbättring inom detektering av avvikelser. Resultatet visade att varken den vanliga autoencodern eller den maskerade autoencodern lyckades föreslå trovärdiga bollbanor för att korrigera de funna avvikelserna i datan. Detta examensarbete främjar ytterligare forskning inom användningen av maskerade autoencoders för tidsserier och banmodellering.
20

Vibration-Based Terrain Classification for an Autonomous Truck / Vibrationsbaserad Terränigenkänning för en Autonom Lastbil

Lovén, Lucas January 2022 (has links)
This thesis is focused on developing vibration based terrain classification for an autonomous mining truck. The goal is to classify between good and bad gravel roads as well as good and bad asphalt roads. Current literature within vibration based terrain classification has been focused to a great extent on smaller research vehicles. On smaller research vehicles have roll-rate, pitch-rate and vertical acceleration been reported to yield the highest average classification rates. Common approaches for pre-processing the data consists of segmenting the data, apply filtering techniques, computing the Power Spectra Density (PSD), performing Principal Component Analysis (PCA) and compute the logarithms. How to do this specifically for an Autonomous Truck (AT) is not trivial. What signals from the trucks Internal Measurement Unit (IMU)s yields the highest average classification rates? How does one process the raw data in the best way, and what classification method performs the best for this for an AT? The AT studied here have five different IMUs that all measure ẍ, ÿ, z̈ acceleration, and ωroll, ωpitch, ωyaw rotational speed. One is located in the cab, and the other four are located in each of the four corners of the chassis. With these sensors empirical vibration data from different surfaces, speeds and loads was gathered with multiple identically equipped autonomous mining trucks. With this data were experiments conducted in order to find a high performing classifier that also was possible to implement in the ATs software in C++. The different signals were ranked according to the highest classification score, and different pre-processing parameters combined with different classification methods likewise were. ωyaw and ωpitch from the cab IMU, and z̈ from the rear right IMU were the ones that yielded the highest average classification rates. The pre-processing consists of segmenting the data, multiplying the segment with a window function, compute the one-sided PSD, logarithmize the PSD values and lastly normalize the data. A bagged classifier based on Support Vector Machine (SVM) with a Radial Basis Function (RBF) kernel showed the highest classification performance. The final multiclass classifier was a combination of three of these bagged classifiers in a tree structure. The F-measure rates for the four classes were {0.946, 0.98, 0.714, 0.879}. / Denna uppsats är fokuserad på att utveckla en vibrationsbaserad terrängigenkänningsalgoritm för en automatiserad tung lastbil som kommer att framföras i ojämn terräng, som ska klara av att känna igen bra och dåliga grusvägar, samt bra och dåliga asfaltsvägar. Befintlig litteratur inom området vibrationsbaserad terrängigenkänning har varit fokuserad i stor utsträckning på mindre forskningsfordon. På dessa är {ωrull, ωstigning, z̈} de signaler som resulterar i de högsta genomsnittliga korrekta terrängklassifikationerna. Befintliga förbearbetningmetoder för datan består i majoriteten av fallen av att segmentera och filtrera datan, beräkna spektrala effekttätheten (PSD) och logaritmera. Hur man gör detta är inte trivialt. Vilka signaler från lastbilens fem IMUer resulterar i det högsta prestandan för terrängigenkänning? Hur förarbetar man datan? Lastbilen studerad här har fem IMUer som har sex kanaler vardera, de mäter ẍ, ÿ, z̈ acceleration, och ωrull, ωstigning, ωgir rotationshastighet. En är placerad i lastbilens hytt och de andra fyra är placerade i varje hörn på chassit. Med dessa sensorer samlades vibrationsdata in på de fyra underlagen, med olika lastbilar, med olika last på flaket och med olika autonoma lastbilar, men som var konfigurerade på samma sätt. Experiment utfördes för att bestämma vilka signaler-, vilken förbearbetningsmetod på datan- samt vilken klassifieringsmetod som presterar bäst för den automatiserade lastbilen. Algoritmen var också anpassad för att vara möjlig att implementera i lastbilens mjukvara utan externa maskininlärnings bibliotek. De högst presterande signalerna var ωgir och ωstigning från IMUn i hytten, samt z̈ från IMUn monterad i chassits bakre högra hörn. Förbearbetningen bestod av att segmentera datasignalen, multiplicera den med en fönsterfunktion för att sedan beräkna den ensidiga spektrala effekttätheten (PSD), logaritmera alla värden och till slut normalisera datan. En stödvektormaskin (SVM) med en RBF kärna påvisade högst genomsnittliga klassifikationsresultat. Den slutgiltiga binära klassifieraren applicerade bagging för att förbättra prestandan genom att kombinera data från alla de tre högst presterande signalerna. Den slutgiltiga klassifieraren tränades på att skilja mellan de olika underlagen och var en kombination av tre bagged klassifierare i en trädstruktur. Prestandan med avseende på F-Measure för de fyra klasserna var {0.946, 0.98, 0.714, 0.879}.

Page generated in 0.0508 seconds