Global ETD Search

11	Clustering of Unevenly Spaced Mixed Data Time Series / Klustring av ojämnt fördelade tidsserier med numeriska och kategoriska variabler Sinander, Pierre, Ahmed, Asik January 2023 (has links) This thesis explores the feasibility of clustering mixed data and unevenly spaced time series for customer segmentation. The proposed method implements the Gower dissimilarity as the local distance function in dynamic time warping to calculate dissimilarities between mixed data time series. The time series are then clustered with k−medoids and the clusters are evaluated with the silhouette score and t−SNE. The study further investigates the use of a time warping regularisation parameter. It is derived that implementing time as a feature has the same effect as penalising time warping, andtherefore time is implemented as a feature where the feature weight is equivalent to a regularisation parameter. The results show that the proposed method successfully identifies clusters in customer transaction data provided by Nordea. Furthermore, the results show a decrease in the silhouette score with an increase in the regularisation parameter, suggesting that the time at which a transaction occurred might not be of relevance to the given dataset. However, due to the method’s high computational complexity, it is limited to relatively small datasets and therefore a need exists for a more scalable and efficient clustering technique. / Denna uppsats utforskar klustring av ojämnt fördelade tidsserier med numeriska och kategoriska variabler för kundsegmentering. Den föreslagna metoden implementerar Gower dissimilaritet som avståndsfunktionen i dynamic time warping för att beräkna dissimilaritet mellan tidsserierna. Tidsserierna klustras sedan med k-medoids och klustren utvärderas med silhouette score och t-SNE. Studien undersökte vidare användningen av en regulariserings parameter. Det härledes att implementering av tid som en egenskap hade samma effekt som att bestraffa dynamic time warping, och därför implementerades tid som en egenskap där dess vikt är ekvivalent med en regulariseringsparameter. Resultaten visade att den föreslagna metoden lyckades identifiera kluster i transaktionsdata från Nordea. Vidare visades det att silhouette score minskade då regulariseringsparametern ökade, vilket antyder att tiden transaktion då en transaktion sker inte är relevant för det givna datan. Det visade sig ytterligare att metoden är begränsad till reltaivt små dataset på grund av dess höga beräkningskomplexitet, och därför finns det behov av att utforksa en mer skalbar och effektiv klusteringsteknik. mixed data time series unevenly spaced time series clustering dynamic time warping Gower dissimilarity time warping regularisation numeriska och kategoriska tidsserier ojämnt fördelade tidsserier kluster analys dynamic time warping Gower dissimilaritet regularisering av tidsförvränging Other Mathematics Annan matematik
12	An evaluation of deep neural network approaches for traffic speed prediction Ghandeharioon, Cosar January 2018 (has links) The transportation industry has a significant effect on the sustainability and development of a society. Learning traffic patterns, and predicting the traffic parameters such as flow or speed for a specific spatiotemporal point is beneficial for transportation systems. For instance, intelligent transportation systems (ITS) can use forecasted results to improve services such as driver assistance systems. Furthermore, the prediction can facilitate urban planning by making management decisions data driven. There are several prediction models for time series regression on traffic data to predict the average speed for different forecasting horizons. In this thesis work, we evaluated Long Short-Term Memory (LSTM), one of the recurrent neural network models and Neural decomposition (ND), a neural network that performs Fourier-like decomposition. The results were compared with the ARIMA model. The persistent model was chosen as a baseline for the evaluation task. We proposed two new criteria in addition to RMSE and r2, to evaluate models for forecasting highly variable velocity changes. The dataset was gathered from highway traffic sensors around the E4 in Stockholm, taken from the “Motorway Control System” (MCS) operated by Trafikverket. Our experiments show that none of the models could predict the highly variable velocity changes at the exact times they happen. The reason was that the adjacent local area had no indications of sudden changes in the average speed of vehicles passing the selected sensor. We also conclude that traditional ML metrics of RMSE and r2 could be augmented with domain specific measures. / Transportbranschen har en betydande inverkan på samhällets hållbarhet och utveckling. Att lära sig trafikmönster och förutsäga trafikparametrar som flöde eller hastighet för en specifik spatio-temporal punkt är fördelaktigt för transportsystem. Intelligenta transportsystem (ITS) kan till exempel använda prognostiserade resultat för att förbättra tjänster som förarassistanssystem. Vidare kan förutsägelsen underlätta stadsplanering genom att göra ledningsbeslut datadrivna. Det finns flera förutsägelsemodeller för tidsserieregression på trafikdata för att förutsäga medelhastigheten för olika prognoshorisonter. I det här avhandlingsarbetet utvärderade vi Långtidsminne (LSTM), en av de återkommande neurala nätverksmodellerna och Neural dekomposition (ND), ett neuralt nätverk som utför Fourierliknande sönderdelning. Resultaten jämfördes med ARIMA-modellen. Den ihållande modellen valdes som utgångspunkt för utvärderingsuppgiften. Vi föreslog två nya kriterier utöver RMSE och r2, för att utvärdera modeller för prognoser av högt variabla hastighetsändringar. Datasetet insamlades från trafiksensor på motorvägar runt E4 i Stockholm, för det så kallade motorvägskontrollsystemet (MCS). Våra experiment visar att ingen av modellerna kan förutsäga de höga variabla hastighetsförändringarna vid exakta tider som de händer. Anledningen var att det intilliggande lokala området inte hade några indikationer på plötsliga förändringar i medelhastigheten hos fordon som passerade den valda sensorn. Vi drar också slutsatsen att traditionella ML-metrics av RMSE och R2 kan kompletteras med domänspecifika åtgärder. Deep Learning Regression Time Series LSTM Neural decomposition. Djupinlärning Regression Tidsserier LSTM Neural dekomposition. Computer and Information Sciences Data- och informationsvetenskap
13	It’s Not EU, It’s Me! : An Event Study of Brexit on Financial Markets / It’s Not EU, It’s Me! : En eventanalys av Brexit på den finansiella marknaden Olsson Lööf, Greta, Vojcic, Aleksandra January 2019 (has links) This paper investigates the impact of the European Union membership referendum in the UK on the correlations and volatility between three different broad stock market indices, utilizing an econometric time series model called DCC GARCH. Findings support the claim of higher volatility peaks on the stock market as an immediate response to the event. Evidence indicate higher shortrun correlations between the indices as a response to higher volatility. In addition, the study present evidence that the correlation between the UK stock index and the other two indices declines after the referendum in 2016. / Studien undersöker konsekvenserna av folkomröstningen om Storbritanniens medlemskap i EU. Korrelationen och volatiliteten mellan tre olika aktiemarknadsindex jämförs med hjälp av en ekonometrisk modell för tidsserier kallad DCC GARCH. Resultaten från studien visar på omedelbart högre nivåer av volatilitet på aktiemarknaden dagarna efter omröstningen. Analysen ger stöd för hypotesen om högre nivåer av kortsiktiga korrelationer mellan indexen som en konsekvens av högre nivåer av volatilitet. Resultat visar även på att korrelationen mellan det brittiska aktieindexet och de övriga två minskar efter det undersökta eventet. Engineering and Technology Teknik och teknologier
14	Anomaly Detection for Temporal Data using Long Short-Term Memory (LSTM) Singh, Akash January 2017 (has links) We explore the use of Long short-term memory (LSTM) for anomaly detection in temporal data. Due to the challenges in obtaining labeled anomaly datasets, an unsupervised approach is employed. We train recurrent neural networks (RNNs) with LSTM units to learn the normal time series patterns and predict future values. The resulting prediction errors are modeled to give anomaly scores. We investigate different ways of maintaining LSTM state, and the effect of using a fixed number of time steps on LSTM prediction and detection performance. LSTMs are also compared to feed-forward neural networks with fixed size time windows over inputs. Our experiments, with three real-world datasets, show that while LSTM RNNs are suitable for general purpose time series modeling and anomaly detection, maintaining LSTM state is crucial for getting desired results. Moreover, LSTMs may not be required at all for simple time series. / Vi undersöker Long short-term memory (LSTM) för avvikelsedetektion i tidsseriedata. På grund av svårigheterna i att hitta data med etiketter så har ett oövervakat an-greppssätt använts. Vi tränar rekursiva neuronnät (RNN) med LSTM-noder för att lära modellen det normala tidsseriemönstret och prediktera framtida värden. Vi undersö-ker olika sätt av att behålla LSTM-tillståndet och effekter av att använda ett konstant antal tidssteg på LSTM-prediktionen och avvikelsedetektionsprestandan. LSTM är också jämförda med vanliga neuronnät med fasta tidsfönster över indata. Våra experiment med tre verkliga datasetvisar att även om LSTM RNN är tillämpbara för generell tidsseriemodellering och avvikelsedetektion så är det avgörande att behålla LSTM-tillståndet för att få de önskaderesultaten. Dessutom är det inte nödvändigt att använda LSTM för enkla tidsserier. Computer Sciences Datavetenskap (datalogi)
15	Normalized conformalprediction for time series data Kowalczewski, Jakub January 2019 (has links) Every forecast is valid only if proper prediction intervals are stated. Currently models focus mainly on point forecast and neglect the area of prediction intervals. The estimation of the error of the model is made and is applied to every prediction in the same way, whereas we could identify that every case is different and different error measure should be applied to every instance. One of the state-of-the-art techniques which can address this behaviour is conformal prediction with its variant of normalized conformal prediction. In this thesis we apply this technique into time series problems. The special focus is put to examine the technique of estimating the difficulty of every instance using the error of neighbouring instances. This thesis describes the entire process of adjusting time series data into normalized conformal prediction framework and the comparison with other techniques will be made. The final results do not show that aforementioned method is superior over an existing techniques in various setups different method performed the best. However, it is similar in terms of performance. Therefore, it is an interesting add-on to data science forecasting toolkit. / Varje prognos är endast giltig om korrekt förutsägningsintervall anges. För närvarande fokuserar modeller huvudsakligen på punktprognos och försummar området med förutsägelsesintervall. Uppskattningen av modellens fel görs och tillämpas på varje förutsägelse på samma sätt, medan vi kunde identifiera att varje fall är annorlunda och olika felmått bör tillämpas på varje instans. En av de senaste teknikerna som kan hantera detta beteende är konform förutsägelse med dess variant av normaliserad konform förutsägelse. I denna avhandling tillämpar vi denna teknik i tidsserieproblem. Det speciella fokus ligger på att undersöka tekniken för att uppskatta svårigheten för varje instans med hjälp av felet i angränsande instanser. Den här avhandlingen beskriver hela processen för att anpassa tidsseriedata till normaliserat konformitetsprognosram och jämförelsen med andra tekniker kommer att göras. De slutliga resultaten visar inte att ovannämnda metod är överlägsen jämfört med en befintlig teknik - i olika uppsättningar utförde olika metoder bäst. Men det är liknande vad gäller prestanda. Därför är det ett intressant tillägg till datavetenskapens prognosverktygssats. conformal prediction normalized conformal prediction time series forecasting konform förutsägelse normaliserad konform förutsägelse tidsserier prognos Computer and Information Sciences Data- och informationsvetenskap
16	Towards Causal Discovery on EHR data : Evaluation of current Causal Discovery methods on the MIMIC-IV data set / Mot Orsaksupptäckt på Elektroniska Patientjournaler : Utvärdering av befintliga metoder för orsaksupptäckt på MIMIC-IV databas Olausson, Pontus January 2022 (has links) Causal discovery is the problem of learning causal relationships between variables from a set of data. One interesting area of use for causal discovery is the health care domain, where application could help facilitate a better understanding of disease and treatment mechanisms. The health care domain has recently undergone a major digitization, making available a large amount of data for use in learning algorithms, available in formats such as medical images or electronic health records. This thesis aims to explore the application of causal discovery on electronic health record data. We provide an overview of the field of causal discovery and identify 3 contemporary methods for causal discovery on time-series data which we apply on a preprocessed version of the MIMIC-IV data set. Each causal discovery method is run on time-series comprising of electronic health record data related to hospital stays for patients with sepsis. We provide an empiric report of the overlap between the learned graphs from different hospital stays as a heuristic evaluation measure. We find that it is possible to identify common themes in the learned graphs between different causal discovery methods, indicating potential practical value of causal discovery on electronic health record data. We also identify important considerations for future application and evaluation, such as incorporating extensive domain knowledge, and provide suggestions for future work. / Kausal upptäckt är problemet med att lära sig orsakssamband mellan variabler från en uppsättning data. Ett intressant användningsområde för kausal upptäckt är hälso- och sjukvårdsdomänen, där tillämpning kan bidra till en bättre förståelse av sjukdomar och behandlingsmekanismer. Sjukvårdsdomänen har nyligen genomgått en stor digitalisering vilket gör en stor mängd data tillgänglig för användning i inlärningsalgoritmer, tillgänglig i format som medicinska bilder eller elektroniska patientjournaler. Denna avhandling syftar till att utforska tillämpningen av kausal upptäckt på elektroniska patientjournaler. Vi ger en översikt över området för kausal upptäckt och identifierar 3 samtida metoder för kausal upptäckt på tidsseriedata som vi tillämpar på en förbearbetad version av MIMIC-IV-datauppsättningen. Varje identifierad metod för kausal upptäckt körs på tidsserier som består av elektroniska patientjournaler relaterade till sjukhusvistelser för patienter med sepsis. Vi tillhandahåller en empirisk rapport över överlappningen mellan de inlärda graferna från olika sjukhusvistelser som ett heuristiskt utvärderingsmått. Vi finner att det är möjligt att identifiera gemensamma teman i de inlärda graferna mellan olika kausala upptäcktsmetoder, vilket indikerar potentiellt praktiskt värde av kausal upptäckt på elektroniska patientjournaler. Vi identifierar också viktiga överväganden för framtida tillämpning och utvärdering, såsom att integrera omfattande domänkunskap, och ger förslag för framtida arbete. Causal Discovery Time-Series MIMIC-IV EHR Kasual Upptäckt Tidsserier MIMIC-IV elektroniska patientjournaler Computer and Information Sciences Data- och informationsvetenskap
17	Detecting Faults in Telecom Software Using Diffusion Models : A proof of concept study for the application of diffusion models on Telecom data / Feldetektering av telekom-mjukvaror med hjälp av diffusionsmodeller Nabeel, Mohamad January 2023 (has links) This thesis focuses on software fault detection in the telecom industry, which is crucial for companies like Ericsson to ensure stable and reliable software. Given the importance of software performance to companies that rely on it, automatically detecting faulty behavior in test or operational environments is challenging. Several approaches have been proposed to address this problem. This thesis explores reconstruction-based and forecasting-based anomaly detection using diffusion models to address software failure detection. To this end, the usage of the Structured State Space Sequence Diffusion Model was explored, which can handle temporal dependencies of varying lengths. The numerical time series data results were promising, demonstrating the model’s effectiveness in capturing and reconstructing the underlying patterns, particularly with continuous features. The contributions of this thesis are threefold: (i) A proposal of a framework for utilizing diffusion models for Time Series anomaly detection, (ii) a proposal of a particular Diffusion model Architecture that is capable of outperforming existing Ericsson Solutions on an anomaly detection dataset, (iii) presentation of experiments and results which add extra insight into the model’s capabilities, exposing some of its limitations and suggesting future research avenues to enhance its capabilities further. / Uppsatsen fokuserar på detektering av programvarufel inom telekomindustrin, vilket är essentiellt för företag som Ericsson för att säkerställa stabil och pålitlig programvara. Med hänsyn till vikten av programvarans prestanda för företag som är beroende av den är automatisk detektering av felaktigt beteende i test- eller operativa miljöer en utmanande uppgift. Flera metoder har föreslagits för att lösa problemet. Uppsatsen utforskar generativ-baserad och prediktiv-baserad anomalidetektering med hjälp av diffusionsmodeller för att hantera detektering av programvarufel. Den valda nätverksarkitekturen för att återskapa tidsseriedata var modellen ”Structured State Space Sequence Diffusion”. Resultaten för numeriska tidsseriedata var lovande och visade på modellens effektivitet i att fånga och återskapa de underliggande mönstren. Dock observerades det att modellen stötte på svårigheter vid hantering av kategoriska tidsseriekolumner. Begränsningarna i att fånga kategoriska tidsseriefunktioner pekar på ett område där modellens förmågor kan förbättras. Framtida forskning kan fokusera på att förbättra modellens förmåga att hantera kategoriska data på ett effektivt sätt. Diffusion models Anomaly Detection Telecommunication Time Series Diffusionsmodeller Anomalitetsdetektering Telekommunikation Tidsserier Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
18	Credit Index Forecasting: Stability of an Autoregressive Model / Prognostisering av Kreditindex: Stabilitet av en Autoregressiv Modell Wallén, Melker, Grimlund, Erik January 2023 (has links) This thesis investigates the robustness and stability of total return series for credit bond index investments. Dueto the challenges which arise for financial institutes and investors in achieving these objectives, we aim to createa forecasting model which matches the statistical properties of historical data, while remaining robust, stable andeasy to calibrate. To reach this goal, we implement autoregressive time-series models for credit spreads, a Vasicekmodel for the interest rate and use transformations to create total return series. We find that our autoregressivemodel performs well in terms of robustness and stability, while being statistically accurate for the Investment GradeIndex. The High Yield model has good statistical accuracy, but is lacking in stability and robustness. / Denna avhandling undersöker robustheten och stabiliteten hos totalavkastningsserier för investeringar ikreditobligationsindex. På grund av de utmaningar som uppstår för finansiella institut och investerare i att uppnådessa mål, syftar vi till att skapa en prognosmodell som matchar de statistiska egenskaperna hos historiska datasamtidigt som den förblir robust, stabil och enkel att kalibrera. För att nå detta mål implementerar vi autoregressivatidsserie-modeller för kreditspridningar, en Vasicek-modell för räntan och använder transformationer för att skapatotalavkastningsserier. Vi finner att vår autoregressiva modell för Investment Grade Indexet presterar bra gällanderobusthet och stabilitet samtidigt som den är statistiskt korrekt. High Yield modellen är statistiskt korrekt, men ärmindre bra gällande stabilitet och robusthet. Credit spreads Time Series Credit Risk Index Modeling Forecasting Kreditspreadar Tidsserier Kreditrisk Indexmodellering Prognoser Other Mathematics Annan matematik
19	Adding external factors in Time Series Forecasting : Case study: Ethereum price forecasting Vera Barberán, José María January 2020 (has links) The main thrust of time-series forecasting models in recent years has gone in the direction of pattern-based learning, in which the input variable for the models is a vector of past observations of the variable itself to predict. The most used models based on this traditional pattern-based approach are the autoregressive integrated moving average model (ARIMA) and long short-term memory neural networks (LSTM). The main drawback of the mentioned approaches is their inability to react when the underlying relationships in the data change resulting in a degrading predictive performance of the models. In order to solve this problem, various studies seek to incorporate external factors into the models treating the system as a black box using a machine learning approach which generates complex models that require a large amount of data for their training and have little interpretability. In this thesis, three different algorithms have been proposed to incorporate additional external factors into these pattern-based models, obtaining a good balance between forecast accuracy and model interpretability. After applying these algorithms in a study case of Ethereum price time-series forecasting, it is shown that the prediction error can be efficiently reduced by taking into account these influential external factors compared to traditional approaches while maintaining full interpretability of the model. / Huvudinstrumentet för prognosmodeller för tidsserier de senaste åren har gått i riktning mot mönsterbaserat lärande, där ingångsvariablerna för modellerna är en vektor av tidigare observationer för variabeln som ska förutsägas. De mest använda modellerna baserade på detta traditionella mönsterbaserade tillvägagångssätt är auto-regressiv integrerad rörlig genomsnittsmodell (ARIMA) och långa kortvariga neurala nätverk (LSTM). Den huvudsakliga nackdelen med de nämnda tillvägagångssätten är att de inte kan reagera när de underliggande förhållandena i data förändras vilket resulterar i en försämrad prediktiv prestanda för modellerna. För att lösa detta problem försöker olika studier integrera externa faktorer i modellerna som behandlar systemet som en svart låda med en maskininlärningsmetod som genererar komplexa modeller som kräver en stor mängd data för deras inlärning och har liten förklarande kapacitet. I denna uppsatsen har tre olika algoritmer föreslagits för att införliva ytterligare externa faktorer i dessa mönsterbaserade modeller, vilket ger en bra balans mellan prognosnoggrannhet och modelltolkbarhet. Efter att ha använt dessa algoritmer i ett studiefall av prognoser för Ethereums pristidsserier, visas det att förutsägelsefelet effektivt kan minskas genom att ta hänsyn till dessa inflytelserika externa faktorer jämfört med traditionella tillvägagångssätt med bibehållen full tolkbarhet av modellen. Time-series Forecasting Pattern-based models ARIMA LSTM Tidsserier Prognoser Mönsterbaserade modeller ARIMA LSTM Computer and Information Sciences Data- och informationsvetenskap
20	Forecasting Service Metrics for Network Services Tang, Chen January 2020 (has links) As the size and complexity of the internet increased dramatically in recent years,the burden of network service management also became heavier. The need foran intelligent way for data analysis and forecasting becomes urgent. The wideimplementation of machine learning and data analysis methods provides a newway to analyze large amounts of data.In this project, I study and evaluate data forecasting methods using machinelearning techniques and time series analysis methods on data collected fromthe KTH testbed. Comparing different methods with respect to accuracy andcomputing overhead I propose the best method for data forecasting for differentscenarios.The results show that machine learning techniques using regression can achievebetter performance with higher accuracy and smaller computing overhead. Timeseries data analysis methods have relatively lower accuracy, and the computingoverhead is much higher than machine learning techniques on the datasetsevaluated in this project. / Eftersom storleken och komplexiteten på internet har ökat dramatiskt under de senaste åren så har belastningen av nätverkshantering också blivit tyngre. Behovet av ett intelligent sätt för dataanalys och prognos blir brådskande. Den breda implementeringen av maskininlärningsmetoder och dataanalysmetoder ger ett nytt sätt att analysera stora mängder data.I detta projekt studerar och utvärderar jag dataprognosmetoder med hjälp av maskininlärningstekniker och analyser av tidsserier som samlats in från KTHtestbädden. Baserat på jämförelse av olika metoder med avseende på noggrannhet och beräkningskostnader, så föreslår jag föreslår den bästa metoden för dataprognoser för olika scenarier.Resultaten visar att maskininlärningstekniker som använder regression kan uppnå bättre prestanda med högre noggrannhet och mindre datoromkostnader. Metoderför dataanalys av tidsserier har relativt lägre noggrannhet, och beräkningsomkostnaderna är mycket högre än maskininlärningstekniker på de datauppsättningar som utvärderatsi detta projekt. Forecasting Machine Learning Time Series Analysis Prognoser maskininl¨arning analys av tidsserier Elektroteknik och elektronik

Search results