Return to search

High-variance multivariate time series forecasting using machine learning

There are several tools and models found in machine learning that can be used to forecast a certain time series; however, it is not always clear which model is appropriate for selection, as different models are suited for different types of data, and domain-specific transformations and considerations are usually required. This research aims to examine the issue by modeling four types of machine- and deep learning algorithms - support vector machine, random forest, feed-forward neural network, and a LSTM neural network - on a high-variance, multivariate time series to forecast trend changes one time step in the future, accounting for lag.The models were trained on clinical trial data of patients in an alcohol addiction treatment plan provided by a Uppsala-based company. The results showed moderate performance differences, with a concern that the models were performing a random walk or naive forecast. Further analysis was able to prove that at least one model, the feed-forward neural network, was not undergoing this and was able to make meaningful forecasts one time step into the future. In addition, the research also examined the effec tof optimization processes by comparing a grid search, a random search, and a Bayesian optimization process. In all cases, the grid search found the lowest minima, though its slow runtimes were consistently beaten by Bayesian optimization, which contained only slightly lower performances than the grid search. / Det finns flera verktyg och modeller inom maskininlärning som kan användas för att utföra tidsserieprognoser, men det är sällan tydligt vilken modell som är lämplig vid val, då olika modeller är anpassade för olika sorts data. Denna forskning har som mål att undersöka problemet genom att träna fyra modeller - support vector machine, random forest, ett neuralt nätverk, och ett LSTM-nätverk - på en flervariabelstidserie med hög varians för att förutse trendskillnader ett tidssteg framåt i tiden, kontrollerat för tidsfördröjning. Modellerna var tränade på klinisk prövningsdata från patienter som deltog i en alkoholberoendesbehandlingsplan av ett Uppsalabaserat företag. Resultatet visade vissa moderata prestandaskillnader, och en oro fanns att modellerna utförde en random walk-prognos. I analysen upptäcktes det dock att den ena neurala nätverksmodellen inte gjorde en sådan prognos, utan utförde istället meningsfulla prediktioner. Forskningen undersökte även effekten av optimiseringsprocesser genomatt jämföra en grid search, random search, och Bayesisk optimisering. I alla fall hittade grid search lägsta minimumpunkten, men dess långsamma körtider blev konsistent slagna av Bayesisk optimisering, som även presterade på nivå med grid search.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-353827
Date January 2018
CreatorsKatardjiev, Nikola
PublisherUppsala universitet, Institutionen för informatik och media
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds