Financial time-series are not uncommon to research in an academic context. This is possibly not only due to its challenging nature with high levels of noise and non-stationary data, but because of the endless possibilities of features and problem formulations it creates. Consequently, problem formulations range from classification and categorical tasks determining directional movements in the market to regression problems forecasting their actual values. These tasks are investigated with features consisting of data extracted from Twitter feeds to movements from external markets and technical indicators developed by investors. Cryptocurrencies are known for being evermore so volatile and unpredictable, resulting in institutional investors avoiding the market. In contrast, research in academia often applies state-of-the-art machine learning models without the industry’s knowledge of pre-processing. This thesis aims to lessen the gap between industry and academia by presenting a process from feature extraction and selection to forecasting through machine learning. The task involves how well the market movements can be forecasted and the individual features’ role in the predictions for a six-hours ahead regression task. To investigate the problem statement, a set of technical indicators and a feature selection algorithm were implemented. The data was collected from the exchange FTX and consisted of hourly data from Solana, Bitcoin, and Ethereum. Then, the features selected from the feature selection were used to train and evaluate an Autoregressive Integrated Moving Average (ARIMA) model, Prophet, a Long Short-Term Memory (LSTM) and a Transformer on the spread between the spot price and three months futures market for Solana. The features’ relevance was evaluated by calculating their permutation importance. It was found that there are indications of short-term predictability of the market through several forecasting models. Furthermore, the LSTM and ARIMA-GARCH performed best in a scenario of low volatility, while the LSTM outperformed the other models in times of higher volatility. Moreover, the investigations show indications of non-stationary. This phenomenon was not only found in the data as sequence but also in the relations between the features. These results show the importance of feature selection for a time frame relevant to the prediction window. Finally, the data displays a strong mean-reverting behaviour and is therefore relatively well-approximated by a naive walk. / Finansiella tidsserier är inte ovanliga att utforska i ett akademiskt sammanhang. Det beror troligen inte bara på dess utmanande karaktär med höga ljudnivåer och icke-stationära data, utan även till följd av de oändliga möjligheter till inmatning och problemformuleringar som det skapar. Följaktligen sträcker sig problemformuleringarna från klassificering och kategoriska uppgifter som bestämmer riktningsrörelser på marknaden till regressionsproblem som förutsäger deras faktiska värden. Dessa uppgifter undersöks med data extraherad från twitterflöden till rörelser från externa marknader och tekniska indikatorer utvecklade av investerare. Kryptovalutor är kända för att vara volatila och oförutsägbara till sin natur, vilket resulterar i att institutionella investerare undviker marknaden. I kontrast tillämpas forskning inom den akademiska världen ofta med avancerade maskininlärningsmodeller utan branschens typiska förbearbetningsarbete. Detta examensarbete syftar till att minska klyftan mellan industri och akademi genom att presentera en process från dataextraktion och urval till prognoser genom maskininlärning. Arbetet undersöker hur väl marknadsrörelserna kan prognostiseras och de enskilda variablernas roll i förutsägelserna för ett regressionsproblem som prognotiserar en sex timmar fram i tiden. Därmed implementerades en uppsättning tekniska indikatorer tillsammans med en algoritm för variabelanvändning. Datan samlades in från börsen FTX och bestod av timdata från Solana, Bitcoin och Ethereum. Sedan användes variablerna som valts för att träna och utvärdera en Autoregressive Integrated Moving Average (ARIMA)-modell, Prophet, en Long Short-Term Memory (LSTM) och en Transformer på skillnaden mellan spotpriset och tre månaders framtidsmarknad för Solana. Variablernas relevans utvärderades genom att beräkna deras vikt vid permutation. Slutsatsen är att det finns indikationer på kortsiktig förutsägbarhet av marknaden genom flera prognosmodeller. Vidare noterades det att LSTM och ARIMA-GARCH presterade bäst i ett scenario med låg volatilitet, medan LSTM överträffade de andra modellerna i vid högre volatilitet. Utöver detta visar undersökningarna indikationer på icke-stationäritet inte bara för datan i sig, utan också för relationerna mellan variablerna. Detta visar vikten av att välja variabler för en tidsram som är relevant för prediktionsfönstret. Slutligen visar tidsserien ett starkt medelåtergående beteende och är därför relativt väl approximerad av en naiv prediktionsmodell.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321540 |
Date | January 2022 |
Creators | Persson, Erik |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:728 |
Page generated in 0.011 seconds