Today, brokers within the stock market brokerage industry are having difficulties with accurately forecasting the trading volume that is conducted by their customers. This is especially a problem during periods of exceptionally high or low trading volumes. Solving this problem would lead to both monetary savings in terms of server costs and operational planning issues. This thesis uses three Machine Learning models (Random Forest Regressor, Linear Regression, and Support Vector Regression) to predict daily trading volume. In Machine Learning, features are variables that act as explanatory variables for the dependent variable, in this case, the daily trading volume. The primary focus of this study is to evaluate and analyze which types of feature categories are the most important. Therefore, this study uses a variety of features divided into five different categories (Temporal, Historical, Market, External, and Customer). The results from the models trained using each individual feature category are compared against each other. Secondly, this study also focuses on analyzing the performance of all feature categories together. A Naive model of a 20-day rolling average is used as a benchmark to evaluate the results. The findings of this study indicate that Machine Learning models perform better than the proposed Naive approach when predicting daily stock market trading volume. However, the difference is of a small nature. Further, the Historical feature category is the category that performs best and can therefore be argued to be the most important category when predicting daily trading volume. However, the results of this study are not of statistical significance. The findings of this study can be relevant to the research field and can be used in future studies to further investigate the feature importance in stock market trading volume prediction. / Idag har företag inom industrin för aktiemäklare svårigheter att på ett träffsäkert sätt prognostisera sina kunders handelsvolymer. Detta är särskilt ett problem under perioder med extremt höga eller låga volymer. Att lösa detta problem skulle leda till både monetära besparingar i form av serverkostnader, och även lösa operationella planeringsproblem. Denna studie använder tre olika maskininlärningsmodeller (Random Forest Regressor, Linear Regression, och Support Vector Regression) för att förutspå handelsvolym. Denna studie har som primärt fokus att utvärdera och analysera vilka typer av data som är av vikt i syfte att förutspå kommande daglig aktiehandelsvolym. Denna studie använder därmed en mängd olika variabler indelat i fem grupper (Tid, Historik, Marknad, Extern, Kund). Modellerna tränas individuellt med varje grupp och resultatet jämförs inbördes för att besvara studiens frågeställningar. Studien fokuserar även på att analysera resultatet av att träna modellerna på samtliga grupper tillsammans. För att utvärdera resultatet används en naiv modell med 20 dagars rullande medelvärde. Resultatet från denna studie indikerar att användning av maskininlärning presterar bättre än den använda naiva modellen, för att förutspå daglig handelsvolym på aktiemarknaden. Skillnaden i resultat är dock liten. Vidare visar studiens resultat att den grupp av variabler som presterar bäst är kategorin Historik. Därmed kan det sägas att denna grupp av variabler är den viktigaste gruppen för att förutspå daglig handelsvolym, av grupperna använda i denna studie. Det går dock inte att säga att resultaten i denna studie är signifikanta. Resultaten och slutsatserna från denna studie bidrar till forskningsområdet och resultaten kan i framtiden användas för att fortsätta undersöka vilka variabler som är av intresse när det kommer till att förutspå daglig handelsvolym på aktiemarknaden.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-332430 |
Date | January 2023 |
Creators | Hickman, Björn |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:544 |
Page generated in 0.002 seconds