This thesis presents a multivariate Hawkes process approach to model flows of news data. The data is divided into classes based on the news' content and sentiment levels, such that each class contains a homogeneous type of observations. The arrival times of news in each class are related to a unique element in the multivariate Hawkes process. Given this framework, the massive and complex flow of information is given a more compact representation that describes the excitation connections between news classes, which in turn can be used to better predict the future flow of news data. Such a model has potential applications in areas such as finance and security. This thesis focuses especially on the different bucket sizes used in the discretization of the time scale as well as the differences in results that these imply. The study uses aggregated news data provided by RavenPack and software implementations are written in Python using the TensorFlow package. For the cases with larger bucket sizes and datasets containing a larger number of observations, the results suggest that the Hawkes models give a better fit to training data than the Poisson model alternatives. The Poisson models tend to give better performance when models trained on historic data are tested on subsequent data flows. Moreover, the connections between news classes are given to vary significantly depending on the underlying datasets. The results indicate that lack of observations in certain news classes lead to over-fitting in the training of the Hawkes models and that the model ought to be extended to take into account the deterministic and periodic behaviors of the news data flows. / Detta examensarbete presenterar en multivariat hawkesprocess som modell för flöden av nyhetsdata. Den givna datan delas upp i klasser baserat på nyheternas ämnen och sentimentnivåer. På sådant sätt ges att varje klass innehåller en mer homogen typ av datapunkter. Ankomsttiden för nyheterna inom varje klass relateras till ett unikt element i den multivariata hawkesprocessen. Givet denna modell ges det massiva och komplexa informationsflödet en mer kompakt representation som beskriver kopplingarna mellan nyhetsgrupperna och som kan användas för att bättre predicera det framtida flödet av nyheter, vilket är av intresse inom områden som säkerhet och finans. Arbetet fokuserar framförallt på de olika storleksordningar som används vid diskretisering av tidsskalan, samt de skillnader i resultat som dessa implicerar. Studien använder aggregerad nyhetsdata från RavenPack och implementationen skrevs i Python med hjälp av TensorFlow. För testerna med större tidsskalor och dataset som innehåller större mängd observationer ger resultaten att hawkesmodellerna anpassas bättre till träningsdata än de enklare poissonmodellerna. Dock tenderar poissonmodellerna ge bättre prestanda när modellerna som tränats på historiska data sedan testas på efterföljande nyhetsdataflöden. Dessutom fås att kopplingarna mellan nyhetsklasserna varierar avsevärt beroende på underliggande dataset. Resultaten tyder på att bristen på observationer i vissa nyhetsgrupper leder till överpassning i träningen av hawkesmodellerna och att modellen bör utvidgas för att bättre ta hänsyn till de fenomen i nyhetsdataflödet som är deterministiska och periodiska.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-229061 |
Date | January 2018 |
Creators | Alpsten, Erik |
Publisher | KTH, Matematisk statistik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2018:2212 |
Page generated in 0.0022 seconds