This study is concerned with using the popular Recurrent Neural Network (RNN) model, and its variants Gated Recurrent Unit (GRU) and Long-Short Term Memory (LSTM), on the novel problem of Sentiment Forecasting (SF). The goal of SF is to predict what the sentiment of a response will be in a conversation, using only the previous utterance. In more every day terms, we want to be able to predict the sentiment of person B’s response to something person A said, before B has said anything and using only A’s utterance. The RNN models were trained on a Swedish email database containing email conversations, where the task was to predict the average sentiment of the response emails to an initial mass-sent business email. The emails didn’t come with sentiment labels, so the Valence Aware Dictionary and sEntiment Reasoner (VADER) system was used to determine sentiments. Seventy-five training-and-testing experiments were run with varying RNN models and data conditions. The accuracy, precision, recall, and F1 scores were used to determine to what extent the models had been able to solve the problem. In particular, the F1 score of the models were compared to the F1 score of a dummy classifier that only answered with positive sentiment, with the success case being that a model was able to reach a higher F1 score than the dummy. The results led to the findings that the varying RNN models performed worse or comparably to the dummy classifier, with only 5 out of 75 experiments resulting in the RNN model reaching a higher F1 score than the positive classifier, and with the average performance of the rare succeeding models only going 2.6 percentage points over the positive only classifier, which isn’t considered worthwhile in relation to the time and resource investment involved in training RNNs. In the end, the results led to the conclusion that the RNN may not be able to solve the problem on its own, and a different approach might be needed. This conclusion is somewhat limited by the fact that more work could have been done on experimenting with the data and pre-processing techniques. The same experiments on a different dataset may show different results. Some of the observations showed that the RNN, particularly the Deep GRU, might be used as the basis for a more complex model. Complex models built on top of RNNs have been shown to be useful on similar research problems within Sentiment Analysis, so this may prove a valuable avenue of research. / Denna studie handlade om att använda den populära Recurrent Neural Network (RNN) modellen, och dess varianter Gated Recurrent Unit (GRU) och Long- Short Term Memory (LSTM), på det hittils understuderade problemet Sentiment Forecasting (SF). Målet med SF är att förutsäga vad sentimentet av ett svar kommer att vara i en konversation, med endast det tidigare uttalandet. I mer vardagliga termer vill vi kunna förutsäga känslan av person B: s svar på något som person A sagt, innan B har sagt någonting och att vi endast använder A:s yttrande. RNN-modellerna tränades med en svensk e-postdatabas som innehöll epostkonversationer, där uppgiften var att förutsäga den genomsnittliga känslan av svarsmeddelandena till ett initialt utskickat massmeddelande. E-postmeddelandena kom inte med sentimentetiketter, så Valence Aware Dictionary and sEntiment Reasoner (VADER)-systemet användes för att utvinna etiketter. Sjuttio-fem experiment genomfördes med varierande RNN-modeller och dataförhållanden. Accuracy, precision, recall och F1-score användes för att avgöra i vilken utsträckning modellerna hade kunnat lösa problemet. F1- Score:n för modellerna jämfördes med F1-Score:n för en dummy-klassificerare som endast svarade med positivt sentiment, med framgångsfallet att en modell kunde nå en högre F1-poäng än dummy:n. Resultaten ledde till fynden att de olika RNN-modellerna presterade sämre eller jämförbart med dummyklassificeraren, med endast 5 av 75 experiment som resulterade i att RNN-modellen nådde en högre F1-score än den positiva klassificeraren, och den genomsnittliga prestandan för de sällsynta framgångsrika modellerna bara kom 2,6 procentenheter över den positiva klassificeraren, vilket inte anses lönsamt i förhållande till den tid och resursinvestering som är involverad i träning av RNNs. I slutändan ledde resultaten till slutsatsen att RNN och dess varianter inte riktigt kan lösa problemet på egen hand, och en annan metod kan behövas. Denna slutsats begränsas något av det faktum att mer arbete kunde ha gjorts med att experimentera med data och förbehandlingstekniker. En annan databas skulle möjligtvis leda till ett annat resultat. Några av observationerna visade att RNN, särskilt Deep GRU, kan användas som grund för en mer komplex modell. Komplexa modeller bygga ovanpå RNNs har visat goda resultat på liknande forskningsproblem, och kan vara en värdefull forskningsriktning.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-305764 |
Date | January 2021 |
Creators | Bavey, Adel |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:770 |
Page generated in 0.0024 seconds