Return to search

Feature Selection for Sentiment Analysis of Swedish News Article Titles / Val av datarepresentation för sentimentsanalys av svenska nyhetsrubriker

The aim of this study was to elaborate the possibilities of sentiment analyzing Swedish news article titles using machine learning approaches and find how the text is best represented in such conditions. Sentiment analysis has traditionally been conducted by part-of-speech tagging and counting word polarities, which performs well for large domains and in absence of large sets of training data. For narrower domains and previously labeled data, supervised learning can be used. The work of this thesis tested the performance of a convolutional neural network and a Support Vector Machine on different sets of data. The data sets were constructed to represent various language features. This included for example a simple unigram bag-of-words model storing word counts, a bigram bag-of-words model to include the ordering of words and an integer vector summary of the title. The study concluded that each of the tested feature sets gave information about the sentiment to various extents. The neural network approach with all feature sets combined performed better than the two annotators of the study. Despite the limited data set, overfitting did not seem to be a problem when using the features together. / Målet med detta arbete var att undersöka möjligheten till sentimentanalys av svenska nyhetsrubriker med hjälp av maskininlärning och förstå hur dessa rubriker bäst representeras. Sentimentanalys har traditionellt använt ordklassmärkning och räknande av ordpolariteter, som fungerar bra för stora domäner där avsaknaden av större uppmärkt träningsdata är stor. För mindre domäner och tidigare uppmärkt data kan övervakat lärande användas. Inom ramen för detta arbete undersöktes ett artificiellt neuronnät med faltning och en stödvektormaskin på olika datamängder. Datamängderna formades för att representera olika språkegenskaper. Detta inkluderade bland annat en enkel ordräkningsmodell, en bigramräkningsmodell och en heltalssummering av generella egenskaper för rubriken. I studien dras slutsatsen att varje datamängd innebar att ny information kunde tillföras i olika stor utsträckning. Det artificiella neuronnätet med alla datamängder tillsammans presterade bättre än de två personer som märkte upp data till denna studie. Trots en begränsad datamängd inträffade verkade inte modellerna övertränas.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233534
Date January 2018
CreatorsDahl, Jonas
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:526

Page generated in 0.0028 seconds