1 |
How can a module for sentiment analysis be designed to classify tweets about covid19 / Hur kan man designa en modul inom sentimentanalys för att klassificera tweets om covid19Ly, Denny, Saad Abdul Malik, Tamara January 2021 (has links)
The sentiment analysis of a text is getting more focus nowadays from different entities for a variety of reasons. Emotions mining (sentiment analysis) is a very interesting subject to explore thus the research question is How can a module for sentiment analysis be designed to classify tweets about Covid-19. The dataset used for this project was taken from Kaggle and preprocessed with various methods such as Bag of Words and term frequency-inverse document frequency. The models are based on the following algorithms: KNN, SVM, DT, and NB. Some models are also based on the combination of ML and Lexicon. The outcome of the experiment showed that the lexicon method with an accuracy of 87% exceeded the machine learning methods implemented in this thesis and the experiments done by the ML community in Kaggle. This implies that the traditional lexicon approach is still considered a fit choice in the sentiment analysis field. / På senaste tiden har sentimentanalyser av text fått ett större fokus. Känsloutvinning (Emotions mining) är ett väldigt intressant ämne att utforska, Forskningsfrågan är då Hur kan man designa en modul inom sentimentanalys för att klassificera tweets om covid19. Datasetet som används är hämtat från Kaggle och sedan preprocesserat med hjälp av olika metoder såsom Bag of Words och term frequency-inverse document frequency. Modellerna är baserad på följande algoritmer: KNN, SVM, DT, och NB. Vissa modeller är baserad på en kombination of ML och Lexicon. Slutresultatet av experimentet visade sig vara att lexikon metoden med en prestanda av 87% översteg maskin inlärningsmetoderna som utfördes i denna uppsatsen och övriga experiment från ML gemensamhet i kaggle. Detta antyder att lexikon metoden är fortfarande ett bra val inom sentimentanalys området.
|
Page generated in 0.0617 seconds