För människor uppstår det ofta problem vid behandling och organisering av stora mängder information. Detta ledde i slutet på 90-talet till att automatiserad textkategorisering började utvecklas. Sedan dess har tillväxten av sociala medier och sociala nätverk på internet ökat explosionsartat. Det senaste årtiondet har en betydande mängd forskning gjorts inom automatiserad textkategorisering. Syftet med denna studie var att undersöka vad som kan påverka hur general-purpose-verktyg för attitydanalys bedömer kommentarer från ett internet- forum. 240 kommentarer samlades in från sex olika forumtrådar på internetforumet Reddit. Attitydanalys utfördes på dessa kommentarer med hjälp av fyra general-purpose-verktyg, och verktygens bedömningar jämfördes sedan med en människas bedömning av samma kommentarer. Genom studien framkom ett antal faktorer som kan ha påverkat hur verktygen bedömde kommentarerna. En faktor var längden på en kommentar: verktygen TextBlob och MeaningCloud hade högre överensstämmelse med människan för korta kommentarer, medan Free Sentiment Analyzer och MonkeyLearn hade högre överensstämmelse för långa kommentarer. Vad en kommentar kategoriserats som var också en faktor: verktygen hade högre överensstämmelse med människan gällande kommentarer som inte tillhörde kategorier jämfört med kommentarer som tillhörde minst en kategori. / When processing and organizing large amounts of information, people tend to encounter problems. This led to the development of automated text categorization in the late 1990s. Since then, the growth of social media and social networks on the Internet has increased exponentially. Over the last decade a substantial amount of research has been conducted on the subject of automated text categorization. The purpose of this study was to investigate what factors may affect how general-purpose tools for sentiment analysis assess attitudes expressed on Internet forums. 240 comments were collected from six different forum threads on the Internet forum Reddit. Sentiment analysis was performed on these comments using four general-purpose tools, and the tools' assessments were then compared with a human’s assessments of the same comments. A number of factors were identified that may have affected how the tools assessed the comments. One factor was the comment length: TextBlob and MeaningClouds assessments were more congruent with the human’s assessments regarding short comments, while Free Sentiment Analyzer and MonkeyLearns assessments were more congruent regarding long comments. Another factor was the categories associated with a comment: all tools had higher congruence with the human’s assessments regarding comments that were not assigned to a category compared to comments that fit the criteria for at least one category.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-467010 |
Date | January 2022 |
Creators | Forssner, Mårten, Aldenbäck, Frida |
Publisher | Uppsala universitet, Institutionen för informatik och media |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0023 seconds