I detta arbete presenteras hatfulla kommentarer på internet som ett sam- hällsproblem som vi bör göra något åt. Webbplatsen Exponerat.net presenteras som en källa till hatfulla kommentarer. Med hjälp av ett förenklande antagande om att de kommentarer som finns på Exponerat kan utgöra en god representation för hatfulla kommentarer på internet konstruerar vi en klassificerare. Klassificeraren utvärderas i två steg; det ena med hjälp av tiofaldig korsvalidering och det andra manuellt. Klassificeraren uppvisar acceptabla precision/recall-värden i det första utvärderingssteget men faller kort i det manuella. Arbetet avslutas med en diskussion om rimligheten i det förenklande antagandet att använda en enda källa. / Hate speech on the internet is a serious issue. This study asks the question: "Is it possible to use machine learning to do something about it?". By using crawled comments from the blog Exponerat.net as a representation of “hate” and comments from the blog Feber.se as “not-hate” we try to construct a classifier. Evaluation in done in two steps; one using 10-fold cross validation and one using manual evaluation methods. The classifier produces an acceptable result in the first step but falls short in the second. The study ends with discussions about if it is even possible to train a classifier using only one source of data.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-296181 |
Date | January 2016 |
Creators | Johansson, Kim |
Publisher | Uppsala universitet, Institutionen för lingvistik och filologi |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0018 seconds