Return to search

Detection and categorization of suggestive thumbnails : A step towards a safer internet / Upptäckt och kategorisering av suggestiva miniatyrer : Ett steg mot ett säkrare internet

The aim of this work is to compare methods that predict whether an image has suggestive content, such as pornographic images and erotic fashion. Using binary classification, this work contributes to an internet environment where these images are not seen out of context. It is, therefore, necessary for user experience improvement purposes, such as child protection, publishers not having their campaign associated with inappropriate content, and companies improving their brand safety. For this study, a data set with more than 500k images was created to test the Convolutional Neural Networks (CNN) models: NSFW model, ResNet, EfficientNet, BiT, NudeNet and Yahoo Model. The image classification model EfficientNet-B7 and Big Transfer (BiT) presented the best results with over 91% samples correctly classified on the test set, with precision and recall around 0.7. Model prediction was further investigated using Local Interpretable Model-agnostic Explanation (LIME), a model explainability technique, and concluded that the model uses coherent regions of the thumbnail according to a human perspective such as legs, abdominal, and chest to classify images as unsafe. / Syftet med detta arbete är att jämföra metoder som förutsäger om en bild har suggestivt innehåll, såsom pornografiska bilder och erotiskt mode. Med binär klassificering bidrar detta arbete till en internetmiljö där dessa bilder inte ses ur sitt sammanhang. Det är därför nödvändigt för att förbättra användarupplevelsen, till exempel barnskydd, utgivare som inte har sina kampanjer kopplade till olämpligt innehåll och företag som förbättrar deras varumärkessäkerhet. För denna studie skapades en datamängd med mer än 500 000 bilder för att testa Convolutional Neural Networks (CNN) modeller: NSFW-modell, ResNet, EfficientNet, BiT, NudeNet och Yahoo-modell. Bild klassificerings modellen EfficientNet-B7 och Big Transfer (BiT) presenterade de bästa resultaten med över 91%prover korrekt klassificerade på testuppsättningen, med precision och återkallelse runt 0,7. Modell förutsägelse undersöktes ytterligare med hjälp av Local Interpretable Model-agnostic Explanation (LIME), en modell förklarbarhetsteknik, och drog slutsatsen att modellen använder sammanhängande regioner i miniatyren enligt ett mänskligt perspektiv såsom ben, buk och bröst för att klassificera bilder som osäkra.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-302148
Date January 2021
CreatorsOliveira Franca, Matheus
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:434

Page generated in 0.0022 seconds