1 |
Fake Mass-Produced Advertisements Detection on Global Online Adult Service Websites / Detektering av Falska Massproducerade Annonser på Globala Webbplatser som Erbjuder EskorttjänsterPokropek, Ernest January 2023 (has links)
A significant amount of sex trafficking victims are being advertised on online adult services, which are currently being flooded with spam. Investigators rely on online adult services to track cases of sex trafficking; however, the ever-increasing volume of spam poses a mounting challenge, making their task progressively more difficult. This thesis presents a machine learning-based approach for detecting fake mass-produced advertisements on global online adult service websites. The objective is to aid investigators in tracking sex trafficking by developing a robust spam classifier that minimizes false positives on genuine ads while effectively identifying mass-produced spam. This objective is of utmost importance as it allows for filtering out spam effectively while ensuring that genuine ads are not mistakenly labeled as spam, ensuring their inclusion in crucial investigations. The research involved cleaning advertisement text, generating text embeddings using sentence-BERT, clustering them with DBSCAN, and feature engineering for classification using a random forest classifier. A dataset of two million advertisements was utilized for training and evaluation. The study successfully achieved the crucial goal of minimizing false positives, ensuring that genuine ads are not misclassified as spam. By employing innovative techniques and carefully engineered features, the classifier demonstrates a high level of recall in distinguishing mass-produced spam from authentic ads. Furthermore, the investigation identified key markers of mass-produced spam, such as geographical spread and frequent use of profane language. This research fills a significant research gap, as no previous attempts had been made to classify spam on these websites. The findings not only contribute to the field of machine learning but also provide a comprehensive overview of fraudulent advertisement features, making sex trafficking investigations more efficient. Equipping investigators with a reliable tool to navigate the vast amount of data associated with global online adult service websites, this work plays a crucial role in combating sex trafficking and ensuring the integrity of the investigative process. / En betydande mängd offer för sexhandel annonseras ut på webbplatser som erbjuder eskorttjänster på nätet, som för närvarande översvämmas av skräppost. Poliser använder sig av webbplatser som erbjuder eskorttjänster för att spåra fall av sexhandel, men den ständigt ökande mängden skräppost utgör en allt större utmaning och gör deras uppgift allt svårare. Denna avhandling presenterar en maskininlärningsbaserad metod för att upptäcka falska massproducerade annonser på globala webbplatser som erbjuder eskorttjänster. Målet är att hjälpa poliser att spåra sexhandel genom att utveckla en robust spamklassificerare som minimerar risken att kategorisera äkta annonser som spam, samtidigt som den effektivt identifierar massproducerad spam. Detta mål är av yttersta vikt eftersom det möjliggör effektiv filtrering av skräppost samtidigt som det säkerställer att äkta annonser inte felaktigt märks som skräppost, vilket säkerställer att de inkluderas i viktiga utredningar. Arbetet omfattade tvättning av annonstexterna, generering av ordvektorer med hjälp av sentence-BERT, klustring av vektorerna med hjälp av DBSCAN och definition av särdrag för den klassificering som sedan utfördes med hjälp av en random forest-klassificerare. Ett dataset med två miljoner annonser användes för träning och utvärdering. Studien lyckades uppnå det viktiga målet att minimera falska positiva resultat, vilket säkerställer att äkta annonser inte felklassificeras som skräppost. Tack vare innovativa tekniker och noggrant utformade särdrag uppvisar klassificeraren hög täckning (recall) när det gäller att skilja massproducerad skräppost från autentiska annonser. Dessutom identifierade undersökningen viktiga kännetecken för massproducerad skräppost, såsom geografisk spridning och frekvent användning av grova ord. Denna forskning fyller en betydande forskningslucka, eftersom inga tidigare försök hade gjorts för att klassificera skräppost på dessa webbplatser. Resultaten bidrar inte bara till området maskininlärning utan ger också insikter om bedrägliga annonser, vilket gör utredningar av sexhandel mer effektiva. Genom att förse utredare med ett tillförlitligt verktyg för att navigera i den enorma mängd data som är kopplad till globala webbplatser som erbjuder eskorttjänster spelar detta arbete en avgörande roll i kampen mot sexhandel.
|
Page generated in 0.0378 seconds