Return to search

Machine learning and Neural networks in Fake news detection : A mapping study / Maskininlärning och neurala nätverk inom fake news-detektion : En kartläggning

Fake news, or information disorder, is a societal problem that could be partially remedied by automatic detection tools. While still a young research field many such tools have been proposed in academic writing. This systematic mapping study gives an overview of the current research in Natural Language Process-based fake news detection utilising Machine Learning and Neural Network classification algorithms in regards to which classification algorithms have been studied and which datasets have been used. Furthermore, we attempt to make a generalised description of the performance (measured in f-score and accuracy) of the most commonly occurring classification algorithms. From a corpus of 124 research articles and other scientific texts we identify 63 different datasets mainly written in English, and 116 different classification algorithms. The seven most commonly occurring algorithms (Random Forest, Logistic Regression, Support Vector Machine, Decision Tree, Long Short- TermMemory, K-Nearest Neighbors, Convolutional Neural Network) together make up almost 50% of all algorithm occurences in the article corpus. For these seven, the ten occurrences with the best performance are listed. Out of the datasets, the six most common datasets (ISOT, FakeNewsNet, Patwa 2021, LIAR, Bisaillon, and UTK-MLC) together make up 44% of all dataset occurrences. Apart from English, the represented languages were mainly Chinese (Mandarin), Portugese, Indonesian, Bangla, and Albanian. / Olika typer av desinformation (så kallade fake news), är ett problem för dagens samhälle. En av flera möjliga dellösningar på problemet utgörs av automatiserad fake news-detektion. Trots att detta forskningsfält är relativt nytt finns det en uppsjö av olika föreslagna modeller för automatiserad fake news-detektion. Denna systematiska kartläggning syftar till att ge en överblick över den aktuella forskningen inom Natural Language Processing-baserad automatiserad fake news-detektion med klassifikationsalgoritmer både inom maskininlärning och neurala nätverk. Översikten avser vilka klassifikationsalgoritmer samt vilka dataset som förekommer inom forskningen. Vidare försöker vi göra en generell beskrivning av prestandan hos de vanligast förekommande klassifikationsalgoritmerna, mätt i accuracy och f-score. Kartläggningen omfattar en samling på 124 artiklar och andra vetenskapliga texter, ur vilka vi identifierade 63 förekommance dataset och 116 olika förekommande klassifikationsalgoritmer. De sju vanligast förekommande algoritmerna (Random Forest, Logistic Regression, Support Vector Machine, Decision Tree, Long-Short Memory Network, K-Nearest Neighbors, Convolutional Neural Network) utgör tillsammans 49% av alla förekomster inom artikelsamlingen. Vi har tagit ut santliga förekomster av prestandaresultat för dessa sju algoritmer, och listat de tio bästa prestandaresultaten för var och en av de sju algoritmerna. De sex vanligast förekommande dataseten (ISOT, FakeNewsNet, Patwa 2021, LIAR, Bisaillon, and UTK-MLC) utgör tillsammans 44% av alla förekomster. Engelska var med stor marginal det vanligast förekommande språket inom dataseten, andra språk som förekom var kinesiska (mandarin), portugisiska, indonesiska, bangla, och albanska.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-318413
Date January 2022
CreatorsKudryk, Theodor, Lindh, Astrid
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:205

Page generated in 0.0022 seconds