Global ETD Search

Return to search

Mitigating Unintended Bias in Toxic Comment Detection using Entropy-based Attention Regularization / Att mildra oavsiktlig bias i detektering av giftiga kommentarer med hjälp av entropibaserad uppmärksamhetsreglering.

The proliferation of hate speech is a growing challenge for social media platforms, as toxic online comments can have dangerous consequences also in real life. There is a need for tools that can automatically and reliably detect hateful comments, and deep learning models have proven effective in solving this issue. However, these models have been shown to have unintended bias against some categories of people. Specifically, they may classify comments that reference certain frequently attacked identities (such as gay, black, or Muslim) as toxic even if the comments themselves are actually not toxic (e.g. ”I am Muslim”). To address this bias, previous authors introduced an Entropy-based Attention Regularization (EAR) method which, when applied to BERT, has been shown to reduce its unintended bias. In this study, the EAR method was applied not only to BERT, but also to XLNet. The investigation involved the comparison of four models: BERT, BERT+EAR, XLNet, and XLNet+EAR. Several experiments were performed, and the associated code is available on GitHub. The classification performance of these models was measured using the F1-score on a public data set containing comments collected from Wikipedia forums. While their unintended bias was evaluated by employing AUC-based metrics on a synthetic data set consisting of 50 identities grouped into four macro categories: Gender & Sexual orientation, Ethnicity, Religion, and Age & Physical disability. The results of the AUC-based metrics proved that EAR performs well on both BERT and XLNet, successfully reducing their unintended bias towards the 50 identity terms considered in the experiments. Conversely, the F1-score results demonstrated a negative impact of EAR on the classification performance of both BERT and XLNet. / Spridningen av hatpropaganda är en växande utmaning för sociala medieplattformar, eftersom giftiga kommentarer på nätet kan få farliga konsekvenser även i verkliga livet. Det behövs verktyg som automatiskt och tillförlitligt kan upptäcka hatiska kommentarer, och djupinlärningsmodeller har visat sig vara effektiva för att lösa detta problem. Dessa modeller har dock visat sig ha oavsiktliga fördomar mot vissa kategorier av människor. I synnerhet kan de klassificera kommentarer som hänvisar till vissa ofta attackerade identiteter (som homosexuella, svarta eller muslimer) som giftiga även om kommentarerna i sig faktiskt inte är giftiga (t.ex. ”Jag är muslim”). För att hantera denna bias introducerade tidigare författare en entropibaserad uppmärksamhetsregleringsmetod (EAR) som, när den tillämpas på BERT, har visat sig minska dess oavsiktliga bias. I den här studien tillämpades EAR-metoden inte bara på BERT utan även på XLNet. Undersökningen omfattade en jämförelse av fyra modeller: BERT, BERT+EAR, XLNet och XLNet+EAR. Flera experiment utfördes, och den tillhörande koden finns tillgänglig på GitHub. Klassificeringsprestandan för dessa modeller mättes med F1-poängen på en offentlig datauppsättning som innehåller kommentarer som samlats in från Wikipedia-forum. Medan deras oavsiktliga bias utvärderades genom att använda AUC-baserade mätvärden på en syntetisk datauppsättning bestående av 50 identiteter grupperade i fyra makrokategorier: Kön & Sexuell läggning, Etnicitet, Religion och Ålder & Fysisk funktionsnedsättning. Resultaten av de AUC-baserade mätvärdena visade att EAR fungerar bra på både BERT och XLNet, vilket framgångsrikt minskar deras oavsiktliga bias mot de 50 identitetstermer som beaktas i experimenten. Omvänt visade F1-score-resultaten en negativ inverkan av EAR på klassificeringsprestandan för både BERT och XLNet.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-338105

XLNet

BERT

Toxic Comment Classification

Entropy-based Attention Regularization

XLNet

BERT

Toxisk Kommentar Klassificering

Entropibaserad uppmärksamhetsreglering

Computer Sciences

Datavetenskap (datalogi)

Computer Engineering

Datorteknik

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-338105
Date	January 2023
Creators	Camerota, Fabio
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2023:709

Page generated in 0.0021 seconds

Mitigating Unintended Bias in Toxic Comment Detection using Entropy-based Attention Regularization / Att mildra oavsiktlig bias i detektering av giftiga kommentarer med hjälp av entropibaserad uppmärksamhetsreglering.

Description

Links & Downloads

Tags

Additional Fields