Return to search

Mitigating Unintended Bias in Toxic Comment Detection using Entropy-based Attention Regularization / Att mildra oavsiktlig bias i detektering av giftiga kommentarer med hjälp av entropibaserad uppmärksamhetsreglering.

The proliferation of hate speech is a growing challenge for social media platforms, as toxic online comments can have dangerous consequences also in real life. There is a need for tools that can automatically and reliably detect hateful comments, and deep learning models have proven effective in solving this issue. However, these models have been shown to have unintended bias against some categories of people. Specifically, they may classify comments that reference certain frequently attacked identities (such as gay, black, or Muslim) as toxic even if the comments themselves are actually not toxic (e.g. ”I am Muslim”). To address this bias, previous authors introduced an Entropy-based Attention Regularization (EAR) method which, when applied to BERT, has been shown to reduce its unintended bias. In this study, the EAR method was applied not only to BERT, but also to XLNet. The investigation involved the comparison of four models: BERT, BERT+EAR, XLNet, and XLNet+EAR. Several experiments were performed, and the associated code is available on GitHub. The classification performance of these models was measured using the F1-score on a public data set containing comments collected from Wikipedia forums. While their unintended bias was evaluated by employing AUC-based metrics on a synthetic data set consisting of 50 identities grouped into four macro categories: Gender & Sexual orientation, Ethnicity, Religion, and Age & Physical disability. The results of the AUC-based metrics proved that EAR performs well on both BERT and XLNet, successfully reducing their unintended bias towards the 50 identity terms considered in the experiments. Conversely, the F1-score results demonstrated a negative impact of EAR on the classification performance of both BERT and XLNet. / Spridningen av hatpropaganda är en växande utmaning för sociala medieplattformar, eftersom giftiga kommentarer på nätet kan få farliga konsekvenser även i verkliga livet. Det behövs verktyg som automatiskt och tillförlitligt kan upptäcka hatiska kommentarer, och djupinlärningsmodeller har visat sig vara effektiva för att lösa detta problem. Dessa modeller har dock visat sig ha oavsiktliga fördomar mot vissa kategorier av människor. I synnerhet kan de klassificera kommentarer som hänvisar till vissa ofta attackerade identiteter (som homosexuella, svarta eller muslimer) som giftiga även om kommentarerna i sig faktiskt inte är giftiga (t.ex. ”Jag är muslim”). För att hantera denna bias introducerade tidigare författare en entropibaserad uppmärksamhetsregleringsmetod (EAR) som, när den tillämpas på BERT, har visat sig minska dess oavsiktliga bias. I den här studien tillämpades EAR-metoden inte bara på BERT utan även på XLNet. Undersökningen omfattade en jämförelse av fyra modeller: BERT, BERT+EAR, XLNet och XLNet+EAR. Flera experiment utfördes, och den tillhörande koden finns tillgänglig på GitHub. Klassificeringsprestandan för dessa modeller mättes med F1-poängen på en offentlig datauppsättning som innehåller kommentarer som samlats in från Wikipedia-forum. Medan deras oavsiktliga bias utvärderades genom att använda AUC-baserade mätvärden på en syntetisk datauppsättning bestående av 50 identiteter grupperade i fyra makrokategorier: Kön & Sexuell läggning, Etnicitet, Religion och Ålder & Fysisk funktionsnedsättning. Resultaten av de AUC-baserade mätvärdena visade att EAR fungerar bra på både BERT och XLNet, vilket framgångsrikt minskar deras oavsiktliga bias mot de 50 identitetstermer som beaktas i experimenten. Omvänt visade F1-score-resultaten en negativ inverkan av EAR på klassificeringsprestandan för både BERT och XLNet.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-338105
Date January 2023
CreatorsCamerota, Fabio
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:709

Page generated in 0.0029 seconds