Return to search

Extracting information about arms deals from news articles / Extrahering av information om vapenaffärer från nyhetsartiklar

The Stockholm International Peace Research Institute (SIPRI) maintains the most comprehensive publicly available database on international arms deals. Updating this database requires humans to sift through large amounts of news articles, only some of which contain information relevant to the database. To save time, it would be useful to automate a part of this process. In this thesis project we apply ALBERT, a state of the art Pre-trained Language Model for Natural Language Processing (NLP), to the task of determining if a text contains information about arms transfers and extracting that information. In order to train and evaluate the model we also introduce a new dataset of 600 news articles, where information about arms deals is annotated with lables such as Weapon, Buyer, Seller, etc. We achieve an F1-score of 0.81 on the task of determining if an arms deal is present in a text, and an F1-score of 0.77 on determining if a given part of a text has a specific arms deal-related attribute. This is probably not enough to entirely automate SIPRI’s process, but it demonstrates that the approach is feasible. While this paper focuses specifically on arms deals, the methods used can be generalized to extracting other kinds of information. / Stockholm International Peace Research Institute (SIPRI) tillhandahåller den största allmänt tillgängliga databasen med internationella vapenaffärer. För att hålla databasen uppdaterad måste människor sålla igenom stora mängder nyhetsartiklar, varav endast några innehåller information som är relevant för databasen. För att spara tid vore det bra att kunna automatisera en del av den processen. I det här examensarbetet använder vi ALBERT, en maskininlärningsmodell för behandling av naturliga språk (NLP), för att avgöra om en text innehåller information om vapenaffärer och för att extrahera den informationen. För att träna modellen skapar vi också ett dataset med 600 nyhetsartiklar, där information om vapenaffärer finns annoterad med attribut som Vapen, Köpare, Säljare, etc. Vi fick en F1-score på 0.81 på problemet att avgöra om en vapenaffär finns i en text, och en F1-score på 0.77 på problemet att avgöra om en given del av en text har ett specifikt vapenaffärsrelaterat attribut. Resultaten är förmodligen inte bra nog för att helt kunna automatisera SIPRIs process, men de demonstrerar att metoden är lovande. Det här examensarbetet fokuserar specifikt på vapenaffärer, men metoderna kan förmodligen generaliseras för att extrahera andra sorters information.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-310557
Date January 2022
CreatorsHernqvist, Fredrik
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:61

Page generated in 0.0028 seconds