Return to search

A Deep Learning Approach to Advertisement Detection in Newspapers / Detektion av annonser i Nyhetstidningar med hjälp av djupinlärning

Retrieving specific information from newspapers can be a difficult task due to differences in their design, layout, imagery, and typography. Using newspapers from different publishers that are archived at the National Library of Sweden, this thesis aims to train a deep learning model that is able to detect and classify advertisements. Experiments are performed to see how well the models generalize to different publishers, and to a time period that is nearby, but outside the time period in which the models were trained. Results from experiments show that using a CNN, advertisements can be detected and classified to a high degree. Models were found to perform particularly well on data from the same publisher and time period as it was trained. Performance losses were generally observed when models were tested on other publishers or in another time domain than the training data. Further drops in performance were seen when models were tested on a combination of both a different publisher and a different time period. / Att återhämta specifik information från digitalt lagrade nyhetstidningar kan vara en svår utmaning. Detta beror delvis på nyhetstidningars varierande design, men även dess användande av bild- och skriftspråk. I detta arbete används nyhetstidningar från olika utgivare som är arkiverat på Kungliga Biblioteket för att träna maskininlärnings modeller med målet att kunna detektera annonser i nyhetstidningar. Experiment utförs även för att undersöka hur väl de tränade modellerna generaliserar till andra utgivare, samt hur de generaliserar till en annan tidsperiod än tidsperioden som modellen var tränad på. Resultaten från experimenten visar att ett CNN kan detektera och klassificera annonser till en hög grad. Modeller hade högst prestation på nyhetstidningar inom samma tidsperiod och från samma utgivare som den tränats på. Generaliserings test visade lägre prestation när modeller testades på andra tidsperioder och utgivare, i synnerhet när de testades på en kombination av både en annan utgivare i en annan tidsperiod.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321806
Date January 2022
CreatorsJonsson, Patrick
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:797

Page generated in 0.0123 seconds