Retrieving specific information from newspapers can be a difficult task due to differences in their design, layout, imagery, and typography. Using newspapers from different publishers that are archived at the National Library of Sweden, this thesis aims to train a deep learning model that is able to detect and classify advertisements. Experiments are performed to see how well the models generalize to different publishers, and to a time period that is nearby, but outside the time period in which the models were trained. Results from experiments show that using a CNN, advertisements can be detected and classified to a high degree. Models were found to perform particularly well on data from the same publisher and time period as it was trained. Performance losses were generally observed when models were tested on other publishers or in another time domain than the training data. Further drops in performance were seen when models were tested on a combination of both a different publisher and a different time period. / Att återhämta specifik information från digitalt lagrade nyhetstidningar kan vara en svår utmaning. Detta beror delvis på nyhetstidningars varierande design, men även dess användande av bild- och skriftspråk. I detta arbete används nyhetstidningar från olika utgivare som är arkiverat på Kungliga Biblioteket för att träna maskininlärnings modeller med målet att kunna detektera annonser i nyhetstidningar. Experiment utförs även för att undersöka hur väl de tränade modellerna generaliserar till andra utgivare, samt hur de generaliserar till en annan tidsperiod än tidsperioden som modellen var tränad på. Resultaten från experimenten visar att ett CNN kan detektera och klassificera annonser till en hög grad. Modeller hade högst prestation på nyhetstidningar inom samma tidsperiod och från samma utgivare som den tränats på. Generaliserings test visade lägre prestation när modeller testades på andra tidsperioder och utgivare, i synnerhet när de testades på en kombination av både en annan utgivare i en annan tidsperiod.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321806 |
Date | January 2022 |
Creators | Jonsson, Patrick |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:797 |
Page generated in 0.0033 seconds