The Portable Document Format (PDF) is an ideal format for viewing and printing documents. Today many companies store their documents in a PDF format. However, the conversion from a PDF document to any other structured format is inherently difficult. As a result, a lot of the information contained in a PDF document is not directly accessible - this is problematic. Manual intervention is required to accurately convert a PDF into another file format - this can be deemed as both strenuous and exhaustive work. An automated solution to this process could greatly improve the accessibility to information in many companies. A significant amount of literature has investigated the process of extracting information from PDF documents in a structured way. In recent years these methodologies have become heavily dependent on computer vision. The work on this paper evaluates how the U-Net model handles multi-label segmentation on PDF documents in a medical context - extending on Stahl et al.’s work in 2018. Furthermore, it compares two newer extensions of the U-Net model, MultiResUNet (2019) and SS-U-Net (2021). Additionally, it assesses how each of the models performs in a data-sparse environment. The three models were implemented, trained, and then evaluated. Their performance was measured using the Dice coefficient, Jaccard coefficient, and percentage similarity. Furthermore, visual inspection was also used to analyze how the models performed from a perceptual standpoint. The results indicate that both the U-Net and the SS-U-Net are exceptional at segmenting PDF documents effectively in a data abundant environment. However, the SS-U-Net outperformed both the U-Net and the MultiResUNet in the data-sparse environment. Furthermore, the MultiResUNet significantly underperformed in comparison to both the U-Net and SS-U-Net models in both environments. The impressive results achieved by the U-Net and SS-U-Net models suggest that it can be combined with a larger system. This proposed system allows for accurate and structured extraction of information from PDF documents. / Portable Document Format (PDF) är ett välfungerande format för visning och utskrift av dokument. I dagsläget väljer många företag därmed att lagra sina dokument i PDF-format. Konvertering från PDF format till någon annan typ av strukturerat format är dock svårt, och detta resulterar i att mycket av informationen i PDF-dokumenten är svårtillgängligt, vilket är problematiskt för de företag som arbetar med detta filformat. Det krävs manuellt arbete för att konvertera en PDF till ett annat filformat - detta kan betraktas som både ansträngande och uttömmande arbete. En automatiserad lösning på denna process skulle kunna förbättra tillgängligheten av information för många företag. En stor mängd litteratur har undersökt processen att extrahera information från PDF-dokument på ett strukturerat sätt. På senare tid har dessa metoder blivit starkt beroende av datorseende. Den här forskningen utvärderar hur U-Net-modellen hanterar segmentering av PDF dokument, baserat på flerfaldiga etiketter, i ett medicinskt sammanhang. Arbetet är en utökning av Stahl et al. forskning från 2018. Dessutom jämförs två nyare utökade varianter av U-Net-modellen , MultiResUNet (2019) och SS-U-Net (2021). Utöver detta så utvärderas även varje modell utefter hur den presterar i en gles datamiljö. De tre modellerna implementerades, utbildades och utvärderades. Deras prestanda mättes med hjälp av Dice-koefficienten, Jaccard-koefficienten och procentuell likhet. Vidare så görs även en visuell inspektion för att analysera hur modellerna presterar utifrån en perceptuell synvinkel. Resultaten tyder på att både U-Net och SS-U-Net är exceptionella när det gäller att segmentera PDF-dokument i en riklig datamiljö. SS-U-Net överträffade emellertid både U-Net och MultiResUNet i den glesa datamiljön. Dessutom underpresterade MultiResUNet signifikant i jämförelse med både U-Net och SS-U-Net modellen i båda miljöerna. De imponerande resultaten som uppnåtts av modellerna U-Net och SS-U-Net tyder på att de kan kombineras med ett större system. Detta föreslagna systemet möjliggör korrekt och strukturerad extrahering av information från PDF-dokument.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-306046 |
Date | January 2021 |
Creators | Sebek, Fredrik |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:806 |
Page generated in 0.0024 seconds