Many companies are handling a large number of invoices every year. To manually categorize them takes a lot of time and resources. For a model to automatically categorize invoices, the documents need to be properly read and processed by the model. While traditional Natural Language Processing may be suitable for processing structured documents, unstructured documents such as invoices often need the layout to be considered in ordered for the document to be read correctly. Techniques that take the visual information in account when processing a document is referred to as 2D NLP. One of such models that is state-of-the-art today is LayoutLMv3. This project provides a comparison of invoice-information extraction using LayoutLMv3 and plain Optical Character Recognition (OCR) for the purpose of invoice classification. LayoutLMv3 were fine-tuned for key-field extraction on 180 annotated invoices. The extracted key-fields were then used to form 3 different configurations of structured text-strings for each document. The structured texts were used for training a classification model into three categories, A: physical product, B: service and C: unknown. The results were compared with a baseline classification model trained on unstructured text obtained through OCR. The results show that all of the models achieved equal performance on the classification task. However, several inconsistencies regarding the annotations of the dataset were found. The project concluded that the raw OCR text proved to be useful for classification despite being unstructured, and that similar classification results could be obtained through considering only a few key-information fields. Obtaining a structured input through LayoutLMv3 proved to be especially useful for controlling the input to the classification model, such as omitting undesirable information. However, the drawbacks might be that some important information in some cases are excluded. / Många företag hanterar en stor mängd fakturor varje år. Att manuellt klassificera dessa in i olika kategorier tar mycket tid och resurser. För en modell som automatiskt ska klassificera fakturor krävs att informationen i dokumenten blir korrekt representerad och hanterad av modellen. Medan naturligtspråkbehandling (NLP) är en lämplig metod för att hantera strukturerade dokument, behöver ostrukturerade dokument ofta hanteras med en metod som även bevarar den visuella informationen på sidan för att dokumentet ska läsas korrekt. Tekniker som gör detta kallas för 2-dimensionell naturligtspråkbehandling. En modell som använder sig av en sådan teknik är LayoutLMv3, som innehar dagens högsta nivå av resultat. Det här projektet utför en jämförelse av metoder för extrahering av information från fakturor med avsikt att användas för klassificering. Extrahering av nyckelinformation med hjälp av LayoutLMv3 jämförs med användning av optisk teckenigenkänning (OCR). LayoutLMv3 finjusterades för nyckelfältsextraktion av 12 informationsfält. Därefter formaterades den extraherade nyckelinformationen från hela datasetet till tre olika strukturerade text-inmatningar. De strukturerade texterna användes sedan för att träna en klassificeringsmodell på tre kategorier, A: fysisk produkt, B: tjänst, och C: okänt. Resultaten jämfördes med en basmodell tränad på den ostrukturerade texten från OCR. Resultaten visar att alla modellerna presterar lika bra. Emellertid påträffades några olyckliga inkonsekvenser i den utförda annoteringen av fakturorna. Projektets slutsats är att den råa OCR texten visar sig vara användbar för klassificeringen trots att det är en ostrukturerad representation av dokumenten, men att liknande resultat kan fås vid användning av bara ett fåtal nyckelfält. Användning av den strukturerade texten från LayoutLMv3 visade sig vara särskilt behändig för att kontrollera inmatningen till klassificeringsmodellen, såsom att exkludera viss information. Däremot kan det vara en nackdel att viss information i somliga fall blir förbisedd.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-332438 |
Date | January 2023 |
Creators | Fredriksson, Linnéa |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:550 |
Page generated in 0.0025 seconds