Return to search

Post-processing of optical character recognition for Swedish addresses / Efterbehandling av optisk teckenigenkänning för svenska adresser

​​Optical character recognition (Optical Character Recognition (OCR)) has many applications, such as digitizing historical documents, automating processes, and helping visually impaired people read. However, extracting text from images into a digital format is not an easy problem to solve, and the outputs from the OCR frameworks often include errors. The complexity comes from the many variations in (digital) fonts, handwriting, lighting, etc. To tackle this problem, this thesis investigates two different methods for correcting the errors in OCR output. The used dataset consists of Swedish addresses. The methods are therefore applied to postal automation to investigate the usage of these methods for further automating postal work by automatically reading addresses on parcels using OCR. The main method, the lexical implementation, uses a dataset of Swedish addresses so that any valid address should be in this dataset (hence there is a known and limited vocabulary), and misspelled addresses are corrected to the address in the lexicon with the smallest Levenshtein distance. The second approach is to use the same dataset, but with artificial errors, or artificial noise, added. The addresses with this artificial noise are then used together with their correct spelling to train a machine learning model based on Neural machine translation (Neural Machine Translation (NMT)) to automatically correct errors in OCR read addresses. The results from this study could contribute by defining in what direction future work connected to OCR and postal addresses should go. The results were that the lexical implementation outperformed the NMT model. However, more experiments including real data would be required to draw definitive conclusions as to how the methods would work in real-life applications. / Optisk teckenigenkänning (Optical Character Recognition (OCR)) har många användningsområden, till exempel att digitalisera historiska dokument, automatisera processer och hjälpa synskadade att läsa. Att extrahera text från bilder till ett digitalt format är dock inte ett lätt problem att lösa, och utdata från OCR-ramverken innehåller ofta fel. Komplexiteten kommer från de många variationerna i (digitala) typsnitt, handstil, belysning, etc. För att lösa problemet undersöker den här avhandling två olika metoder för att rätta fel i OCR-utdata. Det använda datasetet består av svenska adresser. Metoderna tillämpas därför på postautomatisering för att undersöka användningen av dessa metoder för att ytterligare automatisera postarbetet genom att automatiskt läsa adresser på paket med OCR. Den första metoden, den lexikaliska metoden, använder en datauppsättning av svenska adresser så att alla giltiga adresser bör finnas i denna datauppsättning (därav finns det ett känt och begränsat ordförråd). Denna datauppsättning används sedan som en ordbok för att hitta adressen med det minsta Levenshtein-avståndet till någon felstavad adress. Det andra tillvägagångssättet använder samma datauppsättning, men med artificiella fel tillagda. Adresserna med dessa artificiella fel används sedan tillsammans med deras korrekta stavning för att träna en Neural Machine Translation (NMT)-modell för att automatiskt korrigera fel i OCR-lästa adresser. Resultaten från denna studie skulle kunna bidra genom att definiera i vilken riktning framtida arbete kopplat till OCR och postadresser ska gå. Resultaten var att den lexikaliska metoden presterade bättre än NMT-modellen. Fler experiment gjorde med verklig data skulle dock behövas för att dra definitiva slutsatser om hur metoderna skulle fungera i verkliga tillämpningar.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-313940
Date January 2022
CreatorsAndersson, Moa
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:201

Page generated in 0.0014 seconds