Return to search

Test av OCR-verktyg för Linux / OCR software tests for Linux

Denna rapport handlar om att ta fram ett OCR-verktyg för digitalisering av pappersdokument. Krav på detta verktyg är att bland annat det ska vara kompatibelt med Linux, det ska kunna ta kommandon via kommandoprompt och dessutom ska det kunna hantera skandinaviska tecken. Tolv OCR-verktyg granskades, sedan valdes tre verktyg ut; Ocrad, Tesseract och OCR Shop XTR. För att testa dessa scannades två dokument in och digitaliserades i varje verktyg. Resultatet av testerna är att Tesseract är de verktyget som är mest precist och Ocrad är det verktyget som är snabbast. OCR Shop XTR visar på sämst resultat både i tidtagning och i antal korrekta ord. / This report is about finding OCR software for digitizing paper documents. Requirements were to include those which were compatible with Linux, being able to run commands via the command line and also being able to handle the Scandinavian characters. Twelve OCR softwares were reviewed, and three softwares were chosen; Ocrad, Tesseract and OCR Shop XTR. To test these, two document were scanned and digitized in each tool. The results of the tests are that Tesseract is the tool which is the most precise and Ocrad is the tool which is the fastest. OCR Shop XTR shows the worst results both in timing and number of correct words.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:lnu-5906
Date January 2010
CreatorsNilsson, Elin
PublisherLinnéuniversitetet, Institutionen för datavetenskap, fysik och matematik, DFM
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0015 seconds