Global ETD Search

Return to search

Detektion av handskrivna ordobjekt i inskannade dokument

I denna rapport presenteras ett sätt att detektera handskrivna ordobjekt i inskannade dokument. Rapporten belyser också några av de problem som förekommer vid detektion av handskrivna ordobjekt. Detektionen görs med hjälp av en indelning av bilden i rektangulära regioner. Därefter används enmaskininlärningsalgoritm för att klassificera regionerna som antingen handskriven text eller övrigt. För att klassificera en region behövs mätvärden för en region, såsom area, som en algoritm kan använda. De flesta som testas och används i denna rapport har använts tidigare för att detektera handskriven text. En del är modifierade från tidigare använda mätvärden. Resultaten visar att att det går att detektera handskrivna ordobjekt med en föreslagna metoden. Resultaten är dock inte lika goda som flertalet andra inom området, några olika orsaker diskuteras. Rapporten visar även att klassificeringen av en region får ett statistiskt signifikant högre resultat om algoritmen som använts har tränats på andra regioner i samma dokument. Detta resultat är viktigt när en algoritm ska utvärderas. Att viktning av träningsdata kan användas för att manipulera precision och recall för de fyra algoritmer som används bekräftas. Detta gör det möjligt att skapa ett precision-recall-diagram för att jämföra olika maskininlärningsalgoritmer. En sådan jämförelse mellan fyra olika typer av algoritmer visar att det är liten skillnad mellan två beslutsträd och ett neuralt nätvärk. Den sista algoritmen, en stödvektormaskin, klarade uppgiften sämst.

http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-87856

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:liu-87856
Date	January 2012
Creators	Rydberg, Jonatan
Publisher	Linköpings universitet, Interaktiva och kognitiva system, Linköpings universitet, Tekniska högskolan
Source Sets	DiVA Archive at Upsalla University
Language	Swedish
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds

Detektion av handskrivna ordobjekt i inskannade dokument

Description

Links & Downloads

Tags

Additional Fields