Return to search

Towards word alignment and dataset creation for shorthand documents and transcripts

Analysing handwritten texts and creating labelled data sets can facilitate novel research on languages and advanced computerized analysis of authors works. However, few handwritten works have word wise labelling or data sets associated with them. More often a transcription of the text is available, but without any exact coupling between words in the transcript and word representations in the document images. Can an algorithm be created that will take only an image of handwritten text and a corresponding transcript and return a partial alignment and data set? An algorithm is developed in this thesis that explores the use of a convolutional neural network trained on English handwritten text to be able to align some words on pages and create a data set given a handwritten page image and a transcript. This algorithm is tested on handwritten English text. The algorithm is also tested on Swedish shorthand, which was the inspiration for the development of the algorithm in this work. In testing on several pages of handwritten English text, the algorithm reaches an overall average classification of 68% of words on one page with 0% miss-classification of those words. On a sequence of pages, the algorithm reaches 84% correctly classified words on 10 pages and produces a data set of 551 correctly labelled word images. This after being shown 10 pages with an average of 70.6 words on each page, with0% miss-classification. / Analys av handskrivna texter och skapande av dataset kan främja ny forskning inom språk och avancerad datoranalys av olika författares verk. Det finns dock få handskrivna verk med information om vad varje handskrivet ord betecknar eller dataset relaterade till texten. Oftare finns en transkribering av texten, utan någon exakt koppling mellan de transkriberade orden och handskrivna ord i bilden av ett dokument. Genom att skapa en algoritm som kan ta tillvara handskrivna texter och motsvarande transkription kan potentiellt fler verk datoranalyseras. Kan en algoritm skapas som bara tar in en bild av ett handskrivet dokument och en motsvarande transkription och som returnerar en partiell placering av ord till ordbilder och ett dataset? En algoritm skapas i detta arbete som utforskar möjligheten att använda ett djupt neuralt nätverk tränat på engelsk handskriven text för att koppla ord i ett dokumentet till en transkription, och använda dessa för att skapa ett dataset. Denna algoritm är testad på engelsk handskriven text. Algoritmen testas också på svensk stenografi, vilket är inspirationen till skapandet av algoritmen. Algoritmen testades på ett antal sidor handskriven engelsk text. Där kunde algoritmen klassificera i genomsnitt 68% av orden på en handskriven sida med 0% av dessa ord felklassificerade. På en serie sidor når algoritmen en genomsnittlig klassificering av 84% klassificerade ord, och producerar ett dataset av 551 korrekt klassificerade ordbilder. Detta är efter att ha visat algoritmen 10 sidor med i snitt 70.6 ord per sida. I dessa test nåddes också en felklassificering på 0%.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-452278
Date January 2021
CreatorsRyan, Elisabeth
PublisherUppsala universitet, Institutionen för informationsteknologi
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationUPTEC IT, 1401-5749 ; 21014

Page generated in 0.0069 seconds