Global ETD Search

Return to search

Classifying hand-drawn documents in mobile settings, using transfer learning and model compression / Klassificerare av handskrivna dokument för mobil användning

In recent years, the state-of-the-art in computer vision has improved immensely due to increased use of convolutional neural networks (CNN). However, the best-performing models are typically complex and too slow or too large for mobile use. We investigate whether the power of these large models can be transferred to smaller models and used in mobile applications. A small CNN model was designed based on VGG Net. Using transfer learning, three pre-trained ImageNet networks were tuned to perform hand-drawn image classification. The models were evaluated on their predictive power and the best model was compressed to the small CNN model using knowledge distillation, a flavor of model compression. We found a small but significant improvement in classification performance compared to training the small CNN model directly on training data. No such improvement was found in localization abilities. We claim that model compression, and knowledge distillation in particular, presents a valuable tool for mobile deep learning development. / De senaste åren har system för datorseende markant förbättrats, genom användning av djupa faltningsnäterk (‘‘convolutional neural network’’ - CNN). De bästa modellerna är dock komplexa och för långsamma eller för stora för användning på mobila enheter. Vi undersöker huruvida styrkan i dessa stora modeller kan överföras till mindre modeller för mobila applikationer. En liten CNN-modell designades baserat på VGG Net. Genom användning av transfer learning justerades tre ImageNet-modeller till att klassificera handskrivna dokument. Modellerna evaluerades på deras förmåga att kategorisera innehållet. Den bästa modellen komprimerades sedan till den mindre modellen genom modellkomprimering, mer specifikt en teknik kallad knowledge distillation. Vi fann en liten men signifikant förbättring av den lilla modellens förmåga att kategorisera innehållet, jämfört med att träna modellen direkt på data. Någon sådan förbättring upptäcktes dock inte för lokalisering av objekt. Vi påstår att modellkomprimering, och speciellt knowledge distillation, kan vara ett värdefullt verktyg för utveckling av djupa neurala nätverk för mobila applikationer.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-213425

Datavetenskap (datalogi)

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-213425
Date	January 2017
Creators	Riese, Axel
Publisher	KTH, Skolan för datavetenskap och kommunikation (CSC)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0016 seconds

Classifying hand-drawn documents in mobile settings, using transfer learning and model compression / Klassificerare av handskrivna dokument för mobil användning

Description

Links & Downloads

Tags

Additional Fields