Return to search

Classifying hand-drawn documents in mobile settings, using transfer learning and model compression / Klassificerare av handskrivna dokument för mobil användning

In recent years, the state-of-the-art in computer vision has improved immensely due to increased use of convolutional neural networks (CNN). However, the best-performing models are typically complex and too slow or too large for mobile use. We investigate whether the power of these large models can be transferred to smaller models and used in mobile applications. A small CNN model was designed based on VGG Net. Using transfer learning, three pre-trained ImageNet networks were tuned to perform hand-drawn image classification. The models were evaluated on their predictive power and the best model was compressed to the small CNN model using knowledge distillation, a flavor of model compression. We found a small but significant improvement in classification performance compared to training the small CNN model directly on training data. No such improvement was found in localization abilities. We claim that model compression, and knowledge distillation in particular, presents a valuable tool for mobile deep learning development. / De senaste åren har system för datorseende markant förbättrats, genom användning av djupa faltningsnäterk (‘‘convolutional neural network’’ - CNN). De bästa modellerna är dock komplexa och för långsamma eller för stora för användning på mobila enheter. Vi undersöker huruvida styrkan i dessa stora modeller kan överföras till mindre modeller för mobila applikationer. En liten CNN-modell designades baserat på VGG Net. Genom användning av transfer learning justerades tre ImageNet-modeller till att klassificera handskrivna dokument. Modellerna evaluerades på deras förmåga att kategorisera innehållet. Den bästa modellen komprimerades sedan till den mindre modellen genom modellkomprimering, mer specifikt en teknik kallad knowledge distillation. Vi fann en liten men signifikant förbättring av den lilla modellens förmåga att kategorisera innehållet, jämfört med att träna modellen direkt på data. Någon sådan förbättring upptäcktes dock inte för lokalisering av objekt. Vi påstår att modellkomprimering, och speciellt knowledge distillation, kan vara ett värdefullt verktyg för utveckling av djupa neurala nätverk för mobila applikationer.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-213425
Date January 2017
CreatorsRiese, Axel
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0147 seconds