Fine- grained Visual Classification (FGVC) is a rapidly growing field in image classification. However, it is a challenging task due to subcategories sharing subtle differences. Existing approaches tackle this problem by firstly extracting discriminative regions using part localization or object localization or Region Proposal Networks (RPN), then applying Convolutional Neural Network (CNN) or SVM classifier on those regions. In this work, with the purpose of simplifying the above complicated pipeline while keeping high accuracy, we get inspired by the one- stage object detection model YOLO and design a one- stage end- to- end object detector model for FGVC. Specifically, we apply YOLOv5 as a baseline model and replace its Path Aggregation Network (PANet) structure with Weighted Bidirectional Feature Pyramid Network (BiFPN) structure to efficiently fuse information from different resolutions. We conduct experiments on different classification and localization weight ratios to guide choosing loss weights in different scenarios. We have proved the viability of the one- stage detector model YOLO on FGVC, which has 87.1 % top1 accuracy on the FGVC dataset CUB2002011. Furthermore, we have designed a more accurate one- stage model, achieving 88.1 % accuracy, which is the most accurate method compared to the existing localization state- of- the- art models. Finally, we have shown that the higher the classification loss weight, the faster the convergence speed, while increasing slightly localization loss weight can help achieve a more accurate classification but resulting in slower convergence. / Finkornad visuell klassificering (FGVC) är ett snabbt växande fält inom bildklassificering. Det är dock en utmanande uppgift på grund av underkategorier som delar subtila skillnader. Befintliga tillvägagångssätt hanterar detta problem genom att först extrahera diskriminerande regioner med dellokalisering eller objektlokalisering eller Region Proposal Networks (RPN) och sedan tillämpa Convolutional Network eller SVM- klassificering på dessa regioner. I det här arbetet, med syftet att förenkla ovanstående komplicerade rörledning samtidigt som vi håller hög noggrannhet, blir vi inspirerade av enstegs objektdetekteringsmodellen YOLO och designar en enstegs end- to- end objektdetektormodell för FGVC. Specifikt tillämpar vi YOLOv5 som basmodell och ersätter dess Path Aggregation Network (PANet) struktur med en viktad dubbelriktad funktionspyramidnätverk (BiFPN) struktur för att effektivt smälta information från olika upplösningar. Vi utför experiment på olika klassificerings och lokaliseringsviktsförhållanden för att vägleda valet av förlustvikter i olika scenarier. Vi har bevisat livskraften hos enstegsdetektormodellen YOLO på FGVC, som har 87,1 % topp1noggrannhet i FGVC- dataset CUB2002011. Dessutom har vi utformat en mer exakt enstegsmodell som uppnår 88,1 % noggrannhet, vilket är den mest exakta metoden jämfört med befintliga lokaliseringsmodeller. Slutligen har vi visat att ju högre klassificeringsförlustvikten är, desto snabbare är konvergenshastigheten, medan en ökning av lokaliseringsförlustvikten ökar något kan bidra till en mer exakt klassificering men resulterar i långsammare konvergens.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-301055 |
Date | January 2021 |
Creators | Zeng, Xing |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:346 |
Page generated in 0.0024 seconds