Object detection is a prominent area of research within computer vision. While object detection based on infrared videos holds great practical significance, the majority of mainstream methods are primarily designed for visible datasets. This thesis investigates the enhancement of object detection accuracy on infrared datasets by leveraging temporal and spatial information. The Memory Enhanced Global-Local Aggregation (MEGA) framework is chosen as a baseline due to its capability to incorporate both forms of information. Based on the initial visualization result from the infrared dataset, CAMEL, the noisy characteristic of the infrared dataset is further explored. Through comprehensive experiments, the impact of temporal and spatial information is examined, revealing that spatial information holds a detrimental effect, while temporal information could be used to improve model performance. Moreover, an innovative Dual Frame Average Aggregation (DFAA) framework is introduced to address challenges related to object overlapping and appearance changes. This framework processes two global frames in parallel and in an organized manner, showing an improvement from the original configuration. / Objektdetektion är ett framträdande forskningsområde inom datorseende. Även om objektdetektering baserad på infraröda videor har stor praktisk betydelse, är majoriteten av vanliga metoder i första hand utformade för synliga datauppsättningar. Denna avhandling undersöker förbättringen av objektdetektionsnoggrannhet på infraröda datauppsättningar genom att utnyttja tids- och rumslig information. Memory Enhanced Global-Local Aggregation (MEGA)-ramverket väljs som baslinje på grund av dess förmåga att införliva båda formerna av information. Baserat på det initiala visualiseringsresultatet från den infraröda datamängden, CAMEL, utforskas den brusiga karaktäristiken för den infraröda datamängden ytterligare. Genom omfattande experiment undersöks effekten av tids- och rumslig information, vilket avslöjar att den rumsliga informationen har en skadlig effekt, medan tidsinformation kan användas för att förbättra modellens prestanda. Dessutom introduceras en innovativ Dual Frame Average Aggregation (DFAA) ramverk för att hantera utmaningar relaterade till objektöverlappning och utseendeförändringar. Detta ramverk bearbetar två globala ramar parallellt och på ett organiserat sätt, vilket visar en förbättring från den ursprungliga konfigurationen.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-343001 |
Date | January 2023 |
Creators | Jinke, Shi |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:830 |
Page generated in 0.0023 seconds