Object detection deals with localization and classification of objects in images, where the task is to propose bounding boxes and predict their respective classes. Challenges in object detection include large-scale annotated datasets and re-training of models for specific tasks. Motivated by these problems, we propose a zero-shot object detection (ZSD) model in the setting of user interface icons in video games. Allowing to quickly and accurately analyze the state of a game, with potentially millions of people watching, would greatly benefit the large and fast-growing video game sector. Our resulting model is a modification of YOLOv8, which, at inference time, is prompted with the specific object to detect in an image. Many existing ZSD models exploit semantic embeddings and high-dimensional word vectors to generalize to novel classes. We hypothesize that using only visual representations is sufficient for the detection of unseen classes. To train and evaluate our model, we create synthetic data to reflect the nature of video game icons and in-game frames. Our method achieves similar performance as YOLOv8 on bounding box prediction and detection of seen classes while retaining the same average precision and recall for unseen classes, where the number of unseen classes is in the order of thousands. / Objektdetektering handlar om lokalisering och klassificering av objekt i bilder, där uppgiften är att föreslå omskrivande rektanglar och prediktera de respektive klasserna. Utmaningar i objektdetektering inkluderar storskaliga annoterade datamängder och omträning av modeller för specifika uppgifter. Motiverade av dessa problem föreslår vi en zero-shot-modell för objektdetektering riktat mot användargränssnittsikoner i datorspel. Att snabbt och precist kunna analysera tillståndet i ett spel, med potentiellt miljontals människor som tittar, skulle vara till stor nytta för den snabbväxande datorspelssektorn. Vår slutliga modell är en modifiering av YOLOv8, som vid inferens förses med det specifika objektet som ska upptäckas i en given bild. Många befintliga zero-shot-modeller inom objektdetektering utnyttjar semantiska inbäddningar och högdimensionella ordvektorer för att generalisera till nya klasser. Vi hypotiserar att det är tillräckligt att använda visuella representationer för att upptäcka osedda klasser. För att träna och utvärdera vår modell skapar vi syntetisk data för att återspegla spelbilder och ikoner från datorspel. Vår metod uppnår liknande prestanda som YOLOv8 på prediktion av omskrivande rektanglar och på sedda klasser där antalet klasser är lågt. Samtidigt upprätthåller vi samma positiva prediktionsvärde och sensitivitet för osedda klasser där antalet klasser uppgår till tusentals.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-343526 |
Date | January 2023 |
Creators | Larsson, Axel |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:897 |
Page generated in 0.0021 seconds