• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 26
  • 11
  • Tagged with
  • 37
  • 31
  • 31
  • 29
  • 24
  • 22
  • 19
  • 18
  • 17
  • 16
  • 15
  • 12
  • 11
  • 8
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Image-Guided Zero-Shot Object Detection in Video Games : Using Images as Prompts for Detection of Unseen 2D Icons / Bildstyrd Zero-Shot Objektdetektering i Datorspel : Användning av Bilder för att Diktera Detektion av Osedda 2D-ikoner

Larsson, Axel January 2023 (has links)
Object detection deals with localization and classification of objects in images, where the task is to propose bounding boxes and predict their respective classes. Challenges in object detection include large-scale annotated datasets and re-training of models for specific tasks. Motivated by these problems, we propose a zero-shot object detection (ZSD) model in the setting of user interface icons in video games. Allowing to quickly and accurately analyze the state of a game, with potentially millions of people watching, would greatly benefit the large and fast-growing video game sector. Our resulting model is a modification of YOLOv8, which, at inference time, is prompted with the specific object to detect in an image. Many existing ZSD models exploit semantic embeddings and high-dimensional word vectors to generalize to novel classes. We hypothesize that using only visual representations is sufficient for the detection of unseen classes. To train and evaluate our model, we create synthetic data to reflect the nature of video game icons and in-game frames. Our method achieves similar performance as YOLOv8 on bounding box prediction and detection of seen classes while retaining the same average precision and recall for unseen classes, where the number of unseen classes is in the order of thousands. / Objektdetektering handlar om lokalisering och klassificering av objekt i bilder, där uppgiften är att föreslå omskrivande rektanglar och prediktera de respektive klasserna. Utmaningar i objektdetektering inkluderar storskaliga annoterade datamängder och omträning av modeller för specifika uppgifter. Motiverade av dessa problem föreslår vi en zero-shot-modell för objektdetektering riktat mot användargränssnittsikoner i datorspel. Att snabbt och precist kunna analysera tillståndet i ett spel, med potentiellt miljontals människor som tittar, skulle vara till stor nytta för den snabbväxande datorspelssektorn. Vår slutliga modell är en modifiering av YOLOv8, som vid inferens förses med det specifika objektet som ska upptäckas i en given bild. Många befintliga zero-shot-modeller inom objektdetektering utnyttjar semantiska inbäddningar och högdimensionella ordvektorer för att generalisera till nya klasser. Vi hypotiserar att det är tillräckligt att använda visuella representationer för att upptäcka osedda klasser. För att träna och utvärdera vår modell skapar vi syntetisk data för att återspegla spelbilder och ikoner från datorspel. Vår metod uppnår liknande prestanda som YOLOv8 på prediktion av omskrivande rektanglar och på sedda klasser där antalet klasser är lågt. Samtidigt upprätthåller vi samma positiva prediktionsvärde och sensitivitet för osedda klasser där antalet klasser uppgår till tusentals.
12

A tracking framework for a dynamic non- stationary environment / Ett spårningsramverk för en dynamisk icke- stationär miljö

Ståhl, Sebastian January 2020 (has links)
As the use of unmanned aerial vehicles (UAVs) increases in popularity across the globe, their fields of application are constantly growing. This thesis researches the possibility of using a UAV to detect, track, and geolocate a target in a dynamic nonstationary environment as the seas. In this case, different projection and apparent size of the target in the captured images can lead to ambiguous assignments of coordinated. In this thesis, a framework based on a UAV, a monocular camera, a GPS receiver, and the UAV’s inertial measurement unit (IMU) is developed to perform the task of detecting, tracking and geolocating targets. An object detection model called Yolov3 was retrained to be able to detect boats in UAV footage. This model was selected due to its capabilities of detecting targets of small apparent sizes and its performance in terms of speed. A model called the kernelized correlation filter (KCF) is adopted as the visual tracking algorithm. This tracker is selected because of its performance in terms of speed and accuracy. A reinitialization of the tracker in combination with a periodic update of the tracked bounding box are implemented which resulted in improved performance of the tracker. A geolocation method is developed to continuously estimate the GPS coordinates of the target. These estimates will be used by the flight control method already developed by the stakeholder Airpelago to control the UAV. The experimental results show promising results for all models. Due to inaccurate data, the true accuracy of the geolocation method can not be determined. The average error calculated with the inaccurate data is 19.5 meters. However, an in- depth analysis of the results indicates that the true accuracy of the method is more accurate. Hence, it is assumed that the model can estimate the GPS coordinates of a target with an error significantly lower than 19.5 meters. Thus, it is concluded that it is possible to detect, track and geolocate a target in a dynamic nonstationary environment as the seas. / Användandet av drönare ökar i popularitet över hela världen vilket bidrar till att dess tillämpningsområden växer. I denna avhandling undersöks möjligheten att använda en drönare för att detektera, spåra och lokalisera ett mål i en dynamisk icke- stationär miljö som havet. Målets varierande position och storlek i bilderna leda till tvetydiga uppgifter. I denna avhandlingen utvecklas ett ramverk baserat på en drönare, en monokulär kamera, en GPS- mottagare och drönares IMU sensor för att utföra detektering, spårning samt lokalisering av målet. En objektdetekteringsmodell vid namn Yolov3 tränades för att kunna detektera båtar i bilder tagna från en drönare. Denna modell valdes på grund av dess förmåga att upptäcka små mål och dess prestanda vad gäller hastighet. En modell vars förkortning är KCF används som den visuella spårningsalgoritmen. Denna algoritm valdes på grund av dess prestanda när det gäller hastighet och precision. En återinitialisering av spårningsalgoritmen i kombination med en periodisk uppdatering av den spårade avgränsningsrutan implementeras vilket förbättrar trackerens prestanda. En lokaliseringsmetod utvecklas för att kontinuerligt uppskatta GPS- koordinaterna av målet. Dessa uppskattningar kommer att användas av en flygkontrollmetod som redan utvecklats av Airpelago för att styra drönaren. De experimentella resultaten visar lovande resultat för alla modeller. På grund av opålitlig data kan inte lokaliseringsmetodens precision fastställas med säkerhet. En djupgående analys av resultaten indikerar emellertid att metodens noggrannhet är mer exakt än det genomsnittliga felet beräknat med opålitliga data, som är 19.5 meter. Därför antas det att modellen kan uppskatta GPS- koordinaterna för ett mål med ett fel som är lägre än 19.5 meter. Således dras slutsatsen att det är möjligt att upptäcka, spåra och geolocera ett mål i en dynamisk icke- stationär miljö som havet.
13

AI-assisterad spårning av flygande objekt och distansberäkning inom kastgrenar / AI-assisted Tracking of Flying Objects and Distance Measuring within Throwing Sports

Jonsson, Fredrik, Eriksson, Jesper January 2022 (has links)
Detta examensarbete har utförts under tio veckor på uppdrag av företaget BitSim NOW. Den manuella metod som idag används för mätning av stötar inom kulstötning kan utgöra en risk för felaktiga resultat och personskador. Med hjälp av tekniska hjälpmedel kan en lösning med noggrannare mätningar och lägre risk för skador implementeras i sporten kulstötning. Denna rapport presenterar en lösning som med hjälp av artificiell intelligens identifierar kulan utifrån en filmsekvens. Därefter beräknas längden av stöten med hjälp av en formel för kastparabeln. Lösningen jämförs sedan med en metod utan artificiell intelligens för att fastställa den bästa av de två metoderna. De variablersom jämfördes var noggrannheten på stötens längd och hur bra de två olika metoderna spårade kulan. Resultatet analyserades i relation till de uppsatta målen och sattes därefter in i ett större sammanhang. / This thesis project has been done during ten weeks on behalf of the companyBitSim NOW. The current method used to measure the length of shot-puts presents a risk of inaccurate results along with the risk of injury for the measuring personnel. With the help of technical aids, a solution with more accurate measurements and a lower risk for injuries could be implemented in the sport of shot-puts. This report presents a solution using artificial intelligence to first identify the shotin video films and secondly calculate the length using mathematical formulas. Thesolution is then compared to a method that does not use artificial intelligence, to determine what method is the superior one. The parameters that were compared were the accuracy of the length and the quality of the tracking. The result was analyzed in relation to the aims of the project and then put into a larger context.
14

Implementation of an object-detection algorithm on a CPU+GPU target

Berthou, Gautier January 2016 (has links)
Systems like autonomous vehicles may require real time embedded image processing under hardware constraints. This paper provides directions to design time and resource efficient Haar cascade detection algorithms. It also reviews some software architecture and hardware aspects. The considered algorithms were meant to be run on platforms equipped with a CPU and a GPU under power consumption limitations. The main aim of the project was to design and develop real time underwater object detection algorithms. However the concepts that are presented in this paper are generic and can be applied to other domains where object detection is required, face detection for instance. The results show how the solutions outperform OpenCV cascade detector in terms of execution time while having the same accuracy. / System så som autonoma vehiklar kan kräva inbyggd bildbehandling i realtid under hårdvarubegränsningar. Denna uppsats tillhandahåller anvisningar för att designa tidsoch resurseffektiva Haar-kasad detekterande algoritmer. Dessutom granskas en del mjukvaruarkitektur och hårdvaruaspekter. De avsedda algoritmerna är menade att användas på plattformar försedda med en CPU och en GPU under begränsad energitillgång. Det huvudsakliga målet med projektet var att designa och utveckla realtidsalgoritmer för detektering av objekt under vatten. Dock är koncepten som presenteras i arbetet generiska och kan appliceras på andra domäner där objektdetektering kan behövas, till exempel vid detektering av ansikten. Resultaten visar hur lösningarna överträffar OpenCVs kaskaddetektor beträffande exekutionstid och med samtidig lika stor träffsäkerhet.
15

AI-vision som tillämpning i en stålindustri : Med inriktning på objektdetektering & bildklassificering

Wenger, Jakob January 2020 (has links)
I takt med att industri 4.0 sveper över dagens industrier så utvecklas tillämpningsområden inom artificiell intelligens (AI). En relativt nyfunnen tillämpning som vanligen benämns AI-vision eller Computer-vision, inom detta arbete har benämningen AI-vision valts. Tillämpningen handlar om att datorer och maskiner upprättas med förmågan att tolka visuellt innehåll.I och med detta tränas en intelligent modell som klarar av att fatta beslut utifrån visuell data, såsom bild och video. Inriktningen i arbetet belyser inom AI-Vision teknikerna objektdetektering och bildklassificering. Objektdetektering innebär att ett eller flera specifika objekt upptäcks från en bild av flera komplexa linjer och former. Tekniken används inom en rad olika tillämpningar såsom t.ex. robotnavigering och automatisk fordonsstyrning. Syftet med bildklassificering ibland kallat bildigenkänning, handlar om att klassificera och kategorisera bilden genom att identifiera och sortera väsentlig data. Detta i försök att konstatera vad bilden i sig föreställer. För att forma och rama in detta arbete på ett lämpligt sätt ämnas huvudsakliga målet med arbetet beskriva hur tekniker såsom objektdetektering och bildklassificerings-modeller konstrueras. Så även redogöra kring bakomliggande intelligens i modellerna, samt vilka verktyg och metoder som används för att skapa dessa modeller. Arbetet syftar även till att presentera presumtiva tillämpningar inom en stålindustri, därför kommer förslag till applikationer framföras. I resultatdelen av arbetet presenteras i huvudsak uppbyggnaden av en objekdetekteringsapplikation som hanterar personsäkerhet och i diskussionsdelen framhävs vidare förslag till applikationer. Detta avses lägga grund för eventuell implementation i verkliga produktionsutrustningar i framtiden. / As Industry 4.0 sweeps across today's industries, applications within artificial intelligence (AI) are developing. A relatively new application that is commonly called AI-vision or sometimes Computer-vision, in this study the term AI-vision is used. The application is about making computers and machines visually inclined. With this, an intelligent model is trained that can make decisions based on visual data, such as image and video. The orientation in this study within AI-Vision, is to highlight object detection and image classification. Object detection defines as follows, one or more specific objects are detected from an image of several complex lines and shapes. The technology is used in a variety of applications such as robot navigation and automatic vehicle control. The purpose of image classification, sometimes called image recognition, is to classify and categorize the image by identifying and sorting essential data. This in attempt to ascertain what the image itself represents. In order to frame this work in an appropriate way, the main quest of this thesis is to describe how techniques such as Object Detection and Image Classification models are constructed. Explain the underlying intelligence in the models as well as what tools and methods are used to create these models. As the thesis also alludes to present prospective applications in a steel industry, proposals of specific applications will be presented. The results section mainly presents an Object Detection application that handles personal safety and drafts to applications is presented in the discussion section. This work intends to contribute for possible implementation in production equipment in the future.
16

Hybrid pool based deep active learning for object detection using intermediate network embeddings

Marbinah, Johan January 2021 (has links)
With the advancements in deep learning, object detection networks have become more robust. Nevertheless, a challenge with training deep networks is finding enough labelled training data for the model to perform well, due to constraints associated with acquiring relevant data. For this reason, active learning is used to minimize the cost by sampling the unlabeled samples that increase the performance the most. In the field of object detection, few works have been done in exploring effective hybrid active learning strategies that exploit the intermediate feature embeddings in neural networks. In this work, hybrid active learning methods are proposed and tested, using various uncertainty sampling techniques and the well-respected core-set method as the representative strategy. In addition, experiments are conducted with network embeddings to find a suitable strategy to model representation of all available samples. Experiments show mixed outcomes as to whether hybrid methods perform better than the core-set method used separately. / Med framstegen inom djupinlärning, har neurala nätverk för objektdetektering blivit mer robusta. En utmaning med att träna djupa neurala nätverk är att hitta en tillräcklig mängd träningsdata för att ett nätverk ska prestera bra, med tanke på de begränsningar som är förknippade med anskaffningen av relevant data. Av denna anledning används aktiv maskininlärning för att minimera kostnaden med att förvärva nya datapunkter, genom att göra kontinuerliga urval av de omärkta bilder som ökar prestandan mest. När det gäller objektsdetektering har få arbeten gjorts för att utforska effektiva hybridstrategier som utnyttjar de mellanliggande lagren som finns i ett neuralt nätverk. I det här arbetet föreslås och testas hybridmetoder i kontext av aktiv maskininlärning med hjälp av olika tekniker för att göra urval av datamängder baserade på osäkerhetsberäkningar men även beräkningar med hänsyn till representation (core-set-metoden). Dessutom utförs experiment med mellanliggande nätverksinbäddningar för att hitta en lämplig strategi för att modellera representation av alla tillgängliga bilder i datasetet. Experimenten visar blandade resultat när det gäller huruvida hybridmetoderna presterar bättre i jämförelse med seperata aktiv maskininlärning strategier där core-set metoden inte används.
17

Design and implementation of an affordable reversing camera system with object detection and OBD-2 integration for commercial vehicles / Design och implementering av ett prisvärt backkamerasystem med objektdetektering och OBD-2-integration för kommersiella fordon

Ebrahimi, Alireza, Akbari, Esmatullah January 2023 (has links)
This thesis is about designing and implementing an affordable reversing camera sys-tem with object detection and OBD-2 integration for commercial vehicles. The aim is to improve the safety and efficiency of these vehicles by giving drivers a clear view of their surroundings behind the vehicle and alerting them to the presence of nearby obstacles. Ultrasonic sensors are used for object detection and give the driver control over the environment behind the vehicle and warn of present obstacles. The system is also integrated with the vehicle's on-board diagnostics system (OBD-2), which provides important information on speed and engine performance, among other things. This project contributes to making safety systems more accessible to com-mercial vehicles and reduces the risk of accidents and collisions. / Detta examensarbete handlar om att utforma och implementera ett prisvärt backkamerasystem objektdetektering och integration med On-Board Diagnostics 2 för kommersiella fordon. Syftet är att förbättra säkerheten och effektiviteten för dessa fordon genom att ge förarna en tydlig vy av deras omgivningar bakom fordonet och varna dem för närvaron av hinder i närheten. Ultraljudssensorer används för objekt-detektering och ger föraren en kontroll över omgivningen bakom fordonet samt var-nar för närvarande hinder. Systemet är också integrerat med fordonets omborddia-gnostiksystem (OBD-2), som ger viktig information om bland annat hastighet och motorprestanda. Detta projekt bidrar till att göra säkerhetssystem mer tillgängliga för kommersiella fordon och minskar risken för olyckor och kollisioner.
18

Evaluation and Analysis of Perception Systems for Autonomous Driving

Sharma, Devendra January 2020 (has links)
For safe mobility, an autonomous vehicle must perceive the surroundings accurately. There are many perception tasks associated with understanding the local environment such as object detection, localization, and lane analysis. Object detection, in particular, plays a vital role in determining an object’s location and classifying it correctly and is one of the challenging tasks in the self-driving research area. Before employing an object detection module in autonomous vehicle testing, an organization needs to have a precise analysis of the module. Hence, it becomes crucial for a company to have an evaluation framework to evaluate an object detection algorithm’s performance. This thesis develops a comprehensive framework for evaluating and analyzing object detection algorithms, both 2D (camera images based) and 3D (LiDAR point cloud-based). The pipeline developed in this thesis provides the ability to evaluate multiple models with ease, signified by the key performance metrics, Average Precision, F-score, and Mean Average Precision. 40-point interpolation method is used to calculate the Average Precision. / För säker rörlighet måste ett autonomt fordon uppfatta omgivningen exakt. Det finns många uppfattningsuppgifter associerade med att förstå den lokala miljön, såsom objektdetektering, lokalisering och filanalys. I synnerhet objektdetektering spelar en viktig roll för att bestämma ett objekts plats och klassificera det korrekt och är en av de utmanande uppgifterna inom det självdrivande forskningsområdet. Innan en anställd detekteringsmodul används i autonoma fordonsprovningar måste en organisation ha en exakt analys av modulen. Därför blir det avgörande för ett företag att ha en utvärderingsram för att utvärdera en objektdetekteringsalgoritms prestanda. Denna avhandling utvecklar ett omfattande ramverk för utvärdering och analys av objektdetekteringsalgoritmer, både 2 D (kamerabilder baserade) och 3 D (LiDAR-punktmolnbaserade). Rörledningen som utvecklats i denna avhandling ger möjlighet att enkelt utvärdera flera modeller, betecknad med nyckelprestandamätvärdena, Genomsnittlig precision, F-poäng och genomsnittlig genomsnittlig precision. 40-punkts interpoleringsmetod används för att beräkna medelprecisionen.
19

Data Augmentations for Improving Vision-Based Damage Detection : in Land Transport Infrastructure / Dataökningar för att förbättra bildbaserade sprickdetektering : i landtransportinfrastruktur

Siripatthiti, Punnawat January 2023 (has links)
Crack, a typical term most people know, is a common form of distress or damage in road pavements and railway sleepers. It poses significant challenges to their structural integrity, safety, and longevity. Over the years, researchers have developed various data-driven technologies for image-based crack detection in road and sleeper applications. The image-based crack detection has become a promising field.  Many researchers use ensemble learning to win the Road Damage Detection Challenge. The challenge provides a street view dataset from several countries from different perspectives. The version of the dataset is 2020, which contains images from Japan, India, and Czech. Thus, the dataset inherits a domain shift problem. Current solutions use ensemble learning to deal with such a problem. Those solutions require much computational power and challenge adaptability in real-time applications. To mitigate the problem, the thesis experiments with various data augmentation techniques that could improve the base model performance. The main focuses are erasing a crack from an image using generative AI (Erase), implementing road segmentation by using the Panoptic Segmentation (RS) and injecting a perspective-aware synthetic crack (InjectPa) into the segmented road surface in the image. The results show that compared to the base model, the Erase + RS techniques improve the model's F1 score when trained only on Japan in the dataset rather than when trained on three countries simultaneously. Moreover, the InjectPa technique does not help improve the base model in both scenarios. Then, the experiment moved to the SBB dataset containing close-up images of sleepers from cameras mounted in front of the diagnostic vehicle. This section follows the same techniques but changes the segmentation model to the Segment Anything Model (SAM) because the previous segmentation model was trained on a street view dataset, making it vulnerable to close-up images. The Erase + SAM techniques show improvement in bbox/AP and validation loss. Nevertheless, it does not improve the F1 score significantly compared to the base model.  This thesis also applies the explainable AI name D-RISE to determine which feature most influences the model decision. D-RISE shows that the augmentation model can pay attention to the damage type pothole for road pavements and defect type spalling for sleepers than other types. Finally, the thesis discusses the results and suggests a strategy for future study. / Sprickor, en typisk term som de flesta känner till, är en vänlig form av skador i vägbeläggningar och järnvägsslipers. Det innebär betydande utmaningar för strukturella integritet, säkerhet och livslängd. Under årens lopp har olika datadrivna tekniker utvecklats för bildbaserade sprickdetektering i vägbeläggningar och järnvägsslipers applikationer. Den bildbaserade sprickdetekteringen har blivit ett lovande område. Många forskare använder ensembleinlärningsmodeller för att vinna den Road Damage Detection Challenge (Vägbeläggningar Detektering Utmaning). Utmaningen ger en Gatuvy dataset från flera länder från olika perspektiv. Versionen av datasetet är 2020 som innehåller bilder från Japan, Indien och Tjeckien. Därför ärver datasetet  ett domänskiftproblem. Nuvarande lösningar använder ensembleinlärning för att hantera ett sådant problem. Dessa lösningar kräver mycket datorkraft och utmanar anpassningsförmågan i realtidsapplikationer. För att mildra problemet, denna avhandling prover många tekniker för dataökningar som kan förbättra basmodellens prestanda. Huvudfokusen är att radera en spricka från en bild via en generativ AI (Erase), implementera vägyta segmentering via den Panoptic Segmentation (RS), lägga en persective-aware syntetik spricka (InjectPa) till segmenterade vögytan in bilden. Resultaten visar att den Erase + RS ökningsteknikerna förbättrar modellens F1 score när den tränas på Japan i datasetet i stället för att tränas alla länder samtidigt. Dessutom förbättrar den InjectPa tekniken inte basmodellen på båda fallen.  Därefter flyttades experimentet till SBB-datasetet som innehåller närbilder av järnvägsslipers från kameror monterades framför ett diagnosfordon. Denna section följer de samma teknikerna men ändra segmentering modellen till den Segment Anything Model (SAM) eftersom förra segmentering modellen tränades på en Gatuvy dataset vilket gör den sårbar för närbilder. Den Erase + SAM ökningsteknikerna visar förbättringar på bbox/AP och validering. Ändå förbättrade den inte F1 score avsevört jämfört med basmodellen.  Denna avhandling tillämpar också Förklarbar AI-namnet D-RISE för att avgöra vilken funktion som mest påverkar modellbeslutet. D-RISE visar att modellen som har dataökning kan uppmärksamma skadetypen potthål för vägbeläggningar och defekttypen spjälkning för järnvägsslipers än andra typer. Slutligen diskuterar avhandlingen resultaten och föreslår en strategi för framtida arbetsinsatser.
20

Pedestrian Multiple Object Tracking in Real-Time / Spårning av flera fotgängare i realtid

Wintzell, Samuel January 2022 (has links)
Multiple object tracking (MOT) is the task of detecting multiple objects in a scene and associating detections over time to form tracks. It is essential for many scene understanding tasks like surveillance, robotics and autonomous driving. Nowadays, the dominating tracking pipeline is to first detect all individual objects in a scene followed by a separate data association step, also known as tracking-by-detection. Recently, methods doing simultaneous detection and tracking has emerged, combining the task of detection and tracking into one single framework. In this project, we analyse performance of multiple object tracking algorithms belonging to both tracking categories. The goal is to examine strengths, weaknesses, and real-time capability of different tracking approaches in order to understand their suitability in different applications. Results show that a tracking-by-detection system with Scaled-YOLOv4 and SORT achieves 46.8% accuracy at over 28 frames per second (FPS) on Nvidia GTX 1080. By reducing the input resolution, inference speed is increased to almost 50 FPS, making it well suitable for real-time application. The addition of a deep re-identification CNN reduces the number of identity switches by 47%. However, association speed drops as low as 14 FPS for densely populated scenes. This indicates that re-identification CNNs may be impractical for safety critical applications like autonomous driving, especially in urban environments. Simultaneous detection and tracking results suggests an increased tracking robustness. The removal of a complex data association strategy improves robustness with respect to extended modules like re-identification. This indicates that the inherent simplicity in the simultaneous detection and tracking paradigm can provide robust baseline trackers for a variety of applications. We note that further research is required to strengthen this notion. / Multipel objektspårning handlar om att detektera alla objekt i bilder och associera dem över tid för att bilda spår. Det är ett viktigt ämne inom datorseende för flera applikationer, däribland kameraövervakning, robotik och självkörande fordon. Idag är det dominerande tillvägagångsättet inom objektspårning att först detektera alla objekt och sedan associera dem i ett separat steg, också kallat spårning-genom-detektion. På senare tid har det framkommit nya metoder som detekterar och spårar samtidigt. I detta projekt analyserar vi prestanda av metoder som tillämpar båda tillvägagångssätt. Målet med projektet är att undersöka styrkor, svagheter och hur väl metoderna lämpar sig för att användas i realtid. Detta för att förstå hur olika objektspårare kan anpassas till olika praktiska applikationer. Resultaten visar att ett system som tillämpar spårning-genom-detektion med Scaled-YOLOv4 och SORT, uppnår 46.8% noggrannhet med en hastighet på över 28 bildrutor per sekund. Detta på en Nvidia GTX 1080. Genom att minska bildupplösningen når hastigheten nästan hela vägen upp till 50 bildrutor per sekund, vilket gör systemet väl lämpat för realtidsapplikation. Genom att addera ett djupt nätverk för återidentifiering minskar antalet identitetsbyten med 47%. Samtidigt minskar också hastigheten för spårning till 14 bildrutor per sekund i välbefolkade miljöer. Detta indikerar att djupa nätverk för återidentifiering inte lämpar sig för säkerhetskritiska applikationer såsom självkörande fordon. Särskilt i urbana miljöer. Resultat för system som detekterar och spårar samtidigt antyder att de är mer robusta. Genom att ta bort komplexa strategier för associering blir systemen robusta mot ytterligare moduler såsom återidentifiering. Det ger en indikation på att den inneboende enkelheten i dessa system resulterar i objektspårare som kan fungera som grunder i många olika applikationer. Vi noterar att ytterligare forsking behövs för att styrka denna idé.

Page generated in 0.2167 seconds