• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 30
  • 12
  • Tagged with
  • 42
  • 35
  • 35
  • 32
  • 26
  • 25
  • 21
  • 20
  • 18
  • 17
  • 17
  • 13
  • 13
  • 11
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Data Augmentations for Improving Vision-Based Damage Detection : in Land Transport Infrastructure / Dataökningar för att förbättra bildbaserade sprickdetektering : i landtransportinfrastruktur

Siripatthiti, Punnawat January 2023 (has links)
Crack, a typical term most people know, is a common form of distress or damage in road pavements and railway sleepers. It poses significant challenges to their structural integrity, safety, and longevity. Over the years, researchers have developed various data-driven technologies for image-based crack detection in road and sleeper applications. The image-based crack detection has become a promising field.  Many researchers use ensemble learning to win the Road Damage Detection Challenge. The challenge provides a street view dataset from several countries from different perspectives. The version of the dataset is 2020, which contains images from Japan, India, and Czech. Thus, the dataset inherits a domain shift problem. Current solutions use ensemble learning to deal with such a problem. Those solutions require much computational power and challenge adaptability in real-time applications. To mitigate the problem, the thesis experiments with various data augmentation techniques that could improve the base model performance. The main focuses are erasing a crack from an image using generative AI (Erase), implementing road segmentation by using the Panoptic Segmentation (RS) and injecting a perspective-aware synthetic crack (InjectPa) into the segmented road surface in the image. The results show that compared to the base model, the Erase + RS techniques improve the model's F1 score when trained only on Japan in the dataset rather than when trained on three countries simultaneously. Moreover, the InjectPa technique does not help improve the base model in both scenarios. Then, the experiment moved to the SBB dataset containing close-up images of sleepers from cameras mounted in front of the diagnostic vehicle. This section follows the same techniques but changes the segmentation model to the Segment Anything Model (SAM) because the previous segmentation model was trained on a street view dataset, making it vulnerable to close-up images. The Erase + SAM techniques show improvement in bbox/AP and validation loss. Nevertheless, it does not improve the F1 score significantly compared to the base model.  This thesis also applies the explainable AI name D-RISE to determine which feature most influences the model decision. D-RISE shows that the augmentation model can pay attention to the damage type pothole for road pavements and defect type spalling for sleepers than other types. Finally, the thesis discusses the results and suggests a strategy for future study. / Sprickor, en typisk term som de flesta känner till, är en vänlig form av skador i vägbeläggningar och järnvägsslipers. Det innebär betydande utmaningar för strukturella integritet, säkerhet och livslängd. Under årens lopp har olika datadrivna tekniker utvecklats för bildbaserade sprickdetektering i vägbeläggningar och järnvägsslipers applikationer. Den bildbaserade sprickdetekteringen har blivit ett lovande område. Många forskare använder ensembleinlärningsmodeller för att vinna den Road Damage Detection Challenge (Vägbeläggningar Detektering Utmaning). Utmaningen ger en Gatuvy dataset från flera länder från olika perspektiv. Versionen av datasetet är 2020 som innehåller bilder från Japan, Indien och Tjeckien. Därför ärver datasetet  ett domänskiftproblem. Nuvarande lösningar använder ensembleinlärning för att hantera ett sådant problem. Dessa lösningar kräver mycket datorkraft och utmanar anpassningsförmågan i realtidsapplikationer. För att mildra problemet, denna avhandling prover många tekniker för dataökningar som kan förbättra basmodellens prestanda. Huvudfokusen är att radera en spricka från en bild via en generativ AI (Erase), implementera vägyta segmentering via den Panoptic Segmentation (RS), lägga en persective-aware syntetik spricka (InjectPa) till segmenterade vögytan in bilden. Resultaten visar att den Erase + RS ökningsteknikerna förbättrar modellens F1 score när den tränas på Japan i datasetet i stället för att tränas alla länder samtidigt. Dessutom förbättrar den InjectPa tekniken inte basmodellen på båda fallen.  Därefter flyttades experimentet till SBB-datasetet som innehåller närbilder av järnvägsslipers från kameror monterades framför ett diagnosfordon. Denna section följer de samma teknikerna men ändra segmentering modellen till den Segment Anything Model (SAM) eftersom förra segmentering modellen tränades på en Gatuvy dataset vilket gör den sårbar för närbilder. Den Erase + SAM ökningsteknikerna visar förbättringar på bbox/AP och validering. Ändå förbättrade den inte F1 score avsevört jämfört med basmodellen.  Denna avhandling tillämpar också Förklarbar AI-namnet D-RISE för att avgöra vilken funktion som mest påverkar modellbeslutet. D-RISE visar att modellen som har dataökning kan uppmärksamma skadetypen potthål för vägbeläggningar och defekttypen spjälkning för järnvägsslipers än andra typer. Slutligen diskuterar avhandlingen resultaten och föreslår en strategi för framtida arbetsinsatser.
22

Pedestrian Multiple Object Tracking in Real-Time / Spårning av flera fotgängare i realtid

Wintzell, Samuel January 2022 (has links)
Multiple object tracking (MOT) is the task of detecting multiple objects in a scene and associating detections over time to form tracks. It is essential for many scene understanding tasks like surveillance, robotics and autonomous driving. Nowadays, the dominating tracking pipeline is to first detect all individual objects in a scene followed by a separate data association step, also known as tracking-by-detection. Recently, methods doing simultaneous detection and tracking has emerged, combining the task of detection and tracking into one single framework. In this project, we analyse performance of multiple object tracking algorithms belonging to both tracking categories. The goal is to examine strengths, weaknesses, and real-time capability of different tracking approaches in order to understand their suitability in different applications. Results show that a tracking-by-detection system with Scaled-YOLOv4 and SORT achieves 46.8% accuracy at over 28 frames per second (FPS) on Nvidia GTX 1080. By reducing the input resolution, inference speed is increased to almost 50 FPS, making it well suitable for real-time application. The addition of a deep re-identification CNN reduces the number of identity switches by 47%. However, association speed drops as low as 14 FPS for densely populated scenes. This indicates that re-identification CNNs may be impractical for safety critical applications like autonomous driving, especially in urban environments. Simultaneous detection and tracking results suggests an increased tracking robustness. The removal of a complex data association strategy improves robustness with respect to extended modules like re-identification. This indicates that the inherent simplicity in the simultaneous detection and tracking paradigm can provide robust baseline trackers for a variety of applications. We note that further research is required to strengthen this notion. / Multipel objektspårning handlar om att detektera alla objekt i bilder och associera dem över tid för att bilda spår. Det är ett viktigt ämne inom datorseende för flera applikationer, däribland kameraövervakning, robotik och självkörande fordon. Idag är det dominerande tillvägagångsättet inom objektspårning att först detektera alla objekt och sedan associera dem i ett separat steg, också kallat spårning-genom-detektion. På senare tid har det framkommit nya metoder som detekterar och spårar samtidigt. I detta projekt analyserar vi prestanda av metoder som tillämpar båda tillvägagångssätt. Målet med projektet är att undersöka styrkor, svagheter och hur väl metoderna lämpar sig för att användas i realtid. Detta för att förstå hur olika objektspårare kan anpassas till olika praktiska applikationer. Resultaten visar att ett system som tillämpar spårning-genom-detektion med Scaled-YOLOv4 och SORT, uppnår 46.8% noggrannhet med en hastighet på över 28 bildrutor per sekund. Detta på en Nvidia GTX 1080. Genom att minska bildupplösningen når hastigheten nästan hela vägen upp till 50 bildrutor per sekund, vilket gör systemet väl lämpat för realtidsapplikation. Genom att addera ett djupt nätverk för återidentifiering minskar antalet identitetsbyten med 47%. Samtidigt minskar också hastigheten för spårning till 14 bildrutor per sekund i välbefolkade miljöer. Detta indikerar att djupa nätverk för återidentifiering inte lämpar sig för säkerhetskritiska applikationer såsom självkörande fordon. Särskilt i urbana miljöer. Resultat för system som detekterar och spårar samtidigt antyder att de är mer robusta. Genom att ta bort komplexa strategier för associering blir systemen robusta mot ytterligare moduler såsom återidentifiering. Det ger en indikation på att den inneboende enkelheten i dessa system resulterar i objektspårare som kan fungera som grunder i många olika applikationer. Vi noterar att ytterligare forsking behövs för att styrka denna idé.
23

Layout Analysis on modern Newspapers using the Object Detection model Faster R-CNN

Funkquist, Mikaela January 2022 (has links)
As society is becoming more and more digitized the amount of digital data is increasing rapidly. Newspapers are one example of this, that many Libraries around the world are storing as digital images. This enables a great opportunity for research on Newspapers, and a particular research area is Document Layout Analysis where one divides the document into different segments and classifies them. In this thesis modern Newspaper pages, provided by KBLab, were used to investigate how well a Deep Learning model developed for General Object Detection performs in this area. In particular the Faster R-CNN Object detection model was trained on manually annotated newspaper pages from two different Swedish publishers, namely Dagens Nyheter and Aftonbladet. All newspaper pages were taken from editions published between 2010 and 2020, meaning only modern newspapers were considered. The methodology in this thesis involved sampling editions from the given publishers and time periods and then manually annotating these by marking out the desired layout elements with bounding boxes. The classes considered were: headlines, subheadlines, decks, charts/infographics, photographs, pull quotes, cartoons, fact boxes, bylines/credits, captions, tableaus and tables. Given the annotated data, a Faster R-CNN with a ResNet-50-FPN backbone was trained on both the Dagens Nyheter and Aftonbladet train sets and then evaluated on different test set. Results such as a mAP0.5:0.95 of 0.6 were achieved for all classes, while class-wise evaluation indicate precisions around 0.8 for some classes such as tableaus, decks and photographs. / I takt med att samhället blir mer och mer digitaliserat ökar mängden digital data snabbt. Tidningar är ett exempel på detta, som många bibliotek runt om i världen lagrar som digitala bilder. Detta möjliggör en stor möjlighet för forskning på tidningar, och ett särskilt forskningsområde är Dokument Layout Analys där man delar in dokumentet i olika segment och klassificerar dem. I denna avhandling användes moderna tidningssidor, tillhandahållna av KBLab, för att undersöka hur väl en djupinlärnings-modell utvecklad för generell Objektdetektering presterar inom detta område. Mer precist, tränades en Faster R-CNN Objektdetekteringsmodell på manuellt annoterade tidningssidor från två olika svenska förlag, nämligen Dagens Nyheter och Aftonbladet. Alla tidningssidor togs från utgåvor som publicerats mellan 2010 och 2020, vilket innebär att endast moderna tidningar behandlades. Metodiken i detta examensarbete innebar att först göra ett urval av utgåvor från givna förlag och tidsperioder och sedan manuellt annotera dessa genom att markera ut önskade layoutelement med begränsningsrutor. Klasserna som användes var: rubriker, underrubriker, ingress, diagram/infografik, fotografier, citat, tecknade serier, faktarutor, författares signatur, bildtexter, tablåer och tabeller. Givet den annoterade datan, tränades en Faster R-CNN med en ResNet-50-FPN ryggrad på både Dagens Nyheter och Aftonbladet träningsdatan och sedan utvärderades dem på olika testset. Resultat som mAP0.5:0.95 på 0.6 uppnåddes för alla klasser, medan klassvis utvärdering indikerar precision kring 0.8 för vissa klasser som tablåer, ingresser och fotografier.
24

A Study on Fault Tolerance of Image Sensor-based Object Detection in Indoor Navigation / En studie om feltolerans för bildsensorbaserad objektdetektering i inomhusnavigering

Wang, Yang January 2022 (has links)
With the fast development of embedded deep-learning computing systems, applications powered by deep learning are moving from the cloud to the edge. When deploying NN onto the devices under complex environments, there are various types of possible faults: soft errors caused by cosmic radiation and radioactive impurities, voltage instability, aging, temperature variations, etc. Thus, more attention is drawn on the reliability of the NN embedded system. In this project, we build a virtual simulation system in Gazebo to simulate and test the working of an embedded NN system in the virtual environment in indoor navigation. The system can detect objects in the virtual environment with the help of the virtual camera(the image sensor) and the object detection module, which is based on YOLO v3, and make corresponding control decisions. We also designed and simulated the corresponding error injection module according to the working principle of the image sensor, and tested the functionality, and fault tolerance of the YOLO network. At the same time, network pruning algorithm is also introduced to study the relationship between different degrees of network pruning and network fault tolerance to sensor faults. / Med den snabba utvecklingen av inbyggda datorsystem för djupinlärning flyttas applikationer som drivs av djupinlärning från molnet till kanten. När man distribuerar NN på enheterna under komplexa miljöer finns det olika typer av möjliga fel: mjuka fel orsakade av kosmisk strålning och radioaktiva föroreningar, spänningsinstabilitet, åldrande, temperaturvariationer, illvilliga angripare, etc. Därför är mer uppmärksamhet ritade om tillförlitligheten hos det inbyggda NN-systemet. I det här projektet bygger vi ett virtuellt simuleringssystem för att simulera och testa hur ett inbäddat NN-system fungerar i den virtuella miljö vi ställer upp. Systemet kan upptäcka objekt i den virtuella miljön enligt den virtuella kameran och objektdetekteringsmodulen, som är baserad på YOLO v3, och göra motsvarande kontrollstrategier. Vi designade och simulerade också motsvarande felinsprutningsmodul enligt bildsensorns arbetsprincip och testade funktionalitet, tillförlitlighet och feltolerans hos YOLO-nätverket. Samtidigt nätverk beskärningsalgoritm introduceras också för att studera sambandet mellan olika grader av nätverksbeskärning och nätverksfeltolerans.
25

Pruning a Single-Shot Detector for Faster Inference : A Comparison of Two Pruning Approaches / Beskärning av en enstegsdetektor för snabbare prediktering : En jämförelse av två beskärningsmetoder för djupa neuronnät

Beckman, Karl January 2022 (has links)
Modern state-of-the-art object detection models are based on convolutional neural networks and can be divided into single-shot detectors and two-stage detectors. Two-stage detectors exhibit impressive detection performance but their complex pipelines make them slow. Single-shot detectors are not as accurate as two-stage detectors, but are faster and can be used for real-time object detection. Despite the fact that single-shot detectors are faster, a large number of calculations are still required to produce a prediction that not many embedded devices are capable of doing in a reasonable time. Therefore, it is natural to ask if single-shot detectors could become faster even. Pruning is a technique to reduce the size of neural networks. The main idea behind network pruning is that some model parameters are redundant and do not contribute to the final output. By removing those redundant parameters, fewer computations are needed to produce predictions, which may lead to a faster inference and since the parameters are redundant, the model accuracy should not be affected. This thesis investigates two approaches for pruning the SSD-MobileNet- V2 single-shot detector. The first approach prunes the single-shot detector by a large portion and retrains the remaining parameters only once. In the other approach, a smaller portion is pruned, but pruning and retraining are done in an iterative fashion, where pruning and retraining constitute one iteration. Beyond comparing two pruning approaches, the thesis also studies the tradeoff between model accuracy and inference speed that pruning induces. The results from the experiments suggest that the iterative pruning approach preserves the accuracy of the original model better than the other approach where pruning and finetuning are performed once. For all four pruning levels that the two approaches are compared iterative pruning yields more accurate results. In addition, an inference evaluation indicates that iterative pruning is a good compression method for SSD-MobileNet-V2, finding models that both are faster and more accurate than the original model. The thesis findings could be used to guide future pruning research on SSD-MobileNet- V2, but also on other single-shot detectors such as RetinaNet and the YOLO models. / Moderna modeller för objektsdetektering bygger på konvolutionella neurala nätverk och kan delas in i ensteg- och tvåstegsdetektorer. Tvåstegsdetektorer uppvisar imponerande detektionsprestanda, men deras komplexa pipelines gör dem långsamma. Enstegsdetektorer uppvisar oftast inte lika bra detektionsprestanda som tvåstegsdetektorer, men de är snabbare och kan användas för objektdetektering i realtid. Trots att enstegsdetektorer är snabbare krävs det fortfarande ett stort antal beräkningar för att få fram en prediktering, vilket inte många inbyggda enheter kan göra på rimlig tid. Därför är det naturligt att fråga sig om enstegsdetektorer kan bli ännu snabbare. Nätverksbeskärning är en teknik för att minska storleken på neurala nätverk. Huvudtanken bakom nätverksbeskärning är att vissa modellparametrar är överflödiga och inte bidrar till det slutliga resultatet. Genom att ta bort dessa överflödiga parametrar krävs färre beräkningar för att producera en prediktering, vilket kan leda till att nätverket blir snabbare och eftersom parametrarna är överflödiga bör modellens detektionsprestanda inte påverkas. I den här masteruppsatsen undersöks två metoder för att beskära enstegsdetektorn SSD-MobileNet-V2. Det första tillvägagångssättet går ut på att en stor del av detektorn vikter beskärs och att de återstående parametrarna endast finjusteras en gång. I det andra tillvägagångssättet beskärs en mindre del, men beskärning och finjustering sker på ett iterativt sätt, där beskärning och finjustering utgör en iteration. Förutom att jämföra två metoder för beskärning studeras i masteruppsatsen också den kompromiss mellan modellens detektionsprestanda och inferenshastighet som beskärningen medför. Resultaten från experimenten tyder på att den iterativa beskärningsmetoden bevarar den ursprungliga modellens detektionsprestanda bättre än den andra metoden där beskärning och finjustering utförs en gång. För alla fyra beskärningsnivåer som de två metoderna jämförs ger iterativ beskärning mer exakta resultat. Dessutom visar en hastighetsutvärdering att iterativ beskärning är en bra komprimeringsmetod för SSD-MobileNet-V2, eftersom modeller som både snabbare och mer exakta än den ursprungliga modellen går att hitta. Masteruppsatsens resultat kan användas för att vägleda framtida forskning om beskärning av SSD-MobileNet-V2, men även av andra enstegsdetektorer, t.ex. RetinaNet och YOLO-modellerna.
26

Instance Segmentation for Printed Circuit Board (PCB) Component Analysis : Exploring CNNs and Transformers for Component Detection on Printed Circuit Boards

Möller, Oliver January 2023 (has links)
In the intricate domain of Printed Circuit Boards (PCBs), object detection poses unique challenges, particularly given the broad size spectrum of components, ranging from a mere 2 pixels to several thousand pixels within a single high-resolution image, often averaging 4000x3000 pixels. Such resolutions are atypical in the realm of deep learning for computer vision, making the task even more demanding. Further complexities arise from the significant intra-class variability and minimal inter-class differences for certain component classes. In this master thesis, we rigorously evaluated the performance of a CNN-based object detection framework (FCOS) and a transformer model (DETR) for the task. Additionally, by integrating the novel foundational model from Meta, named ”Segment Anything,” we advanced the pipeline to include instance segmentation. The resultant model is proficient in detecting and segmenting component instances on PCB images, achieving an F1 score of 81% and 82% for the primary component classes of resistors and capacitors, respectively. Overall, when aggregated over 18 component classes, the model attains a commendable F1 score of 74%. This study not only underscores the potential of advanced deep learning techniques in PCB analysis but also paves the way for future endeavors in this interdisciplinary convergence of electronics and computer vision / I det komplicerade området med kretskort (PCB) innebär objektdetektering unika utmaningar, särskilt med tanke på det breda storleksspektrumet av komponenter, från bara 2 pixlar till flera tusen pixlar i en enda högupplöst bild, ofta i genomsnitt 4000x3000 pixlar. Sådana upplösningar är atypiska när det gäller djupinlärning för datorseende, vilket gör uppgiften ännu mer krävande. Ytterligare komplexitet uppstår från den betydande variationen inom klassen och minimala skillnader mellan klasserna för vissa komponentklasser. I denna masteruppsats utvärderade vi noggrant prestandan hos ett CNNbaserat ramverk för objektdetektering (FCOS) och en transformatormodell (DETR) för uppgiften. Genom att integrera den nya grundmodellen från Meta, med namnet ”Segment Anything”, utvecklade vi dessutom pipelinen för att inkludera instanssegmentering. Den resulterande modellen är skicklig på att upptäcka och segmentera komponentinstanser på PCB-bilder och uppnår en F1-poäng på 81% och 82% för de primära komponentklasserna resistorer respektive kondensatorer. När modellen aggregeras över 18 komponentklasser uppnår den en F1-poäng på 74%. Denna studie understryker inte bara potentialen hos avancerade djupinlärningstekniker vid PCB-analys utan banar också väg för framtida insatser inom denna tvärvetenskapliga konvergens av elektronik och datorseende.
27

Self-supervised Learning for Efficient Object Detection / Självövervakat lärande för effektiv Objektdetektering

Berta, Benjamin István January 2021 (has links)
Self-supervised learning has become a prominent approach in pre-training Convolutional Neural Networks for computer vision. These methods are able to achieve state-of-the-art representation learning with unlabeled datasets. In this thesis, we apply Self-supervised Learning to the object detection problem. Previous methods have used large networks that are not suitable for embedded applications, so our goal was to train lightweight networks that can reach the accuracy of supervised learning. We used MoCo as a baseline for pre-training a ResNet-18 encoder and finetuned it on the COCO object detection task using a RetinaNet object detector. We evaluated our method based on the COCO evaluation metric with several additions to the baseline method. Our results show that lightweight networks can be trained by self-supervised learning and reach the accuracy of the supervised learning pre-training. / Självledd inlärning har blivit ett framträdande tillvägagångssätt vid träning av ”Convolutional Neural Networks” för datorseende. Dessa metoder kan uppnå topp prestanda med representationsinlärning med omärkta datamängder. I det här examensarbetet tillämpar vi Självledd inlärning på objektdetekteringsproblemet. Tidigare metoder har använt stora nätverk som inte är lämpliga för inbyggda applikationer, så vårt mål var att träna lättviktsnätverk som kan nå noggrannheten av ett tränat nätverk. Vi använde MoCo som basnivå för träning av en ResNet-18-kodare och finjusterade den på COCO-objektdetekteringsuppgiften med hjälp av en RetinaNet-objektdetektor. Vi utvärderade vår metod baserat på COCO-utvärderingsmåttet med flera tillägg till baslinjemetoden. Våra resultat visar att lättviktsnätverk kan tränas genom självledd inlärning och uppnå samma precisionen som för ett tränat nätverk.
28

Utvärdering av noggrannheten av kastparablar på en iPad / Accuracy evaluation of trajectories on an iPad

Waninger, Mikael, Rothman, Sofia January 2022 (has links)
Prestationsmätning och analys används inom sporter för att förbättra en spelares resultat relaterade till sin respektive sport. För analys finns labb och/eller dyr utrustning vilket gör den svårtillgänglig för icke-professionella utövare. Att minska kostnaden för mätverktyg bidrar till mer jämlika förutsättningar för spelare oavsett inkomst eller ålder. Den här studien syftar till att undersöka om en smartphone eller surfplatta kan användas för mätning och sportanalys. För att utforska detta utvecklades en applikation med fokus på projektilsporter som fotboll, tennis och golf. Applikationen testar visualisering av ett objekts parabel, mätning av dess hastighet och visualisering av dess träff i ett vertikalt plan. Applikationen utvecklades för iOS och testades på en iPad 12 pro. Tester för att validera applikationens noggrannhet utfördes med en fotboll, en tennisboll och en golfboll. Testresultaten för visualisering av parabel gav resultat för fotboll och tennisboll men kunde inte hantera golfbollens mindre storlek. Hastighet kunde mätas för alla tre bollar med en genomsnittlig procentuell avvikelse på 76% för fotboll, 21% för tennisboll och 43% för golfboll. Testresultaten för visualisering av ett objekts träff i ett målplan visade resultat för fotboll och tennisboll, men inte för en golfboll. Den genomsnittliga procentuella avvikelsen var 89% för fotboll respektive 23% för tennisboll. / Measuring and analyzing player performance within sports helps to improve a players results in regards to their respective sport. Specialized labs and or expensive equipment are used for analysis but are difficult to access for the average player. Decreasing the cost of measurement tools would help equalize the playing field for players regardless of age or economic background. This study evaluates if a smartphone or tablet can be used to perform the same task. To achieve this an application was developed with a focus on projectile sports such as soccer, tennis, or golf. The application will visualize a parabola, measure speed, and visualize the point where an object hits a vertical plane. The application was developed for iOS and was tested on an iPad 12 pro. The tests were performed with a soccer ball, tennis ball and golf ball. Tests for visualizing a parabola produced results for the soccer ball and the tennis ball but could not handle the golf balls smaller size. Speed was measured for all three balls with an average percentual offset of 76% for the soccer ball, 21% for the tennis ball and 43% for the golf ball. Hit on a vertical plan produced results for the soccer ball and tennis ball with an average percentual offset of 89% for the soccer ball and 23% for the tennis ball.
29

Soccer Data Analysis Based on Computer Vision : Master Thesis at KTH Royal Institute of Technology / Fotbollsdataanalys baserad på datorseende : Masteruppsats vid Kungliga Tekniska Högskolan

Pan, Rongfei January 2024 (has links)
As the top sport in the world without any doubt, soccer has a wide influence on human society. Since the beginning of modern soccer, soccer tactics have been developed for a long time. Clearly, it requires data for soccer analysis, which includes not only the match results between each team but also performance of players on the pitch. Playmaker.ai, where this degree project has been carried out, is a company that provides soccer analysis services. The major purpose of this project is to create a system that can generate player position by analyzing video data without bird-view information. Besides player position generation, some progress has been made in expected goal calculation and implemented some data preprocessing tools. In this project, the goal is accomplished in following steps: 1. Detect players from camera view images by using YOLO (You Only Look Once) network. 2. Use Strong-Sort method to track the position of players and ball in a long video. 3. Assign the teams to different detected object, methods including K-means are used in this step. 4. Generate bird view position by using perspective transformation method The result shows that all the machine model successfully converged and achieve good performance in practical usage, despite that there are still existing limitations and problems. By using this system, a 2-D map with player position on this map can be generated. And the data preprocessing tools can also be used for the company. Admittedly, because of several limitation in practical development, there are problems and disadvantage of the system. This system could be considered as a prototype of a complete method for solving multiple issues in soccer data analysis based on machine learning and computer vision. The future developers can iterate this project for further improvement. / Som den bästa sporten i världen utan tvekan har fotboll ett stort inflytande på det mänskliga samhället. Sedan starten av modern fotboll har fotbollstaktik utvecklats under lång tid. Det kräver helt klart data för fotbollsanalys, som inte bara inkluderar matchresultaten mellan varje lag utan även spelarnas prestation på planen. Playmaker.ai, där jag gjorde det här examensarbetet, är ett företag som tillhandahåller fotbollsanalystjänster. Huvudsyftet med detta projekt är att skapa ett system som kan generera spelarposition genom att analysera videodata utan fågelvyinformation. Förutom spelarpositionsgenerering, gjorde jag också vissa framsteg i xG-beräkning och implementerade några verktyg för förbearbetning av data. I det här projektet uppnådde jag målet i följande steg: 1.Upptäck spelare från kameravisningsbilder genom att använda YOLOv5-nätverket. 2. Använd Strong-Sort-metoden för att spåra spelares och bollens position i en lång video. 3. Tilldela teamen till olika upptäckta objekt, metoder inklusive Kmeans används i detta steg. 4. Generera fågelvyposition genom att använda perspektivomvandlings-metoden. Resultatet visar att alla maskinmodeller framgångsrikt konvergerade och uppnår bra prestanda i praktisk användning, trots att det fortfarande finns begränsningar och problem. Genom att använda detta system kan vi framgångsrikt generera en 2D-karta med spelarposition på denna karta. Och verktygen för dataförbehandling kan också användas för företaget. Visserligen, på grund av flera begränsningar i praktisk utveckling, finns det problem och nackdelar med systemet. Detta system skulle kunna betraktas som en prototyp av en komplett metod för att lösa flera problem inom fotbollsdataanalys baserad på maskininlärning och datorseende. Den framtida utvecklaren kan upprepa detta projekt för att göra framsteg.
30

A Composite Field-Based Learning Framework for Pose Estimation and Object Detection : Exploring Scale Variation Adaptations in Composite Field-Based Pose Estimation and Extending the Framework for Object Detection / En sammansatt fältbaserad inlärningsramverk för posuppskattning och objektdetektering : Utforskning av skalvariationsanpassningar i sammansatt fältbaserad posuppskattning och utvidgning av ramverket för objektdetektering

Guo, Jianting January 2024 (has links)
This thesis aims to address the concurrent challenges of multi-person 2D pose estimation and object detection within a unified bottom-up framework. Our foundational solutions encompass a recently proposed pose estimation framework named OpenPifPaf, grounded in composite fields. OpenPifPaf employs the Composite Intensity Field (CIF) for precise joint localization and the Composite Association Field (CAF) for seamless joint connectivity. To assess the model’s robustness against scale variances, a Feature Pyramid Network (FPN) is incorporated into the baseline. Additionally, we present a variant of OpenPifPaf known as CifDet. CifDet utilizes the Composite Intensity Field to classify and detect object centers, subsequently regressing bounding boxes from these identified centers. Furthermore, we introduce an extended version of CifDet specifically tailored for enhanced object detection capabilities—CifCafDet. This augmented framework is designed to more effectively tackle the challenges inherent in object detection tasks. The baseline OpenPifPaf model outperforms most existing bottom-up pose estimation methods and achieves comparable results with some state-of-the-art top-down methods on the COCO keypoint dataset. Its variant, CifDet, adapts the OpenPifPaf’s composite field-based architecture for object detection tasks. Further modifications result in CifCafDet, which demonstrates enhanced performance on the MS COCO detection dataset over CifDet, suggesting its viability as a multi-task framework. / Denna avhandling syftar till att ta itu med de samtidiga utmaningarna med flerpersons 2D-posestimering och objektdetektion inom en enhetlig bottom-up-ram. Våra grundläggande lösningar omfattar ett nyligen föreslaget ramverk för posestimering med namnet OpenPifPaf, som grundar sig i kompositfält. OpenPifPaf använder Composite Intensity Field (CIF) för exakt leddlokalisering och Composite Association Field (CAF) för sömlös ledanslutning. För att bedöma modellens robusthet mot skalvariationer införlivas ett Feature Pyramid Network (FPN) i baslinjen. Dessutom presenterar vi en variant av OpenPifPaf känd som CifDet. CifDet använder Composite Intensity Field för att klassificera och detektera objektcentrum, för att sedan regrediera inramningslådor från dessa identifierade centrum. Vidare introducerar vi en utökad version av CifDet som är speciellt anpassad för förbättrade objektdetekteringsförmågor—CifCafDet. Detta förstärkta ramverk är utformat för att mer effektivt ta itu med de utmaningar som är inneboende i objektdetekteringsuppgifter. Basmodellen OpenPifPaf överträffar de flesta befintliga bottom-up-metoder för posestimering och uppnår jämförbara resultat med vissa toppmoderna top-down-metoder på COCO-keypoint-datasetet. Dess variant, CifDet, anpassar OpenPifPafs kompositfältbaserade arkitektur för objekt-detekteringsuppgifter. Ytterligare modifieringar resulterar i CifCafDet, som visar förbättrad prestanda på MS COCO-detektionsdatasetet över CifDet, vilket antyder dess livskraft som ett ramverk för flera uppgifter.

Page generated in 0.0895 seconds