Spelling suggestions: "subject:"teachinglearning""
11 |
Combining Trajectory with Temporal Appearance Features for Joint Detection and Tracking of Drones / Kombinering av trajektoria med utseende över tid för att upptäcka och spåra drönarePuranen Åhfeldt, Theo January 2024 (has links)
As drones are becoming ubiquitous, robust detection and tracking of potentially hostile drones is becoming a necessity. Among the many approaches being investigated in this relatively new research area, one cost effective option is the use of optical cameras equipped with computer vision algorithms. With the use of deep learning, it becomes possible to achieve high accuracy by generalizing from large datasets. However, drones are small and visually similar to birds, which has proven to be a major difficulty for purely vision based systems. This thesis investigates the utility of trajectory information (velocity and acceleration) in addition to temporal appearance features for detection and tracking of drones. While both kinds of information has been used in a variation of ways, work combining the two is largely lacking. Our approach uses background subtraction to generate candidate objects that initialize an LSTM which in turn combines trajectory and appearance information over multiple frames for joint detection and tracking of drones. While our specific implementation fails to outperform a traditional object detector in the form of YOLOv8, this could change with the solution of two problems identified with our approach. First problem being how to effectively incorporate large amounts of background data into the training of our network. Second being how to avoid repeatedly proposing the same non-drone candidates, while still being able to quickly resume tracking of a lost drone. / I takt med att drönare blir allt vanligare stiger kraven på robusta system som kan upptäcka och spåra hotfulla drönare. Bland de flertal tillvägagångssätt som undersöks i detta relativt nya forskningsområde är användandet av optiska kameror utrustade med datorseende-algoritmer ett kostnadseffektivt val. Genom användningen av djupinlärning har det blivit möjligt att uppnå hög pricksäkerhet genom att generalisera utifrån stora dataset. Men, drönare är små och utseendemässigt sett lika fåglar vilket är ett svåröverkomligt problem för system som endast förlitar sig på datorseende. I detta examensarbete undersöks vilken nytta som kan fås om man även tar hänsyn till information om drönarens trajektoria i form av hastighet och acceleration. Trots att både visuellt utseende och trajektoria är välstuderat när det kommer till drönardetektering, saknas det till stor del forskning som behandlar båda tillsammans. Vi använder bakgrundssubtraktion för att generera kandidater som startpunkt för en LSTM för att sedan kombinera trajektoria med utseende för förenad detektering och spårning av drönare. Fastän vår specifika implementation inte lyckas överträffa en traditionell objektdetekterare i form av YOLOv8, skulle detta kunna ändras givet en lösning på två identifierade problem med vårt tillvägagångssätt. Det första problemet är att hitta ett effektivt sätt att inkorporera stora mängder bakgrundsdata i träningen av vårt nätverk. Det andra är att undvika att gång på gång föreslå samma kandidater och samtidigt kunna snabbt återuppta spårningen av en förlorad drönare.
|
12 |
Meta-Pseudo Labelled Multi-View 3D Shape Recognition / Meta-pseudomärking med Bilder från Flera Kameravinklar för 3D ObjektigenkänningUçkun, Fehmi Ayberk January 2023 (has links)
The field of computer vision has long pursued the challenge of understanding the three-dimensional world. This endeavour is further fuelled by the increasing demand for technologies that rely on accurate perception of the 3D environment such as autonomous driving and augmented reality. However, the labelled data scarcity in the 3D domain continues to be a hindrance to extensive research and development. Semi-Supervised Learning is a valuable tool to overcome data scarcity yet most of the state-of-art methods are primarily developed and tested for two-dimensional vision problems. To address this challenge, there is a need to explore innovative approaches that can bridge the gap between 2D and 3D domains. In this work, we propose a technique that both leverages the existing abundance of two-dimensional data and makes the state-of-art semi-supervised learning methods directly applicable to 3D tasks. Multi-View Meta Pseudo Labelling (MV-MPL) combines one of the best-performing architectures in 3D shape recognition, Multi-View Convolutional Neural Networks, together with the state-of-art semi-supervised method, Meta Pseudo Labelling. To evaluate the performance of MV-MPL, comprehensive experiments are conducted on widely used shape recognition benchmarks ModelNet40, ShapeNetCore-v1, and ShapeNetCore-v2, as well as, Objaverse-LVIS. The results demonstrate that MV-MPL achieves competitive accuracy compared to fully supervised models, even when only \(10%\) of the labels are available. Furthermore, the study reveals that the object descriptors extracted from the MV-MPL model exhibit strong performance on shape retrieval tasks, indicating the effectiveness of the approach beyond classification objectives. Further analysis includes the evaluation of MV-MPL under more restrained scenarios, the enhancements to the view aggregation and pseudo-labelling processes; and the exploration of the potential of employing multi-views as augmentations for semi-supervised learning. / Forskningsområdet för datorseende har länge strävat efter utmaningen att förstå den tredimensionella världen. Denna strävan drivs ytterligare av den ökande efterfrågan på teknologier som är beroende av en korrekt uppfattning av den tredimensionella miljön, såsom autonom körning och förstärkt verklighet. Dock fortsätter bristen på märkt data inom det tredimensionella området att vara ett hinder för omfattande forskning och utveckling. Halv-vägledd lärning (semi-supervised learning) framträder som ett värdefullt verktyg för att övervinna bristen på data, ändå är de flesta av de mest avancerade semisupervised-metoderna primärt utvecklade och testade för tvådimensionella problem inom datorseende. För att möta denna utmaning krävs det att utforska innovativa tillvägagångssätt som kan överbrygga klyftan mellan 2D- och 3D-domänerna. I detta arbete föreslår vi en teknik som både utnyttjar den befintliga överflöd av tvådimensionella data och gör det möjligt att direkt tillämpa de mest avancerade semisupervised-lärandemetoderna på 3D-uppgifter. Multi-View Meta Pseudo Labelling (MV-MPL) kombinerar en av de bästa arkitekturerna för 3D-formigenkänning, Multi-View Convolutional Neural Networks, tillsammans med den mest avancerade semisupervised-metoden, Meta Pseudo Labelling. För att utvärdera prestandan hos MV-MPL genomförs omfattande experiment på väl använda uvärderingar för formigenkänning., ModelNet40, ShapeNetCore-v1 och ShapeNetCore-v2. Resultaten visar att MV-MPL uppnår konkurrenskraftig noggrannhet jämfört med helt vägledda modeller, även när endast \(10%\) av etiketterna är tillgängliga. Dessutom visar studien att objektbeskrivningarna som extraherats från MV-MPL-modellen uppvisar en stark prestanda i formåterhämtningsuppgifter, vilket indikerar effektiviteten hos tillvägagångssättet bortom klassificeringsmål. Vidare analys inkluderar utvärderingen av MV-MPL under mer begränsade scenarier, förbättringar av vyaggregerings- och pseudomärkningsprocesserna samt utforskning av potentialen att använda bilder från flera vinklar som en metod att få mer data för halv-vägledd lärande.
|
Page generated in 0.0795 seconds