Global ETD Search

421	Self-supervised Learning for Efficient Object Detection / Självövervakat lärande för effektiv Objektdetektering Berta, Benjamin István January 2021 (has links) Self-supervised learning has become a prominent approach in pre-training Convolutional Neural Networks for computer vision. These methods are able to achieve state-of-the-art representation learning with unlabeled datasets. In this thesis, we apply Self-supervised Learning to the object detection problem. Previous methods have used large networks that are not suitable for embedded applications, so our goal was to train lightweight networks that can reach the accuracy of supervised learning. We used MoCo as a baseline for pre-training a ResNet-18 encoder and finetuned it on the COCO object detection task using a RetinaNet object detector. We evaluated our method based on the COCO evaluation metric with several additions to the baseline method. Our results show that lightweight networks can be trained by self-supervised learning and reach the accuracy of the supervised learning pre-training. / Självledd inlärning har blivit ett framträdande tillvägagångssätt vid träning av ”Convolutional Neural Networks” för datorseende. Dessa metoder kan uppnå topp prestanda med representationsinlärning med omärkta datamängder. I det här examensarbetet tillämpar vi Självledd inlärning på objektdetekteringsproblemet. Tidigare metoder har använt stora nätverk som inte är lämpliga för inbyggda applikationer, så vårt mål var att träna lättviktsnätverk som kan nå noggrannheten av ett tränat nätverk. Vi använde MoCo som basnivå för träning av en ResNet-18-kodare och finjusterade den på COCO-objektdetekteringsuppgiften med hjälp av en RetinaNet-objektdetektor. Vi utvärderade vår metod baserat på COCO-utvärderingsmåttet med flera tillägg till baslinjemetoden. Våra resultat visar att lättviktsnätverk kan tränas genom självledd inlärning och uppnå samma precisionen som för ett tränat nätverk. Self-supervised Learning Object Detection Computer Vision Contrastive Learning Deep Learning Självövervakat lärande Objektdetektering Datorsyn Contrastive Learning Deep Learning Computer and Information Sciences Data- och informationsvetenskap
422	Data Synthesis in Deep Learning for Object Detection / Syntetiskt Data i Djupinlärning för Objektdetektion Haddad, Josef January 2021 (has links) Deep neural networks typically require large amounts of labeled data for training, but a problem is that collecting data can be expensive. Our study aims at revealing insights into how training with synthetic data affects performance in real-world object detection tasks. This is achieved by synthesising annotated image data in the automotive domain using a car simulator for the tasks of detecting cars in images from the real world. We furthermore perform experiments in the aviation domain where we incorporate synthetic images extracted from an airplane simulator with real-world data for detecting runways. In our experiments, the synthetic data sets are leveraged by pre-training a deep learning based object detector, which is then fine-tuned and evaluated on real-world data. We evaluate this approach on three real-world data sets across the two domains and furthermore evaluate how the classification performance scales as synthetic and real-world data varies in the automotive domain. In the automotive domain, we additionally perform image-to-image translation both from the synthetic domain to the real-world domain, and the other way around, as a means of domain adaptation to assess whether it further improves performance. The results show that adding synthetic data improves performance in the automotive domain and that pre-training with more synthetic data results in further performance improvements, but that the performance boost of adding more real-world data exceeds that of the addition of more synthetic data. We can not conclude that using CycleGAN for domain adaptation further improves the performance. / Djupa neurala nätverk behöver normalt stora mängder annoterad träningsdata, men ett problem är att data kan vara dyrt att sampla in. Syftet med denna studie är att undersöka hur träning med syntetiskt data påverkar en objektdetektors prestanda på verkligt data. Detta undersöks genom att syntetisera data i bildomänen med hjälp av en bilsimulator för uppgiften att identifiera bilar i den verkliga världen. Dessutom utför vi experiment i flygdomänen där vi inkorporerar syntetiskt flygbilddata från en flygsimulator med riktigt flygdata för detektion av landningsbanor. Det syntetiska datat i vår studie används till att förträna en djupinlärningsbaserad objektdetektor, som sedan fintränas och evalueras på data insamlat från den verkliga världen. Vi evaluerar denna approach på totalt tre riktiga dataset över våra två domäner och dessutom undersöker vi hur prestandan skalar när mängden syntetiskt och riktigt data varierar i bildomänen. I bildomänen tillämpar vi dessutom bildtillbild translation mellan de syntetiska och riktiga bilderna för att undersöka om denna sorts domänadaption förbättrar prestandan. Resultaten visar att tillägg av syntetiskt data förbättrar prestandan i bildomänen och att förträning med en större mängd syntetiskt data resulterar i ytterligare prestandaförbättringar, men att prestandaförbättringen när mer riktigt data läggs till är större i jämförelse. Vi kan inte dra slutsatsen att domänadaption med CycleGAN leder till förbättrad prestanda. Deep Learning Computer vision Object detection Synthetic data Domain Adaptation Machine Learning Djupinlärning Datorseende Objektdetektion Syntetiskt data Domänadaption Maskininlärning Computer and Information Sciences Data- och informationsvetenskap
423	Distributed Intelligence for Multi-Robot Environment : Model Compression for Mobile Devices with Constrained Computing Resources / Distribuerad intelligens för multirobotmiljö : Modellkomprimering för mobila enheter med begränsade datorresurser Souroulla, Timotheos January 2021 (has links) Human-Robot Collaboration (HRC), where both humans and robots work in the same environment simultaneously, is an emerging field and has increased massively during the past decade. For this collaboration to be feasible and safe, robots need to perform a proper safety analysis to avoid hazardous situations. This safety analysis procedure involves complex computer vision tasks that require a lot of processing power. Therefore, robots with constrained computing resources cannot execute these tasks without any delays, thus for executing these tasks they rely on edge infrastructures, such as remote computational resources accessible over wireless communication. In some cases though, the edge may be unavailable, or connection to it may not be possible. In such cases, robots still have to navigate themselves around the environment, while maintaining high levels of safety. This thesis project focuses on reducing the complexity and the total number of parameters of pre-trained computer vision models by using model compression techniques, such as pruning and knowledge distillation. These model compression techniques have strong theoretical and practical foundations, but work on their combination is limited, therefore it is investigated in this work. The results of this thesis project show that in the test cases, up to 90% of the total number of parameters of a computer vision model can be removed without any considerable reduction in the model’s accuracy. / Människa och robot samarbete (förkortat HRC från engelskans Human-Robot Collaboration), där både människor och robotar arbetar samtidigt i samma miljö, är ett växande forskningsområde och har ökat dramatiskt över de senaste decenniet. För att detta samarbetet ska vara möjligt och säkert behöver robotarna genomgå en ordentlig säkerhetsanalys så att farliga situationer kan undvikas. Denna säkerhetsanalys inkluderar komplexa Computer Vision uppgifter som kräver mycket processorkraft. Därför kan inte robotar med begränsad processorkraft utföra dessa beräkningar utan fördröjning, utan måste istället förlita sig på utomstående infrastruktur för att exekvera dem. Vid vissa tillfällen kan dock denna utomstående infrastruktur inte finnas på plats eller vara svår att koppla upp sig till. Även vid dessa tillfällen måste robotar fortfarande kunna navigera sig själva genom en lokal, och samtidigt upprätthålla hög grad av säkerhet. Detta projekt fokuserar på att reducera komplexiteten och det totala antalet parametrar av för-tränade Computer Vision-modeller genom att använda modellkompressionstekniker så som: Beskärning och kunskapsdestilering. Dessa modellkompressionstekniker har starka teoretiska grunder och praktiska belägg, men mängden arbeten kring deras kombinerade effekt är begränsad, därför är just det undersökt i detta arbetet. Resultaten av det här projektet visar att up till 90% av det totala antalet parametrar hos en Computer Vision-modell kan tas bort utan någon noterbar försämring av modellens säkerhet. Human-Robot-Collaboration(HRC) Model Compression Pruning Knowledge Distillation Object Detection Mänskligt-Robot-Samarbete Modellkomprimering Beskärning Kunskapsdestillation Objektavkänning Information Systems
424	Digitizing notes using a moving smartphone : Evaluating Oriented FAST and Rotated BRIEF (ORB) / Digitalisering av notiser med en rörlig smartphone : Utvärdering av Oriented FAST and Rotated BRIEF (ORB) Wieslander, Johan January 2021 (has links) This thesis investigates the problem of tracking objects for an Augmented Reality (AR) setting. More specifically, the issue of tracking Post-It® notes to be used in a Mobile Augmented Reality (MAR) application using the Oriented FAST and Rotated BRIEF (ORB) keypoint extractor and descriptor, is investigated. This problem explores the relatively new and unexplored territory of tracking specific objects in real-time on mobile devices. Since MAR is becoming more prevalent, this is a field that is likely to be explored in more depth in the future. A solution was implemented in an existing note scanning application. Test sequences, with accompanying ground truth, were created for the applicable scenarios. The test sequences were used to reliably verify and evaluate the implementation with regard to precision, recall, accuracy, and speed. The ground truth was generated in a Mixed-Initiative Computing (MIC) application. The results show that tracking using only ORB is not viable if high precision, recall, or accuracy is needed. While tracking via ORB may not be viable as a standalone solution, the thesis describes methods for using it in a MIC setting, which may be viable. / Denna masteruppsats undersöker spårning av objekt för användning i en AR- miljö. Mer specifikt så undersöks spårning av Post-It®-notiser för användning i en MAR applikation med hjälp av ORB. Det här problemet utforskar det relativt nya och outforksade området rörande spårning av specifika objekt i realtid på mobila enheter. Eftersom MAR blir alltmer vanligt förekommande, så kommer det här forskningsområdet troligtvis att utforskas mer ingående i framtiden. En lösning implementeras utöver en existerande applikation for att skanna notiser. Testsekvenser, med ackompanjerande faktisk data skapades för de relevanta scenarierna. Dessa testsekvenser användes för att kunna verifiera och utvärdera implementationen med avseende på precision, återkall, träffsäkerhet och snabbhet. All faktisk data genererades i en MIC-applikation. Resultaten visar att spårning med enbart ORB är inte genomförbart om höga krav på precision, återkall, träffsäkerhet eller snabbhet behövs. Medan spårning via ORB måhända inte är genomförbart i nuläget som en självstående lösning, så har den här mastersuppsatsen beskrivit metoder för att använda ORB i en MIC-applikation. Något som faktiskt kan vara genomförbart. Augmented reality Computer vision Mobile applications Object detection Feature extraction Human computer interaction Augmented reality Förstärkt verklighet Datorseende Mobila applikationer Objectdetektion Människa-datorinteraktion Computer Sciences Datavetenskap (datalogi)
425	Low-power high-resolution image detection Merchant, Caleb 09 August 2019 (has links) Many image processing algorithms exist that can accurately detect humans and other objects such as vehicles and animals. Many of these algorithms require large amounts of processing often requiring hardware acceleration with powerful central processing units (CPUs), graphics processing units (GPUs), field programmable gate arrays (FPGAs), etc. Implementing an algorithm that can detect objects such as humans at longer ranges makes these hardware requirements even more strenuous as the numbers of pixels necessary to detect objects at both close ranges and long ranges is greatly increased. Comparing the performance of different low-power implementations can be used to determine a trade-off between performance and power. An image differencing algorithm is proposed along with selected low-power hardware that is capable of detected humans at ranges of 500 m. Multiple versions of the detection algorithm are implemented on the selected hardware and compared for run-time performance on a low-power system. object detection image detection low-power long-range high-resolution image differencing frame differencing morphology multi-threading hardware acceleration ARM Vivante NXP GPU CPU
426	Real-Time Object Motion and 3D Localization from Geometry Lee, Young Jin January 2014 (has links) No description available. Geographic Information Science 3D positioning 3D tracking object detection multiple cameras motion from geometry tracking from geometry real-time 3D positioning multiple camera tracking
427	A Real-Time Computational Decision Support System for Compounded Sterile Preparations using Image Processing and Artificial Neural Networks Regmi, Hem Kanta January 2016 (has links) No description available. Electrical Engineering
428	Progressively Expanded Neural Network for Automatic Material Identification in Hyperspectral Imagery Paheding, Sidike January 2016 (has links) No description available. Computer Engineering Electrical Engineering Remote Sensing Hyperspectral imagery neural network object detection classification joint transform correlation progressively expanded neural network spectral-spatial features
429	Optimization of Convolutional Neural Networks for Enhanced Compression Techniques and Computer Vision Applications Couture Del Valle, Christopher Javier 26 July 2022 (has links) No description available. Computer Engineering deep learning computer vision image codec optimization neural networks convolutional neural networks image compression YOLOv5 Optuna machine learning framework IR object detection
430	The V-SLAM Hurdler : A Faster V-SLAM System using Online Semantic Dynamic-and-Hardness-aware Approximation / V-SLAM Häcklöparen : Ett Snabbare V-SLAM System med Online semantisk Dynamisk-och-Hårdhetsmedveten Approximation Mingxuan, Liu January 2022 (has links) Visual Simultaneous Localization And Mapping (V-SLAM) and object detection algorithms are two critical prerequisites for modern XR applications. V-SLAM allows XR devices to geometrically map the environment and localize itself within the environment, simultaneously. Furthermore, object detectors based on Deep Neural Network (DNN) can be used to semantically understand what those features in the environment represent. However, both of these algorithms are computationally expensive, which makes it challenging for them to achieve good real-time performance on device. In this thesis, we first present TensoRT Quantized YOLOv4 (TRTQYOLOv4), a faster implementation of YOLOv4 architecture [1] using FP16 reduced precision and INT8 quantization powered by NVIDIA TensorRT [2] framework. Second, we propose the V-SLAM Hurdler: A Faster VSLAM System using Online Dynamic-and-Hardness-aware Approximation. The proposed system integrates the base RGB-D V-SLAM ORB-SLAM3 [3] with the INT8 TRTQ-YOLOv4 object detector, a novel Entropy-based Degreeof- Difficulty Estimator, an Online Hardness-aware Approximation Controller and a Dynamic Object Eraser, applying online dynamic-and-hardness aware approximation to the base V-SLAM system during runtime while increasing its robustness in dynamic scenes. We first evaluate the proposed object detector on public object detection dataset. The proposed FP16 precision TRTQ-YOLOv4 achieves 2×faster than the full-precision model without loss of accuracy, while the INT8 quantized TRTQ-YOLOv4 is almost 3×faster than the full-precision one with only 0.024 loss in mAP@50:5:95. Second, we evaluate our proposed V-SLAM system on public RGB-D SLAM dataset. In static scenes, the proposed system speeds up the base VSLAM system by +21.2% on average with only −0.7% loss of accuracy. In dynamic scenes, the proposed system not only accelerate the base system by +23.5% but also improves the accuracy by +89.3%, making it as robust as in the static scenes. Lastly, the comparison against the state-of-the-art SLAMs designed dynamic environments shows that our system outperforms most of the compared methods in highly dynamic scenes. / Visual SLAM (V-SLAM) och objektdetekteringsalgoritmer är två kritiska förutsättningar för moderna XR-applikationer. V-SLAM tillåter XR-enheter att geometriskt kartlägga miljön och lokalisera sig i miljön samtidigt. Dessutom kan DNN-baserade objektdetektorer användas för att semantiskt förstå vad dessa egenskaper i miljön representerar. Men båda dessa algoritmer är beräkningsmässigt dyra, vilket gör det utmanande för dem att uppnå bra realtidsprestanda på enheten. I det här examensarbetet presenterar vi först TRTQ-YOLOv4, en snabbare implementering av YOLOv4 arkitektur [1] med FP16 reducerad precision och INT8 kvantisering som drivs av NVIDIA TensorRT [2] ramverk. För det andra föreslår vi V-SLAM-häckaren: ett snabbare V-SLAM-system som använder online-dynamisk och hårdhetsmedveten approximation. Det föreslagna systemet integrerar basen RGB-D V-SLAM ORB-SLAM3 [3] med INT8 TRTQYOLOv4 objektdetektorn, en ny Entropi-baserad svårighetsgradsuppskattare, en online hårdhetsmedveten approximationskontroller och en Dynamic Object Eraser, applicerar online-dynamik- och hårdhetsmedveten approximation till bas-V-SLAM-systemet under körning samtidigt som det ökar dess robusthet i dynamiska scener. Vi utvärderar först den föreslagna objektdetektorn på datauppsättning för offentlig objektdetektering. Den föreslagna FP16 precision TRTQ-YOLOv4 uppnår 2× snabbare än fullprecisionsmodellen utan förlust av noggrannhet, medan den INT8 kvantiserade TRTQ-YOLOv4 är nästan 3× snabbare än fullprecisionsmodellen med endast 0.024 förlust i mAP@50:5:95. För det andra utvärderar vi vårt föreslagna V-SLAM-system på offentlig RGB-D SLAM-datauppsättning. I statiska scener snabbar det föreslagna systemet upp V-SLAM-bassystemet med +21.2% i genomsnitt med endast −0.7% förlust av noggrannhet. I dynamiska scener accelererar det föreslagna systemet inte bara bassystemet med +23.5% utan förbättrar också noggrannheten med +89.3%, vilket gör det lika robust som i de statiska scenerna. Slutligen visar jämförelsen med de senaste SLAM-designade dynamiska miljöerna att vårt system överträffar de flesta av de jämförda metoderna i mycket dynamiska scener. Approximate Computing Deep Learning Dynamic Environments Object Detection Online Controller Semantic SLAM Ungefärlig Beräkning Djup Lärning Dynamiska miljöer Objektdetektion Online Kontroller Semantisk SLAM Computer and Information Sciences Data- och informationsvetenskap

Search results