• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 26
  • 11
  • Tagged with
  • 37
  • 31
  • 31
  • 29
  • 24
  • 22
  • 19
  • 18
  • 17
  • 16
  • 15
  • 12
  • 11
  • 8
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Layout Analysis on modern Newspapers using the Object Detection model Faster R-CNN

Funkquist, Mikaela January 2022 (has links)
As society is becoming more and more digitized the amount of digital data is increasing rapidly. Newspapers are one example of this, that many Libraries around the world are storing as digital images. This enables a great opportunity for research on Newspapers, and a particular research area is Document Layout Analysis where one divides the document into different segments and classifies them. In this thesis modern Newspaper pages, provided by KBLab, were used to investigate how well a Deep Learning model developed for General Object Detection performs in this area. In particular the Faster R-CNN Object detection model was trained on manually annotated newspaper pages from two different Swedish publishers, namely Dagens Nyheter and Aftonbladet. All newspaper pages were taken from editions published between 2010 and 2020, meaning only modern newspapers were considered. The methodology in this thesis involved sampling editions from the given publishers and time periods and then manually annotating these by marking out the desired layout elements with bounding boxes. The classes considered were: headlines, subheadlines, decks, charts/infographics, photographs, pull quotes, cartoons, fact boxes, bylines/credits, captions, tableaus and tables. Given the annotated data, a Faster R-CNN with a ResNet-50-FPN backbone was trained on both the Dagens Nyheter and Aftonbladet train sets and then evaluated on different test set. Results such as a mAP0.5:0.95 of 0.6 were achieved for all classes, while class-wise evaluation indicate precisions around 0.8 for some classes such as tableaus, decks and photographs. / I takt med att samhället blir mer och mer digitaliserat ökar mängden digital data snabbt. Tidningar är ett exempel på detta, som många bibliotek runt om i världen lagrar som digitala bilder. Detta möjliggör en stor möjlighet för forskning på tidningar, och ett särskilt forskningsområde är Dokument Layout Analys där man delar in dokumentet i olika segment och klassificerar dem. I denna avhandling användes moderna tidningssidor, tillhandahållna av KBLab, för att undersöka hur väl en djupinlärnings-modell utvecklad för generell Objektdetektering presterar inom detta område. Mer precist, tränades en Faster R-CNN Objektdetekteringsmodell på manuellt annoterade tidningssidor från två olika svenska förlag, nämligen Dagens Nyheter och Aftonbladet. Alla tidningssidor togs från utgåvor som publicerats mellan 2010 och 2020, vilket innebär att endast moderna tidningar behandlades. Metodiken i detta examensarbete innebar att först göra ett urval av utgåvor från givna förlag och tidsperioder och sedan manuellt annotera dessa genom att markera ut önskade layoutelement med begränsningsrutor. Klasserna som användes var: rubriker, underrubriker, ingress, diagram/infografik, fotografier, citat, tecknade serier, faktarutor, författares signatur, bildtexter, tablåer och tabeller. Givet den annoterade datan, tränades en Faster R-CNN med en ResNet-50-FPN ryggrad på både Dagens Nyheter och Aftonbladet träningsdatan och sedan utvärderades dem på olika testset. Resultat som mAP0.5:0.95 på 0.6 uppnåddes för alla klasser, medan klassvis utvärdering indikerar precision kring 0.8 för vissa klasser som tablåer, ingresser och fotografier.
22

A Study on Fault Tolerance of Image Sensor-based Object Detection in Indoor Navigation / En studie om feltolerans för bildsensorbaserad objektdetektering i inomhusnavigering

Wang, Yang January 2022 (has links)
With the fast development of embedded deep-learning computing systems, applications powered by deep learning are moving from the cloud to the edge. When deploying NN onto the devices under complex environments, there are various types of possible faults: soft errors caused by cosmic radiation and radioactive impurities, voltage instability, aging, temperature variations, etc. Thus, more attention is drawn on the reliability of the NN embedded system. In this project, we build a virtual simulation system in Gazebo to simulate and test the working of an embedded NN system in the virtual environment in indoor navigation. The system can detect objects in the virtual environment with the help of the virtual camera(the image sensor) and the object detection module, which is based on YOLO v3, and make corresponding control decisions. We also designed and simulated the corresponding error injection module according to the working principle of the image sensor, and tested the functionality, and fault tolerance of the YOLO network. At the same time, network pruning algorithm is also introduced to study the relationship between different degrees of network pruning and network fault tolerance to sensor faults. / Med den snabba utvecklingen av inbyggda datorsystem för djupinlärning flyttas applikationer som drivs av djupinlärning från molnet till kanten. När man distribuerar NN på enheterna under komplexa miljöer finns det olika typer av möjliga fel: mjuka fel orsakade av kosmisk strålning och radioaktiva föroreningar, spänningsinstabilitet, åldrande, temperaturvariationer, illvilliga angripare, etc. Därför är mer uppmärksamhet ritade om tillförlitligheten hos det inbyggda NN-systemet. I det här projektet bygger vi ett virtuellt simuleringssystem för att simulera och testa hur ett inbäddat NN-system fungerar i den virtuella miljö vi ställer upp. Systemet kan upptäcka objekt i den virtuella miljön enligt den virtuella kameran och objektdetekteringsmodulen, som är baserad på YOLO v3, och göra motsvarande kontrollstrategier. Vi designade och simulerade också motsvarande felinsprutningsmodul enligt bildsensorns arbetsprincip och testade funktionalitet, tillförlitlighet och feltolerans hos YOLO-nätverket. Samtidigt nätverk beskärningsalgoritm introduceras också för att studera sambandet mellan olika grader av nätverksbeskärning och nätverksfeltolerans.
23

Pruning a Single-Shot Detector for Faster Inference : A Comparison of Two Pruning Approaches / Beskärning av en enstegsdetektor för snabbare prediktering : En jämförelse av två beskärningsmetoder för djupa neuronnät

Beckman, Karl January 2022 (has links)
Modern state-of-the-art object detection models are based on convolutional neural networks and can be divided into single-shot detectors and two-stage detectors. Two-stage detectors exhibit impressive detection performance but their complex pipelines make them slow. Single-shot detectors are not as accurate as two-stage detectors, but are faster and can be used for real-time object detection. Despite the fact that single-shot detectors are faster, a large number of calculations are still required to produce a prediction that not many embedded devices are capable of doing in a reasonable time. Therefore, it is natural to ask if single-shot detectors could become faster even. Pruning is a technique to reduce the size of neural networks. The main idea behind network pruning is that some model parameters are redundant and do not contribute to the final output. By removing those redundant parameters, fewer computations are needed to produce predictions, which may lead to a faster inference and since the parameters are redundant, the model accuracy should not be affected. This thesis investigates two approaches for pruning the SSD-MobileNet- V2 single-shot detector. The first approach prunes the single-shot detector by a large portion and retrains the remaining parameters only once. In the other approach, a smaller portion is pruned, but pruning and retraining are done in an iterative fashion, where pruning and retraining constitute one iteration. Beyond comparing two pruning approaches, the thesis also studies the tradeoff between model accuracy and inference speed that pruning induces. The results from the experiments suggest that the iterative pruning approach preserves the accuracy of the original model better than the other approach where pruning and finetuning are performed once. For all four pruning levels that the two approaches are compared iterative pruning yields more accurate results. In addition, an inference evaluation indicates that iterative pruning is a good compression method for SSD-MobileNet-V2, finding models that both are faster and more accurate than the original model. The thesis findings could be used to guide future pruning research on SSD-MobileNet- V2, but also on other single-shot detectors such as RetinaNet and the YOLO models. / Moderna modeller för objektsdetektering bygger på konvolutionella neurala nätverk och kan delas in i ensteg- och tvåstegsdetektorer. Tvåstegsdetektorer uppvisar imponerande detektionsprestanda, men deras komplexa pipelines gör dem långsamma. Enstegsdetektorer uppvisar oftast inte lika bra detektionsprestanda som tvåstegsdetektorer, men de är snabbare och kan användas för objektdetektering i realtid. Trots att enstegsdetektorer är snabbare krävs det fortfarande ett stort antal beräkningar för att få fram en prediktering, vilket inte många inbyggda enheter kan göra på rimlig tid. Därför är det naturligt att fråga sig om enstegsdetektorer kan bli ännu snabbare. Nätverksbeskärning är en teknik för att minska storleken på neurala nätverk. Huvudtanken bakom nätverksbeskärning är att vissa modellparametrar är överflödiga och inte bidrar till det slutliga resultatet. Genom att ta bort dessa överflödiga parametrar krävs färre beräkningar för att producera en prediktering, vilket kan leda till att nätverket blir snabbare och eftersom parametrarna är överflödiga bör modellens detektionsprestanda inte påverkas. I den här masteruppsatsen undersöks två metoder för att beskära enstegsdetektorn SSD-MobileNet-V2. Det första tillvägagångssättet går ut på att en stor del av detektorn vikter beskärs och att de återstående parametrarna endast finjusteras en gång. I det andra tillvägagångssättet beskärs en mindre del, men beskärning och finjustering sker på ett iterativt sätt, där beskärning och finjustering utgör en iteration. Förutom att jämföra två metoder för beskärning studeras i masteruppsatsen också den kompromiss mellan modellens detektionsprestanda och inferenshastighet som beskärningen medför. Resultaten från experimenten tyder på att den iterativa beskärningsmetoden bevarar den ursprungliga modellens detektionsprestanda bättre än den andra metoden där beskärning och finjustering utförs en gång. För alla fyra beskärningsnivåer som de två metoderna jämförs ger iterativ beskärning mer exakta resultat. Dessutom visar en hastighetsutvärdering att iterativ beskärning är en bra komprimeringsmetod för SSD-MobileNet-V2, eftersom modeller som både snabbare och mer exakta än den ursprungliga modellen går att hitta. Masteruppsatsens resultat kan användas för att vägleda framtida forskning om beskärning av SSD-MobileNet-V2, men även av andra enstegsdetektorer, t.ex. RetinaNet och YOLO-modellerna.
24

Instance Segmentation for Printed Circuit Board (PCB) Component Analysis : Exploring CNNs and Transformers for Component Detection on Printed Circuit Boards

Möller, Oliver January 2023 (has links)
In the intricate domain of Printed Circuit Boards (PCBs), object detection poses unique challenges, particularly given the broad size spectrum of components, ranging from a mere 2 pixels to several thousand pixels within a single high-resolution image, often averaging 4000x3000 pixels. Such resolutions are atypical in the realm of deep learning for computer vision, making the task even more demanding. Further complexities arise from the significant intra-class variability and minimal inter-class differences for certain component classes. In this master thesis, we rigorously evaluated the performance of a CNN-based object detection framework (FCOS) and a transformer model (DETR) for the task. Additionally, by integrating the novel foundational model from Meta, named ”Segment Anything,” we advanced the pipeline to include instance segmentation. The resultant model is proficient in detecting and segmenting component instances on PCB images, achieving an F1 score of 81% and 82% for the primary component classes of resistors and capacitors, respectively. Overall, when aggregated over 18 component classes, the model attains a commendable F1 score of 74%. This study not only underscores the potential of advanced deep learning techniques in PCB analysis but also paves the way for future endeavors in this interdisciplinary convergence of electronics and computer vision / I det komplicerade området med kretskort (PCB) innebär objektdetektering unika utmaningar, särskilt med tanke på det breda storleksspektrumet av komponenter, från bara 2 pixlar till flera tusen pixlar i en enda högupplöst bild, ofta i genomsnitt 4000x3000 pixlar. Sådana upplösningar är atypiska när det gäller djupinlärning för datorseende, vilket gör uppgiften ännu mer krävande. Ytterligare komplexitet uppstår från den betydande variationen inom klassen och minimala skillnader mellan klasserna för vissa komponentklasser. I denna masteruppsats utvärderade vi noggrant prestandan hos ett CNNbaserat ramverk för objektdetektering (FCOS) och en transformatormodell (DETR) för uppgiften. Genom att integrera den nya grundmodellen från Meta, med namnet ”Segment Anything”, utvecklade vi dessutom pipelinen för att inkludera instanssegmentering. Den resulterande modellen är skicklig på att upptäcka och segmentera komponentinstanser på PCB-bilder och uppnår en F1-poäng på 81% och 82% för de primära komponentklasserna resistorer respektive kondensatorer. När modellen aggregeras över 18 komponentklasser uppnår den en F1-poäng på 74%. Denna studie understryker inte bara potentialen hos avancerade djupinlärningstekniker vid PCB-analys utan banar också väg för framtida insatser inom denna tvärvetenskapliga konvergens av elektronik och datorseende.
25

Self-supervised Learning for Efficient Object Detection / Självövervakat lärande för effektiv Objektdetektering

Berta, Benjamin István January 2021 (has links)
Self-supervised learning has become a prominent approach in pre-training Convolutional Neural Networks for computer vision. These methods are able to achieve state-of-the-art representation learning with unlabeled datasets. In this thesis, we apply Self-supervised Learning to the object detection problem. Previous methods have used large networks that are not suitable for embedded applications, so our goal was to train lightweight networks that can reach the accuracy of supervised learning. We used MoCo as a baseline for pre-training a ResNet-18 encoder and finetuned it on the COCO object detection task using a RetinaNet object detector. We evaluated our method based on the COCO evaluation metric with several additions to the baseline method. Our results show that lightweight networks can be trained by self-supervised learning and reach the accuracy of the supervised learning pre-training. / Självledd inlärning har blivit ett framträdande tillvägagångssätt vid träning av ”Convolutional Neural Networks” för datorseende. Dessa metoder kan uppnå topp prestanda med representationsinlärning med omärkta datamängder. I det här examensarbetet tillämpar vi Självledd inlärning på objektdetekteringsproblemet. Tidigare metoder har använt stora nätverk som inte är lämpliga för inbyggda applikationer, så vårt mål var att träna lättviktsnätverk som kan nå noggrannheten av ett tränat nätverk. Vi använde MoCo som basnivå för träning av en ResNet-18-kodare och finjusterade den på COCO-objektdetekteringsuppgiften med hjälp av en RetinaNet-objektdetektor. Vi utvärderade vår metod baserat på COCO-utvärderingsmåttet med flera tillägg till baslinjemetoden. Våra resultat visar att lättviktsnätverk kan tränas genom självledd inlärning och uppnå samma precisionen som för ett tränat nätverk.
26

Utvärdering av noggrannheten av kastparablar på en iPad / Accuracy evaluation of trajectories on an iPad

Waninger, Mikael, Rothman, Sofia January 2022 (has links)
Prestationsmätning och analys används inom sporter för att förbättra en spelares resultat relaterade till sin respektive sport. För analys finns labb och/eller dyr utrustning vilket gör den svårtillgänglig för icke-professionella utövare. Att minska kostnaden för mätverktyg bidrar till mer jämlika förutsättningar för spelare oavsett inkomst eller ålder. Den här studien syftar till att undersöka om en smartphone eller surfplatta kan användas för mätning och sportanalys. För att utforska detta utvecklades en applikation med fokus på projektilsporter som fotboll, tennis och golf. Applikationen testar visualisering av ett objekts parabel, mätning av dess hastighet och visualisering av dess träff i ett vertikalt plan. Applikationen utvecklades för iOS och testades på en iPad 12 pro. Tester för att validera applikationens noggrannhet utfördes med en fotboll, en tennisboll och en golfboll. Testresultaten för visualisering av parabel gav resultat för fotboll och tennisboll men kunde inte hantera golfbollens mindre storlek. Hastighet kunde mätas för alla tre bollar med en genomsnittlig procentuell avvikelse på 76% för fotboll, 21% för tennisboll och 43% för golfboll. Testresultaten för visualisering av ett objekts träff i ett målplan visade resultat för fotboll och tennisboll, men inte för en golfboll. Den genomsnittliga procentuella avvikelsen var 89% för fotboll respektive 23% för tennisboll. / Measuring and analyzing player performance within sports helps to improve a players results in regards to their respective sport. Specialized labs and or expensive equipment are used for analysis but are difficult to access for the average player. Decreasing the cost of measurement tools would help equalize the playing field for players regardless of age or economic background. This study evaluates if a smartphone or tablet can be used to perform the same task. To achieve this an application was developed with a focus on projectile sports such as soccer, tennis, or golf. The application will visualize a parabola, measure speed, and visualize the point where an object hits a vertical plane. The application was developed for iOS and was tested on an iPad 12 pro. The tests were performed with a soccer ball, tennis ball and golf ball. Tests for visualizing a parabola produced results for the soccer ball and the tennis ball but could not handle the golf balls smaller size. Speed was measured for all three balls with an average percentual offset of 76% for the soccer ball, 21% for the tennis ball and 43% for the golf ball. Hit on a vertical plan produced results for the soccer ball and tennis ball with an average percentual offset of 89% for the soccer ball and 23% for the tennis ball.
27

Objektdetektering av trafikskyltar på inbyggda system med djupinlärning / Object detection of traffic signs on embedded systems using deep learning

Wikström, Pontus, Hotakainen, Johan January 2023 (has links)
In recent years, AI has developed significantly and become more popular than ever before. The applications of AI are expanding, making knowledge about its application and the systems it can be applied to more important. This project compares and evaluates deep learning models for object detection of traffic signs on the embedded systems Nvidia Jetson Nano and Raspberry Pi 3 Model B. The project compares and evaluates the models YOLOv5, SSD Mobilenet V1, FOMO, and Efficientdet-lite0. The project evaluates the performance of these models on the aforementioned embedded systems, measuring metrics such as CPU usage, FPS and RAM. Deep learning models are resource-intensive, and embedded systems have limited resources. Embedded systems often have different types of processor architectures than regular computers, which means that some frameworks and libraries may not be compatible. The results show that the tested systems are capable of object detection but with varying performance. Jetson Nano performs at a level we consider sufficiently high for use in production depending on the specific requirements. Raspberry Pi 3 performs at a level that may not be acceptable for real-time recognition of traffic signs. We see the greatest potential for Efficientdet-lite0 and YOLOv5 in recognizing traffic signs. The distance at which the models detect signs seems to be important for how many signs they find. For this reason, SSD MobileNet V1 is not recommended without further trai-ning despite its superior speed. YOLOv5 stood out as the model that detected signs at the longest distance and made the most detections overall. When considering all the results, we believe that Efficientdet-lite0 is the model that performs the best. / Under de senaste åren har AI utvecklats mycket och blivit mer populärt än någonsin. Tillämpningsområdena för AI ökar och därmed blir kunskap om hur det kan tillämpas och på vilka system viktigare. I det här projektet jämförs och utvärderas djupinlärningsmodeller för objektdetektering av trafikskyltar på de inbyggda systemen Nvidia Jetson Nano och Raspberry Pi 3 Model B. Modellerna som jämförs och utvärderas är YOLOv5, SSD Mobilenet V1, FOMO och Efficientdet-lite0. För varje modell mäts blandannat CPU-användning, FPS och RAM. Modeller för djupinlärning är resurskrävande och inbyggda system har begränsat med resurser. Inbyggda system har ofta andra typer av processorarkitekturer än en vanlig dator vilket gör att olika ramverk och andra bibliotek inte är kompatibla. Resultaten visar att de testade systemen klarar av objektdetektering med varierande prestation. Jetson Nano presterar på en nivå vi anser vara tillräckligt hög för användning i produktion beroende på hur hårda krav som ställs. Raspberry Pi 3 presterar på en nivå som möjligtvis inte är acceptabel för igenkänning av trafikskyltar i realtid. Vi ser störst potential för Efficientdet-lite0 och YOLOv5 för igenkänning av trafikskyltar. Hur långt avstånd modellerna upptäcker skyltar på verkar vara viktigt för hur många skyltar de hittar. Av den anledningen är SSD MobileNet V1 inte att rekommendera utan vidare träning trots sin överlägsna hastighet. YOLOv5 utmärkte sig som den som upptäckte skyltar på längst avstånd och som gjorde flest upptäckter totalt. När alla resultat vägs in anser vi dock att Efficientdet-lite0 är den modell som presterar bäst.
28

Utveckling av stöd för synskadade med hjälp av AI och datorseende : Designprinciper för icke-visuella gränssnitt

Schill, William, Berngarn, Philip January 2022 (has links)
Denna studie ämnar att undersöka och identifiera lämpliga designprinciper för interaktiva system med icke-visuella gränssnitt. Genom att utveckla och ta fram ett hjälpmedel för synskadade människor med hjälp av AI och datorseende, är det möjligt att identifiera och utvärdera viktiga designprinciper. Teorier har samlats in kring interaktiva system, designprinciper, AI och datorseende för att både kunna utveckla en artefakt men också förstå befintliga designprinciper för interaktiva system. Design Science Research Methodology har använts som metod för att utveckla en artefakt i form av ett hjälpmedel som känner av olika objekt i realtid. Metoden har genom en iterativ process kunnat identifiera och utvärdera olika krav för artefakten som sedan resulterat i ett designförslag. För att identifiera kraven har kvalitativ data i form av semistrukturerade användarintervjuer samlats in från fem personer med en synskada. Avslutningsvis presenteras kopplingen mellan de krav som framkommit under intervjuerna och  befintliga designprinciper för interaktiva system med grafiska användargränssnitt. Ett förslag på vidare forskning inom ämnet diskuteras också. / This study aims to examine and identify appropriate design principles for interactive systems without visual interfaces. By developing an aid for the visually impaired with the help of AI and computer vision, it is possible to identify and evaluate important design principles. Theories within interactive systems, design principles, AI and computer vision have been collected in order to develop an artifact and to understand existing design principles. Design Science Research Methodology has been used to develop an aid that can detect objects in real-time. The method has been able to identify and evaluate different requirements for the artifact through an iterative process that results in a design proposal. In order to identify the requirements, qualitative data was collected from five people with visual impairment by conducting semi-structured interviews. Finally, the connection between the requirements identified from the interviews, and the existing design principles for interactive systems with graphical user interfaces is presented. A proposal for further research within the area is also discussed.
29

Proposal networks in object detection / Förslagsnätverk för objektdetektering

Grossman, Mikael January 2019 (has links)
Locating and extracting useful data from images is a task that has been revolutionized in the last decade as computing power has risen to such a level to use deep neural networks with success. A type of neural network that uses the convolutional operation called convolutional neural network (CNN) is suited for image related tasks. Using the convolution operation creates opportunities for the network to learn their own filters, that previously had to be hand engineered. For locating objects in an image the state-of-the-art Faster R-CNN model predicts objects in two parts. Firstly, the region proposal network (RPN) extracts regions from the picture where it is likely to find an object. Secondly, a detector verifies the likelihood of an object being in that region.For this thesis, we review the current literature on artificial neural networks, object detection methods, proposal methods and present our new way of generating proposals. By replacing the RPN with our network, the multiscale proposal network (MPN), we increase the average precision (AP) with 12% and reduce the computation time per image by 10%. / Lokalisering av användbar data från bilder är något som har revolutionerats under det senaste decenniet när datorkraften har ökat till en nivå då man kan använda artificiella neurala nätverk i praktiken. En typ av ett neuralt nätverk som använder faltning passar utmärkt till bilder eftersom det ger möjlighet för nätverket att skapa sina egna filter som tidigare skapades för hand. För lokalisering av objekt i bilder används huvudsakligen Faster R-CNN arkitekturen. Den fungerar i två steg, först skapar RPN boxar som innehåller regioner där nätverket tror det är störst sannolikhet att hitta ett objekt. Sedan är det en detektor som verifierar om boxen är på ett objekt .I denna uppsats går vi igenom den nuvarande litteraturen i artificiella neurala nätverk, objektdektektering, förslags metoder och presenterar ett nytt förslag att generera förslag på regioner. Vi visar att genom att byta ut RPN med vår metod (MPN) ökar vi precisionen med 12% och reducerar tiden med 10%.
30

CenterPoint-based 3D Object Detection in ONCE Dataset

Du, Yuwei January 2022 (has links)
High-efficiency point cloud 3D object detection is important for autonomous driving. 3D object detection based on point cloud data is naturally more complex and difficult than the 2D task based on images. Researchers keep working on improving 3D object detection performance in autonomous driving scenarios recently. In this report, we present our optimized point cloud 3D object detection model based on CenterPoint method. CenterPoint detects centers of objects using a keypoint detector on top of a voxel-based backbone, then regresses to other attributes. On the basis of this, our modified model is featured with an improved Region Proposal Network (RPN) with extended receptive field, an added sub-head that produces an IoU-aware confidence score, as well as box ensemble inference strategies with more accurate predictions. These model enhancements, together with class-balanced data pre-processing, lead to a competitive accuracy of 72.02 mAP on ONCE Validation Split, and 79.09 mAP on ONCE Test Split. Our model gains the fifth place of ICCV 2021 Workshop SSLAD Track 3D Object Detection Challenge. / Högeffektiv punktmoln 3D-objektdetektering är viktig för autonom körning. 3D-objektdetektering baserad på punktmolnsdata är naturligtvis mer komplex och svårare än 2D-uppgiften baserad på bilder. Forskare fortsätter att arbeta med att förbättra 3D-objektdetekteringsprestandan i scenarier för autonom körning nyligen. I den här rapporten presenterar vi vår optimerade 3D-objektdetekteringsmodell baserad på CenterPoint. CenterPoint upptäcker objektcentrum med hjälp av en nyckelpunktsdetektor ovanpå en voxelbaserad ryggrad och går sedan tillbaka till andra attribut. På grundval av detta presenteras vår modifierade modell med ett förbättrat regionförslagsnätverk med utökat receptivt fält, en extra underrubrik som producerar en IoU-medveten konfidenspoäng och ensemblestrategier med mer exakta förutsägelser. Dessa modellförbättringar, tillsammans med klassbalanserad dataförbehandling, leder till en konkurrenskraftig noggrannhet på 72,02 mAP på ONCE Validation Split och 79,09 mAP på ONCE Test Split. Vår modell vinner femteplatsen i ICCV 2021 Workshop SSLAD Track 3D Object Detection Challenge.

Page generated in 0.3406 seconds