Global ETD Search

11	Unsupervised Domain Adaptation for 3D Object Detection Using Adversarial Adaptation : Learning Transferable LiDAR Features for a Delivery Robot / Icke-vägledd Domänanpassning för 3D-Objektigenkänning Genom Motspelaranpassning : Inlärning av Överförbara LiDAR-Drag för en Leveransrobot Hansson, Mattias January 2023 (has links) 3D object detection is the task of detecting the full 3D pose of objects relative to an autonomous platform. It is an important perception system that can be used to plan actions according to the behavior of other dynamic objects in an environment. Due to the poor generalization of object detectors trained and tested on different datasets, this thesis concerns the utilization of unsupervised domain adaptation to train object detectors fit for mobile robotics without any labeled training data. To tackle the problem a novel approach Unsupervised Adversarial Domain Adaptation 3D (UADA3D) is presented to adapt LiDAR-based detectors, through drawing inspiration from the success of adversarial adaptation for 2D object detection in RGB images. The method adds learnable discriminator layers that discriminate between the features and bounding box predictions in the labeled source and unlabeled target data. The gradients are then reversed through gradient reversal layers during backpropagation to the base detector, which in turn learns to extract features that are similar between the domains in order to fool the discriminator. The method works for multi-class detection by simultaneous adaptation of all classes in an end-to-end trainable network and works for both point-based and voxel-based single-stage detectors. The results show that the proposed method increases detection scores for adaptation from dense to sparse point clouds and from simulated data toward the data of a mobile delivery robot, successfully handling the two relevant domain gaps given by differences in marginal and conditional probability distributions. / 3D-objektdetektering handlar om att upptäcka hela 3D-positionen för objekt i förhållande till en autonom plattform. Det är ett viktigt perceptionsystem som kan användas för att planera åtgärder baserat på beteendet hos andra dynamiska objekt i en miljö. På grund av den dåliga generaliseringen av objektavkännare som tränats och testats på olika datamängder, handlar denna avhandling om användningen av osuperviserad domänanpassning för att träna objektavkännare som är anpassade för mobila robotar utan några märkta träningsdata. För att tackla problemet presenteras ett nytt tillvägagångssätt Unsupervised Adversarial Domain Adaptation 3D (UADA3D) för att anpassa LiDAR-baserade avkännare, genom att ta inspiration från framgången av mospelaranpassning för 2D-objektdetektering i RGB-bilder. Metoden lägger till inlärbara diskriminatorlager som diskriminerar mellan egenskaperna och prediktionerna i annoterad käll- och oannoterad måldata. Gradienterna är sedan reverserae genom gradientreversering under bakåtpropagering till basdetekorn, som i sin tur lär sig att extrahera egenskaper som är liknande mellan domänerna för att lura diskriminatorn. Metoden fungerar för flerklassdetektering genom samtidig anpassning av alla klasser i ett end-to-end-träningsbart nätverk och fungerar för både punktbaserade och voxelbaserade enstegs detektorere. Resultaten visar att den föreslagna metoden förbättrar detektionen för domänanpassning från täta till glesa punktmoln och från simulerad data till data från en mobil leveransrobot, därmed hanterar metoden framgångsrikt de två relevanta domänskillnaderna i marginella- och betingade sannolikhetsfördelningar. Unsupervised Domain Adaptation 3D Object Detection Mobile Robotics Adversarial Adaptation Computer Vision Oövervakad Domänanpassning 3D Objektigenkänning Mobila Robotar Motspelaranpassning Datorseende Robotics Robotteknik och automation Computer and Information Sciences Data- och informationsvetenskap
12	Robust Multi-Modal Fusion for 3D Object Detection : Using multiple sensors of different types to robustly detect, classify, and position objects in three dimensions. / Robust multi-modal fusion för 3D-objektdetektion : Använda flera sensorer av olka typer för att robust detektera, klassificera och positionera objekt i tre dimensioner. Kårefjärd, Viktor January 2023 (has links) The computer vision task of 3D object detection is fundamentally necessary for autonomous driving perception systems. These vehicles typically feature a multitude of sensors, such as cameras, radars, and light detection and ranging sensors. A neural network architecture approach to make use of these sensor modalities is a multi-modal 3D object detection network with a fusion step that combines the information from multiple data streams to jointly predicted bounding boxes of detected objects. How this step should be performed, however, remains largely an open question due to the contemporary nature of this literature space. Thus, the question arises: How can sensor information from different sensors be combined to perform 3D object detection for a real-world application such as a mobile delivery robot with robustness requirements and how should a fusion step be performed as a part of a larger multi-modal fusion network? This work explores state-of-the-art multi-modal fusion models by testing with sub-optimal sensor data augmentations to quantify robustness including LiDAR point cloud subsampling and low-resolution LiDAR data. Sensor-to-sensor misalignments from poor calibration, decalibration, or spatial-temporal mis-synchronization problems are also simulated and a set of fusion steps are compared and evaluated. Three novel fusion steps are proposed where the best-performing fusion step is a convolution fusion with an encode-decoder and a squeeze and excitation block. The results indicate how early and late fusion methods are sensitive to sub-optimal LiDAR sensor conditions, and thus not suitable for an application with requirements of robust detection. Instead, Deep-fusion based models are preferred. Furthermore, a bird’s eye fusion model is demonstrated to not be overly sensitive to small sensor-to-sensor misalignments, and how the proposed fusion step with an encoder-decoder structure and a squeeze and excitation block can further limit misalignment-related performance deficits. The introduction of sensor misalignment as a training augmentation is also proven to alleviate and generalize the fusion step under heavy misalignment. / Datorseende uppgiften 3D-objektdetektering är i grunden nödvändig för autonomt körande system. Dessa fordon har vanligtvis ett flertal sensorer, såsom kameror, radar och ljusdetekterings- och avståndssensorer. Ett tillvägagångssätt med neural nätverksarkitektur för att använda dessa sensormodaliteter är ett multimodalt 3D-objektdetekteringsnätverk med ett fusionssteg som kombinerar informationen från flera dataströmmar för att gemensamt föreslå beggrränsade boxar för upptäckta objekt. Hur detta steg bör utformas förblir dock till stor del en öppen fråga på grund av litteraturutrymmes obestämda karaktär. Därför uppstår frågan: Hur kan sensorinformation från olika sensorer kombineras för att utföra 3D-objektdetektering för en verklig applikation som en mobil leveransrobot med robusthetskrav och hur ska ett fusionssteg utföras som en del av i ett större multimodalt fusionsnätverk? Detta arbete utforskar moderna multimodala fusionsmodeller genom att testa med suboptimala sensordataaugmenteringar för att kvantifiera robusthet inklusive LiDAR punktmolnsdelsampling och lågupplöst LiDAR-data. Sensor-till-sensor feljusteringar från dålig kalibrering, dekalibrering eller rumsliga-temporala felsynkroniseringsproblem simuleras också och en uppsättning fusionssteg jämförs och utvärderas. Tre nya fusionssteg föreslås där det bästa fusionssteget av de presterande är en convolution med en inkodare-avkodare och ett kläm- och exciteringsblock. Resultaten indikerar hur tidiga och sena fusionsmetoder är känsliga för suboptimala LiDAR-sensorförhållanden och därför inte lämpar sig för en applikation med krav på robust detektion. Istället föredras djupfusion modeller. Dessutom har en fusionsmodell av fågelvy typ visat sig inte vara känslig för små sensor-till-sensor feljusteringar, och hur det föreslagna fusionssteget med en inkodare-avkodarestruktur och ett kläm- och exciteringsblock ytterligare kan begränsa feljusteringsrelaterade prestandabrister. Införandet av sensorfeljustering som en träningsaugmentering har också visat sig lindra och generalisera fusionssteget under kraftig feljustering. Computer Vision 3D Object Detection Multi-Modal Fusion Deep Learning Datorseenden 3D-objektdetektion Multimodal fusion Djupinlärning Robotics Robotteknik och automation Computer and Information Sciences Data- och informationsvetenskap
13	<b>LIDAR BASED 3D OBJECT DETECTION USING YOLOV8</b> Swetha Suresh Menon (18813667) 03 September 2024 (has links) <p dir="ltr">Autonomous vehicles have gained substantial traction as the future of transportation, necessitating continuous research and innovation. While 2D object detection and instance segmentation methods have made significant strides, 3D object detection offers unparalleled precision. Deep neural network-based 3D object detection, coupled with sensor fusion, has become indispensable for self-driving vehicles, enabling a comprehensive grasp of the spatial geometry of physical objects. In our study of a Lidar-based 3D object detection network using point clouds, we propose a novel architectural model based on You Only Look Once (YOLO) framework. This innovative model combines the efficiency and accuracy of the YOLOv8 network, a swift 2D standard object detector, and a state-of-the-art model, with the real-time 3D object detection capability of the Complex YOLO model. By integrating the YOLOv8 model as the backbone network and employing the Euler Region Proposal (ERP) method, our approach achieves rapid inference speeds, surpassing other object detection models while upholding high accuracy standards. Our experiments, conducted on the KITTI dataset, demonstrate the superior efficiency of our new architectural model. It outperforms its predecessors, showcasing its prowess in advancing the field of 3D object detection in autonomous vehicles.</p> Computer vision Deep learning Neural networks Euler Region Proposal Network Lidar Computer Vision 3D Object Detection Autonomous Vehicles YOLOv8

Search results

Unsupervised Domain Adaptation for 3D Object Detection Using Adversarial Adaptation : Learning Transferable LiDAR Features for a Delivery Robot / Icke-vägledd Domänanpassning för 3D-Objektigenkänning Genom Motspelaranpassning : Inlärning av Överförbara LiDAR-Drag för en Leveransrobot

<b>LIDAR BASED 3D OBJECT DETECTION USING YOLOV8</b>