Global ETD Search

1	RGB-D Deep Learning keypoints and descriptors extraction Network for feature-based Visual Odometry systems / RGB-D Deep Learning-nätverk för utvinning av nyckelpunkter och deskriptorer för nyckelpunktsbaserad Visuella Odometri. Bennasciutti, Federico January 2022 (has links) Feature extractors in Visual Odometry pipelines rarely exploit depth signals, even though depth sensors and RGB-D cameras are commonly used in later stages of Visual Odometry systems. Nonetheless, depth sensors from RGB-D cameras function even with no external light and can provide feature extractors with additional structural information otherwise invisible in RGB images. Deep Learning feature extractors, which have recently been shown to outperform their classical counterparts, still only exploit RGB information. Against this background, this thesis presents a Self-Supervised Deep Learning feature extraction algorithm that employs both RGB and depth signals as input. The proposed approach builds upon the existing deep learning feature extractors, adapting the architecture and training procedure to introduce the depth signal. The developed RGB-D system is compared with an RGB-only feature extractor in a qualitative study on keypoints’ location and a quantitative evaluation on pose estimation. The qualitative evaluation demonstrates that the proposed system exploits information from both RGB and depth domains, and it robustly adapts to the degradation of either of the two input signals. The pose estimation results indicate that the RGB-D system performs comparably to the RGB-only one in normal and low-light conditions. Thanks to the usage of depth information, the RGB-D feature extractor can still operate, showing only limited performance degradation, even in completely dark environments, where RGB methods fail due to a lack of input information. The combined qualitative and quantitative results suggest that the proposed system extracts features based on both RGB and depth input domains and can autonomously transition from normal brightness to a no-light environment, by exploiting depth signal to compensate for the degraded RGB information. / Detektering av nyckelpunkter för Visuell Odometri (VO) utnyttjar sällan information om djup i bilder, även om avståndssensorer och RGB-D-kameror ofta används i senare skeden av VO pipelinen. RGB-D-kamerors avståndsestimering fungerar även utan externt ljus. De kan förse nyckelpunktsdetektorer med ytterligare strukturell information som är svårt att extrahera enbart från RGB-bilder. Detektering av nyckelpunkter, med hjälp av Deep Learning metoder, har nyligen visat sig överträffa sina klassiska motsvarigheter som fortfarande endast utnyttjar bildinformation. Denna avhandling presenterar en algoritm för självövervakande nyckelpunktsdetektering med djupinlärning, som använder både RGB-bilder och avståndsinformation som indata. Det föreslagna tillvägagångssättet bygger på en befintlig arkitektur, som har anpassats för att också kunna hantera informationen om djupet i bilder. Den utvecklade RGB-D nyckelpunktsdetektorn har jämförts med en detektor som enbart baseras på RGB-bilder. Det har både gjorts en kvalitativ utvärdering av nyckelpunkternas läge och en kvantitativ utvärdering av detektorns förmåga på VO-tillämpningar, dvs estimering av position och orientering. Den kvalitativa utvärderingen av nyckelpunkterna visar att det föreslagna systemet kan utnyttja både information från bild- och djupdomänen. Den visar även att detektorn är robust mot försämringar av båda bilderna och djupinformationen. Evalueringen visar att den utvecklade RGB-D-metoden och en standardetektor uppnår jämförbara resultat under normala och svaga ljusförhållanden. Dock, tack vare användningen av tillgänglig djupinformation kan RGB-D-metoden fortfarande fungera i helt mörka förhållanden, med endast begränsad försämring av prestanda. I dessa scenarion misslyckas RGB-metoder på grund av brist på användbar bildinformation. De kombinerade kvalitativa och kvantitativa resultaten tyder på att det föreslagna systemet extraherar egenskaper som baseras på både bild- och djupinmatningsområden och kan självständigt övergå mellan normala och ljusfattiga förhållanden genom att utnyttja djup för att kompensera för den försämrade bildinformationen. DeepLearning Visual Odometry Computer Vision RGB-D Camera Feature Extraction Interest Point Extraction Djupinlärning Visuell Odometri Datorseende RGB-D-kamera Nyckelpunkter Detektion Computer and Information Sciences Data- och informationsvetenskap
2	Deep Visual Inertial-Aided Feature Extraction Network for Visual Odometry : Deep Neural Network training scheme to fuse visual and inertial information for feature extraction / Deep Visual Inertial-stöttat Funktionsextraktionsnätverk för Visuell Odometri : Träningsalgoritm för djupa Neurala Nätverk som sammanför visuell- och tröghetsinformation för särdragsextraktion Serra, Franco January 2022 (has links) Feature extraction is an essential part of the Visual Odometry problem. In recent years, with the rise of Neural Networks, the problem has shifted from a more classical to a deep learning approach. This thesis presents a fine-tuned feature extraction network trained on pose estimation as a proxy task. The architecture aims at integrating inertial information coming from IMU sensor data in the deep local feature extraction paradigm. Specifically, visual features and inertial features are extracted using Neural Networks. These features are then fused together and further processed to regress the pose of a moving agent. The visual feature extraction network is effectively fine-tuned and is used stand-alone for inference. The approach is validated via a qualitative analysis on the keypoints extracted and also in a more quantitative way. Quantitatively, the feature extraction network is used to perform Visual Odometry on the Kitti dataset where the ATE for various sequences is reported. As a comparison, the proposed method, the proposed without IMU and the original pre-trained feature extraction network are used to extract features for the Visual Odometry task. Their ATE results and relative trajectories show that in sequences with great change in orientation the proposed system outperforms the original one, while on mostly straight sequences the original system performs slightly better. / Feature extraktion är en viktig del av visuell odometri (VO). Under de senaste åren har framväxten av neurala nätverk gjort att tillvägagångsättet skiftat från klassiska metoder till Deep Learning metoder. Denna rapport presenterar ett kalibrerat feature extraheringsnätverk som är tränat med posesuppskattning som en proxyuppgift. Arkitekturen syftar till att integrera tröghetsinformation som kommer från sensordata i feature extraheringsnätverket. Specifikt extraheras visuella features och tröghetsfeatures med hjälp av neurala nätverk. Dessa features slås ihop och bearbetas ytterligare för att estimera position och riktning av en rörlig kamera. Metoden har undersökts genom en kvalitativ analys av featurepunkternas läge men även på ett mer kvantitativt sätt där VO-estimering på olika bildsekvenser från KITTI-datasetet har jämförts. Resultaten visar att i sekvenser med stora riktningsförändringar överträffar det föreslagna systemet det ursprungliga, medan originalsystemet presterar något bättre på sekvenser som är mestadels raka. Feature extraction network Visual Odometry IMU Neural Network Pose estimation Feature extraction Visuell Odometri IMU Neuralt nätverk Poseuppskattning Computer Sciences Datavetenskap (datalogi)
3	Monocular Visual Odometry for Autonomous Underwater Navigation : An analysis of learning-based monocular visual odometry approaches in underwater scenarios / Monokulär Visuell Odometri för Autonom Undervattensnavigering : En analys av inlärningsbaserade monokulära visuella odometri-metoder i undervattensscenarier Caraffa, Andrea January 2021 (has links) Visual Odometry (VO) is the process of estimating the relative motion of a vehicle by using solely image data gathered from the camera. In underwater environments, VO becomes extremely challenging but valuable since ordinary sensors for on-road localization are usually unpractical in these hostile environments. For years, VO methods have been purely based on Computer Vision (CV) principles. However, the recent advances in Deep Learning (DL) have ushered in a new era for VO approaches. These novel methods have achieved impressive performance with state-of-the-art results on urban datasets. Nevertheless, little effort has been made to push learning-based research towards natural environments, such as underwater. Consequently, this work aims to bridge the research gap by evaluating the effectiveness of the learning-based approach in the navigation of Autonomous Underwater Vehicles (AUVs). We compare two learning-based methods with a traditional feature-based method on the Underwater Caves dataset, a very challenging dataset collected in the unstructured environment of an underwater cave complex. Extensive experiments are thus conducted training the models on this dataset. Moreover, we investigate different aspects and propose several improvements, such as sub-sampling the video clips to emphasize the camera motion between consecutive frames, or training exclusively on images with relevant content discarding those with dark borders and representing solely sandy bottoms. Finally, during the training, we also leverage underwater images from other datasets, hence acquired from different cameras. However, the best improvement is obtained by penalizing rotations around the x-axis of the camera coordinate system. The three methods are evaluated on test sequences that cover different lighting conditions. In the most favorable environments, although learning-based methods are not up to par with the feature-based method, the results show great potential. Furthermore, in extreme lighting conditions, where the feature-based baseline sharply fails to bootstrap, one of the two learning-based methods produces instead qualitatively good trajectory results, revealing the power of the learning-based approach in this peculiar context. / Visuell Odometri (VO) används för att uppskatta den relativa rörelsen för ett fordon med hjälp av enbart bilddata från en eller flera kameror. I undervattensmiljöer blir VO extremt utmanande men värdefullt eftersom vanliga sensorer för lokalisering vanligtvis är opraktiska i dessa svåra miljöer. I åratal har VO-metoder enbart baserats på klassisk datorseende. De senaste framstegen inom djupinlärning har dock inlett en ny era för VO-metoder. Dessa nya metoder har uppnått imponerande prestanda på dataset urbana miljöer. Trots detta har ganska lite gjorts för att driva den inlärningsbaserad forskningen mot naturliga miljöer, till exempel under vattnet. Följaktligen syftar detta arbete till att överbrygga forskningsgapet genom att utvärdera effektiviteten hos det inlärningsbaserade tillvägagångssättet vid navigering av autonoma undervattensfordon (AUV). Vi jämför två inlärningsbaserade metoder med en traditionell nyckelpunktsbaserad metod som referens. Vi gör jämförelsen på Underwater Caves-datasetet, ett mycket utmanande dataset som samlats in i den ostrukturerade miljön i ett undervattensgrottkomplex. Omfattande experiment utförs för att träna modellerna på detta dataset. Vi undersöker också olika aspekter och föreslår flera förbättringar, till exempel, att delsampla videoklippen för att betona kamerarörelsen mellan på varandra följande bildrutor, eller att träna på en delmängd av datasetet bestående uteslutande på bilder med relevant innehåll för att förbättra skattningen av rörelsen. Under träningen utnyttjar vi också undervattensbilder från andra datamängder, och därmed från olika kameror. Den bästa förbättringen uppnås dock genom att straffa skattningar av stora rotationer runt kamerakoordinatsystemets x-axel. De tre metoderna utvärderas på testsekvenser som täcker olika ljusförhållanden. I de mest gynnsamma miljöerna visar resultaten stor potential, även om de inlärningsbaserade metoder inte är i nivå med den traditionella referensmetoden. Vid extrema ljusförhållanden, där referensmetoden misslyckas att ens initialisera, ger en av de två inlärningsbaserade metoderna istället kvalitativt bra resultat, vilket demonstrerar kraften i det inlärningsbaserade tillvägagångssättet i detta specifika sammanhang. Deep Learning Monocular Visual Odometry Computer Vision Autonomous Underwater Navigation Autonomous Underwater Vehicle Djupinlärning Monokulär Visuell Odometri Datorseende Autonom Undervattensnavigering Autonomt Undervattensfordon Computer Sciences Datavetenskap (datalogi)
4	Creating Good User Experience in a Hand-Gesture-Based Augmented Reality Game / Användbarhet i ett handgestbaserat AR-spel Lam, Benny, Nilsson, Jakob January 2019 (has links) The dissemination of new innovative technology requires feasibility and simplicity. The problem with marker-based augmented reality is similar to glove-based hand gesture recognition: they both require an additional component to function. This thesis investigates the possibility of combining markerless augmented reality together with appearance-based hand gesture recognition by implementing a game with good user experience. The methods employed in this research consist of a game implementation and a pre-study meant for measuring interactive accuracy and precision, and for deciding upon which gestures should be utilized in the game. A test environment was realized in Unity using ARKit and Manomotion SDK. Similarly, the implementation of the game used the same development tools. However, Blender was used for creating the 3D models. The results from 15 testers showed that the pinching gesture was the most favorable one. The game was evaluated with a System Usability Scale (SUS) and received a score of 70.77 among 12 game testers, which indicates that the augmented reality game, which interaction method is solely based on bare-hands, can be quite enjoyable. AR Hand gestures Bare-hand interaction HGR Augmented reality usability user experience Manomotion ARKit Visual Odometry SLAM VO VIO 3D gestural interaction gesture recognition gesture tracking augmented environments Förstärkt verklighet 3D gestinteraktion gestigenkänning visuell odometri Manomotion ARKit Engineering and Technology Teknik och teknologier Interaction Technologies Interaktionsteknik Design Design Human Computer Interaction Probability Theory and Statistics Sannolikhetsteori och statistik Computer Systems Datorsystem Software Engineering Programvaruteknik

Search results

RGB-D Deep Learning keypoints and descriptors extraction Network for feature-based Visual Odometry systems / RGB-D Deep Learning-nätverk för utvinning av nyckelpunkter och deskriptorer för nyckelpunktsbaserad Visuella Odometri.

Creating Good User Experience in a Hand-Gesture-Based Augmented Reality Game / Användbarhet i ett handgestbaserat AR-spel