Global ETD Search

1	RGB-D Deep Learning keypoints and descriptors extraction Network for feature-based Visual Odometry systems / RGB-D Deep Learning-nätverk för utvinning av nyckelpunkter och deskriptorer för nyckelpunktsbaserad Visuella Odometri. Bennasciutti, Federico January 2022 (has links) Feature extractors in Visual Odometry pipelines rarely exploit depth signals, even though depth sensors and RGB-D cameras are commonly used in later stages of Visual Odometry systems. Nonetheless, depth sensors from RGB-D cameras function even with no external light and can provide feature extractors with additional structural information otherwise invisible in RGB images. Deep Learning feature extractors, which have recently been shown to outperform their classical counterparts, still only exploit RGB information. Against this background, this thesis presents a Self-Supervised Deep Learning feature extraction algorithm that employs both RGB and depth signals as input. The proposed approach builds upon the existing deep learning feature extractors, adapting the architecture and training procedure to introduce the depth signal. The developed RGB-D system is compared with an RGB-only feature extractor in a qualitative study on keypoints’ location and a quantitative evaluation on pose estimation. The qualitative evaluation demonstrates that the proposed system exploits information from both RGB and depth domains, and it robustly adapts to the degradation of either of the two input signals. The pose estimation results indicate that the RGB-D system performs comparably to the RGB-only one in normal and low-light conditions. Thanks to the usage of depth information, the RGB-D feature extractor can still operate, showing only limited performance degradation, even in completely dark environments, where RGB methods fail due to a lack of input information. The combined qualitative and quantitative results suggest that the proposed system extracts features based on both RGB and depth input domains and can autonomously transition from normal brightness to a no-light environment, by exploiting depth signal to compensate for the degraded RGB information. / Detektering av nyckelpunkter för Visuell Odometri (VO) utnyttjar sällan information om djup i bilder, även om avståndssensorer och RGB-D-kameror ofta används i senare skeden av VO pipelinen. RGB-D-kamerors avståndsestimering fungerar även utan externt ljus. De kan förse nyckelpunktsdetektorer med ytterligare strukturell information som är svårt att extrahera enbart från RGB-bilder. Detektering av nyckelpunkter, med hjälp av Deep Learning metoder, har nyligen visat sig överträffa sina klassiska motsvarigheter som fortfarande endast utnyttjar bildinformation. Denna avhandling presenterar en algoritm för självövervakande nyckelpunktsdetektering med djupinlärning, som använder både RGB-bilder och avståndsinformation som indata. Det föreslagna tillvägagångssättet bygger på en befintlig arkitektur, som har anpassats för att också kunna hantera informationen om djupet i bilder. Den utvecklade RGB-D nyckelpunktsdetektorn har jämförts med en detektor som enbart baseras på RGB-bilder. Det har både gjorts en kvalitativ utvärdering av nyckelpunkternas läge och en kvantitativ utvärdering av detektorns förmåga på VO-tillämpningar, dvs estimering av position och orientering. Den kvalitativa utvärderingen av nyckelpunkterna visar att det föreslagna systemet kan utnyttja både information från bild- och djupdomänen. Den visar även att detektorn är robust mot försämringar av båda bilderna och djupinformationen. Evalueringen visar att den utvecklade RGB-D-metoden och en standardetektor uppnår jämförbara resultat under normala och svaga ljusförhållanden. Dock, tack vare användningen av tillgänglig djupinformation kan RGB-D-metoden fortfarande fungera i helt mörka förhållanden, med endast begränsad försämring av prestanda. I dessa scenarion misslyckas RGB-metoder på grund av brist på användbar bildinformation. De kombinerade kvalitativa och kvantitativa resultaten tyder på att det föreslagna systemet extraherar egenskaper som baseras på både bild- och djupinmatningsområden och kan självständigt övergå mellan normala och ljusfattiga förhållanden genom att utnyttja djup för att kompensera för den försämrade bildinformationen. DeepLearning Visual Odometry Computer Vision RGB-D Camera Feature Extraction Interest Point Extraction Djupinlärning Visuell Odometri Datorseende RGB-D-kamera Nyckelpunkter Detektion Computer and Information Sciences Data- och informationsvetenskap
2	Pose Classification of Horse Behavior in Video : A deep learning approach for classifying equine poses based on 2D keypoints / Pose-klassificering av Hästbeteende i Video : En djupinlärningsmetod för klassificering av hästposer baserat på 2D-nyckelpunkter Söderström, Michaela January 2021 (has links) This thesis investigates whether Computer Vision can be a useful tool in interpreting the behaviors of monitored horses. In recent years, research in the field of Computer Vision has primarily focused on people, where pose estimation and action recognition are popular research areas. The thesis presents a pose classification network, where input features are described by estimated 2D key- points of horse body parts. The network output classifies three poses: ’Head above the wither’, ’Head aligned with the wither’ and ’Head below the wither’. The 2D reconstructions of keypoints are obtained using DeepLabCut applied to raw video surveillance data of a single horse. The estimated keypoints are then fed into a Multi-layer preceptron, which is trained to classify the mentioned classes. The network shows promising results with good performance. We found label noise when we spot-checked random samples of predicted poses and comparing them to the ground truth, as some of the labeled data consisted of false ground truth samples. Despite this fact, the conclusion is that satisfactory results are achieved with our method. Particularly, the keypoint estimates were sufficient enough for these poses for the model to succeed to classify a hold-out set of poses. / Uppsatsen undersöker främst om datorseende kan vara ett användbart verktyg för att tolka beteendet hos övervakade hästar. Under de senaste åren har forskning inom datorseende främst fokuserat på människor, där pose-estimering och händelseigenkänning är populära forskningsområden. Denna avhandling presenterar ett poseklassificeringsnätverk där indata beskrivs av uppskattade 2Dnyckelpunkter (eller så kallade intressepunkter) för hästkroppsdelar. Nätverket klassificerar tre poser: ’Huvud ovanför manken’, ’Huvud i linje med manken’ och ’Huvudet nedanför manken’. 2D-rekonstruktioner av nyckelpunkter erhålls med hjälp av DeepLabCut, applicerad på rå videoövervakningsdata för en häst. De uppskattade nyckelpunkterna matas sedan in i ett flerskikts- preceptron, som tränas för att klassificera de nämnda klasserna. Nätverket visar lovande resultat med bra prestanda. Vi hittade brus i etiketterna vid slumpmässiga stickprover av förutspådda poser som jämfördes med sanna etiketter där några etiketter bestod av falska sanna etiketter. Trots detta är slutsatsen att tillfredsställande resultat uppnås med vår metod. Speciellt var de estimerade nyckelpunkterna tillräckliga för dessa poser för att nätverket skulle lyckas med att klassificera ett separat dataset av samma osedda poser. Deep Learning Computer Visison Horse behavior Pose estimation 2D key- points Pose classification DeepLabCut Djupinlärning Datorseende Hästbeteende Pose-estimering Nyckelpunkter Intressepunkter Pose-klassificering DeepLabCut Computer and Information Sciences Data- och informationsvetenskap
3	Automatic Detection of Structural Deformations in Batteries from Imaging data using Machine Learning : Exploring the potential of different approaches for efficient structural deformation detection / Automatisk detektering av strukturella deformationer i batterier från bilddata med maskininlärning Khan, Maira January 2023 (has links) The increasing occurrence of structural deformations in the electrodes of the jelly roll has raised quality concerns during battery manufacturing, emphasizing the need to detect them automatically with the advanced techniques. This thesis aims to explore and provide two models based on traditional computer vision (CV) and deep neural network (DNN) techniques using computed tomography (CT) scan images of jelly rolls to ensure that the product is of high quality. For both approaches, electrode peaks as keypoints of anodes and cathodes in prismatic lithium battery jelly rolls are detected to extract the geometric features to identify if a particular jelly roll has some structural deformations. For traditional CV methods, the images undergo some pre-processing steps, extraction of foreground through adaptive thresholding, and morphological operations to extract contour edges, followed by applying Harris corner detector to detect electrode peaks. However, this approach shows limitations in detecting small or negative distance differences in deformed images. Furthermore, this study proposes another approach based on supervised transfer learning using pre-trained deep learning models on annotated data. After exploring different architectures, the VGG19 model pre-trained on ImageNet dataset outperformed as compared to other architectures, even with insufficient training data, achieving a maximum accuracy of 93.13 % for 1-pixel distance, 98.87 % for 5-pixel distance and 99.29 % for 10-pixel distance on test data, where the performance metrics, such as Percentage of Correct Keypoint (PCK), Mean-Square Error and Huber loss are utilized. As a result, this baseline proves to be a valuable tool for detecting structural deformations in jelly rolls. Moreover, a GUI-based executable application is developed using both approaches for raising the OK or NG flags for detecting structural deformations in each jelly roll. / Den ökande förekomsten av strukturella deformationer av elektroderna i så kallade jelly rolls har väckt kvalitetsproblem under batteritillverkning, och betonat behovet av att upptäcka dem automatiskt med avancerade tekniker. Denna avhandling syftar till att utforska och tillhandahålla två modeller baserade på traditionell datorseende (CV) och djupa neurala nätverk (DNN) tekniker med hjälp av bilder från datortomografisk skanning (CT) av jelly rolls för att säkerställa att produkten är av hög kvalitet. För båda metoderna detekteras elektrodtoppar som nyckelpunkter på anoder och katoder i prismatiska litiumbatteriers jelly rolls för att extrahera de geometriska egenskaperna för att identifiera om en viss jelly roll har några strukturella deformationer. För traditionella CV-metoder genomgår bilderna några förbehandlingssteg, extraktion av förgrund genom adaptiv tröskling och morfologiska operationer för att extrahera konturkanter, följt av användning av Harris hörndetektor för att upptäcka elektrodtoppar. Denna metod visar dock begränsningar i att detektera små eller negativa avståndsskillnader i deformerade bilder. Vidare föreslår denna studie en annan metod baserad på övervakad överföringsinlärning med förtränade djupinlärningsmodeller på annoterade data. Efter att ha utforskat olika arkitekturer presterade VGG19-modellen förtränad på ImageNet-datasetet bättre jämfört med andra arkitekturer, även med otillräcklig träningsdata, och uppnådde en maximal noggrannhet på 91,56% för 1-pixels avstånd, 97,49% för 5-pixels avstånd och 98,91% för 10-pixels avstånd på testdata, där prestationsmått som procentandel av korrekta nyckelpunkter (PCK), medelkvadratfel och Huber-förlust används. Som ett resultat visar sig denna grundlinje vara ett värdefullt verktyg för att upptäcka strukturella deformationer i jelly rolls. Dessutom har exekverbar applikation med grafiskt gränssnitt utvecklats med båda metoderna för att höja OK/NG-flaggorna för att upptäcka strukturella deformationer i varje jelly roll. CT scan electrode peaks jelly roll keypoints structural deformation traditional computer vision deep neural network CT-skanning elektrodtoppar gelérulle nyckelpunkter strukturell deformation Traditionellt datorseende djupt neuralt nätverk Computer and Information Sciences Data- och informationsvetenskap

Search results

RGB-D Deep Learning keypoints and descriptors extraction Network for feature-based Visual Odometry systems / RGB-D Deep Learning-nätverk för utvinning av nyckelpunkter och deskriptorer för nyckelpunktsbaserad Visuella Odometri.

Pose Classification of Horse Behavior in Video : A deep learning approach for classifying equine poses based on 2D keypoints / Pose-klassificering av Hästbeteende i Video : En djupinlärningsmetod för klassificering av hästposer baserat på 2D-nyckelpunkter