• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 127
  • 11
  • 7
  • 5
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 195
  • 195
  • 102
  • 75
  • 51
  • 36
  • 34
  • 34
  • 33
  • 31
  • 30
  • 29
  • 26
  • 26
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Dense Foot Pose Estimation From Images

Sharif, Sharif January 2023 (has links)
There is ongoing research into building dense correspondence between digital images of objects in the world and estimating the 3D pose of these objects. This is a difficult area to conduct research due to the lack of availability of annotated data. Annotating each pixel is too time-consuming. At the time of this writing, current research has managed to use neural networks to establish a dense pose estimation of human body parts (feet, chest, legs etc.). The aim of this thesis is to investigate if a model can be developed using neural networks to perform dense pose estimation on human feet. The data used in evaluating the model is generated using proprietary tools. Since this thesis is using a custom model and custom dataset, one model will be developed and tested with various experiments to gain an understanding of the different parameters that influence the model’s performance. Experiments showed that a model based on DeepLabV3 is able to achieve a dense pose estimation of feet with a mean error of 1.0cm. The limiting factor for a model’s ability to estimate a dense pose is based on the model’s ability to classify the pixels in an image accurately. It was also shown that discontinuous UV unwrapping greatly reduced the model’s dense pose estimation ability. The results from this thesis should be considered preliminary and need to be repeated multiple times to account for the stochastic nature of training neural networks. / Pågående forskning undersöker hur man kan skapa tät korrespondens mellan digitala bilder av objekt i världen och uppskatta de objektens 3D-pose. Detta är ett svårt område att forska inom på grund av bristen på tillgänglig annoterad data. Att annotera varje pixel är tidskrävande. Vid tiden för detta skrivande har aktuell forskning lyckats använda neurala nätverk för att etablera en tät pose-estimering av mänskliga kroppsdelar (fötter, bröst, ben osv.). Syftet med denna arbete är att undersöka om en modell kan utvecklas med hjälp av neurala nätverk för att utföra dense pose-estimering av mänskliga fötter. Data som används för att utvärdera modellen genereras med hjälp av proprietära verktyg. Eftersom denna arbete använder en anpassad modell och anpassad dataset kommer en modell att utvecklas och testas med olika experiment för att förstå de olika parametrarna som påverkar modellens prestanda. Experiment visade att en modell baserad på DeepLabV3 kan uppnå en dense pose-estimering av fötter med en medelfel på 1,0 cm. Den begränsande faktorn för en modells förmåga att uppskatta en dense pose baseras på modellens förmåga att klassificera pixlarna i en bild korrekt. Det visades också att oregelbunden UV-uppackning avsevärt minskade modellens förmåga att estimera dense pose. Resultaten från denna avhandling bör betraktas som preliminära och behöver upprepas flera gånger för att ta hänsyn till den stokastiska naturen hos träning av neurala nätverk.
152

Deep Visual Inertial-Aided Feature Extraction Network for Visual Odometry : Deep Neural Network training scheme to fuse visual and inertial information for feature extraction / Deep Visual Inertial-stöttat Funktionsextraktionsnätverk för Visuell Odometri : Träningsalgoritm för djupa Neurala Nätverk som sammanför visuell- och tröghetsinformation för särdragsextraktion

Serra, Franco January 2022 (has links)
Feature extraction is an essential part of the Visual Odometry problem. In recent years, with the rise of Neural Networks, the problem has shifted from a more classical to a deep learning approach. This thesis presents a fine-tuned feature extraction network trained on pose estimation as a proxy task. The architecture aims at integrating inertial information coming from IMU sensor data in the deep local feature extraction paradigm. Specifically, visual features and inertial features are extracted using Neural Networks. These features are then fused together and further processed to regress the pose of a moving agent. The visual feature extraction network is effectively fine-tuned and is used stand-alone for inference. The approach is validated via a qualitative analysis on the keypoints extracted and also in a more quantitative way. Quantitatively, the feature extraction network is used to perform Visual Odometry on the Kitti dataset where the ATE for various sequences is reported. As a comparison, the proposed method, the proposed without IMU and the original pre-trained feature extraction network are used to extract features for the Visual Odometry task. Their ATE results and relative trajectories show that in sequences with great change in orientation the proposed system outperforms the original one, while on mostly straight sequences the original system performs slightly better. / Feature extraktion är en viktig del av visuell odometri (VO). Under de senaste åren har framväxten av neurala nätverk gjort att tillvägagångsättet skiftat från klassiska metoder till Deep Learning metoder. Denna rapport presenterar ett kalibrerat feature extraheringsnätverk som är tränat med posesuppskattning som en proxyuppgift. Arkitekturen syftar till att integrera tröghetsinformation som kommer från sensordata i feature extraheringsnätverket. Specifikt extraheras visuella features och tröghetsfeatures med hjälp av neurala nätverk. Dessa features slås ihop och bearbetas ytterligare för att estimera position och riktning av en rörlig kamera. Metoden har undersökts genom en kvalitativ analys av featurepunkternas läge men även på ett mer kvantitativt sätt där VO-estimering på olika bildsekvenser från KITTI-datasetet har jämförts. Resultaten visar att i sekvenser med stora riktningsförändringar överträffar det föreslagna systemet det ursprungliga, medan originalsystemet presterar något bättre på sekvenser som är mestadels raka.
153

Real-Time Visual Multi-Target Tracking in Realistic Tracking Environments

White, Jacob Harley 01 May 2019 (has links)
This thesis focuses on visual multiple-target tracking (MTT) from a UAV. Typical state-of-the-art multiple-target trackers rely on an object detector as the primary detection source. However, object detectors usually require a GPU to process images in real-time, which may not be feasible to carry on-board a UAV. Additionally, they often do not produce consistent detections for small objects typical of UAV imagery.In our method, we instead detect motion to identify objects of interest in the scene. We detect motion at corners in the image using optical flow. We also track points long-term to continue tracking stopped objects. Since our motion detection algorithm generates multiple detections at each time-step, we use a hybrid probabilistic data association filter combined with a single iteration of expectation maximization to improve tracking accuracy.We also present a motion detection algorithm that accounts for parallax in non-planar UAV imagery. We use the essential matrix to distinguish between true object motion and apparent object motion due to parallax. Instead of calculating the essential matrix directly, which can be time-consuming, we design a new algorithm that optimizes the rotation and translation between frames. This new algorithm requires only 4 ms instead of 47 ms per frame of the video sequence.We demonstrate the performance of these algorithms on video data. These algorithms are shown to improve tracking accuracy, reliability, and speed. All these contributions are capable of running in real-time without a GPU.
154

Using pose estimation to support video annotation for linguistic use : Semi-automatic tooling to aid researchers / Användning av poseuppskattning för att stödja videoannoteringsprocessen inom lingvistik : Halvautomatiska verktyg för att underlätta för forskare

Gerholm, Gustav January 2022 (has links)
Video annotating is a lengthy manual process. A previous research project, MINT, produced a few thousand videos of child-parent interactions in a controlled environment in order to study children’s language development. These videos were filmed across multiple sessions, tracking the same children from the age of 3 months to 7 years. In order to study the gathered material, all these videos have to be annotated with multiple kinds of annotations including transcriptions, gaze of the children, physical distances between parent and child, etc. These annotations are currently far from complete, which is why this project aimed to be a stepping point for the development of semi-automatic tooling in order to aid the process. To do this, state-of-the-art pose estimators were used to process hundreds of videos, creating pseudo-anonymized pose estimations. The pose estimations were then used in order to gauge the distance between the child and parent, and annotate the corresponding frame of the videos. Everything was packaged as a CLI tool. The results of first applying the CLI and then correcting the automatic annotations manually (compared to manually annotating everything) showed a large decrease in overall time taken to complete the annotating of videos. The tool lends itself to further development for more advanced annotations since both the tool and its related libraries are open source. / Videoannotering är en lång manuell process. Ett tidigare forskningsprojekt, MINT, producerade några tusen videor av barn-förälder-interaktioner i en kontrollerad miljö för att studera barns språkutveckling. Dessa videor filmades under flera sessioner och spårade samma barn från 3 månaders ålder till 7 år. För att studera det insamlade materialet måste alla dessa videor annoteras med flera olika typer av taggar inklusive transkriptioner, barnens blick, fysiska avstånd mellan förälder och barn, m.m. Denna annoteringsprocess är för närvarande långt ifrån avslutad, vilket är anledningen till detta projekt syftade till att vara ett första steg för utvecklingen av halvautomatiska verktyg för att underlätta processen. Detta projekt syftade till att semi-automatiskt annotera om ett barn och en förälder, i varje videobild, var inom räckhåll eller utom räckhåll för varandra. För att göra detta användes toppmoderna pose-estimators för att bearbeta hundratals videor, vilket skapade pseudoanonymiserade poseuppskattningar. Poseuppskattningarna användes sedan för att gissa avståndet mellan barnet och föräldern och annotera resultat i motsvarande bildruta för videorna. Allt paketerades som ett CLI-verktyg. Resultaten av att först tillämpa CLI-verktyget och sedan korrigera de automatiska annoteringarna manuellt (jämfört med manuellt annotering av allt) visade en stor minskning av den totala tiden det tog att slutföra annoteringen av videor. Framför allt lämpar sig verktyget för vidareutveckling för mer avancerade taggar eftersom både verktyget och dess relaterade bibliotek är öppen källkod.
155

Feasibility of Mobile Phone-Based 2D Human Pose Estimation for Golf : An analysis of the golf swing focusing on selected joint angles / Lämpligheten av mobiltelefonbaserad 2D mänskligposeuppskattning i golf : En analys av golfsvingar medfokus på utvalda ledvinklar

Perini, Elisa January 2023 (has links)
Golf is a sport where the correct technical execution is important for performance and injury prevention. The existing feedback systems are often cumbersome and not readily available to recreational players. To address this issue, this thesis explores the potential of using 2D Human Pose Estimation as a mobile phone-based swing analysis tool. The developed system allows to identify three events in the swing movement (toe-up, top and impact) and to measure specific angles during these events by using an algorithmic approach. The system focuses on quantifying the knee flexion and primary spine angle during the address, and lateral bending at the top of the swing. By using only the wrist coordinates in the vertical direction, the developed system identified 37% of investigated events, independently of whether the swing was filmed in the frontal of sagittal frame. Within five frames, 95% of the events were correctly identified. Using additional joint coordinates and the event data obtained by the above-mentioned event identification algorithm, the knee flexion at address was correctly assessed in 66% of the cases, with a mean absolute error of 3.7°. The mean absolute error of the primary spine angle measurement at address was of 10.5°. The lateral bending angle was correctly identified in 87% ofthe videos. This system highlights the potential of using 2D Human Pose Estimation for swing analysis. This thesis primarily focused on exploring the feasibility of the approach and further research is needed to expand the system and improve its accuracy. This work serves as a foundation, providing valuable insights for future advancements in the field of 2D Human Pose Estimation-based swing analysis. / Golf är en sport där korrekt tekniskt utförande är avgörande för prestation och skadeförebyggelse. Feedbacksystem som finns är ofta besvärliga och inte lättillgängliga för fritidsspelare. För att åtgärda detta problem undersöker detta examensarbete potentialen att använda 2D mänsklig poseuppskattning som mobiltelefonsbaserat svinganalysverktyg. Det utvecklade systemet gör det möjligt att identifiera tre händelser i svingen (toe-up, top och impact) och att mäta specifika vinklar under dessa händelser genom en algoritmisk metod. Systemet fokuserar på att kvantifiera knäböjningen och primära ryggradsvinkeln under uppställningen, och laterala böjningen vid svingtoppen. Genom att endast använda handledskoordinater i vertikalriktning identifierade det utvecklade systemet 37% av de undersökta händelserna oavsett om svingen filmades från frontal- eller medianplanet. Inom fem bildrutor identifierades 95% av händelserna korrekt. Genom att använda ytterligare ledkoordinater och händelsedata som erhållits genom den tidigare nämnda algoritmen för händelseidentifiering, bedömdes knäböjningen vid uppställningen vara korrekt i 66% av fallen med en medelabsolutfel på 3.7°. Medelabsolutfelet för mätningen av primär ryggradsvinkel vid uppställningen var 10.5°. Laterala böjningen identifierades korrekt i 87% av tillfällena. Detta system belyser potentialen i 2D mänsklig poseuppskattning för svinganalys. Detta examensarbete fokuserade främst på att utforska tillvägagångssättets genomförbarhet och ytterligare forskning behövs för att utveckla systemet och förbättra dess noggrannhet. Detta arbete är grundläggande och ger värdefulla insikter för framtida forskning inom området för svinganalys baserad på 2D mänsklig poseuppskattning.
156

Deep Image Processing with Spatial Adaptation and Boosted Efficiency & Supervision for Accurate Human Keypoint Detection and Movement Dynamics Tracking

Chao Yang Dai (14709547) 31 May 2023 (has links)
<p>This thesis aims to design and develop the spatial adaptation approach through spatial transformers to improve the accuracy of human keypoint recognition models. We have studied different model types and design choices to gain an accuracy increase over models without spatial transformers and analyzed how spatial transformers increase the accuracy of predictions. A neural network called Widenet has been leveraged as a specialized network for providing the parameters for the spatial transformer. Further, we have evaluated methods to reduce the model parameters, as well as the strategy to enhance the learning supervision for further improving the performance of the model. Our experiments and results have shown that the proposed deep learning framework can effectively detect the human key points, compared with the baseline methods. Also, we have reduced the model size without significantly impacting the performance, and the enhanced supervision has improved the performance. This study is expected to greatly advance the deep learning of human key points and movement dynamics. </p>
157

Compact Representations and Multi-cue Integration for Robotics

Söderberg, Robert January 2005 (has links)
This thesis presents methods useful in a bin picking application, such as detection and representation of local features, pose estimation and multi-cue integration. The scene tensor is a representation of multiple line or edge segments and was first introduced by Nordberg in [30]. A method for estimating scene tensors from gray-scale images is presented. The method is based on orientation tensors, where the scene tensor can be estimated by correlations of the elements in the orientation tensor with a number of 1D filters. Mechanisms for analyzing the scene tensor are described and an algorithm for detecting interest points and estimating feature parameters is presented. It is shown that the algorithm works on a wide spectrum of images with good result. Representations that are invariant with respect to a set of transformations are useful in many applications, such as pose estimation, tracking and wide baseline stereo. The scene tensor itself is not invariant and three different methods for implementing an invariant representation based on the scene tensor is presented. One is based on a non-linear transformation of the scene tensor and is invariant to perspective transformations. Two versions of a tensor doublet is presented, which is based on a geometry of two interest points and is invariant to translation, rotation and scaling. The tensor doublet is used in a framework for view centered pose estimation of 3D objects. It is shown that the pose estimation algorithm has good performance even though the object is occluded and has a different scale compared to the training situation. An industrial implementation of a bin picking application have to cope with several different types of objects. All pose estimation algorithms use some kind of model and there is yet no model that can cope with all kinds of situations and objects. This thesis presents a method for integrating cues from several pose estimation algorithms for increasing the system stability. It is also shown that the same framework can also be used for increasing the accuracy of the system by using cues from several views of the object. An extensive test with several different objects, lighting conditions and backgrounds shows that multi-cue integration makes the system more robust and increases the accuracy. Finally, a system for bin picking is presented, built from the previous parts of this thesis. An eye in hand setup is used with a standard industrial robot arm. It is shown that the system works for real bin-picking situations with a positioning error below 1 mm and an orientation error below 1o degree for most of the different situations. / <p>Report code: LiU-TEK-LIC-2005:15.</p>
158

Monocular 3D Human Pose Estimation / Monokulär 3D-människans hållningsuppskattning

Rey, Robert January 2023 (has links)
The focus of this work is the task of 3D human pose estimation, more specifically by making use of key points located in single monocular images in order to estimate the location of human body joints in a 3D space. It was done in association with Tracab, a company based in Stockholm, who specialises in advanced sports tracking and analytics solutions. Tracab’s core product is their optical tracking system for football, which involves installing multiple highspeed cameras around the sports venue. One of the main benefits of this work will be to reduce the number of cameras required to create the 3D skeletons of the players, hence reducing production costs as well as making the whole process of creating the 3D skeletons much simpler in the future. The main problem we are tackling consists in going from a set of 2D joint locations and lifting them to a 3D space, which would add an information of depth to the joint locations. One problem with this task is the limited availability of in-thewild datasets with corresponding 3D ground truth labels. We hope to tackle this issue by making use of the restricted Human3.6m dataset along with the Tracab dataset in order to achieve adequate results. Since the Tracab dataset is very large, i.e millions of unique poses and skeletons, we have focused our experiments on a single football game. Although extensive research has been done in the field by using architectures such as convolutional neural networks, transformers, spatial-temporal architectures and more, we are tackling this issue by making use of a simple feedforward neural network developed by Martinez et al, this is mainly possible due to the abundance of data available at Tracab. / Fokus för detta arbete är att estimera 3D kroppspositioner, genom att använda detekterade punkter på människokroppen i enskilda monokulära bilder för att uppskatta 3D positionen av dessa ledpunkter. Detta arbete genomfördes i samarbete med Tracab, ett företag baserat i Stockholm, som specialiserar sig på avancerade lösningar för följning och analys inom idrott. Tracabs huvudprodukt är deras optiska följningssystem, som innebär att flera synkroniserade höghastighetskameror installeras runt arenan. En av de främsta fördelarna med detta arbete kommer att vara att minska antalet kameror som krävs för att skapa 3D-skelett av spelarna, vilket minskar produktionskostnaderna och förenklar hela processen för att skapa 3D-skelett i framtiden. Huvudproblemet vi angriper är att gå från en uppsättning 2D-ledpunkter och lyfta dem till 3D-utrymme. Ett problem är den begränsade tillgången till datamängder med 3D ground truth från realistiska miljöer. Vi angriper detta problem genom att använda den begränsade Human3.6m-datasetet tillsammans med Tracab-datasetet för att uppnå tillräckliga resultat. Eftersom Tracab-datamängden är mycket stor, med miljontals unika poser och skelett, .har vi begränsat våra experiment till en fotbollsmatch. Omfattande forskning har gjorts inom området med användning av arkitekturer som konvolutionella neurala nätverk, transformerare, rumsligttemporala arkitekturer med mera. Här använder vi ett enkelt framåtriktat neuralt nätverk utvecklat av Martinez et al, vilket är möjligt tack vare den stora mängden data som är tillgänglig hos Tracab.
159

Разработка приложения оценки позы человека для контроля правильности выполнения фитнес-упражнений : магистерская диссертация / Development of an application for human pose estimation to monitor the correctness of performing fitness exercises

Чермных, Д. М., Chermnykh, D. M. January 2023 (has links)
В области компьютерного зрения оценка позы человека приобретает все большее значение. Это одна из самых привлекательных областей исследований, и она вызывает большой интерес благодаря своей полезности и гибкости в самых разных областях, включая здравоохранение, игры, дополненную реальность, виртуальные тренировки и спорт. На ряду с этим люди все чаще начинают заниматься спортом. А в спорте травмы неизбежны. В данной статье предлагается приложение для оценки выполнения фитнес-упражнений, которое контролирует правильность техники и дает обратную связь по ее исправлению, что помогает уменьшить травматизм при занятиях. Предварительно обученная модель MediaPipe использовалась для оценки поз, по результатам которой вычисляются углы между конкретными суставами. / In the field of computer vision, human pose estimation is becoming increasingly important. This is one of the most attractive areas of research, and it is of great interest due to its usefulness and flexibility in a wide variety of fields, including healthcare, games, augmented reality, virtual training, and sports. Along with this, people are increasingly starting to do sports. And in sports, injuries are inevitable. This article offers an application for evaluating the performance of fitness exercises, which monitors the correctness of the technique and gives feedback on its correction, which helps to reduce injuries during classes. A pre-trained MediaPipe model was used to evaluate poses, based on the results of which the angles between specific joints are calculated.
160

Continuous Balance Evaluation by Image Analysis of Live Video : Fall Prevention Through Pose Estimation / Kontinuerlig Balansutvärdering Genom Bildanalys av Video i Realtid : Fallprevention Genom Kroppshållningsestimation

Runeskog, Henrik January 2021 (has links)
The deep learning technique Human Pose Estimation (or Human Keypoint Detection) is a promising field in tracking a person and identifying its posture. As posture and balance are two closely related concepts, the use of human pose estimation could be applied to fall prevention. By deriving the location of a persons Center of Mass and thereafter its Center of Pressure, one can evaluate the balance of a person without the use of force plates or sensors and solely using cameras. In this study, a human pose estimation model together with a predefined human weight distribution model were used to extract the location of a persons Center of Pressure in real time. The proposed method utilized two different methods of acquiring depth information from the frames - stereoscopy through two RGB-cameras and with the use of one RGB-depth camera. The estimated location of the Center of Pressure were compared to the location of the same parameter extracted while using the force plate Wii Balance Board. As the proposed method were to operate in real-time and without the use of computational processor enhancement, the choice of human pose estimation model were aimed to maximize software input/output speed. Thus, three models were used - one smaller and faster model called Lightweight Pose Network, one larger and accurate model called High-Resolution Network and one model placing itself somewhere in between the two other models, namely Pose Residual Network. The proposed method showed promising results for a real-time method of acquiring balance parameters. Although the largest source of error were the acquisition of depth information from the cameras. The results also showed that using a smaller and faster human pose estimation model proved to be sufficient in relation to the larger more accurate models in real-time usage and without the use of computational processor enhancement. / Djupinlärningstekniken Kroppshållningsestimation är ett lovande medel gällande att följa en person och identifiera dess kroppshållning. Eftersom kroppshållning och balans är två närliggande koncept, kan användning av kroppshållningsestimation appliceras till fallprevention. Genom att härleda läget för en persons tyngdpunkt och därefter läget för dess tryckcentrum, kan utvärdering en persons balans genomföras utan att använda kraftplattor eller sensorer och att enbart använda kameror. I denna studie har en kroppshållningsestimationmodell tillsammans med en fördefinierad kroppsviktfördelning använts för att extrahera läget för en persons tryckcentrum i realtid. Den föreslagna metoden använder två olika metoder för att utvinna djupseende av bilderna från kameror - stereoskopi genom användning av två RGB-kameror eller genom användning av en RGB-djupseende kamera. Det estimerade läget av tryckcentrat jämfördes med läget av samma parameter utvunnet genom användning av tryckplattan Wii Balance Board. Eftersom den föreslagna metoden var ämnad att fungera i realtid och utan hjälp av en GPU, blev valet av kroppshållningsestimationsmodellen inriktat på att maximera mjukvaruhastighet. Därför användes tre olika modeller - en mindre och snabbare modell vid namn Lightweight Pose Network, en större och mer träffsäker modell vid namn High-Resolution Network och en model som placerar sig någonstans mitt emellan de två andra modellerna gällande snabbhet och träffsäkerhet vid namn Pose Resolution Network. Den föreslagna metoden visade lovande resultat för utvinning av balansparametrar i realtid, fastän den största felfaktorn visade sig vara djupseendetekniken. Resultaten visade att användning av en mindre och snabbare kroppshållningsestimationsmodellen påvisar att hålla måttet i jämförelse med större och mer träffsäkra modeller vid användning i realtid och utan användning av externa dataprocessorer.

Page generated in 0.0985 seconds