Spelling suggestions: "subject:"dose"" "subject:"pose""
301 |
Accident Reconstruction in Ice Hockey: A Pipeline using Pose and Kinematics Estimation to Personalize Finite Element Human Body Models / Rekonstruktion av olyckor i ishockey: En pipeline som använder pose- och kinematikuppskattning för att anpassa finita element humanmodellerEven, Azilis Emma Sulian January 2024 (has links)
Ice hockey is a sport whose athletes are at high risk for traumatic head injuries due to the violence of potential impacts with other athletes, ice, or glass during games. In order to develop the best protective strategies for the players, it is necessary to have a deep understanding of accident mechanisms during ice hockey games. Accident reconstructions using the finite element (FE) method are a way to perform a systematic analysis of impact cases, but require input data on the circumstances of the accidents. Thus, this project focused on finding a way to extract the position and velocity of the players involved from readily available videos of ice hockey accidents using motion tracking methods. This project included two parts: pose estimation and velocity estimation. The pose estimation aimed to align a human body model (HBM) with the players' poses and the key steps included estimating 2D joints from impact images, estimating the players' 3D poses, skeleton inferencing, and aligning the results with the baseline HBM via pelvic registration. The velocity estimation defined the initial conditions for simulating the collision and key steps included identifying the players' 2D joints across impact video frames, tracking of the players using a simplified pelvis projection on the rink plane, and estimating the players’ velocity using homography to identify their position on the ice hockey rink. Then, both parts were applied to accident cases from a video database of collisions that occurred during a hockey league season. The cases in which the pipeline was fully applied ultimately resulted in LS-DYNA positioning files for the Total Human Model for Safety (THUMS) model, and problematic cases were used to get an overview of the limits of the chosen methodology. Said limitations were mostly linked to the quality of the source videos, which is highly dependent on the source of the videos and possibly not controllable. Due to this, selection criteria are required, such as checking the blurriness and quality of the videos and the viewing angles to ensure as few occlusions as possible. Overall, this project resulted in a working semi-automatic pipeline for pose and velocity estimation in contact sports collisions, as well as a first set of personalized input information that should allow the reconstruction of ice hockey accidents using FE simulations. / Ishockey är en sport vars utövare löper stor risk att drabbas av traumatiska huvudskador på grund av de våldsamma potentiella kollisionerna med andra utövare, is eller glas under matcherna. För att kunna utveckla de bästa skyddsstrategierna för spelarna är det nödvändigt att ha en djup förståelse för olycksmekanismerna under ishockeymatcher. Olycksrekonstruktioner med hjälp av finita elementmetoden är ett sätt att utföra en systematisk analys av kollisionsfall, men kräver indata om omständigheterna kring olyckorna. Detta projekt fokuserade därför på att hitta ett sätt att extrahera de inblandade spelarnas position och hastighet från lättillgängliga videor av ishockeyolyckor med hjälp av rörelsespårningsmetoder. Projektet bestod av två delar: poseuppskattning och hastighetsuppskattning. Poseuppskattningen syftade till att anpassa en humanmodell till spelarnas poser och de viktigaste stegen omfattade uppskattning av 2D-leder från kollisionsbilder, uppskattning av spelarnas 3D-poser, skelettinferens och anpassning av resultaten till baslinjen HBM via bäckenregistrering. Hastighets-uppskattningen definierade de initiala villkoren för simulering av kollisionen och viktiga steg inkluderade identifiering av spelarnas 2D-led i videobilder av kollisionen, spårning av spelarna med hjälp av en förenklad bäckenprojektion på rinkplanet och uppskattning av spelarnas hastighet med hjälp av homografi för att identifiera deras position på ishockeyrinken. Därefter tillämpades båda delarna på olycksfall från en videodatabas med kollisioner som inträffade under en säsong i en hockeyliga. De fall där pipelinen tillämpades fullt ut resulterade slutligen i LS-DYNA-positioneringsfiler, och problematiska fall användes för att få en överblick över gränserna för den valda metoden. Begränsningarna var främst kopplade till kvaliteten på källvideorna, som är starkt beroende av källan till videorna och eventuellt inte kan kontrolleras. På grund av detta krävs urvalskriterier, t.ex. kontroll av videornas oskärpa och kvalitet samt betraktningsvinklar för att säkerställa så få ocklusioner som möjligt. Sammantaget resulterade detta projekt i en fungerande halvautomatisk pipeline för pose- och hastighetsuppskattning vid kollisioner i kontaktsporter, samt en första uppsättning personlig indatainformation som bör möjliggöra rekonstruktion av ishockeyolyckor med hjälp av simulering med finita element.
|
302 |
Learning Pose and State-Invariant Object Representations for Fine-Grained Recognition and RetrievalRohan Sarkar (19065215) 11 July 2024 (has links)
<p dir="ltr">Object Recognition and Retrieval is a fundamental problem in Computer Vision that involves
recognizing objects and retrieving similar object images through visual queries. While
deep metric learning is commonly employed to learn image embeddings for solving such
problems, the representations learned using existing methods are not robust to changes in
viewpoint, pose, and object state, especially for fine-grained recognition and retrieval tasks.
To overcome these limitations, this dissertation aims to learn robust object representations
that remain invariant to such transformations for fine-grained tasks. First, it focuses on
learning dual pose-invariant embeddings to facilitate recognition and retrieval at both the
category and finer object-identity levels by learning category and object-identity specific representations
in separate embedding spaces simultaneously. For this, the PiRO framework is
introduced that utilizes an attention-based dual encoder architecture and novel pose-invariant
ranking losses for each embedding space to disentangle the category and object representations
while learning pose-invariant features. Second, the dissertation introduces ranking
losses that cluster multi-view images of an object together in both the embedding spaces
while simultaneously pulling the embeddings of two objects from the same category closer in
the category embedding space to learn fundamental category-specific attributes and pushing
them apart in the object embedding space to learn discriminative features to distinguish
between them. Third, the dissertation addresses state-invariance and introduces a novel ObjectsWithStateChange
dataset to facilitate research in recognizing fine-grained objects with
state changes involving structural transformations in addition to pose and viewpoint changes.
Fourth, it proposes a curriculum learning strategy to progressively sample object images that
are harder to distinguish for training the model, enhancing its ability to capture discriminative
features for fine-grained tasks amidst state changes and other transformations. Experimental
evaluations demonstrate significant improvements in object recognition and retrieval
performance compared to previous methods, validating the effectiveness of the proposed
approaches across several challenging datasets under various transformations.</p>
|
303 |
Detekce a sledování polohy hlavy v obraze / Head Pose Estimation and TrackingPospíšil, Aleš January 2011 (has links)
Diplomová práce je zaměřena na problematiku detekce a sledování polohy hlavy v obraze jako jednu s možností jak zlepšit možnosti interakce mezi počítačem a člověkem. Hlavním přínosem diplomové práce je využití inovativních hardwarových a softwarových technologií jakými jsou Microsoft Kinect, Point Cloud Library a CImg Library. Na úvod je představeno shrnutí předchozích prací na podobné téma. Následuje charakteristika a popis databáze, která byla vytvořena pro účely diplomové práce. Vyvinutý systém pro detekci a sledování polohy hlavy je založený na akvizici 3D obrazových dat a registračním algoritmu Iterative Closest Point. V závěru diplomové práce je nabídnuto hodnocení vzniklého systému a jsou navrženy možnosti jeho budoucího zlepšení.
|
304 |
Extraction d’une image dans une vidéo en vue de la reconnaissance du visage / Extraction of an image in order to apply face recognition methodsPyun, Nam Jun 09 November 2015 (has links)
Une vidéo est une source particulièrement riche en informations. Parmi tous les objets que nous pouvons y trouver, les visages humains sont assurément les plus saillants, ceux qui attirent le plus l’attention des spectateurs. Considérons une séquence vidéo dont chaque trame contient un ou plusieurs visages en mouvement. Ils peuvent appartenir à des personnes connues ou qui apparaissent de manière récurrente dans la vidéo Cette thèse a pour but de créer une méthodologie afin d’extraire une ou plusieurs images de visage en vue d’appliquer, par la suite, un algorithme de reconnaissance du visage. La principale hypothèse de cette thèse réside dans le fait que certains exemplaires d’un visage sont meilleurs que d’autres en vue de sa reconnaissance. Un visage est un objet 3D non rigide projeté sur un plan pour obtenir une image. Ainsi, en fonction de la position relative de l’objectif par rapport au visage, l’apparence de ce dernier change. Considérant les études sur la reconnaissance de visages, on peut supposer que les exemplaires d’un visage, les mieux reconnus sont ceux de face. Afin d’extraire les exemplaires les plus frontaux possibles, nous devons d’une part estimer la pose de ce visage. D’autre part, il est essentiel de pouvoir suivre le visage tout au long de la séquence. Faute de quoi, extraire des exemplaires représentatifs d’un visage perd tout son sens. Les travaux de cette thèse présentent trois parties majeures. Dans un premier temps, lorsqu’un visage est détecté dans une séquence, nous cherchons à extraire position et taille des yeux, du nez et de la bouche. Notre approche se base sur la création de cartes d’énergie locale principalement à direction horizontale. Dans un second temps, nous estimons la pose du visage en utilisant notamment les positions relatives des éléments que nous avons extraits. Un visage 3D a trois degrés de liberté : le roulis, le lacet et le tangage. Le roulis est estimé grâce à la maximisation d’une fonction d’énergie horizontale globale au visage. Il correspond à la rotation qui s’effectue parallèlement au plan de l’image. Il est donc possible de le corriger pour qu’il soit nul, contrairement aux autres rotations. Enfin, nous proposons un algorithme de suivi de visage basé sur le suivi des yeux dans une séquence vidéo. Ce suivi repose sur la maximisation de la corrélation des cartes d’énergie binarisées ainsi que sur le suivi des éléments connexes de cette carte binaire. L’ensemble de ces trois méthodes permet alors tout d’abord d’évaluer la pose d’un visage qui se trouve dans une trame donnée puis de lier tous les visages d’une même personne dans une séquence vidéo, pour finalement extraire plusieurs exemplaires de ce visage afin de les soumettre à un algorithme de reconnaissance du visage. / The aim of this thesis is to create a methodology in order to extract one or a few representative face images of a video sequence with a view to apply a face recognition algorithm. A video is a media particularly rich. Among all the objects present in the video, human faces are, for sure, the most salient objects. Let us consider a video sequence where each frame contains a face of the same person. The primary assumption of this thesis is that some samples of this face are better than the others in terms of face recognition. A face is a non-rigid 3D object that is projected on a plan to form an image. Hence, the face appearance changes according to the relative positions of the camera and the face. Many works in the field of face recognition require faces as frontal as possible. To extract the most frontal face samples, on the one hand, we have to estimate the head pose. On the other hand, tracking the face is also essential. Otherwise, extraction representative face samples are senseless. This thesis contains three main parts. First, once a face has been detected in a sequence, we try to extract the positions and sizes of the eyes, the nose and the mouth. Our approach is based on local energy maps mainly with a horizontal direction. In the second part, we estimate the head pose using the relative positions and sizes of the salient elements detected in the first part. A 3D face has 3 degrees of freedom: the roll, the yaw and the pitch. The roll is estimated by the maximization of a global energy function computed on the whole face. Since this roll corresponds to the rotation which is parallel to the image plan, it is possible to correct it to have a null roll value face, contrary to other rotations. In the last part, we propose a face tracking algorithm based on the tracking of the region containing both eyes. This tracking is based on the maximization of a similarity measure between two consecutive frames. Therefore, we are able to estimate the pose of the face present in a video frame, then we are also able to link all the faces of the same person in a video sequence. Finally, we can extract several samples of this face in order to apply a face recognition algorithm on them.
|
305 |
The acquisition of coarse gaze estimates in visual surveillanceBenfold, Ben January 2011 (has links)
This thesis describes the development of methods for automatically obtaining coarse gaze direction estimates for pedestrians in surveillance video. Gaze direction estimates are beneficial in the context of surveillance as an indicator of an individual's intentions and their interest in their surroundings and other people. The overall task is broken down into two problems. The first is that of tracking large numbers of pedestrians in low resolution video, which is required to identify the head regions within video frames. The second problem is to process the extracted head regions and estimate the direction in which the person is facing as a coarse estimate of their gaze direction. The first approach for head tracking combines image measurements from HOG head detections and KLT corner tracking using a Kalman filter, and can track the heads of many pedestrians simultaneously to output head regions with pixel-level accuracy. The second approach uses Markov-Chain Monte-Carlo Data Association (MCMCDA) within a temporal sliding window to provide similarly accurate head regions, but with improved speed and robustness. The improved system accurately tracks the heads of twenty pedestrians in 1920x1080 video in real-time and can track through total occlusions for short time periods. The approaches for gaze direction estimation all make use of randomised decision tree classifiers. The first develops classifiers for low resolution head images that are invariant to hair and skin colours using branch decisions based on abstract labels rather than direct image measurements. The second approach addresses higher resolution images using HOG descriptors and novel Colour Triplet Comparison (CTC) based branches. The final approach infers custom appearance models for individual scenes using weakly supervised learning over large datasets of approximately 500,000 images. A Conditional Random Field (CRF) models interactions between appearance information and walking directions to estimate gaze directions for head image sequences.
|
306 |
Localisation référencée modèle d'un robot mobile d'intérieurAit Aider, Omar 19 December 2002 (has links) (PDF)
Le présent travail porte sur la localisation incrémentale et absolue d'un robot mobile dans un environnement d'intérieur partiellement modélisé en utilisant la vision monoculaire. L'environnement de navigation du robot est à base de primitives géométriques (segments). Il intègre la notion d'occultation grâce à un découpage de l'espace 2-D navigable en Régions d'Invariance Visuelle. Le modèle de caméra à perspective pleine est obtenu grâce au calibrage par la méthode de Zhang. L'approche adoptée est composée de quatre étapes : acquisition d'une image à partir de la position courante du robot, extraction des primitives observées, mise en correspondance des primitives de l'image avec celles du modèle et calcul de la position et de l'orientation de la caméra. Deux méthodes numériques de calcul de la position et de l'orientation de la caméra grâce à des correspondances de droites sont présentées est adaptées au cas spécifique de la robotique mobile. Enfin, un algorithme de mise en correspondance des segments de l'image avec ceux du modèle est défini. Il est basé sur la recherche dans un arbre d'interprétation. Les Régions d'Invariance Visuelle et la configuration du système sont utilisées pour réduire l'espace des correspondances. Des contraintes géométriques d'ordre un et deux sont définies pour assurer l'élagage rapide de l'arbre. Une nouvelle fonction de vérification de la cohérence globale permet de sélectionner l'hypothèse de correspondance la plus cohérente.
|
307 |
Localisation et modélisation tridimensionnelles par approximations successives du modèle perspectif de caméraChristy, Stéphane 17 August 1998 (has links) (PDF)
Dans le cadre de cette thèse, nous proposons un algorithme générique permettant de résoudre le problème de calcul de pose et le problème de reconstruction avec un modèle perspectif de caméra. Étant donnés une image et un modèle 3D de la scène (ou objet) visible dans l'image, le calcul de pose consiste à calculer la position et l'orientation de la caméra par rapport à la scène. Nous étudions successivement le cas de correspondances 2D 3D de points, et le cas des droites. La méthode proposée améliore de manière itérative la pose calculée avec un modèle affine de caméra (orthographique à l'échelle ou paraperspectif) pour converger, à la limite, vers une estimation de la pose calculée avec un modèle perspectif de caméra. Nous étudions les relations mathématiques et géométriques existant entre les modèles orthographique à l'échelle, paraperspectif et perspectif de caméra. Nous introduisons une façon simple de prendre en compte la contrainte d'orthogonalité associée à une matrice de rotation. Nous analysons la sensibilité de la méthode par rapport aux erreurs d'étalonnage de la caméra et nous définissons les conditions expérimentales optimales par rapport à un étalonnage imprécis. Nous étudions la convergence de la méthode sur la base de considérations numériques et expérimentales et nous testons son efficacité avec des données synthétiques et réelles. Dans un second temps, nous étendons les algorithmes de calcul de pose précédents au problème de la reconstruction euclidienne avec un modèle perspectif de caméra, à partir d'une séquence d'images. La méthode proposée converge en quelques itérations, est efficace du point de vue calculatoire, et ne souffre pas de la nature non linéaire du problème traité. Comparativement à des méthodes telles que la factorisation ou les invariants affines, notre méthode résout le problème de l'ambiguïté de signe d'une façon très simple et fournit des résultats bien plus précis. Nous décrivons la nouvelle méthode en détail, et comparons la complexité de la méthode proposée avec une méthode de minimisation non linéaire. Nous présentons ensuite une seconde approche du problème de reconstruction euclidienne en considérant un modèle affine de caméra non étalonnée montée sur le bras d'un robot. Nous montrons comment utiliser l'information euclidienne fournie par le déplacement du robot afin d'obtenir une reconstruction euclidienne, et expliquons comment obtenir l'étalonnage du modèle affine de caméra ainsi que l'étalonnage caméra-pince. Afin de pouvoir utiliser en pratique ces algorithmes de reconstruction, nous présentons une méthode de poursuite de points caractéristiques sur une séquence monoculaire d'images, puis sur une séquence stéréoscopique. Nous proposons également une méthode pour obtenir une précision sous-pixellique des positions des points dans les images pour un faible coût calculatoire.
|
308 |
Image-based Capture and Modeling of Dynamic Human Motion and AppearanceBirkbeck, Neil Aylon Charles Unknown Date
No description available.
|
309 |
Comparative performance of ductile and damage protected bridge piers subjected to bi-directional earthquake attackMashiko, Naoto January 2006 (has links)
Incremental Dynamic Analysis (IDA) procedures are advanced and then applied to a quantitative risk assessment for bridge structures. This is achieved by combining IDA with site-dependent hazard-recurrence relations and damage outcomes. The IDA procedure is also developed as a way to select a critical earthquake motion record for a one-off destructive experiment. Three prototype bridge substructures are designed according to the loading and detailing requirements of New Zealand, Japan and Caltrans codes. From these designs 30 percent reduced scale specimens are constructed as part of an experimental investigation. The Pseudodynamic test is then to control on three specimens using the identified critical earthquake records. The results are presented in a probabilistic riskbased format. The differences in the seismic performance of the three different countries' design codes are examined. Each of these current seismic design codes strive for ductile behaviour of bridge substructures. Seismic response is expected to be resulting damage on structures, which may threaten post-earthquake serviceability. To overcome this major performance shortcoming, the seismic behaviour under bi-directional lateral loading is investigated for a bridge pier designed and constructed in accordance with Damage Avoidance principles. Due to the presence of steel armoured rocking interface at the base, it is demonstrated that damage can be avoided, but due to the lack of hysteresis it is necessary to add some supplemental damping. Experimental results of the armoured rocking pier under bi-directional loading are compared with a companion ductile design specimen.
|
310 |
Tout est dans le regard : reconnaissance visuelle du comportement humain en vue subjectiveMartinez, Francis 09 July 2013 (has links) (PDF)
Dans ce manuscrit, nous nous intéressons à l'analyse visuelle du comportement humain à partir de l'information du regard. A l'inverse des caméras statiques et externes, nous adoptons un point de vue subjectif, ce qui permet de placer le contexte d'étude au centre de l'être humain et de ses interactions avec l'environnement. Pour atteindre cet objectif, nous avons développé un eye-tracker porté, ainsi que des outils d'analyse associés, en particulier la reconnaissance d'attention dans le cadre d'interactions sociales et la reconnaissance d'activités subjectives. Dans la première partie de cette thèse, nous présentons un eye-tracker binoculaire tête porté à partir duquel nous estimons le regard du sujet. Contrairement à la plupart des systèmes basés sur l'éclairage infrarouge, notre approche fonctionne en éclairage visible. Pour cela, nous nous inspirons des méthodes basées apparence qui, au lieu, d'extraire des caractéristiques géométriques (par exemple, la pupille), exploitent l'image de l'oeil dans sa globalité et elles permettent donc de prendre en compte toutes les caractéristiques de l'oeil. Pour apprendre la relation entre les caractéristiques d'apparence et les coordonnées du point de regard dans l'image de la caméra scène, deux modèles de régression sont comparés : le Support Vector Regression et le Relevance Vector Regression. Nous proposons, ensuite, une nouvelle méthode de reconnaissance d'attention en vue subjective. Le regard subjectif est obtenu à l'aide de notre eye-tracker, tandis que le regard d'autrui est construit à partir de l'estimation de l'orientation de la tête par régression à noyaux multiples localisés. En combinant ces deux types de regard, nous calculons alors des scores d'attention qui permettent d'identifier des motifs attentionnels dyadiques tels que le regard mutuel, mais aussi des motifs d'ordre supérieur émanant de la nature triadique de notre expérience. Notre outil final d'analyse concerne la reconnaissance d'activités basée sur le regard et l'égo-mouvement. Ces mouvements sont quantifiés en fonction de leur direction et de leur amplitude et encodés sous forme de symboles. Des caractéristiques statistiques sont alors extraites via un codage multi-échelle et un partitionnement temporel. Pour la classification et la segmentation d'activités, nous décrivons une approche par apprentissage contextuel en intégrant des scores de prédiction d'un voisinage à longue portée. Une étude détaillée permet également de comprendre quelles caractéristiques jouent un rôle prédominant dans la représentation d'une activité.
|
Page generated in 0.107 seconds