Spelling suggestions: "subject:"deformable parts model"" "subject:"deformable parts godel""
1 |
Vision-based multi-sensor people detection system for heavy machines / Étude d'un système de détection multi-capteurs pour la détection de risques de collision : applications aux manoeuvres d'engins de chantierBui, Manh-Tuan 27 November 2014 (has links)
Ce travail de thèse a été réalisé dans le cadre de la coopération entre l’Université de Technologie de Compiègne (UTC) et le Centre Technique des Industries Mécaniques (CETIM). Nous présentons un système de détection de personnes pour l’aide à la conduite dans les engins de chantier. Une partie du travail a été dédiée à l’analyse du contexte de l’application, ce qui a permis de proposer un système de perception composé d’une caméra monoculaire fisheye et d’un Lidar. L’utilisation des caméras fisheye donne l’avantage d’un champ de vision très large avec en contrepartie, la nécessité de gérer les fortes distorsions dans l’étape de détection. A notre connaissance, il n’y a pas eu de recherches dédiées au problème de la détection de personnes dans les images fisheye. Pour cette raison, nous nous sommes concentrés sur l’étude et la quantification de l’impact des distorsions radiales sur l’apparence des personnes dans les images et nous avons proposé des approches adaptatives pour gérer ces spécificités. Nos propositions se sont inspirées de deux approches de l’état de l’art pour la détection des personnes : les histogrammes de gradient orientés (HOG) et le modèle des parties déformables (DPM). Tout d’abord, en enrichissant la base d’apprentissage avec des imagettes fisheye artificielles, nous avons pu montrer que les classificateurs peuvent prendre en compte les distorsions dans la phase d’apprentissage. Cependant, adapter les échantillons d’entrée, n’est pas la solution optimale pour traiter le problème de déformation de l’apparence des personnes dans les images. Nous avons alors décidé d’adapter l’approche de DPM pour prendre explicitement en compte le modèle de distorsions. Il est apparu que les modèles déformables peuvent être modifiés pour s’adapter aux fortes distorsions des images fisheye, mais ceci avec un coût de calculatoire supérieur. Dans cette thèse, nous présentons également une approche de fusion Lidar/camera fisheye. Une architecture de fusion séquentielle est utilisée et permet de réduire les fausses détections et le coût calculatoire de manière importante. Un jeu de données en environnement de chantier a été construit et différentes expériences ont été réalisées pour évaluer les performances du système. Les résultats sont prometteurs, à la fois en terme de vitesse de traitement et de performance de détection. / This thesis has been carried out in the framework of the cooperation between the Compiègne University of Technology (UTC) and the Technical Centre for Mechanical Industries (CETIM). In this work, we present a vision-based multi-sensors people detection system for safety on heavy machines. A perception system composed of a monocular fisheye camera and a Lidar is proposed. The use of fisheye cameras provides an advantage of a wide field-of-view but yields the problem of handling the strong distortions in the detection stage.To the best of our knowledge, no research works have been dedicated to people detection in fisheye images. For that reason, we focus on investigating and quantifying the strong radial distortions impacts on people appearance and proposing adaptive approaches to handle that specificity. Our propositions are inspired by the two state-of-the-art people detection approaches : the Histogram of Oriented Gradient (HOG) and the Deformable Parts Model (DPM). First, by enriching the training data set, we prove that the classifier can take into account the distortions. However, fitting the training samples to the model, is not the best solution to handle the deformation of people appearance. We then decided to adapt the DPM approach to handle properly the problem. It turned out that the deformable models can be modified to be even better adapted to the strong distortions of the fisheye images. Still, such approach has adrawback of the high computation cost and complexity. In this thesis, we also present a framework that allows the fusion of the Lidar modality to enhance the vision-based people detection algorithm. A sequential Lidar-based fusion architecture is used, which addresses directly the problem of reducing the false detections and computation cost in vision-based-only system. A heavy machine dataset have been also built and different experiments have been carried out to evaluate the performances of the system. The results are promising, both in term of processing speed and performances.
|
2 |
Visual Tracking / Visuell följningDanelljan, Martin January 2013 (has links)
Visual tracking is a classical computer vision problem with many important applications in areas such as robotics, surveillance and driver assistance. The task is to follow a target in an image sequence. The target can be any object of interest, for example a human, a car or a football. Humans perform accurate visual tracking with little effort, while it remains a difficult computer vision problem. It imposes major challenges, such as appearance changes, occlusions and background clutter. Visual tracking is thus an open research topic, but significant progress has been made in the last few years. The first part of this thesis explores generic tracking, where nothing is known about the target except for its initial location in the sequence. A specific family of generic trackers that exploit the FFT for faster tracking-by-detection is studied. Among these, the CSK tracker have recently shown obtain competitive performance at extraordinary low computational costs. Three contributions are made to this type of trackers. Firstly, a new method for learning the target appearance is proposed and shown to outperform the original method. Secondly, different color descriptors are investigated for the tracking purpose. Evaluations show that the best descriptor greatly improves the tracking performance. Thirdly, an adaptive dimensionality reduction technique is proposed, which adaptively chooses the most important feature combinations to use. This technique significantly reduces the computational cost of the tracking task. Extensive evaluations show that the proposed tracker outperform state-of-the-art methods in literature, while operating at several times higher frame rate. In the second part of this thesis, the proposed generic tracking method is applied to human tracking in surveillance applications. A causal framework is constructed, that automatically detects and tracks humans in the scene. The system fuses information from generic tracking and state-of-the-art object detection in a Bayesian filtering framework. In addition, the system incorporates the identification and tracking of specific human parts to achieve better robustness and performance. Tracking results are demonstrated on a real-world benchmark sequence.
|
3 |
SEGUIMIENTO DE PERSONAS APLICANDO RESTRICCIONES CINEMÁTICAS BASADAS EN MODELOS DE CUERPOS RÍGIDOS ARTICULADOSMartínez Bertí, Enrique 01 September 2017 (has links)
The present thesis deals with the study of vision techniques for the detection of human pose based on the analysis of a single image, as well as the tracking of these poses along a sequence of images.
It is proposed to model the human pose by four kinematic chains that model the four articulated extremities. These kinematic chains and head remain attached to the body. The four kinematic chains are composed by three keypoints. Therefore, the model initially has a total of $14$ parts.
In this thesis it is proposed to modify the technique called Deformable Parts Model (DPM), adding the depth channel. Initially, the DPM model was defined over three RGB channel images. While in this thesis it is proposed to work on images of four RGBD channels, so the proposed extension is called 4D-DPM. The experiments performed with 4D-DPM demonstrate an improvement in the accuracy of pose detection with respect to the initial DPM model, at the cost of increasing its computational cost when treating an additional channel.
On the other hand, it is defined to reduce the previous computational cost by simplifying the model that defines the human pose. The idea is to reduce the number of variables to be detected with the 4D-DPM model, so that the suppressed variables can be calculated from the detected variables using inverse kinematics models based on dual quaternions.
In addition, it is proposed to use a particle filter models to continue improving the accuracy of detection of human poses along a sequence of images.
Considering the problem of detection and monitoring of human body pose along a video sequence, this thesis proposes the use of the following method.
1. Camara calibration. RGBD image processing. Subtraction of the image background with the MSER method.
2. 4D-DPM: method used to detect the keypoints (variables of the pose model) within an image.
3. Particle filters: this type of filter is designed to track the keypoints over time and correct the data obtained by the sensor.
4. Inverse kinematic modeling: the control of kinematic chains is performed with the help of dual cuaternions in order to obtain the complete pose model of the human body.
The overall contribution of this thesis is the proposal of the previous method that, combining the previous methods, is able to improve the accuracy in the detection and the follow up of the human body pose in a video sequence, also reducing its computational cost .
This is possible due to the combination of the 4D-DPM method with the use of inverse kinematics techniques. The original DPM method should detect $14$ point of interest on an RGB image to estimate the human pose. However, the proposed method, where a point of interest for each limb is removed, must detect $10$ point of interest on an RGBD image. Subsequently, the eliminated $4$ point of interest are calculated by using inverse kinematics methods from the calculated $10$ point of interest.
To solve the problem of inverse kinematics a dual quaternions methods is proposed for each of the $4$ kinematic chains that model the extremities of the skeleton of the human body.
The particle filter is applied over the time sequence of the 10 points of interest of the posture model detected through the 4D-DPM method. To design these particle filters it is proposed to add the following restrictions to weight the particles generated:
1. Restrictions on joint limits.
2. Softness restrictions.
3. Collision detection.
4. Projection of poly-spheres / La presente tesis trata sobre el estudio de técnicas de visión para la detección de la postura del esqueleto del cuerpo humano basada en el análisis de una sola imagen, además del seguimiento de estas posturas a lo largo de una secuencia de imágenes.
Se propone modelar la postura del esqueleto cuerpo humano mediante cuatro cadenas cinemáticas que modelan las cuatro extremidades articuladas. Estas cadenas cinemáticas y la cabeza permanecen unidas al cuerpo. Las cuatro cadenas cinemáticas se componen de tres puntos de interés. Por lo tanto, el modelo inicialmente dispone de un total de 14 puntos de interés.
En esta tesis se propone modificar la técnica denominada Deformable Parts Model (DPM), añadiendo el canal de profundidad denominado ``Depth''. Inicialmente el modelo DPM se definió sobre imágenes de tres canales RGB. Mientras que en esta tesis se propone trabajar sobre imágenes de cuatro canales RGBD, por ello a la ampliación propuesta se le denomina 4D-DPM.
Por otra parte, se propone reducir el coste computacional anterior simplificando el modelo que define la postura del cuerpo humano. La idea es reducir el número de variables a detectar con el modelo 4D-DPM, de tal manera que las variables suprimidas se puedan calcular a partir de las variables detectadas, utilizando modelos de cinemática inversa basados en cuaterniones duales. Los experimentos realizados demuestran que la combinación de estas dos técnicas permite, reduciendo el coste computacional del método original DPM, mejorar la precisión de la detección de postura debido a la información extra del canal de profundidad.
Adicionalmente, se propone utilizar modelos de filtros de partículas para continuar mejorando la precisión de la detección de las posturas humanas a lo largo de una secuencia de imágenes.
Atendiendo al problema de detección y seguimiento de las postura del esqueleto del cuerpo humano a lo largo de una secuencia de vídeo, esta tesis propone el uso del siguiente método.
1. Calibración de cámaras. Procesamiento de imágenes RGBD. Sustracción del fondo de la imagen con el método MSER.
2. 4D-DPM: método utilizado para detectar los puntos de interés (variables del modelo de postura) dentro de una imagen.
3. Filtros de partículas: se diseña este tipo de filtros para realizar el seguimiento de los puntos de interés a lo largo del tiempo y corregir los datos obtenidos por el sensor.
4. Modelado cinemático inverso: se realiza el control de cadenas cinemáticas con la ayuda de cuaterniones duales con el fin de obtener el modelo completo de la postura del esqueleto del cuerpo humano.
La contribución global de esta tesis es la propuesta del método anterior que, combinando los métodos anteriores, es capaz de mejorar la precisión en la detección y el seguimiento de la postura del esqueleto del cuerpo humano en una secuencia de vídeo, reduciendo además su coste computacional.
El método original DPM debe detectar 14 puntos de interés sobre una imagen RGB para estimar la postura de un cuerpo humano. Sin embargo, el método propuesto debe detectar 10 puntos de interés sobre una imagen RGBD. Posteriormente, los 4 puntos de interés eliminados se calculan mediante la utilización de métodos de cinemática inversa a partir de los 10 puntos de interés calculados.
Para resolver el problema de la cinemática inversa se propone utilizar cuaterniones duales para cada una de las 4 cadenas cinemáticas que modelan las extremidades del esqueleto del cuerpo humano.
El filtro de partículas se aplica sobre la secuencia temporal de los 10 puntos de interés del modelo de postura detectados a través del método 4D-DPM. Para diseñar estos filtros de partículas se propone añadir las siguientes restricciones, explicadas en la memoria, para ponderar las partículas generadas:
1. Restricciones en los límites de articulaciones.
2. Restricciones de suavidad.
3. Detección de colisiones.
4. Proyección de las poli-esferas. / La present tesi tracta sobre l'estudi de tècniques de visió per a la detecció de la postura de l'esquelet del cos humà basada en l'anàlisi d'una sola imatge, a més del seguiment d'estes postures al llarg d'una seqüència d'imatges.
Es proposa modelar la postura de l'esquelet del cos humà per mitjà de quatre cadenes cinemàtiques que modelen les quatre extremitats articulades. Estes cadenes cinemàtiques i el cap romanen unides al cos. Les quatre cadenes cinemàtiques es componen de tres punts d'interés. Per tant, el model inicialment disposa d'un total de $14$ punts d'interés.
En esta tesi es proposa modificar la tècnica denominada Deformable Parts Model (DPM) , afegint el canal de profunditat denominat ``Depth''. Inicialment el model DPM es va definir sobre imatges de tres canals RGB. Mentres que en esta tesi es proposa treballar sobre imatges de quatre canals RGBD, per això a l'ampliació proposada se la denomina 4D-DPM.
D'altra banda, es proposa reduir el cost computacional anterior simplificant el model que definix la postura del cos humà. La idea és reduir el nombre de variables a detectar amb el model 4D-DPM, de tal manera que les variables suprimides es puguen calcular a partir de les variables detectades, utilitzant models de cinemàtica inversa basats en quaternions duals. Els experiments realitzats demostren que la combinació d'estes dos tècniques permet, reduint el cost computacional del mètode original DPM, millorar la precisió de la detecció de la postura degut a la informació extra del canal de profunditat.
Addicionalment, es proposa utilitzar models de filtres de partícules per a continuar millorant la precisió de la detecció de les postures humanes al llarg d'una seqüència d'imatges.
Atenent al problema de detecció i seguiment de les postura de l'esquelet del cos humà al llarg d'una seqüència de vídeo, esta tesi proposa l'ús del següent mètode.
1. Calibratge de càmeres. Processament d'imatges RGBD. Sostracció del fons de la imatge amb el mètode MSER.
2. 4D-DPM: mètode utilitzat per a detectar els punts d'interés (variables del model de postura) dins d'una imatge.
3. Filtres de partícules: es dissenya este tipus de filtres per a realitzar el seguiment dels punts d'interés al llarg del temps i corregir les dades obtingudes pel sensor.
4. Modelatge cinemàtic invers: es realitza el control de cadenes cinemàtiques amb l'ajuda de quaternions duals a fi d'obtindre el model complet de l'esquelet del cos humà.
La contribució global d'esta tesi és la proposta del mètode anterior que, combinant els mètodes anteriors, és capaç de millorar la precisió en la detecció i el seguiment de la postura de l'esquelet del cos humà en una seqüència de vídeo, reduint a més el seu cost computacional.
Açò és possible a causa de la combinació del mètode 4D-DPM amb la utilització de tècniques de cinemàtica inversa. El mètode original DPM ha de detectar 14 punts d'interés sobre una imatge RGB per a estimar la postura d'un cos humà. No obstant això, el mètode proposat ha de detectar 10 punts d'interés sobre una imatge RGBD. Posteriorment, els 4 punts d'interés eliminats es calculen per mitjà de la utilització de mètodes de cinemàtica inversa a partir dels 10 punts d'interés calculats.
Per a resoldre el problema de la cinemàtica inversa es proposa utilitzar quaternions duals per a cada una de les 4 cadenes cinemàtiques que modelen les extremitats de l'esquelet del cos humà.
El filtre de partícules s'aplica sobre la seqüència temporal dels 10 punts d'interés del model de postura detectats a través del mètode 4D-DPM. Per a dissenyar estos filtres de partícules es proposa afegir les següents restriccions per a ponderar les partícules generades:
1. Restriccions en els límits d'articulacions.
2. Restriccions de suavitat.
3. Detecció de col·lisions.
4. Projecció de les poli-esferes. / Martínez Bertí, E. (2017). SEGUIMIENTO DE PERSONAS APLICANDO RESTRICCIONES CINEMÁTICAS BASADAS EN MODELOS DE CUERPOS RÍGIDOS ARTICULADOS [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86159
|
Page generated in 0.0729 seconds