Global ETD Search

1	Modélisation planaire pour un RGB-D SLAM : localisation éparse et cartographie réduite / Planar modeling for an RGB-D SLAM : sparse localisation and reduced mapping El Chaoui El Ghor, Hakim 06 December 2016 (has links) Cette thèse traite du problème de la Localisation et Cartographie Simultanées (SLAM) dans les environnements d’intérieur. Dans ce contexte, nous avons choisi un SLAM visuel en utilisant les données d’un capteur RGB-D de type Kinect pour estimer la trajectoire de la caméra et construire une carte 3D de l’environnement en temps réel. Malgré les avantages des caméras RGB-D (faible coût, images couleurs et cartes de profondeur), les données de profondeur issues de ce genre de capteur peuvent être de mauvaise qualité ce qui affecte l’estimation de la pose. En outre, la taille des nuages de points engendre une carte globale lourde et contenant de nombreux points 3D redondants. Afin de diminuer l’impact de ces faiblesses sur la résolution du SLAM, nous proposons d’utiliser des plans 3D, majoritaires dans les scènes d’intérieur, dans le processus d’estimation de poses de la caméra pour construire des cartes 3D basées-plans.Les plans 3D servent alors à générer des points d’intérêt 3D planaires moins bruités que les points bruts déduits directement des nuages de points. En rectifiant les valeurs de profondeur des points d’intérêt 3D bruts appartenant à ces plans, nous améliorons ainsi l’estimation de pose quand la scène est composée essentiellement de plans. Par la suite, les plans 3D détectés sont utilisés pour construire une carte 3D globale légère. La carte est élaborée en fusionnant itérativement les régions planaires détectées dans la scène avec celles déjà présentes dans la carte ou en ajoutant de nouveaux plans. Contrairement à la représentation classique basée point,nous réduisons ainsi la taille de la carte 3D et construisons des cartes compactes. Ces cartes sont exploitables par des applications de robotique mobile et de navigation. Pour montrer les bénéfices des travaux proposés dans cette thèse, les expérimentations réalisées évaluent la précision de la localisation, l’influence de l’échantillonnage des données RGB-D sur la détection des plans ainsi que la qualité de la carte basée-plans 3D par rapport à la scène réelle. La carte ainsi constituée de plans présente une première étape vers une carte plus sémantique. / This thesis deals with the Simultaneous Localisation and Mapping (SLAM) problem in indoor environments. In this context, we chose a visual SLAM using an RGB-D sensor (Kinect) to estimate the camera trajectory and to build a 3D map of the environment in realtime. Despite RGB-D cameras advantages (low cost, color images and depth maps), depth data resulting from this kind of sensors may be noisy, which affects pose estimation. In addition,due to points clouds sizes, the resulting global map is heavyweight and contains many redundant 3D points. In order to reduce the impact of these weaknesses on resolving the SLAM problem, we propose to use 3D planes, which are dominant in indoor scenes, for both camera poses estimations and 3D based-planes maps building process. Hence, 3D planes are used to generate 3D planar feature featuring less depth noise than the raw points extracted directly from points clouds. By regularizing depth values of raw 3D feature points belonging to these planes, we improve pose estimation when the scene is mainly composed of planes. Then, the detected 3D planes are used to build the global 3D map, creating a light representation of the environment based on these planes. The map is iteratively built from each new camera pose either by merging new planes to the existing ones or by adding new planes to the map. Thus,unlike conventional point-based representation, the size of the resulting 3D map is considerably reduced and the built map is more compact compared to point-based maps.These maps maybe used by mobile robotics and navigation applications. To show the benefits of our works, the conducted experiments to evaluate localisation accuracy, the influence of subsampled RGB-Ddata on plane detection, as well as quality of 3D plane-based maps against real scenes. Such plane-based maps represents a first step towards semantic maps. Points d’intérêt 3D planaires Cartes 3D basée-plans Segmentation de données 3D
2	Suivi d’objets dans des séquences d’images de scènes déformables : de l’importance des points d’intérêt et du maillage 2D / Objects tracking in video of non rigid scenes : importance of interest points and 2D mesh Parisot, Pascaline 23 January 2009 (has links) Nous abordons le suivi d’objets dans des séquences d’images de scènes déformables selon deux axes de recherche. Il s’agit de déterminer les transformations d’un objet, d’une image à l’autre, lorsque celui-ci s’est éventuellement déformé ou déplacé et lorsque le point de vue de la caméra a éventuellement été modifié (déplacement, zoom...). Pour cela, nous nous sommes inspirés de l’algorithme de Jurie et Dhome qui permet de suivre un objet plan indéformable. D’une part, nous en améliorons les performances. D’autre part, nous le généralisons au cas d’objets déformables. Le premier axe de recherche consiste à améliorer les performances de l’algorithme de Jurie et Dhome en termes de précision et robustesse. Le suivi s’appuie sur un ensemble de points d’intérêt, dont dépendent fortement les performances. Ces points d’intérêt sont issus d’une sélection des points obtenus par des détecteurs reconnus, à savoir SIFT, KLT, SUSAN, HARRIS et MORAVEC. Nous avons étudié et mis en oeuvre, sur différentes classes d’images, des heuristiques de sélection fondées sur des approches statistique et algébrique. Nous montrons : – qu’il n’existe pas de détecteur universel, – que l’approche statistique est à privilégier dans tous les cas. Le second axe de recherche est une proposition d’un nouvel algorithme de suivi s’appuyant sur le maillage 2D des images de la séquence. Cet algorithme généralise celui de Jurie et Dhome aux scènes déformables. Il repose sur : – des transformations élémentaires (nodales) du maillage, directes et inverses, que nous avons caractérisées tant d’un point de vue géométrique qu’analytique, – l’utilisation des coordonnées barycentriques généralisées pour approcher la composition de deux transformations d’un maillage. Cet algorithme donne des résultats similaires à celui d’appariement hexagonal de Nakaya et Harashima tout en étant plus rapide. / We deal with object tracking in videos of non-rigid scenes with two main purposes. We aim at determining the transformations of an object, from one frame to the next, when it may be distorted or moved and when the camera focus may change (movement, zoom...). To do this, we were inspired by the Jurie and Dhome algorithm, which enables the tracking of plane rigid objects. On the one hand, we improve its performance. On the other hand, we generalize it to non-rigid objects. The first goal consists in improving the performance of the Jurie and Dhome algorithm, in terms of accuracy and robustness. The tracking is based on a set of interest points, which has a great effect on the algorithm’s performance. These interest points come from a selection among the points extracted with some common detectors: SIFT, KLT, SUSAN, HARRIS, and MORAVEC.With various pictures classes, we have studied and implemented some selection heuristics based on statistical or algebraic approaches. We show that : • there is no universal detector, • the statistical approach is the best in all cases. The second goal is a proposal of a new tracking algorithm based on a 2D mesh of the video frames. This algorithm generalizes the Jurie and Dhome one for non-rigid scenes. It is based on : • elementary (nodal), direct or inverse, mesh transformations that we geometrically and analytically characterize, • generalized barycentric coordinates to approximate the composition of two mesh transformations. This algorithm gives similar results to the hexagonal matching algorithm of Nakaya and Harashima while being faster. Suivi Apprentissage Points d’Intérêt Maillage 2D Objets Déformables Séquence d’Images Tracking Learning Interest Points 2D mesh Non Rigid Objects Video
3	Anatomy of the SIFT method / L'Anatomie de la méthode SIFT Rey Otero, Ives 26 September 2015 (has links) Cette thèse est une analyse approfondie de la méthode SIFT, la méthode de comparaison d'images la plus populaire. En proposant un échantillonnage du scale-space Gaussien, elle est aussi la première méthode à mettre en pratique la théorie scale-space et faire usage de ses propriétés d'invariance aux changements d'échelles.SIFT associe à une image un ensemble de descripteurs invariants aux changements d'échelle, invariants à la rotation et à la translation. Les descripteurs de différentes images peuvent être comparés afin de mettre en correspondance les images. Compte tenu de ses nombreuses applications et ses innombrables variantes, étudier un algorithme publié il y a une décennie pourrait surprendre. Il apparaît néanmoins que peu a été fait pour réellement comprendre cet algorithme majeur et établir de façon rigoureuse dans quelle mesure il peut être amélioré pour des applications de haute précision. Cette étude se découpe en quatre parties. Le calcul exact du scale-space Gaussien, qui est au cœur de la méthode SIFT et de la plupart de ses compétiteurs, est l'objet de la première partie.La deuxième partie est une dissection méticuleuse de la longue chaîne de transformations qui constitue la méthode SIFT. Chaque paramètre y est documenté et son influence analysée. Cette dissection est aussi associé à une publication en ligne de l'algorithme. La description détaillée s'accompagne d'un code en C ainsi que d'une plateforme de démonstration permettant l'analyse par le lecteur de l'influence de chaque paramètre. Dans la troisième partie, nous définissons un cadre d'analyse expérimental exact dans le but de vérifier que la méthode SIFT détecte de façon fiable et stable les extrema du scale-space continue à partir de la grille discrète. En découlent des conclusions pratiques sur le bon échantillonnage du scale-space Gaussien ainsi que sur les stratégies de filtrage de points instables. Ce même cadre expérimental est utilisé dans l'analyse de l'influence de perturbations dans l'image (aliasing, bruit, flou). Cette analyse démontre que la marge d'amélioration est réduite pour la méthode SIFT ainsi que pour toutes ses variantes s'appuyant sur le scale-space pour extraire des points d'intérêt. L'analyse démontre qu'un suréchantillonnage du scale-space permet d'améliorer l'extraction d'extrema et que se restreindre aux échelles élevées améliore la robustesse aux perturbations de l'image.La dernière partie porte sur l'évaluation des performances de détecteurs de points. La métrique de performance la plus généralement utilisée est la répétabilité. Nous démontrons que cette métrique souffre pourtant d'un biais et qu'elle favorise les méthodes générant des détections redondantes. Afin d'éliminer ce biais, nous proposons une variante qui prend en considération la répartition spatiale des détections. A l'aide de cette correction nous réévaluons l'état de l'art et montrons que, une fois la redondance des détections prise en compte, la méthode SIFT est meilleure que nombre de ses variantes les plus modernes. / This dissertation contributes to an in-depth analysis of the SIFT method. SIFT is the most popular and the first efficient image comparison model. SIFT is also the first method to propose a practical scale-space sampling and to put in practice the theoretical scale invariance in scale space. It associates with each image a list of scale invariant (also rotation and translation invariant) features which can be used for comparison with other images. Because after SIFT feature detectors have been used in countless image processing applications, and because of an intimidating number of variants, studying an algorithm that was published more than a decade ago may be surprising. It seems however that not much has been done to really understand this central algorithm and to find out exactly what improvements we can hope for on the matter of reliable image matching methods. Our analysis of the SIFT algorithm is organized as follows. We focus first on the exact computation of the Gaussian scale-space which is at the heart of SIFT as well as most of its competitors. We provide a meticulous dissection of the complex chain of transformations that form the SIFT method and a presentation of every design parameter from the extraction of invariant keypoints to the computation of feature vectors. Using this documented implementation permitting to vary all of its own parameters, we define a rigorous simulation framework to find out if the scale-space features are indeed correctly detected by SIFT, and which sampling parameters influence the stability of extracted keypoints. This analysis is extended to see the influence of other crucial perturbations, such as errors on the amount of blur, aliasing and noise. This analysis demonstrates that, despite the fact that numerous methods claim to outperform the SIFT method, there is in fact limited room for improvement in methods that extract keypoints from a scale-space. The comparison of many detectors proposed in SIFT competitors is the subject of the last part of this thesis. The performance analysis of local feature detectors has been mainly based on the repeatability criterion. We show that this popular criterion is biased toward methods producing redundant (overlapping) descriptors. We therefore propose an amended evaluation metric and use it to revisit a classic benchmark. For the amended repeatability criterion, SIFT is shown to outperform most of its more recent competitors. This last fact corroborates the unabating interest in SIFT and the necessity of a thorough scrutiny of this method. Mise en correspondance d'images SIFT Détecteur de points d’intérêt Descripteur Évaluation des performances Caractérisation d'algorithme Image matching SIFT Scale-space Invariant representation Keypoint detectors Descriptors Performance evaluation
4	Reconnaissance d’activités humaines à partir de séquences vidéo / Human activity recognition from video sequences Selmi, Mouna 12 December 2014 (has links) Cette thèse s’inscrit dans le contexte de la reconnaissance des activités à partir de séquences vidéo qui est une des préoccupations majeures dans le domaine de la vision par ordinateur. Les domaines d'application pour ces systèmes de vision sont nombreux notamment la vidéo surveillance, la recherche et l'indexation automatique de vidéos ou encore l'assistance aux personnes âgées. Cette tâche reste problématique étant donnée les grandes variations dans la manière de réaliser les activités, l'apparence de la personne et les variations des conditions d'acquisition des activités. L'objectif principal de ce travail de thèse est de proposer une méthode de reconnaissance efficace par rapport aux différents facteurs de variabilité. Les représentations basées sur les points d'intérêt ont montré leur efficacité dans les travaux d'art; elles ont été généralement couplées avec des méthodes de classification globales vue que ses primitives sont temporellement et spatialement désordonnées. Les travaux les plus récents atteignent des performances élevées en modélisant le contexte spatio-temporel des points d'intérêts par exemple certains travaux encodent le voisinage des points d'intérêt à plusieurs échelles. Nous proposons une méthode de reconnaissance des activités qui modélise explicitement l'aspect séquentiel des activités tout en exploitant la robustesse des points d'intérêts dans les conditions réelles. Nous commençons par l'extractivité des points d'intérêt dont a montré leur robustesse par rapport à l'identité de la personne par une étude tensorielle. Ces primitives sont ensuite représentées en tant qu'une séquence de sac de mots (BOW) locaux: la séquence vidéo est segmentée temporellement en utilisant la technique de fenêtre glissante et chacun des segments ainsi obtenu est représenté par BOW des points d'intérêt lui appartenant. Le premier niveau de notre système de classification séquentiel hybride consiste à appliquer les séparateurs à vaste marge (SVM) en tant que classifieur de bas niveau afin de convertir les BOWs locaux en des vecteurs de probabilités des classes d'activité. Les séquences de vecteurs de probabilité ainsi obtenues sot utilisées comme l'entrées de classifieur séquentiel conditionnel champ aléatoire caché (HCRF). Ce dernier permet de classifier d'une manière discriminante les séries temporelles tout en modélisant leurs structures internes via les états cachés. Nous avons évalué notre approche sur des bases publiques ayant des caractéristiques diverses. Les résultats atteints semblent être intéressant par rapport à celles des travaux de l'état de l'art. De plus, nous avons montré que l'utilisation de classifieur de bas niveau permet d'améliorer la performance de système de reconnaissance vue que le classifieur séquentiel HCRF traite directement des informations sémantiques des BOWs locaux, à savoir la probabilité de chacune des activités relativement au segment en question. De plus, les vecteurs de probabilités ont une dimension faible ce qui contribue à éviter le problème de sur apprentissage qui peut intervenir si la dimension de vecteur de caractéristique est plus importante que le nombre des données; ce qui le cas lorsqu'on utilise les BOWs qui sont généralement de dimension élevée. L'estimation les paramètres du HCRF dans un espace de dimension réduite permet aussi de réduire le temps d'entrainement / Human activity recognition (HAR) from video sequences is one of the major active research areas of computer vision. There are numerous application HAR systems, including video-surveillance, search and automatic indexing of videos, and the assistance of frail elderly. This task remains a challenge because of the huge variations in the way of performing activities, in the appearance of the person and in the variation of the acquisition conditions. The main objective of this thesis is to develop an efficient HAR method that is robust to different sources of variability. Approaches based on interest points have shown excellent state-of-the-art performance over the past years. They are generally related to global classification methods as these primitives are temporally and spatially disordered. More recent studies have achieved a high performance by modeling the spatial and temporal context of interest points by encoding, for instance, the neighborhood of the interest points over several scales. In this thesis, we propose a method of activity recognition based on a hybrid model Support Vector Machine - Hidden Conditional Random Field (SVM-HCRF) that models the sequential aspect of activities while exploiting the robustness of interest points in real conditions. We first extract the interest points and show their robustness with respect to the person's identity by a multilinear tensor analysis. These primitives are then represented as a sequence of local "Bags of Words" (BOW): The video is temporally fragmented using the sliding window technique and each of the segments thus obtained is represented by the BOW of interest points belonging to it. The first layer of our hybrid sequential classification system is a Support Vector Machine that converts each local BOW extracted from the video sequence into a vector of activity classes’ probabilities. The sequence of probability vectors thus obtained is used as input of the HCRF. The latter permits a discriminative classification of time series while modeling their internal structures via the hidden states. We have evaluated our approach on various human activity datasets. The results achieved are competitive with those of the current state of art. We have demonstrated, in fact, that the use of a low-level classifier (SVM) improves the performance of the recognition system since the sequential classifier HCRF directly exploits the semantic information from local BOWs, namely the probability of each activity relatively to the current local segment, rather than mere raw information from interest points. Furthermore, the probability vectors have a low-dimension which prevents significantly the risk of overfitting that can occur if the feature vector dimension is relatively high with respect to the training data size; this is precisely the case when using BOWs that generally have a very high dimension. The estimation of the HCRF parameters in a low dimension allows also to significantly reduce the duration of the HCRF training phase Reconnaissance des activités Points d’intérêt Points denses Analyse tensorielle multilinéaire Séparateurs à vaste marge Champs aléatoires conditionnels cachés Human activity recognition Interest points Dense points Multilinear tensor analysis Classification of sequential data Support vector machines Hidden conditional random fields
5	Détection robuste de jonctions et points d'intérêt dans les images et indexation rapide de caractéristiques dans un espace de grande dimension / Robust junction for line-drawing images and time-efficient feature indexing in feature vector space Pham, The Anh 27 November 2013 (has links) Les caractéristiques locales sont essentielles dans de nombreux domaines de l’analyse d’images comme la détection et la reconnaissance d’objets, la recherche d’images, etc. Ces dernières années, plusieurs détecteurs dits locaux ont été proposés pour extraire de telles caractéristiques. Ces détecteurs locaux fonctionnent généralement bien pour certaines applications, mais pas pour toutes. Prenons, par exemple, une application de recherche dans une large base d’images. Dans ce cas, un détecteur à base de caractéristiques binaires pourrait être préféré à un autre exploitant des valeurs réelles. En effet, la précision des résultats de recherche pourrait être moins bonne tout en restant raisonnable, mais probablement avec un temps de réponse beaucoup plus court. En général, les détecteurs locaux sont utilisés en combinaison avec une méthode d’indexation. En effet, une méthode d’indexation devient nécessaire dans le cas où les ensembles de points traités sont composés de milliards de points, où chaque point est représenté par un vecteur de caractéristiques de grande dimension. / Local features are of central importance to deal with many different problems in image analysis and understanding including image registration, object detection and recognition, image retrieval, etc. Over the years, many local detectors have been presented to detect such features. Such a local detector usually works well for some particular applications but not all. Taking an application of image retrieval in large database as an example, an efficient method for detecting binary features should be preferred to other real-valued feature detection methods. The reason is easily seen: it is expected to have a reasonable precision of retrieval results but the time response must be as fast as possible. Generally, local features are used in combination with an indexing scheme. This is highly needed for the case where the dataset is composed of billions of data points, each of which is in a high-dimensional feature vector space. Détection de jonctions Caractérisation de jonctions Détection de points d’intérêt Documents graphiques Images de trait Indexation de caractéristiques Arbres de clustering Junction detection Junction characterization Junction distortion Topology correction Edge grouping Dominant point detection Graphical documents Line- drawings Approximate nearest neighbor search Feature indexing Locality-sensitive hashing Clustering trees

1

Page generated in 0.0494 seconds