Global ETD Search

331	Localisation par l'image en milieu urbain : application à la réalité augmentée / Image-based localization in urban environment : application to augmented reality Fond, Antoine 06 April 2018 (has links) Dans cette thèse on aborde le problème de la localisation en milieux urbains. Inférer un positionnement précis en ville est important dans nombre d’applications comme la réalité augmentée ou la robotique mobile. Or les systèmes basés sur des capteurs inertiels (IMU) sont sujets à des dérives importantes et les données GPS peuvent souffrir d’un effet de vallée qui limite leur précision. Une solution naturelle est de s’appuyer le calcul de pose de caméra en vision par ordinateur. On remarque que les bâtiments sont les repères visuels principaux de l’humain mais aussi des objets d’intérêt pour les applications de réalité augmentée. On cherche donc à partir d’une seule image à calculer la pose de la caméra par rapport à une base de données de bâtiments références connus. On décompose le problème en deux parties : trouver les références visibles dans l’image courante (reconnaissance de lieux) et calculer la pose de la caméra par rapport à eux. Les approches classiques de ces deux sous-problèmes sont mises en difficultés dans les environnements urbains à cause des forts effets perspectives, des répétitions fréquentes et de la similarité visuelle entre façades. Si des approches spécifiques à ces environnements ont été développés qui exploitent la grande régularité structurelle de tels milieux, elles souffrent encore d’un certain nombre de limitations autant pour la détection et la reconnaissance de façades que pour le calcul de pose par recalage de modèle. La méthode originale développée dans cette thèse s’inscrit dans ces approches spécifiques et vise à dépasser ces limitations en terme d’efficacité et de robustesse aux occultations, aux changements de points de vue et d’illumination. Pour cela, l’idée principale est de profiter des progrès récents de l’apprentissage profond par réseaux de neurones convolutionnels pour extraire de l’information de haut-niveau sur laquelle on peut baser des modèles géométriques. Notre approche est donc mixte Bottom-Up/Top-Down et se décompose en trois étapes clés. Nous proposons tout d’abord une méthode d’estimation de la rotation de la pose de caméra. Les 3 points de fuite principaux des images en milieux urbains, dits points de fuite de Manhattan sont détectés grâce à un réseau de neurones convolutionnels (CNN) qui fait à la fois une estimation de ces points de fuite mais aussi une segmentation de l’image relativement à eux. Une second étape de raffinement utilise ces informations et les segments de l’image dans une formulation bayésienne pour estimer efficacement et plus précisément ces points. L’estimation de la rotation de la caméra permet de rectifier les images et ainsi s’affranchir des effets de perspectives pour la recherche de la translation. Dans une seconde contribution, nous visons ainsi à détecter les façades dans ces images rectifiées et à les reconnaître parmi une base de bâtiments connus afin d’estimer une translation grossière. Dans un soucis d’efficacité, on a proposé une série d’indices basés sur des caractéristiques spécifiques aux façades (répétitions, symétrie, sémantique) qui permettent de sélectionner rapidement des candidats façades potentiels. Ensuite ceux-ci sont classifiés en façade ou non selon un nouveau descripteur CNN contextuel. Enfin la mise en correspondance des façades détectées avec les références est opérée par un recherche au plus proche voisin relativement à une métrique apprise sur ces descripteurs [...] / This thesis addresses the problem of localization in urban areas. Inferring accurate positioning in the city is important in many applications such as augmented reality or mobile robotics. However, systems based on inertial sensors (IMUs) are subject to significant drifts and GPS data can suffer from a valley effect that limits their accuracy. A natural solution is to rely on the camera pose estimation in computer vision. We notice that buildings are the main visual landmarks of human beings but also objects of interest for augmented reality applications. We therefore aim to compute the camera pose relatively to a database of known reference buildings from a single image. The problem is twofold : find the visible references in the current image (place recognition) and compute the camera pose relatively to them. Conventional approaches to these two sub-problems are challenged in urban environments due to strong perspective effects, frequent repetitions and visual similarity between facades. While specific approaches to these environments have been developed that exploit the high structural regularity of such environments, they still suffer from a number of limitations in terms of detection and recognition of facades as well as pose computation through model registration. The original method developed in this thesis is part of these specific approaches and aims to overcome these limitations in terms of effectiveness and robustness to clutter and changes of viewpoints and illumination. For do so, the main idea is to take advantage of recent advances in deep learning by convolutional neural networks to extract high-level information on which geometric models can be based. Our approach is thus mixed Bottom- Up/Top-Down and is divided into three key stages. We first propose a method to estimate the rotation of the camera pose. The 3 main vanishing points of the image of urban environnement, known as Manhattan vanishing points, are detected by a convolutional neural network (CNN) that estimates both these vanishing points and the image segmentation relative to them. A second refinement step uses this information and image segmentation in a Bayesian model to estimate these points effectively and more accurately. By estimating the camera’s rotation, the images can be rectified and thus free from perspective effects to find the translation. In a second contribution, we aim to detect the facades in these rectified images to recognize them among a database of known buildings and estimate a rough translation. For the sake of efficiency, a series of cues based on facade specific characteristics (repetitions, symmetry, semantics) have been proposed to enable the fast selection of facade proposals. Then they are classified as facade or non-facade according to a new contextual CNN descriptor. Finally, the matching of the detected facades to the references is done by a nearest neighbor search using a metric learned on these descriptors. Eventually we propose a method to refine the estimation of the translation relying on the semantic segmentation inferred by a CNN for its robustness to changes of illumination ans small deformations. If we can already estimate a rough translation from these detected facades, we choose to refine this result by relying on the se- mantic segmentation of the image inferred from a CNN for its robustness to changes of illuminations and small deformations. Since the facade is identified in the previous step, we adopt a model-based approach by registration. Since the problems of registration and segmentation are linked, a Bayesian model is proposed which enables both problems to be jointly solved. This joint processing improves the results of registration and segmentation while remaining efficient in terms of computation time. These three parts have been validated on consistent community data sets. The results show that our approach is fast and more robust to changes in shooting conditions than previous methods Vision par ordinateur Apprentissage automatique Réseaux de neurones Modèles bayésiens Détection d’objets Reconnaissance de lieux Points de fuite Computer vision Machine learning Neural networks Bayesian models Objects detection Place recognition Vanishing points 006.37
332	Scanner 3D à lumière non structurée non synchronisé El Asmi, Chaima 08 1900 (has links) No description available. Vision par ordinateur Reconstruction active Lumière non structurée Précision sous-pixel Scanner 3D Computer vision Active reconstruction Unstructured light Unsynchronized camera-projector systems Subpixel accuracy 3D scanning
333	Modélisation 3D à partir d'images : contributions en reconstruction photométrique à l'aide de maillages déformables / Multi-view Shape Modeling from Images : Contributions to Photometric-based Reconstruction using Deformable Meshes Delaunoy, Amaël 02 December 2011 (has links) Comprendre, analyser et modéliser l'environment 3D à partir d'images provenant de caméras et d'appareils photos est l'un des défis majeurs actuel de recherche en vision par ordinateur. Cette thèse s'interesse à plusieurs aspects géométriques et photometriques liés à la reconstruction de surface à partir de plusieurs caméras calibrées. La reconstruction 3D est vue comme un problème de rendu inverse, et vise à minimiser une fonctionnelle d'énergie afin d'optimiser un maillage triangulaire représentant la surface à reconstruire. L'énergie est définie via un modèle génératif faisant naturellement apparaître des attributs tels que la visibilité ou la photométrie. Ainsi, l'approche présentée peut indifférement s'adapter à divers cas d'application tels que la stéréovision multi-vues, la stéréo photométrique multi-vues ou encore le “shape from shading” multi-vues. Plusieurs approches sont proposées afin de résoudre les problèmes de correspondances de l'apparence pour des scènes non Lambertiennes, dont l'apparence varie en fonction du point de vue. La segmentation, la stéréo photométrique ou encore la réciprocité d'Helmholtz sont des éléments étudiés afin de contraindre la reconstruction. L'exploitation de ces contraintes dans le cadre de reconstruction multi-vues permet de reconstruire des modèles complets 3D avec une meilleure qualité. / Understanding, analyzing and modeling the 3D world from 2D pictures and videos is probably one of the most exciting and challenging problem of computer vision. In this thesis, we address several geometric and photometric aspects to 3D surface reconstruction from multi-view calibrated images. We first formulate multi-view shape reconstruction as an inverse rendering problem. Using generative models, we formulate the problem as an energy minimization method that leads to the non-linear surface optimization of a deformable mesh. A particular attention is addressed to the computation of the discrete gradient flow, which leads to coherent vertices displacements. We particularly focus on models and energy functionals that depend on visibility and photometry. The same framework can then be equally used to perform multi-view stereo, multi-view shape from shading or multi-view photometric stereo. Then, we propose to exploit different additional information to constraint the problem in the non-Lambertian case, where the appearance of the scene depends on the view-point direction. Segmentation for instance can be used to segment surface regions sharing similar appearance or reflectance. Helmholtz reciprocity can also be applied to reconstruct 3D shapes of objects of any arbitrary reflectance properties. By taking multiple image-light pairs around an object, multi-view Helmholtz stereo can be performed. Using this constrained acquisition scenario and our deformable mesh framework, it is possible to reconstruct high quality 3D models. Vision par Ordinateur Reconstruction 3D Stéréovision multi-vues Shape from Shading Stéréo photométrique Maillages déformables Computer vision 3D Reconstruction Multi-view Stereo Shape from Shading Photometric Stereo Deformable Meshes 510
334	Deep Learning for Video Modelling Mastropietro, Olivier 12 1900 (has links) No description available. Réseaux de neurones Apprentissage machine Apprentissage profond Intelligence artificielle Vision par ordinateur Vidéos Modèles génératifs Neural networks Machine learning Deep learning Artificial intelligence Computer vision Generative models
335	Utilisation of photometric moments in visual servoing / Utilisation de moments photométriques en asservissement visuel Bakthavatchalam, Manikandan 17 March 2015 (has links) Cette thèse s'intéresse à l'asservissement visuel, une technique de commande à retour d'information visuelle permettant de contrôler le mouvement de systèmes équipées de caméras tels que des robots. Pour l'asservissement visuel, il est essentiel de synthétiser les informations obtenues via la caméra et ainsi établir la relation entre l'évolution de ces informations et le déplacement de la caméra dans l'espace. Celles-ci se basent généralement sur l'extraction et le suivi de primitives géométriques comme des points ou des lignes droites dans l'image. Il a été montré que le suivi visuel et les méthodes de traitement d'images restent encore un frein à l'expansion des techniques d'asservissement visuel. C'est pourquoi la distribution de l'intensité lumineuse de l'image a également été utilisée comme caractéristique visuelle. Finalement, les caractéristiques visuelles basée sur les moments de l'image ont permis de définir des lois de commande découplées. Cependant ces lois de commande sont conditionnées par l'obtention d'une région parfaitement segmentée ou d'un ensemble discret de points dans la scène. Ce travail propose donc une stratégie de capture de l'intensité lumineuse de façon indirecte, par le biais des moments calculés sur toute l'image. Ces caractéristiques globales sont dénommées moments photométriques. Les développements théoriques établis dans cette thèse tendent à définir une modélisation analytique de la matrice d'interaction relative aux moments photométriques. Ces derniers permettent de réaliser une tâche d'asservissement visuel dans des scènes complexes sans suivi visuel ni appariement. Un problème pratique rencontré par cette méthode dense d'asservissement visuel est l'apparition et la disparition de portions de l'image durant la réalisation de la tâche. Ce type de problème peut perturber la commande, voire dans le pire des cas conduire à l’échec de la réalisation de la tâche. Afin de résoudre ce problème, une modélisation incluant des poids spatiaux est proposée. Ainsi, la pondération spatiale, disposant d'une structure spécifique, est introduite de telle sorte qu'un modèle analytique de la matrice d'interaction peut être obtenue comme une simple fonction de la nouvelle formulation des moments photométriques. Une partie de ce travail apporte également une contribution au problème de la commande simultanée des mouvements de rotation autour des axes du plan image. Cette approche définit les caractéristiques visuelles de façon à ce que l'asservissement soit optimal en fonction de critères spécifiques. Quelques critères de sélection basées sur la matrice d'interaction ont été proposés. Ce travail ouvre donc sur d'intéressantes perspectives pour la sélection d'informations visuelles pour l'asservissement visuel basé sur les moments de l'image. / This thesis is concerned with visual servoing, a feedback control technique for controlling camera-equipped actuated systems like robots. For visual servoing, it is essential to synthesize visual information from the camera image in the form of visual features and establish the relationship between their variations and the spatial motion of the camera. The earliest visual features are dependent on the extraction and visual tracking of geometric primitives like points and straight lines in the image. It was shown that visual tracking and image processing procedures are a bottleneck to the expansion of visual servoing methods. That is why the image intensity distribution has also been used directly as a visual feature. Finally, visual features based on image moments allowed to design decoupled control laws but they are restricted by the availability of a well-segmented regions or a discrete set of points in the scene. This work proposes the strategy of capturing the image intensities not directly, but in the form of moments computed on the whole image plane. These global features have been termed photometric moments. Theoretical developments are made to derive the analytical model for the interaction matrix of the photometric moments. Photometric moments enable to perform visual servoing on complex scenes without visual tracking or image matching procedures, as long as there is no severe violation of the zero border assumption (ZBA). A practical issue encountered in such dense VS methods is the appearance and disappearance of portions of the scene during the visual servoing. Such unmodelled effects strongly violate the ZBA assumption and can disturb the control and in the worst case, result in complete failure to convergence. To handle this important practical problem, an improved modelling scheme for the moments that allows for inclusion of spatial weights is proposed. Then, spatial weighting functions with a specific structure are exploited such that an analytical model for the interaction matrix can be obtained as simple functions of the newly formulated moments. A part of this work provides an additional contribution towards the problem of simultaneous control of rotational motions around the image axes. The approach is based on connecting the design of the visual feature such that the visual servoing is optimal with respect to specific criteria. Few selection criteria based on the interaction matrix was proposed. This contribution opens interesting possibilities and finds immediate applications in the selection of visual features in image moments-based VS. Asservissement visuel Commande référencée vision Moments photométriques Robotique Vision par ordinateur Visual Servoing Vision-Based control Image moments Photometric moments Intensity-Based visual servoing Robotics Computer Vision
336	Visual tracking of articulated and flexible objects / Suivi par vision d’objets articulés et flexibles Wesierski, Daniel 25 March 2013 (has links) Les humains sont capables de suivre visuellement des objets sans effort. Cependant les algorithmes de vision artificielle rencontrent des limitations pour suivre des objets en mouvement rapide, sous un éclairage variable, en présence d'occultations, dans un environnement complexe ou dont l'apparence varie à cause de déformations et de changements de point de vue. Parce que des systèmes génériques, précis, robustes et rapides sont nécessaires pour de nombreuses d’applications, le suivi d’objets reste un problème pratique important en vision par ordinateur. La première contribution de cette thèse est une approche calculatoire rapide pour le suivi d'objets de forme et de mouvement variable. Elle consiste en un système unifié et configurable pour estimer l'attitude d’un objet déformable dans un espace d'états de dimension petite ou grande. L’objet est décomposé en une suite de segments composés de parties et organisés selon une hiérarchie spatio-temporelle contrainte. L'efficacité et l’universalité de cette approche sont démontrées expérimentalement sur de nombreux exemples de suivi de divers objets flexibles et articulés. Les caractéristiques de Haar (HLF) sont abondement utilisées pour le suivi d’objets. La deuxième contribution est une méthode de décomposition des HLF permettant de les calculer de manière efficace. Ces caractéristiques sont décomposées en noyaux plus simples, éventuellement réutilisables, et reformulées comme des convolutions multi-passes. La recherche et l'alignement des noyaux dans et entre les passes permet de créer des arbres récursifs de noyaux qui nécessitent moins d’opérations en mémoire que les systèmes de calcul classiques, pour un résultat de convolution identique et une mise en œuvre plus efficace. Cette approche a été validée expérimentalement sur des exemples de HLF très utilisés / Humans can visually track objects mostly effortlessly. However, it is hard for a computer to track a fast moving object under varying illumination and occlusions, in clutter, and with varying appearance in camera projective space due to its relaxed rigidity or change in viewpoint. Since a generic, precise, robust, and fast tracker could trigger many applications, object tracking has been a fundamental problem of practical importance since the beginnings of computer vision. The first contribution of the thesis is a computationally efficient approach to tracking objects of various shapes and motions. It describes a unifying tracking system that can be configured to track the pose of a deformable object in a low or high-dimensional state-space. The object is decomposed into a chained assembly of segments of multiple parts that are arranged under a hierarchy of tailored spatio-temporal constraints. The robustness and generality of the approach is widely demonstrated on tracking various flexible and articulated objects. Haar-like features are widely used in tracking. The second contribution of the thesis is a parser of ensembles of Haar-like features to compute them efficiently. The features are decomposed into simpler kernels, possibly shared by subsets of features, thus forming multi-pass convolutions. Discovering and aligning these kernels within and between passes allows forming recursive trees of kernels that require fewer memory operations than the classic computation, thereby producing the same result but more efficiently. The approach is validated experimentally on popular examples of Haar-like features Vision par ordinateur Suivi par vision d'objets Convolution récursive Structures d'images Suivi générique Caractéristiques de Haar (HLF) Computer vision Visual object tracking Recursive convolution Pictorial structures Generic tracking Chain-based tracking Haar-like features
337	Statistiques de formes pour la segmentation d'images avec a priori Charpiat, Guillaume 13 December 2006 (has links) (PDF) Le but de cette thèse est de construire, à partir d'un ensemble donné d'exemples de contours d'objets, un critère qui exprime quantitativement la ressemblance entre une forme quelconque et ces exemples. Ce critère permettra ainsi d'avoir un a priori sur la forme de l'objet à rechercher dans une nouvelle image à segmenter. On définit tout d'abord mathématiquement l'ensemble de "toutes les formes". L'étude de plusieurs métriques sur cet ensemble conduit à leur équivalence topologique. Une approximation dérivable de la distance de Hausdorff permet alors de construire un chemin entre deux formes quelconques par descente de gradient. Le gradient d'une application dépendant d'une forme est un champ de déformation appartenant à son espace tangent; il dépend de son produit scalaire, qui peut alors être vu comme un a priori sur les champs de déformation en changeant qualitativement les évolutions. Une extension de la notion de gradient à des a priori non linéaires est également proposée. Les champs instantanés de déformation d'une forme vers une autre obtenus par gradient d'une distance permettent de définir la "moyenne" d'un ensemble donné de contours, ainsi que les modes caractéristiques de déformation qui lui sont associés, exprimant la variabilité de la forme dans l'échantillon étudié. De ces statistiques sur les formes on déduit plusieurs critères de segmentation, qui sont testés et illustrés sur quelques exemples. Des statistiques assez similaires sont également menées sur des images (au lieu de formes) dans une approche difféomorphique, testées sur des photographies de visages, puis utilisées dans une tâche de reconnaissance d'expression. Vision par ordinateur Traitement d'images Segmentation Forme A priori de forme Statistiques de formes Classification d'images Statistiques d'images Gradient Produits scalaires Équivalence tolopogique de distances Distance de Hausdorff
338	Modélisation et calcul du flot de scène stéréoscopique par une méthode variationnelle Huguet, Frédéric 30 April 2009 (has links) (PDF) En vision par ordinateur, le flot de scène représente le déplacement des points d'une surface située dans une scène 3D quelconque, entre deux instants consécutifs. Il s'agit donc d'un champ vectoriel 3D. Celui-ci est particulièrement utile dans l'analyse des déformations d'une surface quelconque, observée par un système d'au moins deux caméras. <br />Cette thèse traite de l'estimation du flot de scène et d'une application dans le domaine de la géophysique. Elle s'est déroulée dans le cadre de l'ACI GEOLSTEREO, en collaboration étroite avec le laboratoire Geosciences Azur, situé à Sophia Antipolis (06, UMR 6526 - CNRS - UNSA - UPMC- IRD). <br /><br />Nous proposons d'estimer le flot de scène en couplant l'évaluation du flot optique dans les séquences d'images associées à chaque caméra, à l'estimation de la correspondance stéréo dense entre les images. De plus, notre approche évalue, en même temps que le flot de scène, les occultations à la fois en flot optique et en stéréo. Nous obtenons au final un système d'EDP couplant le flot optique et la stéréo, que nous résolvons numériquement à l'aide d'un algorithme multirésolution original.<br />Alors que les précédentes méthodes variationnelles estimaient la reconstrution 3D au temps $t$ et le flot de scène séparément, notre méthode estime les deux simultanément. Nous présentons des résultats numériques sur des séquences synthétiques avec leur vérité terrain, et nous comparons également la précision du flot de scène projeté dans une caméra avec une méthode récente et performante d'estimation variationnelle du flot optique. Des résultats sont présentés sur une séquence stéréo réelle, se rapportant à un mouvement non rigide et à de larges discontinuités. <br /><br />Enfin, nous présentons l'approche originale de modélisation physique 3D utilisée au laboratoire Geosciences Azur. Nous décrivons la mise en place du dispositif stéréoscopique associé, ainsi que le déroulement de l'expérience. Des résultats de reconstruction 3D, d'estimation du flot de scène, et de suivi de la déformation d'une surface sont montrés dans le chapitre 4 de la thèse. [INFO:INFO_OH] Computer Science/Other flot de scène vision par ordinateur equations aux dérivées partielles stéréoscopie flot optique traitement d'images
339	Sur quelques problèmes mathématiques en analyse d'images et vision stéréoscopique Almansa, Andrés 01 December 2005 (has links) (PDF) . [MATH] Mathematics traitement d'images vision par ordinateur reconaissance d'empreintes digitales échantillonnage restauration d'images échantillonnage irrégulier repliement spectral interpolation détection a contrario Gestalt computationnelle photogramétrie
340	Localisation et modélisation tridimensionnelles par approximations successives du modèle perspectif de caméra Christy, Stéphane 17 August 1998 (has links) (PDF) Dans le cadre de cette thèse, nous proposons un algorithme générique permettant de résoudre le problème de calcul de pose et le problème de reconstruction avec un modèle perspectif de caméra. Étant donnés une image et un modèle 3D de la scène (ou objet) visible dans l'image, le calcul de pose consiste à calculer la position et l'orientation de la caméra par rapport à la scène. Nous étudions successivement le cas de correspondances 2D 3D de points, et le cas des droites. La méthode proposée améliore de manière itérative la pose calculée avec un modèle affine de caméra (orthographique à l'échelle ou paraperspectif) pour converger, à la limite, vers une estimation de la pose calculée avec un modèle perspectif de caméra. Nous étudions les relations mathématiques et géométriques existant entre les modèles orthographique à l'échelle, paraperspectif et perspectif de caméra. Nous introduisons une façon simple de prendre en compte la contrainte d'orthogonalité associée à une matrice de rotation. Nous analysons la sensibilité de la méthode par rapport aux erreurs d'étalonnage de la caméra et nous définissons les conditions expérimentales optimales par rapport à un étalonnage imprécis. Nous étudions la convergence de la méthode sur la base de considérations numériques et expérimentales et nous testons son efficacité avec des données synthétiques et réelles. Dans un second temps, nous étendons les algorithmes de calcul de pose précédents au problème de la reconstruction euclidienne avec un modèle perspectif de caméra, à partir d'une séquence d'images. La méthode proposée converge en quelques itérations, est efficace du point de vue calculatoire, et ne souffre pas de la nature non linéaire du problème traité. Comparativement à des méthodes telles que la factorisation ou les invariants affines, notre méthode résout le problème de l'ambiguïté de signe d'une façon très simple et fournit des résultats bien plus précis. Nous décrivons la nouvelle méthode en détail, et comparons la complexité de la méthode proposée avec une méthode de minimisation non linéaire. Nous présentons ensuite une seconde approche du problème de reconstruction euclidienne en considérant un modèle affine de caméra non étalonnée montée sur le bras d'un robot. Nous montrons comment utiliser l'information euclidienne fournie par le déplacement du robot afin d'obtenir une reconstruction euclidienne, et expliquons comment obtenir l'étalonnage du modèle affine de caméra ainsi que l'étalonnage caméra-pince. Afin de pouvoir utiliser en pratique ces algorithmes de reconstruction, nous présentons une méthode de poursuite de points caractéristiques sur une séquence monoculaire d'images, puis sur une séquence stéréoscopique. Nous proposons également une méthode pour obtenir une précision sous-pixellique des positions des points dans les images pour un faible coût calculatoire. [MATH] Mathematics vision par ordinateur calcul de pose mise en correspondance corrélation modèle perspectif de caméra modèle affine de caméra modèle orthographique à l'échelle modèle paraperspectif étalonnage d'une caméra

Search results