Spelling suggestions: "subject:"vanishing 4points"" "subject:"vanishing 5points""
1 |
On grouping theory in dot patterns, with applications to perception theory and 3D inverse geometry / Sur la théorie du regroupement de points en 2D avec applications à la théorie de la perception et à la géométrie 3D inverseLezama, José 06 March 2015 (has links)
Cette thèse porte sur l'étude de deux modèles mathématiques pour une tâchevisuelle élémentaire: le regroupement perceptuel de points 2D. Le premier modèletraite la détection d'alignements de point perceptuellement relevant. Ledeuxième modèle étend ce cadre au cas plus général de la bonne continuation depoints. Dans les deux cas, les modèles proposés sont invariants au changementd'échelle, et non supervisés. Ils sont conçus pour être robustes au bruit,jusqu'au point où les structures à détecter deviennent mathématiquementimpossibles de distinguer du bruit. Les expériences presentées montrent unecohérence entre notre théorie de détéction et les processus de démasquage ayantlieu dans la perception humaine.Les modèles proposés sont basés dans la méthodologie a contrario, uneformalisation du principe de non accidentalité dans la théorie de laperception. Cette thèse fait deux contributions au méthodes a contrario. Une estl'introduction de seuils de détection adaptatifs qui sont conditionnels auxenvirons des structures évaluées. La deuxième contribution est une nouvellestratégie raffinée pour résoudre la redondance de plusieurs détectionssignificatives.Finalement, l'utilité du détecteur d'alignements de points comme outil générald'analyse de données est démontrée avec son application a une problème classiqueen vision par ordinateur: la détection de points de fuite. Le détecteurd'alignements de points proposé, utilisé avec des outils standards, produit desrésultats améliorant l'état de l'art.Visant à la recherche reproductible, toutes les méthodes sont soumis au journalIPOL, en incluant descriptions détaillées des algorithmes, du code sourcecommenté et démonstrations en ligne pour chaque méthode. / This thesis studies two mathematical models for an elementary visual task: theperceptual grouping of dot patterns. The first model handles the detection ofperceptually relevant arrangements of collinear dots. The second model extendsthis framework to the more general case of good continuation of dots. In bothcases, the proposed models are scale invariant and unsupervised. They aredesigned to be robust to noise, up to the point where the structures to detectbecome mathematically indistinguishable from noise. The experiments presentedshow a good match of our detection theory with the unmasking processes takingplace in human perception, supporting their perceptual plausibility.The proposed models are based on the a contrario framework, a formalization ofthe non-accidentalness principle in perception theory. This thesis makes twocontributions to the a contrario methodology. One is the introduction ofadaptive detection thresholds that are conditional to the structure's localsurroundings. The second is a new refined strategy for resolving the redundancyof multiple meaningful detections. Finally, the usefulness of the collinear point detector as a general patternanalysis tool is demonstrated by its application to a classic problem incomputer vision: the detection of vanishing points. The proposed dot alignmentdetector, used in conjunction with standard tools, produces improved resultsover the state-of-the-art methods in the literature.Aiming at reproducible research, all methods are submitted to the IPOL journal,including detailed descriptions of the algorithms, commented reference sourcecodes, and online demonstrations for each one.
|
2 |
AUTOMATIC IMAGE TO MODEL ALIGNMENT FOR PHOTO-REALISTIC URBAN MODEL RECONSTRUCTIONPartington, Mike 01 January 2001 (has links)
We introduce a hybrid approach in which images of an urban scene are automatically alignedwith a base geometry of the scene to determine model-relative external camera parameters. Thealgorithm takes as input a model of the scene and images with approximate external cameraparameters and aligns the images to the model by extracting the facades from the images andaligning the facades with the model by minimizing over a multivariate objective function. Theresulting image-pose pairs can be used to render photo-realistic views of the model via texturemapping.Several natural extensions to the base hybrid reconstruction technique are also introduced. Theseextensions, which include vanishing point based calibration refinement and video stream basedreconstruction, increase the accuracy of the base algorithm, reduce the amount of data that mustbe provided by the user as input to the algorithm, and provide a mechanism for automaticallycalibrating a large set of images for post processing steps such as automatic model enhancementand fly-through model visualization.Traditionally, photo-realistic urban reconstruction has been approached from purely image-basedor model-based approaches. Recently, research has been conducted on hybrid approaches, whichcombine the use of images and models. Such approaches typically require user assistance forcamera calibration. Our approach is an improvement over these methods because it does notrequire user assistance for camera calibration.
|
3 |
Contributions à la localisation de personnes par vision monoculaire embarquée / Contributions to the localization of persons by embedded monocular visionElloumi, Wael 06 December 2012 (has links)
Une des techniques alternatives au GPS pour le développement d’un système d’assistance à la navigationpédestre en milieux urbains est la vision embarquée. La localisation du porteur de la caméra s’appuie alorssur l’estimation de la pose à partir des images acquises au cours du cheminement. En s’inspirant destravaux antérieurs sur la navigation autonome de robots, cette thèse explore deux approches dans le cadrespécifique de la localisation pédestre. La première méthode de localisation s’appuie sur des appariementsde primitives images avec une cartographie 3D pré-estimée de l’environnement. Elle permet une estimationprécise de la pose complète de la caméra (6 ddl), mais les expérimentations montrent des limitationscritiques de robustesse et temps de calcul liées à l’étape de mise en correspondance. Une solutionalternative est proposée en utilisant les points de fuite. L’orientation de la caméra (3ddl) est estimée defaçon robuste et rapide par le suivi de 3 points de fuites orthogonaux dans une séquence vidéo. L’algorithmedéveloppé permet une localisation pédestre indoor en deux étapes : une phase d’apprentissage hors lignedéfinit un itinéraire de référence en sélectionnant des images clef au long du parcours, puis, en phase delocalisation, une position approximative mais réaliste du porteur est estimée en temps réel en comparant lesorientations de la caméra dans l’image courante et celle de référence. / One of the alternative techniques to GPS for the development of pedestrian navigation assistive systems inurban environments is embedded vision. The walker localization is, then, based on the camera poseestimation from images acquired during the path. Inspired by previous work on autonomous navigation ofmobile robots, this thesis explores two approaches in the specific context of pedestrian localization. The firstlocalization method is based on image primitive matching with a pre-estimated 3D map of the environment. Itallows an accurate estimate of the complete pose of the camera (6 dof), but experiments show criticallimitations of robustness and computation time related to the matching step. An alternative solution isproposed using vanishing points. Robust and fast camera orientation (3 dof) is estimated by tracking threeorthogonal vanishing points in a video sequence. The developed algorithm allows indoor pedestrianlocalization in two steps: an off-line learning step defines a reference path by selecting key frames along theway, then, in localization step, an approximate but realistic position of the walker is estimated in real time bycomparing the orientation of the camera in the current image and that of reference.
|
4 |
Autonomous Quadrotor Navigation by Detecting Vanishing Points in Indoor EnvironmentsJanuary 2018 (has links)
abstract: Toward the ambitious long-term goal of a fleet of cooperating Flexible Autonomous Machines operating in an uncertain Environment (FAME), this thesis addresses various perception and control problems in autonomous aerial robotics. The objective of this thesis is to motivate the use of perspective cues in single images for the planning and control of quadrotors in indoor environments. In addition to providing empirical evidence for the abundance of such cues in indoor environments, the usefulness of these perspective cues is demonstrated by designing a control algorithm for navigating a quadrotor in indoor corridors. An Extended Kalman Filter (EKF), implemented on top of the vision algorithm, serves to improve the robustness of the algorithm to changing illumination.
In this thesis, vanishing points are the perspective cues used to control and navigate a quadrotor in an indoor corridor. Indoor corridors are an abundant source of parallel lines. As a consequence of perspective projection, parallel lines in the real world, that are not parallel to the plane of the camera, intersect at a point in the image. This point is called the vanishing point of the image. The vanishing point is sensitive to the lateral motion of the camera and hence the quadrotor. By tracking the position of the vanishing point in every image frame, the quadrotor can navigate along the center of the corridor.
Experiments are conducted using the Augmented Reality (AR) Drone 2.0. The drone is equipped with the following componenets: (1) 720p forward facing camera for vanishing point detection, (2) 240p downward facing camera, (3) Inertial Measurement Unit (IMU) for attitude control , (4) Ultrasonic sensor for estimating altitude, (5) On-board 1 GHz Processor for processing low level commands. The reliability of the vision algorithm is presented by flying the drone in indoor corridors. / Dissertation/Thesis / Masters Thesis Electrical Engineering 2018
|
5 |
Localisation par l'image en milieu urbain : application à la réalité augmentée / Image-based localization in urban environment : application to augmented realityFond, Antoine 06 April 2018 (has links)
Dans cette thèse on aborde le problème de la localisation en milieux urbains. Inférer un positionnement précis en ville est important dans nombre d’applications comme la réalité augmentée ou la robotique mobile. Or les systèmes basés sur des capteurs inertiels (IMU) sont sujets à des dérives importantes et les données GPS peuvent souffrir d’un effet de vallée qui limite leur précision. Une solution naturelle est de s’appuyer le calcul de pose de caméra en vision par ordinateur. On remarque que les bâtiments sont les repères visuels principaux de l’humain mais aussi des objets d’intérêt pour les applications de réalité augmentée. On cherche donc à partir d’une seule image à calculer la pose de la caméra par rapport à une base de données de bâtiments références connus. On décompose le problème en deux parties : trouver les références visibles dans l’image courante (reconnaissance de lieux) et calculer la pose de la caméra par rapport à eux. Les approches classiques de ces deux sous-problèmes sont mises en difficultés dans les environnements urbains à cause des forts effets perspectives, des répétitions fréquentes et de la similarité visuelle entre façades. Si des approches spécifiques à ces environnements ont été développés qui exploitent la grande régularité structurelle de tels milieux, elles souffrent encore d’un certain nombre de limitations autant pour la détection et la reconnaissance de façades que pour le calcul de pose par recalage de modèle. La méthode originale développée dans cette thèse s’inscrit dans ces approches spécifiques et vise à dépasser ces limitations en terme d’efficacité et de robustesse aux occultations, aux changements de points de vue et d’illumination. Pour cela, l’idée principale est de profiter des progrès récents de l’apprentissage profond par réseaux de neurones convolutionnels pour extraire de l’information de haut-niveau sur laquelle on peut baser des modèles géométriques. Notre approche est donc mixte Bottom-Up/Top-Down et se décompose en trois étapes clés. Nous proposons tout d’abord une méthode d’estimation de la rotation de la pose de caméra. Les 3 points de fuite principaux des images en milieux urbains, dits points de fuite de Manhattan sont détectés grâce à un réseau de neurones convolutionnels (CNN) qui fait à la fois une estimation de ces points de fuite mais aussi une segmentation de l’image relativement à eux. Une second étape de raffinement utilise ces informations et les segments de l’image dans une formulation bayésienne pour estimer efficacement et plus précisément ces points. L’estimation de la rotation de la caméra permet de rectifier les images et ainsi s’affranchir des effets de perspectives pour la recherche de la translation. Dans une seconde contribution, nous visons ainsi à détecter les façades dans ces images rectifiées et à les reconnaître parmi une base de bâtiments connus afin d’estimer une translation grossière. Dans un soucis d’efficacité, on a proposé une série d’indices basés sur des caractéristiques spécifiques aux façades (répétitions, symétrie, sémantique) qui permettent de sélectionner rapidement des candidats façades potentiels. Ensuite ceux-ci sont classifiés en façade ou non selon un nouveau descripteur CNN contextuel. Enfin la mise en correspondance des façades détectées avec les références est opérée par un recherche au plus proche voisin relativement à une métrique apprise sur ces descripteurs [...] / This thesis addresses the problem of localization in urban areas. Inferring accurate positioning in the city is important in many applications such as augmented reality or mobile robotics. However, systems based on inertial sensors (IMUs) are subject to significant drifts and GPS data can suffer from a valley effect that limits their accuracy. A natural solution is to rely on the camera pose estimation in computer vision. We notice that buildings are the main visual landmarks of human beings but also objects of interest for augmented reality applications. We therefore aim to compute the camera pose relatively to a database of known reference buildings from a single image. The problem is twofold : find the visible references in the current image (place recognition) and compute the camera pose relatively to them. Conventional approaches to these two sub-problems are challenged in urban environments due to strong perspective effects, frequent repetitions and visual similarity between facades. While specific approaches to these environments have been developed that exploit the high structural regularity of such environments, they still suffer from a number of limitations in terms of detection and recognition of facades as well as pose computation through model registration. The original method developed in this thesis is part of these specific approaches and aims to overcome these limitations in terms of effectiveness and robustness to clutter and changes of viewpoints and illumination. For do so, the main idea is to take advantage of recent advances in deep learning by convolutional neural networks to extract high-level information on which geometric models can be based. Our approach is thus mixed Bottom- Up/Top-Down and is divided into three key stages. We first propose a method to estimate the rotation of the camera pose. The 3 main vanishing points of the image of urban environnement, known as Manhattan vanishing points, are detected by a convolutional neural network (CNN) that estimates both these vanishing points and the image segmentation relative to them. A second refinement step uses this information and image segmentation in a Bayesian model to estimate these points effectively and more accurately. By estimating the camera’s rotation, the images can be rectified and thus free from perspective effects to find the translation. In a second contribution, we aim to detect the facades in these rectified images to recognize them among a database of known buildings and estimate a rough translation. For the sake of efficiency, a series of cues based on facade specific characteristics (repetitions, symmetry, semantics) have been proposed to enable the fast selection of facade proposals. Then they are classified as facade or non-facade according to a new contextual CNN descriptor. Finally, the matching of the detected facades to the references is done by a nearest neighbor search using a metric learned on these descriptors. Eventually we propose a method to refine the estimation of the translation relying on the semantic segmentation inferred by a CNN for its robustness to changes of illumination ans small deformations. If we can already estimate a rough translation from these detected facades, we choose to refine this result by relying on the se- mantic segmentation of the image inferred from a CNN for its robustness to changes of illuminations and small deformations. Since the facade is identified in the previous step, we adopt a model-based approach by registration. Since the problems of registration and segmentation are linked, a Bayesian model is proposed which enables both problems to be jointly solved. This joint processing improves the results of registration and segmentation while remaining efficient in terms of computation time. These three parts have been validated on consistent community data sets. The results show that our approach is fast and more robust to changes in shooting conditions than previous methods
|
Page generated in 0.0536 seconds