Global ETD Search

1	On grouping theory in dot patterns, with applications to perception theory and 3D inverse geometry / Sur la théorie du regroupement de points en 2D avec applications à la théorie de la perception et à la géométrie 3D inverse Lezama, José 06 March 2015 (has links) Cette thèse porte sur l'étude de deux modèles mathématiques pour une tâchevisuelle élémentaire: le regroupement perceptuel de points 2D. Le premier modèletraite la détection d'alignements de point perceptuellement relevant. Ledeuxième modèle étend ce cadre au cas plus général de la bonne continuation depoints. Dans les deux cas, les modèles proposés sont invariants au changementd'échelle, et non supervisés. Ils sont conçus pour être robustes au bruit,jusqu'au point où les structures à détecter deviennent mathématiquementimpossibles de distinguer du bruit. Les expériences presentées montrent unecohérence entre notre théorie de détéction et les processus de démasquage ayantlieu dans la perception humaine.Les modèles proposés sont basés dans la méthodologie a contrario, uneformalisation du principe de non accidentalité dans la théorie de laperception. Cette thèse fait deux contributions au méthodes a contrario. Une estl'introduction de seuils de détection adaptatifs qui sont conditionnels auxenvirons des structures évaluées. La deuxième contribution est une nouvellestratégie raffinée pour résoudre la redondance de plusieurs détectionssignificatives.Finalement, l'utilité du détecteur d'alignements de points comme outil générald'analyse de données est démontrée avec son application a une problème classiqueen vision par ordinateur: la détection de points de fuite. Le détecteurd'alignements de points proposé, utilisé avec des outils standards, produit desrésultats améliorant l'état de l'art.Visant à la recherche reproductible, toutes les méthodes sont soumis au journalIPOL, en incluant descriptions détaillées des algorithmes, du code sourcecommenté et démonstrations en ligne pour chaque méthode. / This thesis studies two mathematical models for an elementary visual task: theperceptual grouping of dot patterns. The first model handles the detection ofperceptually relevant arrangements of collinear dots. The second model extendsthis framework to the more general case of good continuation of dots. In bothcases, the proposed models are scale invariant and unsupervised. They aredesigned to be robust to noise, up to the point where the structures to detectbecome mathematically indistinguishable from noise. The experiments presentedshow a good match of our detection theory with the unmasking processes takingplace in human perception, supporting their perceptual plausibility.The proposed models are based on the a contrario framework, a formalization ofthe non-accidentalness principle in perception theory. This thesis makes twocontributions to the a contrario methodology. One is the introduction ofadaptive detection thresholds that are conditional to the structure's localsurroundings. The second is a new refined strategy for resolving the redundancyof multiple meaningful detections. Finally, the usefulness of the collinear point detector as a general patternanalysis tool is demonstrated by its application to a classic problem incomputer vision: the detection of vanishing points. The proposed dot alignmentdetector, used in conjunction with standard tools, produces improved resultsover the state-of-the-art methods in the literature.Aiming at reproducible research, all methods are submitted to the IPOL journal,including detailed descriptions of the algorithms, commented reference sourcecodes, and online demonstrations for each one. Regroupement de points A contrario Points de fuite Dots grouping A contrario Vanishing points
2	APPROCHE DIRECTE DE L'ESTIMATION AUTOMATIQUE DE L'ORIENTATION 3D D'IMAGES Kalantari, Mahzad 04 September 2009 (has links) (PDF) Récemment, la géomatique grand public s'est emparée de la représentation 3D des bâtiments. Le besoin d'acquérir des images et de les restituer en 3D, sous forme de maquettes parfaitement fidèles à la réalité, est ainsi devenu immense. On a donc vu depuis une décennie, se construire des véhicules capables de photographier en stéréoscopie des villes entières, et il a fallu concevoir les algorithmes capables de traiter ces énormes quantités d'images. Très naturellement, les industriels en charge de ces problèmes se sont tournés vers les outils de vision par ordinateur et de robotique, très bien adaptés aux calculs temps réel, oubliant l'essentiel de l'héritage de la photogrammétrie, orientée quant à elle vers une extrême précision, jugée ici comme une moindre priorité. Néanmoins, les algorithmes publiés en vision par ordinateur présentaient de réels défauts lorsqu'ils étaient appliqués à des surfaces planes alors que ce cas est extrêmement courant dans des scènes urbaines pour traiter les façades de bâtiments. Les recherches que nous avons menées ont porté sur la recherche de solutions nouvelles, capables d'exploiter les spécificités de telles images : tout d'abord, nos travaux ont cherché à accélérer l'orientation relative des images, en tirant bénéfice des points de fuite figurant dans celles-ci. Pour ce faire, de nouvelles méthodes d'extraction automatique de ces points ont été mises au point et évaluées plus performantes que celles disponibles jusqu'ici. Ensuite, nos recherches ont porté sur les moyens de corriger le défaut évoqué précédemment pour les surfaces planes, et de nouveaux algorithmes capables de donner en temps quasi-réel de bonnes solutions d'orientation relative pour de telles scènes ont été développés. A cette fin, de nouveaux outils mathématiques ont été utilisés : les bases de Gröbner. En rupture complète avec les solutions linéaires habituelles, ils permettent en effet une résolution directe des équations sous leur forme polynomiale. Ils évitent de passer par l'habituelle linéarisation, qui nécessitait une solution approchée parfois difficile à trouver dans les usages de photogrammétrie terrestre. Finalement, nos travaux ont porté sur les moyens d'accélérer les méthodes d'orientation relative en exploitant opportunément la connaissance de la direction verticale, obtenue par exemple à l'aide du nouvel algorithme de détection des points de fuite. Au total, la thèse présente une remise à plat générale des solutions permettant l'orientation et la localisation de tout un ensemble d'images. Photogrammétrie vision par ordinateur détection de points de fuite bases de Gröbner résolution directe
3	Contributions à la localisation de personnes par vision monoculaire embarquée Elloumi, Wael 06 December 2012 (has links) (PDF) Une des techniques alternatives au GPS pour le développement d'un système d'assistance à la navigationpédestre en milieux urbains est la vision embarquée. La localisation du porteur de la caméra s'appuie alorssur l'estimation de la pose à partir des images acquises au cours du cheminement. En s'inspirant destravaux antérieurs sur la navigation autonome de robots, cette thèse explore deux approches dans le cadrespécifique de la localisation pédestre. La première méthode de localisation s'appuie sur des appariementsde primitives images avec une cartographie 3D pré-estimée de l'environnement. Elle permet une estimationprécise de la pose complète de la caméra (6 ddl), mais les expérimentations montrent des limitationscritiques de robustesse et temps de calcul liées à l'étape de mise en correspondance. Une solutionalternative est proposée en utilisant les points de fuite. L'orientation de la caméra (3ddl) est estimée defaçon robuste et rapide par le suivi de 3 points de fuites orthogonaux dans une séquence vidéo. L'algorithmedéveloppé permet une localisation pédestre indoor en deux étapes : une phase d'apprentissage hors lignedéfinit un itinéraire de référence en sélectionnant des images clef au long du parcours, puis, en phase delocalisation, une position approximative mais réaliste du porteur est estimée en temps réel en comparant lesorientations de la caméra dans l'image courante et celle de référence. [SPI:OTHER] Engineering Sciences/Other Localisation pédestre Vision par ordinateur Points de fuite Assistance à la navigation
4	Contributions à la localisation de personnes par vision monoculaire embarquée / Contributions to the localization of persons by embedded monocular vision Elloumi, Wael 06 December 2012 (has links) Une des techniques alternatives au GPS pour le développement d’un système d’assistance à la navigationpédestre en milieux urbains est la vision embarquée. La localisation du porteur de la caméra s’appuie alorssur l’estimation de la pose à partir des images acquises au cours du cheminement. En s’inspirant destravaux antérieurs sur la navigation autonome de robots, cette thèse explore deux approches dans le cadrespécifique de la localisation pédestre. La première méthode de localisation s’appuie sur des appariementsde primitives images avec une cartographie 3D pré-estimée de l’environnement. Elle permet une estimationprécise de la pose complète de la caméra (6 ddl), mais les expérimentations montrent des limitationscritiques de robustesse et temps de calcul liées à l’étape de mise en correspondance. Une solutionalternative est proposée en utilisant les points de fuite. L’orientation de la caméra (3ddl) est estimée defaçon robuste et rapide par le suivi de 3 points de fuites orthogonaux dans une séquence vidéo. L’algorithmedéveloppé permet une localisation pédestre indoor en deux étapes : une phase d’apprentissage hors lignedéfinit un itinéraire de référence en sélectionnant des images clef au long du parcours, puis, en phase delocalisation, une position approximative mais réaliste du porteur est estimée en temps réel en comparant lesorientations de la caméra dans l’image courante et celle de référence. / One of the alternative techniques to GPS for the development of pedestrian navigation assistive systems inurban environments is embedded vision. The walker localization is, then, based on the camera poseestimation from images acquired during the path. Inspired by previous work on autonomous navigation ofmobile robots, this thesis explores two approaches in the specific context of pedestrian localization. The firstlocalization method is based on image primitive matching with a pre-estimated 3D map of the environment. Itallows an accurate estimate of the complete pose of the camera (6 dof), but experiments show criticallimitations of robustness and computation time related to the matching step. An alternative solution isproposed using vanishing points. Robust and fast camera orientation (3 dof) is estimated by tracking threeorthogonal vanishing points in a video sequence. The developed algorithm allows indoor pedestrianlocalization in two steps: an off-line learning step defines a reference path by selecting key frames along theway, then, in localization step, an approximate but realistic position of the walker is estimated in real time bycomparing the orientation of the camera in the current image and that of reference. Localisation pédestre Vision par ordinateur Points de fuite Assistance à la navigation Pedestrian localization Computer vision Vanishing points Navigation assistance
5	Localisation par l'image en milieu urbain : application à la réalité augmentée / Image-based localization in urban environment : application to augmented reality Fond, Antoine 06 April 2018 (has links) Dans cette thèse on aborde le problème de la localisation en milieux urbains. Inférer un positionnement précis en ville est important dans nombre d’applications comme la réalité augmentée ou la robotique mobile. Or les systèmes basés sur des capteurs inertiels (IMU) sont sujets à des dérives importantes et les données GPS peuvent souffrir d’un effet de vallée qui limite leur précision. Une solution naturelle est de s’appuyer le calcul de pose de caméra en vision par ordinateur. On remarque que les bâtiments sont les repères visuels principaux de l’humain mais aussi des objets d’intérêt pour les applications de réalité augmentée. On cherche donc à partir d’une seule image à calculer la pose de la caméra par rapport à une base de données de bâtiments références connus. On décompose le problème en deux parties : trouver les références visibles dans l’image courante (reconnaissance de lieux) et calculer la pose de la caméra par rapport à eux. Les approches classiques de ces deux sous-problèmes sont mises en difficultés dans les environnements urbains à cause des forts effets perspectives, des répétitions fréquentes et de la similarité visuelle entre façades. Si des approches spécifiques à ces environnements ont été développés qui exploitent la grande régularité structurelle de tels milieux, elles souffrent encore d’un certain nombre de limitations autant pour la détection et la reconnaissance de façades que pour le calcul de pose par recalage de modèle. La méthode originale développée dans cette thèse s’inscrit dans ces approches spécifiques et vise à dépasser ces limitations en terme d’efficacité et de robustesse aux occultations, aux changements de points de vue et d’illumination. Pour cela, l’idée principale est de profiter des progrès récents de l’apprentissage profond par réseaux de neurones convolutionnels pour extraire de l’information de haut-niveau sur laquelle on peut baser des modèles géométriques. Notre approche est donc mixte Bottom-Up/Top-Down et se décompose en trois étapes clés. Nous proposons tout d’abord une méthode d’estimation de la rotation de la pose de caméra. Les 3 points de fuite principaux des images en milieux urbains, dits points de fuite de Manhattan sont détectés grâce à un réseau de neurones convolutionnels (CNN) qui fait à la fois une estimation de ces points de fuite mais aussi une segmentation de l’image relativement à eux. Une second étape de raffinement utilise ces informations et les segments de l’image dans une formulation bayésienne pour estimer efficacement et plus précisément ces points. L’estimation de la rotation de la caméra permet de rectifier les images et ainsi s’affranchir des effets de perspectives pour la recherche de la translation. Dans une seconde contribution, nous visons ainsi à détecter les façades dans ces images rectifiées et à les reconnaître parmi une base de bâtiments connus afin d’estimer une translation grossière. Dans un soucis d’efficacité, on a proposé une série d’indices basés sur des caractéristiques spécifiques aux façades (répétitions, symétrie, sémantique) qui permettent de sélectionner rapidement des candidats façades potentiels. Ensuite ceux-ci sont classifiés en façade ou non selon un nouveau descripteur CNN contextuel. Enfin la mise en correspondance des façades détectées avec les références est opérée par un recherche au plus proche voisin relativement à une métrique apprise sur ces descripteurs [...] / This thesis addresses the problem of localization in urban areas. Inferring accurate positioning in the city is important in many applications such as augmented reality or mobile robotics. However, systems based on inertial sensors (IMUs) are subject to significant drifts and GPS data can suffer from a valley effect that limits their accuracy. A natural solution is to rely on the camera pose estimation in computer vision. We notice that buildings are the main visual landmarks of human beings but also objects of interest for augmented reality applications. We therefore aim to compute the camera pose relatively to a database of known reference buildings from a single image. The problem is twofold : find the visible references in the current image (place recognition) and compute the camera pose relatively to them. Conventional approaches to these two sub-problems are challenged in urban environments due to strong perspective effects, frequent repetitions and visual similarity between facades. While specific approaches to these environments have been developed that exploit the high structural regularity of such environments, they still suffer from a number of limitations in terms of detection and recognition of facades as well as pose computation through model registration. The original method developed in this thesis is part of these specific approaches and aims to overcome these limitations in terms of effectiveness and robustness to clutter and changes of viewpoints and illumination. For do so, the main idea is to take advantage of recent advances in deep learning by convolutional neural networks to extract high-level information on which geometric models can be based. Our approach is thus mixed Bottom- Up/Top-Down and is divided into three key stages. We first propose a method to estimate the rotation of the camera pose. The 3 main vanishing points of the image of urban environnement, known as Manhattan vanishing points, are detected by a convolutional neural network (CNN) that estimates both these vanishing points and the image segmentation relative to them. A second refinement step uses this information and image segmentation in a Bayesian model to estimate these points effectively and more accurately. By estimating the camera’s rotation, the images can be rectified and thus free from perspective effects to find the translation. In a second contribution, we aim to detect the facades in these rectified images to recognize them among a database of known buildings and estimate a rough translation. For the sake of efficiency, a series of cues based on facade specific characteristics (repetitions, symmetry, semantics) have been proposed to enable the fast selection of facade proposals. Then they are classified as facade or non-facade according to a new contextual CNN descriptor. Finally, the matching of the detected facades to the references is done by a nearest neighbor search using a metric learned on these descriptors. Eventually we propose a method to refine the estimation of the translation relying on the semantic segmentation inferred by a CNN for its robustness to changes of illumination ans small deformations. If we can already estimate a rough translation from these detected facades, we choose to refine this result by relying on the se- mantic segmentation of the image inferred from a CNN for its robustness to changes of illuminations and small deformations. Since the facade is identified in the previous step, we adopt a model-based approach by registration. Since the problems of registration and segmentation are linked, a Bayesian model is proposed which enables both problems to be jointly solved. This joint processing improves the results of registration and segmentation while remaining efficient in terms of computation time. These three parts have been validated on consistent community data sets. The results show that our approach is fast and more robust to changes in shooting conditions than previous methods Vision par ordinateur Apprentissage automatique Réseaux de neurones Modèles bayésiens Détection d’objets Reconnaissance de lieux Points de fuite Computer vision Machine learning Neural networks Bayesian models Objects detection Place recognition Vanishing points 006.37
6	Echantillonnage, interpolation et détection. Applications en imagerie satellitaire. Almansa, Andrés 09 December 2002 (has links) (PDF) Cette thèse aborde quelques-uns des problèmes qui surviennent dans la conception d'un système complet de vision par ordinateur : de l'échantillonnage à la détection de structures et leur interprétation. La motivation principale pour traiter ces problèmes a été fournie par le CNES et la conception des satellites d'observation terrestre, ainsi que par les applications de photogrammétrie et vidéo-surveillance chez Cognitech, Inc. pendant les étapes finales de ce travail, mais les techniques développées sont d'une généralité suffisante pour présenter un intérêt dans d'autres systèmes de vision par ordinateur. Dans une première partie nous abordons une étude comparative des différents systèmes d'échantillonnage d'images sur un réseau régulier, soit carré soit hexagonal, à l'aide d'une mesure de résolution effective, qui permet de déterminer la quantité d'information utile fournie par chaque pixel du réseau, une fois que l'on a séparé les effets du bruit et du repliement spectral. Cette mesure de résolution est utilisée à son tour pour améliorer des techniques de zoom et de restauration basées sur la minimisation de la variation totale. Ensuite l'étude comparative est poursuivie en analysant dans quelle mesure chacun des systèmes permet d'éliminer les perturbations du réseau d'échantillonnage dues aux micro-vibrations du satellite pendant l'acquisition. Après une présentation des limites théoriques du problème, nous comparons les performances des méthodes de reconstruction existantes avec un nouvel algorithme, mieux adapté aux conditions d'échantillonnage du CNES. Dans une deuxième partie nous nous intéressons à l'interpolation de modèles d'élévation de terrain, dans deux cas particuliers: l'interpolation de lignes de niveau, et l'étude des zones dans lesquelles une méthode de corrélation à partir de paires stéréo ne fournit pas des informations fiables. Nous étudions les liens entre les méthodes classiques utilisées en sciences de la terre tels que Krigeage ou distances géodésiques, et la méthode AMLE, et nous proposons une extension de la théorie axiomatique de l'interpolation qui conduit à cette dernière. Enfin une évaluation expérimentale permet de conclure qu'une nouvelle combinaison du Krigeage avec l'AMLE fournit les meilleures interpolations pour les modèles de terrain. Enfin nous nous intéressons à la détection d'alignements et de leurs points de fuite dans une image, car ils peuvent être utilisés aussi bien pour la construction de modèles d'élévation urbains, que pour résoudre des problèmes de photogrammétrie et calibration de caméras. Notre approche est basée sur la théorie de la Gestalt, et son implémentation effective récemment proposée par Desolneux-Moisan-Morel à l'aide du principe de Helmholtz. Le résultat est un détecteur de points de fuite sans paramètres, qui n'utilise aucune information a priori sur l'image ou la caméra. imagerie satellitaire échantillonnage aliasing restauration résolution échantillonnage irrégulier interpolation modèle numérique de terrain groupement perceptuel points de fuite méthodes a contrario

1

Page generated in 0.0542 seconds