• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 19
  • 17
  • 3
  • Tagged with
  • 38
  • 38
  • 15
  • 12
  • 11
  • 9
  • 7
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Proximal methods for convex minimization of Phi-divergences : application to computer vision. / Méthodes proximales convexes pour la minimisation des Phi-divergences : applications à la stéréo vision

El Gheche, Mireille 27 May 2014 (has links)
Cette thèse s'inscrit dans le contexte de l'optimisation convexe. Elle apporte à ce domaine deux contributions principales. La première porte sur les méthodes d'optimisation convexe non lisse appliquées à la vision par ordinateur. Quant à la seconde, elle fournit de nouveaux résultats théoriques concernant la manipulation de mesures de divergences, telles que celles utilisées en théorie de l'information et dans divers problèmes d'optimisation. Le principe de la stéréovision consiste à exploiter deux images d'une même scène prises sous deux points de vue, afin de retrouver les pixels homologues et de se ramener ainsi à un problème d'estimation d'un champ de disparité. Dans ce travail, le problème de l'estimation de la disparité est considéré en présence de variations d'illumination. Ceci se traduit par l'ajout, dans la fonction objective globale à minimiser, d'un facteur multiplicatif variant spatialement, estimé conjointement avec la disparité. Nous avons mis l'accent sur l'avantage de considérer plusieurs critères convexes et non-nécessairement différentiables, et d'exploiter des images multicomposantes (par exemple, des images couleurs) pour améliorer les performances de notre méthode. Le problème d'estimation posé est résolu en utilisant un algorithme parallèle proximal basé sur des développements récents en analyse convexe. Dans une seconde partie, nous avons étendu notre approche au cas multi-vues qui est un sujet de recherche relativement nouveau. Cette extension s'avère particulièrement utile dans le cadre d'applications où les zones d'occultation sont très larges et posent de nombreuses difficultés. Pour résoudre le problème d'optimisation associé, nous avons utilisé des algorithmes proximaux en suivant des approches multi-étiquettes relaxés de manière convexe. Les algorithmes employés présentent l'avantage de pouvoir gérer simultanément un grand nombre d'images et de contraintes, ainsi que des critères convexes et non convexes. Des résultats sur des images synthétiques ont permis de valider l'efficacité de ces méthodes, pour différentes mesures d'erreur. La dernière partie de cette thèse porte sur les problèmes d'optimisation convexe impliquant des mesures d'information (Phi-divergences), qui sont largement utilisés dans le codage source et le codage canal. Ces mesures peuvent être également employées avec succès dans des problèmes inverses rencontrés dans le traitement du signal et de l'image. Les problèmes d'optimisation associés sont souvent difficiles à résoudre en raison de leur grande taille. Dans ce travail, nous avons établi les expressions des opérateurs proximaux de ces divergences. En s'appuyant sur ces résultats, nous avons développé une approche proximale reposant sur l'usage de méthodes primales-duales. Ceci nous a permis de répondre à une large gamme de problèmes d'optimisation convexe dont la fonction objective comprend un terme qui s'exprime sous la forme de l'une de ces divergences / Convex optimization aims at searching for the minimum of a convex function over a convex set. While the theory of convex optimization has been largely explored for about a century, several related developments have stimulated a new interest in the topic. The first one is the emergence of efficient optimization algorithms, such as proximal methods, which allow one to easily solve large-size nonsmooth convex problems in a parallel manner. The second development is the discovery of the fact that convex optimization problems are more ubiquitous in practice than was thought previously. In this thesis, we address two different problems within the framework of convex optimization. The first one is an application to computer stereo vision, where the goal is to recover the depth information of a scene from a pair of images taken from the left and right positions. The second one is the proposition of new mathematical tools to deal with convex optimization problems involving information measures, where the objective is to minimize the divergence between two statistical objects such as random variables or probability distributions. We propose a convex approach to address the problem of dense disparity estimation under varying illumination conditions. A convex energy function is derived for jointly estimating the disparity and the illumination variation. The resulting problem is tackled in a set theoretic framework and solved using proximal tools. It is worth emphasizing the ability of this method to process multicomponent images under illumination variation. The conducted experiments indicate that this approach can effectively deal with the local illumination changes and yields better results compared with existing methods. We then extend the previous approach to the problem of multi-view disparity estimation. Rather than estimating a single depth map, we estimate a sequence of disparity maps, one for each input image. We address this problem by adopting a discrete reformulation that can be efficiently solved through a convex relaxation. This approach offers the advantage of handling both convex and nonconvex similarity measures within the same framework. We have shown that the additional complexity required by the application of our method to the multi-view case is small with respect to the stereo case. Finally, we have proposed a novel approach to handle a broad class of statistical distances, called $varphi$-divergences, within the framework of proximal algorithms. In particular, we have developed the expression of the proximity operators of several $varphi$-divergences, such as Kulback-Leibler, Jeffrey-Kulback, Hellinger, Chi-Square, I$_{alpha}$, and Renyi divergences. This allows proximal algorithms to deal with problems involving such divergences, thus overcoming the limitations of current state-of-the-art approaches for similar problems. The proposed approach is validated in two different contexts. The first is an application to image restoration that illustrates how to employ divergences as a regularization term, while the second is an application to image registration that employs divergences as a data fidelity term
12

Modélisation 3D à partir d'images : contributions en reconstruction photométrique à l'aide de maillages déformables

Delaunoy, Amael 02 December 2011 (has links) (PDF)
Comprendre, analyser et modéliser l'environment 3D à partir d'images provenant de caméras et d'appareils photos est l'un des défis majeurs actuel de recherche en vision par ordinateur. Cette thèse s'interesse à plusieurs aspects géométriques et photometriques liés à la reconstruction de surface à partir de plusieurs caméras calibrées. La reconstruction 3D est vue comme un problème de rendu inverse, et vise à minimiser une fonctionnelle d'énergie afin d'optimiser un maillage triangulaire représentant la surface à reconstruire. L'énergie est définie via un modèle génératif faisant naturellement apparaître des attributs tels que la visibilité ou la photométrie. Ainsi, l'approche présentée peut indifférement s'adapter à divers cas d'application tels que la stéréovision multi-vues, la stéréo photométrique multi-vues ou encore le "shape from shading" multi-vues. Plusieurs approches sont proposées afin de résoudre les problèmes de correspondances de l'apparence pour des scènes non Lambertiennes, dont l'apparence varie en fonction du point de vue. La segmentation, la stéréo photométrique ou encore la réciprocité d'Helmholtz sont des éléments étudiés afin de contraindre la reconstruction. L'exploitation de ces contraintes dans le cadre de reconstruction multi-vues permet de reconstruire des modèles complets 3D avec une meilleure qualité.
13

Compréhension de scènes urbaines par combinaison d'information 2D/3D / Urban scenes understanding by combining 2D/3D information

Bauda, Marie-Anne 13 June 2016 (has links)
Cette thèse traite du problème de segmentation sémantique d'une séquence d'images calibrées acquises dans un environnement urbain. Ce problème consiste, plus précisément, à partitionner chaque image en régions représentant les objets de la scène (façades, routes, etc.). Ainsi, à chaque région est associée une étiquette sémantique. Dans notre approche, l'étiquetage s'opère via des primitives visuelles de niveau intermédiaire appelés super-pixels, lesquels regroupent des pixels similaires au sens de différents critères proposés dans la littérature, qu'ils soient photométriques (s'appuyant sur les couleurs) ou géométriques (limitant la taille des super-pixels formés). Contrairement à l'état de l'art, où les travaux récents traitant le même problème s'appuient en entrée sur une sur-segmentation initiale sans la remettre en cause, notre idée est de proposer, dans un contexte multi-vues, une nouvelle approche de constructeur de superpixels s'appuyant sur une analyse tridimensionnelle de la scène et, en particulier, de ses structures planes. Pour construire de «meilleurs» superpixels, une mesure de planéité locale, qui quantifie à quel point la zone traitée de l'image correspond à une surface plane de la scène, est introduite. Cette mesure est évaluée à partir d'une rectification homographique entre deux images proches, induites par un plan candidat au support des points 3D associés à la zone traitée. Nous analysons l'apport de la mesure UQI (Universal Quality Image) et montrons qu'elle se compare favorablement aux autres métriques qui ont le potentiel de détecter des structures planes. On introduit ensuite un nouvel algorithme de construction de super-pixels, fondé sur l'algorithme SLIC (Simple Linear Iterative Clustering) dont le principe est de regrouper les plus proches voisins au sens d'une distance fusionnant similarités en couleur et en distance, et qui intègre cette mesure de planéité. Ainsi la sur-segmentation obtenue, couplée à la cohérence interimages provenant de la validation de la contrainte de planéité locale de la scène, permet d'attribuer une étiquette à chaque entité et d'obtenir ainsi une segmentation sémantique qui partitionne l'image en objets plans. / This thesis deals with the semantic segmentation problem of a calibrated sequence of images acquired in an urban environment. The problem is, specifically, to partition each image into regions representing the objects in the scene such as facades, roads, etc. Thus, each region is associated with a semantic tag. In our approach, the labelling is done through mid-level visual features called super-pixels, which are groups of similar pixels within the meaning of some criteria proposed in research such as photometric criteria (based on colour) or geometrical criteria thus limiting the size of super-pixel formed. Unlike the state of the art, where recent work addressing the same problem are based on an initial over-segmentation input without calling it into question, our idea is to offer, in a multi-view environment, another super-pixel constructor approach based on a three-dimensional scene analysis and, in particular, an analysis of its planar structures. In order to construct "better" super-pixels, a local flatness measure is introduced which quantifies at which point the zone of the image in question corresponds to a planar surface of the scene. This measure is assessed from the homographic correction between two close images, induced by a candidate plan as support to the 3D points associated with the area concerned. We analyze the contribution of the UQI measure (Universal Image Quality) and demonstrate that it compares favorably with other metrics which have the potential to detect planar structures. Subsequently we introduce a new superpixel construction algorithm based on the SLIC (Simple Linear Iterative Clustering) algorithm whose principle is to group the nearest neighbors in terms of a distance merging similarities in colour and distance, and which includes this local planarity measure. Hence the over-segmentation obtained, coupled with the inter-image coherence as a result of the validation of the local flatness constraint related to the scene, allows assigning a label to each entity and obtaining in this way a semantic segmentation which divides the image into planar objects.
14

Détection de personnes pour des systèmes de videosurveillance multi-caméra intelligents / People detection methods for intelligent multi-Camera surveillance systems

Mehmood, Muhammad Owais 28 September 2015 (has links)
La détection de personnes dans les vidéos est un défi bien connu du domaine de la vision par ordinateur avec un grand nombre d'applications telles que le développement de systèmes de surveillance visuels. Même si les détecteurs monoculaires sont plus simples à mettre en place, ils sont dans l’incapacité de gérer des scènes complexes avec des occultations, une grande densité de personnes ou des scènes avec beaucoup de profondeur de champ menant à une grande variabilité dans la taille des personnes. Dans cette thèse, nous étudions la détection de personnes multi-vues et notamment l'utilisation de cartes d'occupation probabilistes créées en fusionnant les différentes vues grâce à la connaissance de la géométrie du système. La détection à partir de ces cartes d'occupation amène cependant des fausses détections (appelées « fantômes ») dues aux différentes projections. Nous proposons deux nouvelles techniques afin de remédier à ce phénomène et améliorer la détection des personnes. La première utilise une déconvolution par un noyau dont la forme varie spatialement tandis que la seconde est basée sur un principe de validation d’hypothèse. Ces deux approches n'utilisent volontairement pas l'information temporelle qui pourra être réintroduite par la suite dans des algorithmes de suivi. Les deux approches ont été validées dans des conditions difficiles présentant des occultations, une densité de personnes plus ou moins élevée et de fortes variations dans les réponses colorimétriques des caméras. Une comparaison avec d'autres méthodes de l’état de l'art a également été menée sur trois bases de données publiques, validant les méthodes proposées pour la surveillance d'une gare et d'un aéroport / People detection is a well-studied open challenge in the field of Computer Vision with applications such as in the visual surveillance systems. Monocular detectors have limited ability to handle occlusion, clutter, scale, density. Ubiquitous presence of cameras and computational resources fuel the development of multi-camera detection systems. In this thesis, we study the multi-camera people detection; specifically, the use of multi-view probabilistic occupancy maps based on the camera calibration. Occupancy maps allow multi-view geometric fusion of several camera views. Detection with such maps create several false detections and we study this phenomenon: ghost pruning. Further, we propose two novel techniques in order to improve multi-view detection based on: (a) kernel deconvolution, and (b) occupancy shape modeling. We perform non-temporal, multi-view reasoning in occupancy maps to recover accurate positions of people in challenging conditions such as of occlusion, clutter, lighting, and camera variations. We show improvements in people detections across three challenging datasets for visual surveillance including comparison with state-of-the-art techniques. We show the application of this work in exigent transportation scenarios i.e. people detection for surveillance at a train station and at an airport
15

Procedural reconstruction of buildings : towards large scale automatic 3D modeling of urban environments / Reconstruction procédurale de bâtiments : vers l’automatisation à grande échelle de la modélisation 3D d’environnements urbains

Simon, Loïc 25 July 2011 (has links)
La présente thèse est consacrée à la modélisation 2D et 3D d’environnements urbains à l’aide de représentations structurées et de grammaires de formes. Notre approche consiste à introduire une représentation sémantique de bâtiments, qui encode les contraintes architecturales attendues, et qui soit capable de traiter des exemples complexes en utilisant des grammaires très simples. En outre, nous proposons deux nouveaux algorithmes d’inférence permettant l’analyse grammaticale d’images en utilisant ces grammaires. En premier lieu, un algorithme dit de hill climbing permet d’extraire les règles de grammaire et les paramètres correspondants à partir d’une vue unique d’une façade. Ce concept combine astucieusement les contraintes grammaticales et les propriétés visuelles attendues pour les différents éléments architecturaux. Cependant, afin de pouvoir traiter de cas plus complexes et également d’incorporer de l’information 3D, une deuxième stratégie d’inférence basée sur des algorithmes évolutionnaires a été adoptée pour optimiser un fonction à deux objectifs qui introduit notamment des notions de profondeur. Le système proposé a été évalué tant qualitativement que quantitativement sur un panel de façades de référence toute munies d’annotations, démontrant ainsi sa robustesse face à des situations d’abords difficiles. Grâce à la force du contexte grammatical, des améliorations substantielles ont été démontrées par rapport aux performances des mêmes modèles couplés à des a priori uniquement locaux. Par conséquent, notre approche fournit des outils puissants permettant de faire face à la demande croissante en modélisation 3D d’environnements réels à large échelle, grâce à des représentations sémantiques compactes et structurées. Ce travail ouvre par ailleurs un vaste champ de perspectives pour le domaine de l’interprétation d’images / This thesis is devoted to 2D and 3D modeling of urban environments using structured representations and grammars. Our approach introduces a semantic representation for buildings that encodes expected architectural constraints and is able to derive complex instances using fairly simple grammars. Furthermore, we propose two novel inference algorithms to parse images using such grammars. To this end, a steepest ascent hill climbing concept is considered to derive the grammar and the corresponding parameters from a single facade view. It combines the grammar constraints with the expected visual properties of the different architectural elements. Towards addressing more complex scenarios and incorporating 3D information, a second inference strategy based on evolutionary computational algorithms is adopted to optimize a two-component objective function introducing depth cues. The proposed framework was evaluated qualitatively and quantitatively on a benchmark of annotated facades, demonstrating robustness to challenging situations. Substantial improvement due to the strong grammatical context was shown in comparison to the performance of the same appearance models coupled with local priors. Therefore, our approach provides powerful techniques in response to increasing demand on large scale 3D modeling of real environments through compact, structured and semantic representations, while opening new perspectives for image understanding
16

Tackling pedestrian detection in large scenes with multiple views and representations / Une approche réaliste de la détection de piétons multi-vues et multi-représentations pour des scènes extérieures

Pellicanò, Nicola 21 December 2018 (has links)
La détection et le suivi de piétons sont devenus des thèmes phares en recherche en Vision Artificielle, car ils sont impliqués dans de nombreuses applications. La détection de piétons dans des foules très denses est une extension naturelle de ce domaine de recherche, et l’intérêt croissant pour ce problème est lié aux évènements de grande envergure qui sont, de nos jours, des scenarios à risque d’un point de vue de la sûreté publique. Par ailleurs, les foules très denses soulèvent des problèmes inédits pour la tâche de détection. De par le fait que les caméras ont le champ de vision le plus grand possible pour couvrir au mieux la foule les têtes sont généralement très petites et non texturées. Dans ce manuscrit nous présentons un système complet pour traiter les problèmes de détection et de suivi en présence des difficultés spécifiques à ce contexte. Ce système utilise plusieurs caméras, pour gérer les problèmes de forte occultation. Nous proposons une méthode robuste pour l’estimation de la position relative entre plusieurs caméras dans le cas des environnements requérant une surveillance. Ces environnements soulèvent des problèmes comme la grande distance entre les caméras, le fort changement de perspective, et la pénurie d’information en commun. Nous avons alors proposé d’exploiter le flot vidéo pour effectuer la calibration, avec l’objectif d’obtenir une solution globale de bonne qualité. Nous proposons aussi une méthode non supervisée pour la détection des piétons avec plusieurs caméras, qui exploite la consistance visuelle des pixels à partir des différents points de vue, ce qui nous permet d’effectuer la projection de l’ensemble des détections sur le plan du sol, et donc de passer à un suivi 3D. Dans une troisième partie, nous revenons sur la détection supervisée des piétons dans chaque caméra indépendamment en vue de l’améliorer. L’objectif est alors d’effectuer la segmentation des piétons dans la scène en partant d’une labélisation imprécise des données d’apprentissage, avec des architectures de réseaux profonds. Comme dernière contribution, nous proposons un cadre formel original pour une fusion de données efficace dans des espaces 2D. L’objectif est d’effectuer la fusion entre différents capteurs (détecteurs supervisés en chaque caméra et détecteur non supervisé en multi-vues) sur le plan du sol, qui représente notre cadre de discernement. nous avons proposé une représentation efficace des hypothèses composées qui est invariante au changement de résolution de l’espace de recherche. Avec cette représentation, nous sommes capables de définir des opérateurs de base et des règles de combinaison efficaces pour combiner les fonctions de croyance. Enfin, notre approche de fusion de données a été évaluée à la fois au niveau spatial, c’est à dire en combinant des détecteurs de nature différente, et au niveau temporel, en faisant du suivi évidentiel de piétons sur de scènes à grande échelle dans des conditions de densité variable. / Pedestrian detection and tracking have become important fields in Computer Vision research, due to their implications for many applications, e.g. surveillance, autonomous cars, robotics. Pedestrian detection in high density crowds is a natural extension of such research body. The ability to track each pedestrian independently in a dense crowd has multiple applications: study of human social behavior under high densities; detection of anomalies; large event infrastructure planning. On the other hand, high density crowds introduce novel problems to the detection task. First, clutter and occlusion problems are taken to the extreme, so that only heads are visible, and they are not easily separable from the moving background. Second, heads are usually small (they have a diameter of typically less than ten pixels) and with little or no textures. This comes out from two independent constraints, the need of one camera to have a field of view as high as possible, and the need of anonymization, i.e. the pedestrians must be not identifiable because of privacy concerns.In this work we develop a complete framework in order to handle the pedestrian detection and tracking problems under the presence of the novel difficulties that they introduce, by using multiple cameras, in order to implicitly handle the high occlusion issues.As a first contribution, we propose a robust method for camera pose estimation in surveillance environments. We handle problems as high distances between cameras, large perspective variations, and scarcity of matching information, by exploiting an entire video stream to perform the calibration, in such a way that it exhibits fast convergence to a good solution. Moreover, we are concerned not only with a global fitness of the solution, but also with reaching low local errors.As a second contribution, we propose an unsupervised multiple camera detection method which exploits the visual consistency of pixels between multiple views in order to estimate the presence of a pedestrian. After a fully automatic metric registration of the scene, one is capable of jointly estimating the presence of a pedestrian and its height, allowing for the projection of detections on a common ground plane, and thus allowing for 3D tracking, which can be much more robust with respect to image space based tracking.In the third part, we study different methods in order to perform supervised pedestrian detection on single views. Specifically, we aim to build a dense pedestrian segmentation of the scene starting from spatially imprecise labeling of data, i.e. heads centers instead of full head contours, since their extraction is unfeasible in a dense crowd. Most notably, deep architectures for semantic segmentation are studied and adapted to the problem of small head detection in cluttered environments.As last but not least contribution, we propose a novel framework in order to perform efficient information fusion in 2D spaces. The final aim is to perform multiple sensor fusion (supervised detectors on each view, and an unsupervised detector on multiple views) at ground plane level, that is, thus, our discernment frame. Since the space complexity of such discernment frame is very large, we propose an efficient compound hypothesis representation which has been shown to be invariant to the scale of the search space. Through such representation, we are capable of defining efficient basic operators and combination rules of Belief Function Theory. Furthermore, we propose a complementary graph based description of the relationships between compound hypotheses (i.e. intersections and inclusion), in order to perform efficient algorithms for, e.g. high level decision making.Finally, we demonstrate our information fusion approach both at a spatial level, i.e. between detectors of different natures, and at a temporal level, by performing evidential tracking of pedestrians on real large scale scenes in sparse and dense conditions.
17

Reconstruction 3D à partir de séquences vidéo pour l’acquisition du mouvement de personnages en temps réel et sans marqueur / 3D video-based reconstruction for realtime and markerless motion capture

Michoud, Brice 30 September 2009 (has links)
Nous nous intéressons à l'acquisition automatique de mouvements 3D de personnes. Cette opération doit être réalisée sans un équipement spécialisé (marqueurs ou habillage spécifique), pour rendre son utilisation générale, sous la contrainte du temps réel. Pour répondre à ces questions, nous sommes amenés à traiter de la reconstruction et l'analyse de la forme 3D. Concernant le problème de reconstruction 3D en temps réel d'entités en mouvement à partir de plusieurs vues, les approches existantes font souvent appel à des calculs complexes incompatibles avec la contrainte du temps réel. Les approches du type SFS offrent un compromis intéressant entre efficacité algorithmique et précision. Ces dernières utilisent les silhouettes issues de chaque caméra pour proposer un volume englobant des objets. Cependant elles nécessitent un environnement particulièrement contraint, dont le placement minutieux des caméras. Les travaux présentés dans ce manuscrit généralisent l'utilisation des approches SFS à des environnements peu contrôlés. L'acquisition du mouvement revient à déterminer les paramètres offrant la meilleure corrélation entre le modèle et la reconstruction 3D. Notre objectif étant le suivi temps réel, nous proposons des méthodes qui offrent la précision requise et le temps réel. Couplé à un suivi temporel par filtre de Kalman, à un recalage d'objets géométriques simples (ellipsoïdes, sphères, etc.), nous proposons un système temps réel, offrant une erreur de l'ordre de 6%.De par sa robustesse, il permet le suivi simultané de plusieurs personnes, même lors de contacts. Les résultats obtenus ouvrent des perspectives à un transfert vers des applications grand public / We aim at automatically capturing 3D motion of persons without markers. To make it flexible, and to consider interactive applications, we address real-time solution, without specialized instrumentation. Real-time body estimation and shape analyze lead to home motion capture application. We begin by addressing the problem of 3D real-time reconstruction of moving objects from multiple views. Existing approaches often involve complex computation methods, making them incompatible with real-time constraints. Shape-From-Silhouette (SFS) approaches provide interesting compromise between algorithm efficiency and accuracy. They estimate 3D objects from their silhouettes in each camera. However they require constrained environments and cameras placement. The works presented in this document generalize the use of SFS approaches to uncontrolled environments. The main methods of marker-less motion capture, are based on parametric modeling of the human body. The acquisition of movement goal is to determine the parameters that provide the best correlation between the model and the 3D reconstruction.The following approaches, more robust, use natural markings of the body extremities: the skin. Coupled with a temporal Kalman filter, a registration of simple geometric objects, or an ellipsoids' decomposition, we have proposed two real-time approaches, providing a mean error of 6%. Thanks to the approach robustness, it allows the simultaneous monitoring of several people even in contacts. The results obtained open up prospects for a transfer to home applications
18

Un modèle géométrique multi-vues des taches spéculaires basé sur les quadriques avec application en réalité augmentée / A multi-view geometric model of specular spots based on quadrics with augmented reality application

Morgand, Alexandre 08 November 2018 (has links)
La réalité augmentée (RA) consiste en l’insertion d’éléments virtuels dans une scène réelle, observée à travers un écran ou en utilisant un système de projection sur la scène ou l’objet d’intérêt. Les systèmes de réalité augmentée peuvent prendre des différentes formes pour obtenir l’équilibre désiré entre trois critères : précision, latence et robustesse. Il est possible d’identifier trois composants principaux à ces systèmes : localisation, reconstruction et affichage. Les contributions de cette thèse se concentrent essentiellement sur l’affichage et plus particulièrement le rendu des applications de réalité augmentée. À l’opposé des récentes avancées dans le domaine de la localisation et de la reconstruction, l’insertion d’éléments virtuels de façon plausible et esthétique reste une problématique compliquée, mal-posée et peu adaptée à un contexte temps réel. En effet, cette insertion requiert une reconstruction de l’illumination de la scène afin d’appliquer les conditions lumineuses adéquates à l’objet inséré. L’illumination de la scène peut être divisée en plusieurs catégories. Nous pouvons modéliser l’environnement de façon à décrire l’interaction de la lumière incidente et réfléchie pour chaque point 3D d’une surface. Il est également possible d’expliciter l’environnement en calculant la position des sources de lumière, leur type (lampe de bureau, néon, ampoule, ….), leur intensité et leur couleur. Pour insérer un objet de façon cohérente et réaliste, il est primordial d’avoir également une connaissance de la surface recevant l’illumination. Cette interaction lumière/matériaux est dépendante de la géométrie de la surface, de sa composition chimique (matériau) et de sa couleur. Pour tous ces aspects, le problème de reconstruction de l’illumination est difficile, car il est très complexe d’isoler l’illumination sans connaissance a priori de la géométrie, des matériaux de la scène et de la pose de la caméra observant la scène. De manière générale, sur une surface, une source de lumière laisse plusieurs traces telles que les ombres, qui sont créées par l’occultation de rayons lumineux par un objet, et les réflexions spéculaires ou spécularités qui se manifestent par la réflexion partielle ou totale de la lumière. Bien que ces spécularités soient souvent considérées comme des éléments parasites dans les applications de localisation de caméra, de reconstruction ou encore de segmentation, ces éléments donnent des informations cruciales sur la position et la couleur de la source lumineuse, mais également sur la géométrie de la surface et la réflectance du matériau où elle se manifeste. Face à la difficulté du problème de modélisation de la lumière et plus particulièrement du calcul de l’ensemble des paramètres de la lumière, nous nous sommes focalisés, dans cette thèse, sur l’étude des spécularités et sur toutes les informations qu’elles peuvent fournir pour la compréhension de la scène. Plus particulièrement, nous savons qu’une spécularité est définie comme la réflexion d’une source de lumière sur une surface réfléchissante. Partant de cette remarque, nous avons exploré la possibilité de considérer la spécularité comme étant une image issue de la projection d’un objet 3D dans l’espace. Nous sommes partis d’un constat simple, mais peu traité par la littérature qui est que les spécularités présentent une forme elliptique lorsqu’elles apparaissent sur une surface plane. À partir de cette hypothèse, pouvons-nous considérer un objet 3D fixe dans l’espace tel que sa projection perspective dans l’image corresponde à la forme de la spécularité ? Plus particulièrement, nous savons qu’un ellipsoïde projeté perspectivement donne une ellipse. Considérer le phénomène de spécularité comme un phénomène géométrique a de nombreux avantages. (...) / Augmented Reality (AR) consists in inserting virtual elements in a real scene, observed through a screen or a projection system on the scene or the object of interest. The augmented reality systems can take different forms to obtain a balance between three criteria: precision, latency and robustness. It is possible to identify three main components to these systems: localization, reconstruction and display. The contributions of this thesis focus essentially on the display and more particularly the rendering of augmented reality applications. Contrary to the recent advances in the field of localization and reconstruction, the insertion of virtual elements in a plausible and aesthetic way remains a complicated problematic, ill-posed and not adapted to a real-time context. Indeed, this insertion requires a good understanding of the lighting conditions of the scene. The lighting conditions of the scene can be divided in several categories. First, we can model the environment to describe the interaction between the incident and reflected light pour each 3D point of a surface. Secondly, it is also possible to explicitly the environment by computing the position of the light sources, their type (desktop lamps, fluorescent lamp, light bulb, . . . ), their intensities and their colors. Finally, to insert a virtual object in a coherent and realistic way, it is essential to have the knowledge of the surface’s geometry, its chemical composition (material) and its color. For all of these aspects, the reconstruction of the illumination is difficult because it is really complex to isolate the illumination without prior knowledge of the geometry, material of the scene and the camera pose observing the scene. In general, on a surface, a light source leaves several traces such as shadows, created from the occultation of light rays by an object, and the specularities (or specular reflections) which are created by the partial or total reflection of the light. These specularities are often described as very high intensity elements in the image. Although these specularities are often considered as outliers for applications such as camera localization, reconstruction or segmentation, these elements give crucial information on the position and color of the light source but also on the surface’s geometry and the material’s reflectance where these specularities appear. To address the light modeling problem, we focused, in this thesis, on the study of specularities and on every information that they can provide for the understanding of the scene. More specifically, we know that a specularity is defined as the reflection of the light source on a shiny surface. From this statement, we have explored the possibility to consider the specularity as the image created from the projection of a 3D object in space.We started from the simple but little studied in the literature observation that specularities present an elliptic shape when they appear on a planar surface. From this hypothesis, can we consider the existence of a 3D object fixed in space such as its perspective projection in the image fit the shape of the specularity ? We know that an ellipsoid projected perspectivally gives an ellipse. Considering the specularity as a geometric phenomenon presents various advantages. First, the reconstruction of a 3D object and more specifically of an ellipsoid, has been the subject to many publications in the state of the art. Secondly, this modeling allows a great flexibility on the tracking of the state of the specularity and more specifically the light source. Indeed, if the light is turning off, it is easy to visualize in the image if the specularity disappears if we know the contour (and reciprocally of the light is turning on again). (...)
19

Reconstruction 3D pour la volcanologie: apports d'une méthode multi-vues par photogrammétrie numérique

cecchi, emmanuelle 12 December 2003 (has links) (PDF)
La reconstruction 3D est un outil primordial en volcanologie : études morpho-structurales, déformation du sol, modélisation analogique. Une approche originale de reconstruction 3D spécifique aux applications volcanologiques a été développée. Basée sur l'utilisation de plusieurs images numériques acquises autour d'une surface, elle se décompose en deux étapes : (1) un calibrage précis du capteur optique (2) une reconstruction 3D reposant sur la déformation itérative d'un modèle 3D initial. La méthode a été développée et testée en laboratoire sur divers modèles analogiques. Les résultats montrent qu'elle constitue un outil de quantification souple et puissant permettant de détecter des variations fines de la morphologie. Des tests sur site réel ont aussi montré le potentiel important de la méthode dans le cadre de la surveillance volcanologique. L'approche, à la frontière entre Volcanologie et Vision par Ordinateur, offre une alternative aux méthodes classiquement utilisées.
20

Classification multi-vues d'un objet immergé à partir d'images sonar et de son ombre portée sur le fond

Quidu, Isabelle 11 December 2001 (has links) (PDF)
La classification sur ombre de mines marines peut être effectuée à partir d'images sonar haute résolution. Cependant, la classification mono-vue admet des limites du fait de leur forme géométrique parfois complexe. Une manière de s'affranchir des ambiguïtés consiste à effectuer une classification multi-vues. Dans un premier temps, il convient d'assimiler les spécificités de l'imagerie sonar. D'un côté, les propriétés statistiques des pixels et le principe d'acquisition des images sont des connaissances avantageusement prises en compte lors de l'étape de segmentation. D'un autre côté, les distorsions géométriques qui affectent l'ombre portée du fait des performances du sonar et de la prise de vue doivent être considérées. En matière de reconnaissance de formes, les données sonar segmentées peuvent être diversement résumées suivant qu'on s'attache à définir des grandeurs indépendantes des positions relatives objet-sonar et/ou de la résolution du sonar ou bien, autorisant une reconstruction du contour et la conservation de l'orientation de la forme associée. Ces considérations du problème mono-vue ont préparé l'élaboration de processus plus complexes de classification multi-vues. D'une part, on manipule les attributs issus d'un traitement image par image. Deux cas se présentent : en exploitant l'évolution de la forme de l'ombre en fonction du trajet du sonar ou, au contraire, en s'affranchissant des transformations du plan. Dans le premier cas, on caractérise de manière globale l'ensemble des valeurs successives prises par des attributs sensibles aux diverses formes de l'ombre. Dans le second cas, sans connaissance précise des conditions d'acquisition, les attributs extraits sont fusionnés et présentés à l'opérateur sous forme de mesures pour l'aide à la décision. Par la logique floue d'autre part, les outils de reconnaissance de formes calculés sur des données binaires ont été étendus au cas de données en niveaux de gris d'une nouvelle image pour sa caractérisation.

Page generated in 0.0517 seconds