• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 45
  • 11
  • 9
  • Tagged with
  • 65
  • 21
  • 17
  • 16
  • 14
  • 13
  • 13
  • 13
  • 12
  • 12
  • 11
  • 11
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Etalonnage de caméras à champs disjoints et reconstruction 3D : Application à un robot mobile / Non-overlapping camera calibration and 3D reconstruction : Application to Vision-Based Robotics

Lébraly, Pierre 18 January 2012 (has links)
Ces travaux s’inscrivent dans le cadre du projet VIPA « Véhicule Individuel Public Autonome », au cours duquel le LASMEA et ses partenaires ont mis au point des véhicules capables de naviguer automatiquement, sans aucune infrastructure extérieure dédiée, dans des zones urbaines (parkings, zones piétonnes, aéroports). Il est doté de deux caméras, l’une à l’avant, et l’autre à l’arrière. Avant son déploiement, le véhicule doit tout d’abord être étalonné et conduit manuellement afin de reconstruire la carte d’amers visuels dans laquelle il naviguera ensuite automatiquement. Les travaux de cette thèse ont pour but de développer et de mettre en oeuvre des méthodes souples permettant d’étalonner cet ensemble de caméras dont les champs de vue sont totalement disjoints. Après une étape préalable d’étalonnage intrinsèque et un état de l’art sur les systèmes multi-caméra, nous développons et mettons en oeuvre différentes méthodes d’étalonnage extrinsèque (déterminant les poses relatives des caméras à champs de vue disjoints). La première méthode présentée utilise un miroir plan pour créer un champ de vision commun aux différentes caméras. La seconde approche consiste à manoeuvrer le véhicule pendant que chaque caméra observe une scène statique composée de cibles (dont la détection est sous-pixellique). Dans la troisième approche, nous montrons que l’étalonnage extrinsèque peut être obtenu simultanément à la reconstruction 3D (par exemple lors de la phase d’apprentissage), en utilisant des points d’intérêt comme amers visuels. Pour cela un algorithme d’ajustement de faisceaux multi-caméra a été développé avec une implémentation creuse. Enfin, nous terminons par un étalonnage déterminant l’orientation du système multi-caméra par rapport au véhicule. / My research was involved in the VIPA « Automatic Electric Vehicle for Passenger Transportation » project. During which, the LASMEA and its partnerships have developed vehicles able to navigate autonomously, without any outside dedicated infrastructure in an urban environment (parking lots, pedestrian areas, airports). Two cameras are rigidly embedded on a vehicle : one at the front, another at the back. Before being available for autonomous navigation tasks, the vehicle have to be calibrated and driven manually in order to build a visual 3D map (calibration and learning steps). Then, the vehicle will use this map to localize itself and drive autonomously. The goals of this thesis are to develop and apply user friendly methods, which calibrate this set of nonoverlapping cameras. After a first step of intrinsic calibration and a state of the art on multi-camera rigs, we develop and test several methods to extrinsically calibrate non-overlapping cameras (i.e. estimate the camera relative poses). The first method uses a planar mirror to create an overlap between views of the different cameras. The second procedure consists in manoeuvring the vehicle while each camera observes a static scene (composed of a set of targets, which are detected accurately). In a third procedure, we solve the 3D reconstruction and the extrinsic calibration problems simultaneously (the learning step can be used for that purpose) relying on visual features such as interest points. To achieve this goal a multi-camera bundle adjustment is proposed and implemented with a sparse data structures. Lastly, we present a calibration of the orientation of a multi-camera rig relative to the vehicle.
52

Vision multi-caméras pour la détection d'obstacles sur un robot de service : des algorithmes à un système intégré / Multi-cameras vision for obstacle detection for a service robot : from algorithms to an integrated system

Ibarra Manzano, Mario Alberto 06 January 2011 (has links)
L'une des tâches les plus importantes en robotique mobile est la détection d'obstacles pendant les déplacements du robot. Pour résoudre cette tâche, de nombreuses approches ont été proposées; cependant les propositions applicables dans un milieu structuré, dynamique et fortement encombré du fait de la présence humaine, sont limitées. Dans ce cadre, nous présentons dans ces travaux un système visuel reprogrammable dédié à la détection d'obstacles. Le système est composé de plusieurs micro-caméras disposées autour du robot mobile et d'un système reprogrammable. Le nombre de micro-caméras est grand (4 dans la version courante, 8 dans la version finale) et la performance en temps réel requis dans ce contexte, ne peut pas être satisfaite par un processeur standard. Cela rend obligatoire la conception et la mise en oeuvre d'une architecture dédiée pour le traitement des images. Le parallélisme fourni par les FPGAs permet de répondre aux contraintes de performance et de minimiser l'énergie et le coût unitaire du système. L'objectif est de construire et mettre à jour une grille d'occupation robot-centrée lors de la navigation du robot. Cette opération doit être exécutée à 30Hz, afin de réduire la latence entre l'acquisition des images et la détection des obstacles. La détection des zones du sol occupées est faite par l'algorithme de classification AdaBoost en utilisant un vecteur d'attributs. Les attributs utilisés sont la couleur et la texture. Pour la couleur, nous utilisons l'espace de couleur CIE-Lab, car cela permet d'avoir une plus grande immunité au changement de l'éclairage. Les attributs de texture sont obtenues par une méthode adaptée de la technique des histogrammes de sommes et différences. Cette adaptation réduit considérablement les ressources nécessaires pour calculer les attributs de texture, tout en fournissant un modèle riche de chacun des objets présents dans une scène acquise par une des micro-caméras. Chaque pixel dans l'image est classifié pour savoir s'il appartient ou pas au sol, en fonction de ces attributs couleur-texture. Une fois le pixel classé, il est projeté sur le plan du sol pour enrichir la grille d'occupation courante de l'environnement. Plusieurs paramètres de notre approche ont été sélectionnés afin de développer un système avec le meilleur compromis entre les performances et les ressources consommées. Les graphiques de performances de la classification ainsi que les ressources consommées par les architectures implantées sont présentés. Les architectures ont été développées en VHDL avec les outils Altera; des comparaisons sont présentées avec une approche fondée sur des outils de synthèse haut-niveau (Gaut, labview...). Finalement ces architectures ont été portées et évaluées sur un kit Stratix3 connecté à 4 caméras et embarqué sur un robot mobile. / One of the more important tasks to be executed on a mobile robot, concerns thedetection of obstacles during the robot motions. Many methods have been proposed for this function: nevertheless their performances are limited when applied in a structured environment made highly dynamic and cluttered due to humans. This document presents a visual and flexible system for obstacle detection in such an environment. The system is made of several micro-cameras fixed all around the robot body, and of a programmable electronic board. The camera number must be large enough (4 in the current version, 8 in the future one), so that real-time performances mandatory for such a function, cannot be reached from a standard multipurpose processor. It makes compulsory to design and to implement a hardware architecture devoted for image processing. The execution of parallel processes on FPGAs allows to reach real-time performances, while minimizing the required energy and the system cost. The system objective consists in building and updating a robot-centered occupancy grid while the robot is navigating. This function must be executed at 30Hz, in order to minimize the latency between image acquisition and obstacle detection.The detection of occupied ground areas is given by a classification algorithm, using an AdaBoost classifier on characteristic vectors. These vectors are built from color and texture attributes. For the color, the CIE-Lab space has been selected because it allows a better invariance according to the light variations. For the texture, an original method has been proposed adapting the Unser approach based on sum and difference histograms. This approach has been modified in order to reduce significantly the resources required to compute the texture attributes, while providing a fine model for every object detected on a scene acquired by each micro-camera. Each pixel in every image is classified as Ground or Obstacle, with respect to its color and texture attributes. Once a pixel is classified, it is projected on the ground plane in order to update the current occupancy grid built to represent the environment. Many parameters for our approach have been selected in order to develop a system with the better trade-off between performances and consumed resources. Every proposed architecture is evaluated using curves between classification performances and required resources. These architectures have been developed in VHDL using the Altera tool boxes; this classical approach has been compared with a method based on tools providing high level synthesis (Gaut, labview...). Finally all architectures avec been implemented and evaluated on a Stratix3 development kit connected to four cameras, and embedded on a mobile robot.
53

Caméras portées par les policiers : le paradoxe de la meilleure preuve

Poirier, Brigitte 04 1900 (has links)
L’adoption grandissante des caméras portatives par les organisations policières dans les dernières années a visé plusieurs objectifs. Il est généralement attendu que l’utilisation de la technologie puisse contribuer à rendre les organisations plus transparentes, à assurer une plus grande imputabilité des policiers, ou encore à réduire l’utilisation de la force à l’endroit des citoyens. En étant activées lors des interventions policières, les caméras portatives permettraient aussi la production d’enregistrements qui pourront être utilisés tout au long de la chaîne judiciaire, que ce soit lors d’enquêtes ou de procédures judiciaires. Toutefois, la littérature scientifique s’étant largement intéressée aux impacts des caméras portatives sur les interactions entre les policiers et les citoyens, les conséquences de leur utilisation sur les tribunaux demeurent un aspect toujours sous-étudié. La présente thèse vise à mieux comprendre l’apport des enregistrements de caméras portatives au traitement des causes criminelles par les tribunaux. Quatre objectifs spécifiques sont visés : 1) explorer les représentations que se font les acteurs judiciaires de la valeur probante des images de caméras portatives ; 2) mieux comprendre le rôle des images de caméras portatives dans les pratiques des acteurs judiciaires ; 3) mettre en lumière les éléments pouvant affecter le recours aux images de caméras portatives ; et 4) évaluer l’impact de la disponibilité des images de caméras portatives sur le traitement des causes criminelles par les tribunaux, et plus particulièrement sur les verdicts de culpabilité et le temps de traitement des dossiers. Le point de départ de la thèse est un projet pilote de caméras portatives mené par le Service de police de la Ville de Montréal, et une méthodologie mixte conjuguant des entretiens menés auprès de procureurs et d’avocats de la défense (N = 22) à l’analyse statistique de données issues de dossiers judiciaires (N = 525) permet de répondre aux objectifs énoncés. D’un point de vue empirique, il est soutenu que l’apport des images de caméras portatives au processus judiciaire représente une forme de paradoxe, où la forte valeur probante étant associée aux images par les acteurs judiciaires ne correspond pas totalement à l’utilisation qui en est faite ni aux impacts qui sont observés sur le traitement des dossiers. Bien qu’une baisse significative du temps de traitement soit observée pour certains dossiers, plusieurs facteurs semblent mettre un frein à l’utilisation des images par les acteurs judiciaires. D’un point de vue théorique, la thèse propose d’approfondir les réflexions sur le pouvoir de l’image dans le processus judiciaire. En empruntant la notion de savoir autoritaire, il est soutenu que le paradoxe observé dans l’apport de l’image au processus judiciaire puisse s’expliquer par la source même de la supériorité de la preuve. Au-delà de leur contribution potentielle à la découverte des faits, les images de caméras portatives sont utilisées dans un contexte où la productivité du tribunal demeure un objectif central, ce qui peut amener les acteurs judiciaires à accorder une priorité à d’autres formes d’information, dont la version des policiers. / The growing adoption of body-worn cameras by police organizations in recent years has served several objectives. It is generally expected that the use of this technology will help make organizations more transparent, ensure greater accountability for police officers, or even reduce the use of force against citizens. By being activated during police interventions, body-worn cameras would also allow the production of recordings that can be used throughout the judicial chain, whether during investigations or legal proceedings. However, scientific literature having been mainly interested in the impacts of body-worn cameras on interactions between police officers and citizens, the consequences of their use on courts remain an aspect that is still understudied. This thesis aims to better understand the contribution of body-worn camera recordings to the processing of criminal cases by courts. Four specific objectives are targeted: 1) to explore the representations that judicial actors have of the evidentiary value of body-worn camera recordings; 2) to better understand the role of body-worn camera recordings in the practices of judicial actors; 3) to highlight the elements that may affect the use of body-worn camera recordings; and 4) to assess the impacts of the availability of body-worn camera recordings on the processing of criminal cases by courts, and more particularly on guilty verdicts and case processing times. The starting point of the thesis is a body-worn camera pilot project led by the Service de police de la Ville de Montréal, and a mixed methods design combining interviews conducted with prosecutors and defence lawyers (N = 22) with statistical analysis of data from court cases (N = 525) is used to meet the stated objectives. From an empirical standpoint, it is argued that the contribution of body- worn camera recordings to the judicial process represents a form of paradox, where the high evidentiary value being associated with images by the judicial actors does not fully correspond to the use that is made of it or the impacts that are observed on case processing. Although a significant reduction in processing time is observed for some cases, several factors seem to put a brake on the use of recordings by judicial actors. From a theoretical standpoint, the thesis proposes to deepen the reflections on the power of images in the judicial process. By borrowing the notion of authoritative knowledge, it is argued that the paradox observed in the contribution of body-worn camera recordings to the judicial process could be explained by the very source of their superiority. Beyond their potential contribution to the discovery of the facts, body-worn camera recordings are used in a context where productivity remains a central objective to the court, which can lead judicial actors to prioritize other forms of information, including police officers’ versions.
54

Contributions aux problèmes de l'étalonnage extrinsèque d'affichages semi-transparents pour la réalité augmentée et de la mise en correspondance dense d'images / Contributions to the problems of extrinsic calibration semitransparent displays for augmented reality and dense mapping images

Braux-Zin, Jim 26 September 2014 (has links)
La réalité augmentée consiste en l'insertion d'éléments virtuels dans une scène réelle, observée à travers un écran. Les systèmes de réalité augmentée peuvent prendre des formes différentes pour obtenir l'équilibre désiré entre trois critères : précision, latence et robustesse. On identifie trois composants principaux : localisation, reconstruction et affichage. Nous nous concentrons sur l'affichage et la reconstruction. Pour certaines applications, l'utilisateur ne peut être isolé de la réalité. Nous proposons un système sous forme de "tablette augmentée" avec un écran semi transparent, au prix d'un étalonnage adapté. Pour assurer l'alignement entre augmentations et réalité, il faut connaître les poses relatives de l'utilisateur et de la scène observée par rapport à l'écran. Deux dispositifs de localisation sont nécessaires et l'étalonnage consiste à calculer la pose de ces dispositifs par rapport à l'écran. Le protocole d'étalonnage est le suivant : l'utilisateur renseigne les projections apparentes dans l'écran de points de référence d'un objet 3D connu ; les poses recherchées minimisent la distance 2D entre ces projections et celles calculées par le système. Ce problème est non convexe et difficile à optimiser. Pour obtenir une estimation initiale, nous développons une méthode directe par l'étalonnage intrinsèque et extrinsèque de caméras virtuelles. Ces dernières sont définies par leurs centres optiques, confondus avec les positions de l'utilisateur, ainsi que leur plan focal, constitué par l'écran. Les projections saisies par l'utilisateur constituent alors les observations 2D des points de référence dans ces caméras virtuelles. Un raisonnement symétrique permet de considérer des caméras virtuelles centrées sur les points de référence de l'objet, "observant" les positions de l'utilisateur. Ces estimations initiales sont ensuite raffinées par ajustement de faisceaux. La reconstruction 3D est basée sur la triangulation de correspondances entre images. Ces correspondances peuvent être éparses lorsqu'elles sont établies par détection, description et association de primitives géométriques ou denses lorsqu'elles sont établies par minimisation d'une fonction de coût sur toute l'image. Un champ dense de correspondance est préférable car il permet une reconstruction de surface, utile notamment pour une gestion réaliste des occultations en réalité augmentée. Les méthodes d'estimation d'un tel champ sont basées sur une optimisation variationnelle, précise mais sensible aux minimums locaux et limitée à des images peu différentes. A l'opposé, l'emploi de descripteurs discriminants peut rendre les correspondances éparses très robustes. Nous proposons de combiner les avantages des deux approches par l'intégration d'un coût basé sur des correspondances éparses de primitives à une méthode d'estimation variationnelle dense. Cela permet d'empêcher l'optimisation de tomber dans un minimum local sans dégrader la précision. Notre terme basé correspondances éparses est adapté aux primitives à coordonnées non entières, et peut exploiter des correspondances de points ou de segments tout en filtrant implicitement les correspondances erronées. Nous proposons aussi une détection et gestion complète des occultations pour pouvoir mettre en correspondance des images éloignées. Nous avons adapté et généralisé une méthode locale de détection des auto-occultations. Notre méthode produit des résultats compétitifs avec l'état de l'art, tout en étant plus simple et plus rapide, pour les applications de flot optique 2D et de stéréo à large parallaxe. Nos contributions permettent d'appliquer les méthodes variationnelles à de nouvelles applications sans dégrader leur performance. Le faible couplage des modules permet une grande flexibilité et généricité. Cela nous permet de transposer notre méthode pour le recalage de surfaces déformables avec des résultats surpassant l'état de l'art, ouvrant de nouvelles perspectives. / Augmented reality is the process of inserting virtual elements into a real scene, observed through a screen. Augmented Reality systems can take different forms to get the desired balance between three criteria: accuracy, latency and robustness. Three main components can be identified: localization, reconstruction and display. The contributions of this thesis are focused on display and reconstruction. Most augmented reality systems use non-transparent screens as they are widely available. However, for critical applications such as surgery or driving assistance, the user cannot be ever isolated from reality. We answer this problem by proposing a new “augmented tablet” system with a semi-transparent screen. Such a system needs a suitable calibration scheme:to correctly align the displayed augmentations and reality, one need to know at every moment the poses of the user and the observed scene with regard to the screen. Two tracking devices (user and scene) are thus necessary, and the system calibration aims to compute the pose of those devices with regard to the screen. The calibration process set up in this thesis is as follows: the user indicates the apparent projections in the screen of reference points from a known 3D object ; then the poses to estimate should minimize the 2D on-screen distance between those projections and the ones computed by the system. This is a non-convex problem difficult to solve without a sane initialization. We develop a direct estimation method by computing the extrinsic parameters of virtual cameras. Those are defined by their optical centers which coincide with user positions, and their common focal plane consisting of the screen plane. The user-entered projections are then the 2D observations of the reference points in those virtual cameras. A symmetrical thinking allows one to define virtual cameras centered on the reference points, and “looking at” the user positions. Those initial estimations can then be refined with a bundle adjustment. Meanwhile, 3D reconstruction is based on the triangulation of matches between images. Those matches can be sparse when computed by detection and description of image features or dense when computed through the minimization of a cost function of the whole image. A dense correspondence field is better because it makes it possible to reconstruct a 3D surface, useful especially for realistic handling of occlusions for augmented reality. However, such a field is usually estimated thanks to variational methods, minimizing a convex cost function using local information. Those methods are accurate but subject to local minima, thus limited to small deformations. In contrast, sparse matches can be made very robust by using adequately discriminative descriptors. We propose to combine the advantages of those two approaches by adding a feature-based term into a dense variational method. It helps prevent the optimization from falling into local minima without degrading the end accuracy. Our feature-based term is suited to feature with non-integer coordinates and can handle point or line segment matches while implicitly filtering false matches. We also introduce comprehensive handling of occlusions so as to support large deformations. In particular, we have adapted and generalized a local method for detecting selfocclusions. Results on 2D optical flow and wide-baseline stereo disparity estimation are competitive with the state of the art, with a simpler and most of the time faster method. This proves that our contributions enables new applications of variational methods without degrading their accuracy. Moreover, the weak coupling between the components allows great flexibility and genericness. This is the reason we were able to also transpose the proposed method to the problem of non-rigid surface registration and outperforms the state of the art methods.
55

Méthodes d’analyse de mouvement en vision 3D : invariance aux délais temporels entre des caméras non synchronisées et flux optique par isocontours

Benrhaiem, Rania 12 1900 (has links)
Cette thèse porte sur deux sujets de vision par ordinateur axés sur l’analyse de mouvement dans une scène dynamique vue par une ou plusieurs caméras. En premier lieu, nous avons travaillé sur le problème de la capture de mouvement avec des caméras non synchronisées. Ceci entraı̂ne généralement des erreurs de mise en correspondance 2D et par la suite des erreurs de reconstruction 3D. En contraste avec les solutions matérielles déjà existantes qui essaient de minimiser voire annuler le délai temporel entre les caméras, nous avons proposé une solution qui assure une invariance aux délais. En d’autres termes, nous avons développé une méthode qui permet de trouver la bonne mise en correspondance entre les points à reconstruire indépendamment du délai temporel. En second lieu, nous nous sommes intéressés au problème du flux optique avec une approche différente des méthodes proposées dans l’état de l’art. Le flux optique est utilisé pour l’analyse de mouvement en temps réel. Il est donc important qu’il soit calculé rapidement. Généralement, les méthodes existantes de flux optique sont classées en deux principales catégories: ou bien à la fois denses et précises mais très exigeantes en calcul, ou bien rapides mais moins denses et moins précises. Nous avons proposé une alternative qui tient compte à la fois du temps de calcul et de la précision du résultat. Nous avons proposé d’utiliser les isocontours d’intensité et de les mettre en correspondance afin de retrouver le flux optique en question. Ces travaux ont amené à deux principales contributions intégrées dans les chapitres de la thèse. / In this thesis we focused on two computer vision subjects. Both of them concern motion analysis in a dynamic scene seen by one or more cameras. The first subject concerns motion capture using unsynchronised cameras. This causes many correspondence errors and 3D reconstruction errors. In contrast with existing material solutions trying to minimize the temporal delay between the cameras, we propose a software solution ensuring an invariance to the existing temporal delay. We developed a method that finds the good correspondence between points regardless of the temporal delay. It solves the resulting spatial shift and finds the correct position of the shifted points. In the second subject, we focused on the optical flow problem using a different approach than the ones in the state of the art. In most applications, optical flow is used for real-time motion analysis. It is then important to be performed in a reduced time. In general, existing optical flow methods are classified into two main categories: either precise and dense but computationally intensive, or fast but less precise and less dense. In this work, we propose an alternative solution being at the same time, fast and precise. To do this, we propose extracting intensity isocontours to find corresponding points representing the related optical flow. By addressing these problems we made two major contributions.
56

3D Semantic SLAM of Indoor Environment with Single Depth Sensor / SLAM sémantique 3D de l'environnement intérieur avec capteur de profondeur simple

Ghorpade, Vijaya Kumar 20 December 2017 (has links)
Pour agir de manière autonome et intelligente dans un environnement, un robot mobile doit disposer de cartes. Une carte contient les informations spatiales sur l’environnement. La géométrie 3D ainsi connue par le robot est utilisée non seulement pour éviter la collision avec des obstacles, mais aussi pour se localiser et pour planifier des déplacements. Les robots de prochaine génération ont besoin de davantage de capacités que de simples cartographies et d’une localisation pour coexister avec nous. La quintessence du robot humanoïde de service devra disposer de la capacité de voir comme les humains, de reconnaître, classer, interpréter la scène et exécuter les tâches de manière quasi-anthropomorphique. Par conséquent, augmenter les caractéristiques des cartes du robot à l’aide d’attributs sémiologiques à la façon des humains, afin de préciser les types de pièces, d’objets et leur aménagement spatial, est considéré comme un plus pour la robotique d’industrie et de services à venir. Une carte sémantique enrichit une carte générale avec les informations sur les entités, les fonctionnalités ou les événements qui sont situés dans l’espace. Quelques approches ont été proposées pour résoudre le problème de la cartographie sémantique en exploitant des scanners lasers ou des capteurs de temps de vol RGB-D, mais ce sujet est encore dans sa phase naissante. Dans cette thèse, une tentative de reconstruction sémantisée d’environnement d’intérieur en utilisant une caméra temps de vol qui ne délivre que des informations de profondeur est proposée. Les caméras temps de vol ont modifié le domaine de l’imagerie tridimensionnelle discrète. Elles ont dépassé les scanners traditionnels en termes de rapidité d’acquisition des données, de simplicité fonctionnement et de prix. Ces capteurs de profondeur sont destinés à occuper plus d’importance dans les futures applications robotiques. Après un bref aperçu des approches les plus récentes pour résoudre le sujet de la cartographie sémantique, en particulier en environnement intérieur. Ensuite, la calibration de la caméra a été étudiée ainsi que la nature de ses bruits. La suppression du bruit dans les données issues du capteur est menée. L’acquisition d’une collection d’images de points 3D en environnement intérieur a été réalisée. La séquence d’images ainsi acquise a alimenté un algorithme de SLAM pour reconstruire l’environnement visité. La performance du système SLAM est évaluée à partir des poses estimées en utilisant une nouvelle métrique qui est basée sur la prise en compte du contexte. L’extraction des surfaces planes est réalisée sur la carte reconstruite à partir des nuages de points en utilisant la transformation de Hough. Une interprétation sémantique de l’environnement reconstruit est réalisée. L’annotation de la scène avec informations sémantiques se déroule sur deux niveaux : l’un effectue la détection de grandes surfaces planes et procède ensuite en les classant en tant que porte, mur ou plafond; l’autre niveau de sémantisation opère au niveau des objets et traite de la reconnaissance des objets dans une scène donnée. A partir de l’élaboration d’une signature de forme invariante à la pose et en passant par une phase d’apprentissage exploitant cette signature, une interprétation de la scène contenant des objets connus et inconnus, en présence ou non d’occultations, est obtenue. Les jeux de données ont été mis à la disposition du public de la recherche universitaire. / Intelligent autonomous actions in an ordinary environment by a mobile robot require maps. A map holds the spatial information about the environment and gives the 3D geometry of the surrounding of the robot to not only avoid collision with complex obstacles, but also selflocalization and for task planning. However, in the future, service and personal robots will prevail and need arises for the robot to interact with the environment in addition to localize and navigate. This interaction demands the next generation robots to understand, interpret its environment and perform tasks in human-centric form. A simple map of the environment is far from being sufficient for the robots to co-exist and assist humans in the future. Human beings effortlessly make map and interact with environment, and it is trivial task for them. However, for robots these frivolous tasks are complex conundrums. Layering the semantic information on regular geometric maps is the leap that helps an ordinary mobile robot to be a more intelligent autonomous system. A semantic map augments a general map with the information about entities, i.e., objects, functionalities, or events, that are located in the space. The inclusion of semantics in the map enhances the robot’s spatial knowledge representation and improves its performance in managing complex tasks and human interaction. Many approaches have been proposed to address the semantic SLAM problem with laser scanners and RGB-D time-of-flight sensors, but it is still in its nascent phase. In this thesis, an endeavour to solve semantic SLAM using one of the time-of-flight sensors which gives only depth information is proposed. Time-of-flight cameras have dramatically changed the field of range imaging, and surpassed the traditional scanners in terms of rapid acquisition of data, simplicity and price. And it is believed that these depth sensors will be ubiquitous in future robotic applications. In this thesis, an endeavour to solve semantic SLAM using one of the time-of-flight sensors which gives only depth information is proposed. Starting with a brief motivation in the first chapter for semantic stance in normal maps, the state-of-the-art methods are discussed in the second chapter. Before using the camera for data acquisition, the noise characteristics of it has been studied meticulously, and properly calibrated. The novel noise filtering algorithm developed in the process, helps to get clean data for better scan matching and SLAM. The quality of the SLAM process is evaluated using a context-based similarity score metric, which has been specifically designed for the type of acquisition parameters and the data which have been used. Abstracting semantic layer on the reconstructed point cloud from SLAM has been done in two stages. In large-scale higher-level semantic interpretation, the prominent surfaces in the indoor environment are extracted and recognized, they include surfaces like walls, door, ceiling, clutter. However, in indoor single scene object-level semantic interpretation, a single 2.5D scene from the camera is parsed and the objects, surfaces are recognized. The object recognition is achieved using a novel shape signature based on probability distribution of 3D keypoints that are most stable and repeatable. The classification of prominent surfaces and single scene semantic interpretation is done using supervised machine learning and deep learning systems. To this end, the object dataset and SLAM data are also made publicly available for academic research.
57

Numérisation 3D de visages par une approche de super-résolution spatio-temporelle non-rigide

Ouji, Karima 28 June 2012 (has links)
La mesure de la forme 3D du visage est une problématique qui attire de plus en plus de chercheurs et qui trouve son application dans des domaines divers tels que la biométrie, l’animation et la chirurgie faciale. Les solutions actuelles sont souvent basées sur des systèmes projecteur/caméra et utilisent de la lumière structurée pour compenser l’insuffisance de la texture faciale. L’information 3D est ensuite calculée en décodant la distorsion des patrons projetés sur le visage. Une des techniques les plus utilisées de la lumière structurée est la codification sinusoïdale par décalage de phase qui permet une numérisation 3D de résolution pixélique. Cette technique exige une étape de déroulement de phase, sensible à l’éclairage ambiant surtout quand le nombre de patrons projetés est limité. En plus, la projection de plusieurs patrons impacte le délai de numérisation et peut générer des artefacts surtout pour la capture d’un visage en mouvement. Une alternative aux approches projecteur-caméra consiste à estimer l’information 3D par appariement stéréo suivi par une triangulation optique. Cependant, le modèle calculé par cette technique est généralement non-dense et manque de précision. Des travaux récents proposent la super-résolution pour densifier et débruiter les images de profondeur. La super-résolution a été particulièrement proposée pour les caméras 3D TOF (Time-Of-Flight) qui fournissent des scans 3D très bruités. Ce travail de thèse propose une solution de numérisation 3D à faible coût avec un schéma de super-résolution spatio-temporelle. Elle utilise un système multi-caméra étalonné assisté par une source de projection non-étalonnée. Elle est particulièrement adaptée à la reconstruction 3D de visages, i.e. rapide et mobile. La solution proposée est une approche hybride qui associe la stéréovision et la codification sinusoïdale par décalage de phase, et qui non seulement profite de leurs avantages mais qui surmonte leurs faiblesses. Le schéma de la super-résolution proposé permet de corriger l’information 3D, de compléter la vue scannée du visage en traitant son aspect déformable. / 3D face measurement is increasingly demanded for many applications such as bio-metrics, animation and facial surgery. Current solutions often employ a structured light camera/projector device to overcome the relatively uniform appearance of skin. Depth in-formation is recovered by decoding patterns of the projected structured light. One of the most widely used structured-light coding is sinusoidal phase shifting which allows a 3Ddense resolution. Current solutions mostly utilize more than three phase-shifted sinusoidal patterns to recover the depth information, thus impacting the acquisition delay. They further require projector-camera calibration whose accuracy is crucial for phase to depth estimation step. Also, they need an unwrapping stage which is sensitive to ambient light, especially when the number of patterns decreases. An alternative to projector-camera systems consists of recovering depth information by stereovision using a multi-camera system. A stereo matching step finds correspondence between stereo images and the 3D information is obtained by optical triangulation. However, the model computed in this way generally is quite sparse. To up sample and denoise depth images, researchers looked into super-resolution techniques. Super-resolution was especially proposed for time-of-flight cameras which have very low data quality and a very high random noise. This thesis proposes a3D acquisition solution with a 3D space-time non-rigid super-resolution capability, using a calibrated multi-camera system coupled with a non calibrated projector device, which is particularly suited to 3D face scanning, i.e. rapid and easily movable. The proposed solution is a hybrid stereovision and phase-shifting approach, using two shifted patterns and a texture image, which not only takes advantage of the assets of stereovision and structured light but also overcomes their weaknesses. The super-resolution scheme involves a 3D non-rigid registration for 3D artifacts correction in the presence of small non-rigid deformations as facial expressions.
58

Vitrocéramiques infrarouges pour application à la vision nocturne / Infrared glass-ceramics for night vision applications

Petracovschi, Elena 03 October 2014 (has links)
Les verres de chalcogénures sont utilisés en tant qu'optiques pour les caméras IR grâce à leur transparence dans les deux fenêtres atmosphériques [3 – 5 µm] et [8 – 12 µm]. Afin de diminuer leur prix et d'augmenter la gamme des compositions qui pourraient être produites, une nouvelle méthode de synthèse a été élaborée au laboratoire Verres et Céramiques. Les travaux présentés dans ce manuscrit ont ainsi porté sur le développement de la technique de synthèse des verres et vitrocéramiques de chalcogénures par mécanosynthèse et frittage flash, ainsi que sur l'étude de la structure et des propriétés mécaniques des vitrocéramiques. Les différents paramètres de broyage et frittage ont été étudiés et la possibilité de produire des matériaux massifs, avec une structure et des propriétés similaires à celles des verres obtenus par voie classique de fusion-trempe, a été démontrée. Egalement, il a été constaté que la génération des particules cristallines dans la matrice vitreuse permet d'améliorer les propriétés mécaniques sans altérer la transmission optique des échantillons. Finalement, une étude théorique, basée sur la méthode DFT, a été initié pour accéder à des informations plus précises concernant la structure et les propriétés mécaniques des verres et vitrocéramiques de chalcogénures. / Chalcogenide glasses are used as optics for the IR cameras thanks to their transparence in the two atmospheric windows [3 – 5 µm] and [8 – 12 µm]. In order to reduce their price and to increase the panel of compositions which may be produced, a new method of synthesis has been elaborated in the Glass and Ceramics group. Thus, this manuscript presents the development of the new way of synthesis of chalcogenide glasses and glass-ceramics by mechanical milling and SPS sintering, and the study of the structure and mechanical properties of glass-ceramics. The different milling and sintering parameters have been studied and the possibility to produce bulk samples with a structure and properties similar to those of glasses synthesized by melt-quenching method has been demonstrated. Also, it has been shown that the generation of crystalline particles in the glassy matrix increases mechanical properties of the samples without spoiling their optical transmission. Finally, a theoretical study, based on the DFT method, has been initiated in order to access more precise information concerning glass and glass-ceramic structure and mechanical properties.
59

Context-aware intelligent video analysis for the management of smart buildings / Analyse vidéo en temps-reél intégrant les données contextuelles pour la gestion de bâtiments intelligents

Marroquín Cortez, Roberto Enrique 18 October 2019 (has links)
Les systèmes de vision artificielle sont aujourd'hui limités à l'extraction de données issues de ce que les caméras « voient ». Cependant, la compréhension de ce qu'elles voient peut être enrichie en associant la connaissance du contexte et la connaissance d'interprétation d'un humain.Dans ces travaux de thèse, nous proposons une approche associant des algorithmes de vision atificielle à une modélisation sémantique du contexte d'acquisition.Cette approche permet de réaliser un raisonnement sur la connaissance extraite des images par les caméras en temps réel. Ce raisonnement offre une réponse aux problèmes d'occlusion et d'erreurs de détections inhérents aux algorithmes de vision artificielle. Le système complet permet d'offrir un ensemble de services intelligents (guidage, comptage...) tout en respectant la vie privée des personnes observées. Ces travaux forment la première étape du développement d'un bâtiment intelligent qui peut automatiquement réagir et évoluer en observant l'activité de ces usagers, i.e., un bâtiment intelligent qui prend en compte les informations contextuelles.Le résultat, nommé WiseNET, est une intelligence artificielle en charge des décisions au niveau du bâtiment (qui pourrait être étendu à un groupe de bâtiments ou même a l'échelle d'un ville intelligente). Elle est aussi capable de dialoguer avec l'utilisateur ou l'administrateur humain de manière explicite. / To date, computer vision systems are limited to extract digital data of what the cameras "see". However, the meaning of what they observe could be greatly enhanced by environment and human-skills knowledge.In this work, we propose a new approach to cross-fertilize computer vision with contextual information, based on semantic modelization defined by an expert.This approach extracts the knowledge from images and uses it to perform real-time reasoning according to the contextual information, events of interest and logic rules. The reasoning with image knowledge allows to overcome some problems of computer vision such as occlusion and missed detections and to offer services such as people guidance and people counting. The proposed approach is the first step to develop an "all-seeing" smart building that can automatically react according to its evolving information, i.e., a context-aware smart building.The proposed framework, named WiseNET, is an artificial intelligence (AI) that is in charge of taking decisions in a smart building (which can be extended to a group of buildings or even a smart city). This AI enables the communication between the building itself and its users to be achieved by using a language understandable by humans.
60

Design et calibration d'un système de capture de la géométrie et de l'apparence

Gignac, Olivier 17 April 2018 (has links)
Ce mémoire porte sur la conception, l'assemblage et la calibration d'un système permettant l'acquisition de l'apparence et de la géométrie d'objets. Une première section porte sur la conception du système, c'est-à-dire sur le choix de son design et sa réalisation. Ensuite, les calibrations nécessaires au fonctionnement du système sont présentées. Les calibrations géométriques et radiométriques des caméras sont tout d'abord réalisées. Ensuite, les sources de lumière sont à leurs tours calibrées géométriquement et radiométriquement. Finalement, une application de stéréo photométrique est effectuée. Enfin, nous modélisons la fonction de réflectance de quelques objets.

Page generated in 0.0416 seconds