• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 213
  • 149
  • 39
  • Tagged with
  • 404
  • 404
  • 404
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
191

Suivi multi-capteurs de cibles multiples en vision par ordinateur, appliqué à un véhicule dans un environnement routier /

Hutber, David. January 1900 (has links)
Th. doct.--Sci. de l'ingénieur--Nice-Sophia Antipolis, 1995. / 1996 d'après la déclaration du dépôt légal. Contient des textes en anglais. Bibliogr. p. 239-248. Résumé en français et en anglais.
192

Contributions à la localisation de personnes par vision monoculaire embarquée / Contributions to the localization of persons by embedded monocular vision

Elloumi, Wael 06 December 2012 (has links)
Une des techniques alternatives au GPS pour le développement d’un système d’assistance à la navigationpédestre en milieux urbains est la vision embarquée. La localisation du porteur de la caméra s’appuie alorssur l’estimation de la pose à partir des images acquises au cours du cheminement. En s’inspirant destravaux antérieurs sur la navigation autonome de robots, cette thèse explore deux approches dans le cadrespécifique de la localisation pédestre. La première méthode de localisation s’appuie sur des appariementsde primitives images avec une cartographie 3D pré-estimée de l’environnement. Elle permet une estimationprécise de la pose complète de la caméra (6 ddl), mais les expérimentations montrent des limitationscritiques de robustesse et temps de calcul liées à l’étape de mise en correspondance. Une solutionalternative est proposée en utilisant les points de fuite. L’orientation de la caméra (3ddl) est estimée defaçon robuste et rapide par le suivi de 3 points de fuites orthogonaux dans une séquence vidéo. L’algorithmedéveloppé permet une localisation pédestre indoor en deux étapes : une phase d’apprentissage hors lignedéfinit un itinéraire de référence en sélectionnant des images clef au long du parcours, puis, en phase delocalisation, une position approximative mais réaliste du porteur est estimée en temps réel en comparant lesorientations de la caméra dans l’image courante et celle de référence. / One of the alternative techniques to GPS for the development of pedestrian navigation assistive systems inurban environments is embedded vision. The walker localization is, then, based on the camera poseestimation from images acquired during the path. Inspired by previous work on autonomous navigation ofmobile robots, this thesis explores two approaches in the specific context of pedestrian localization. The firstlocalization method is based on image primitive matching with a pre-estimated 3D map of the environment. Itallows an accurate estimate of the complete pose of the camera (6 dof), but experiments show criticallimitations of robustness and computation time related to the matching step. An alternative solution isproposed using vanishing points. Robust and fast camera orientation (3 dof) is estimated by tracking threeorthogonal vanishing points in a video sequence. The developed algorithm allows indoor pedestrianlocalization in two steps: an off-line learning step defines a reference path by selecting key frames along theway, then, in localization step, an approximate but realistic position of the walker is estimated in real time bycomparing the orientation of the camera in the current image and that of reference.
193

Détection et estimation de pose d'instances d'objet rigide pour la manipulation robotisée / Detection and pose estimation of instances of a rigid object for robotic bin-picking

Brégier, Romain 11 June 2018 (has links)
La capacité à détecter des objets dans une scène et à estimer leur pose constitue un préalable essentiel à l'automatisation d'un grand nombre de tâches, qu'il s'agisse d'analyser automatiquement une situation, de proposer une expérience de réalité augmentée, ou encore de permettre à un robot d'interagir avec son environnement.Dans cette thèse, nous nous intéressons à cette problématique à travers le scénario du dévracage industriel, dans lequel il convient de détecter des instances d'un objet rigide au sein d'un vrac et d'estimer leur pose -- c'est-à-dire leur position et orientation -- à des fins de manipulation robotisée.Nous développons pour ce faire une méthode basée sur l'exploitation d'une image de profondeur, procédant par agrégation d'hypothèses générées par un ensemble d'estimateurs locaux au moyen d'une forêt de décision.La pose d'un objet rigide est usuellement modélisée sous forme d'une transformation rigide 6D dans la littérature. Cette représentation se révèle cependant inadéquate lorsqu'il s'agit de traiter des objets présentant des symétries, pourtant nombreux parmi les objets manufacturés.Afin de contourner ces difficultés, nous introduisons une formulation de la notion de pose compatible avec tout objet rigide physiquement admissible, et munissons l'espace des poses d'une distance quantifiant la longueur du plus petit déplacement entre deux poses. Ces notions fournissent un cadre théorique rigoureux à partir duquel nous développons des outils permettant de manipuler efficacement le concept de pose, et constituent le socle de notre approche du problème du dévracage.Les standards d'évaluation utilisés dans l'état de l'art souffrant de certaines limitations et n'étant que partiellement adaptés à notre contexte applicatif, nous proposons une méthodologie d'évaluation adaptée à des scènes présentant un nombre variable d'instances d'objet arbitraire, potentiellement occultées. Nous mettons celle-ci en œuvre sur des données synthétiques et réelles, et montrons la viabilité de la méthode proposée, compatible avec les problématiques de temps de cycle, de performance et de simplicité de mise en œuvre du dévracage industriel. / Visual object detection and estimation of their poses -- i.e. position and orientation for a rigid object -- is of utmost interest for automatic scene understanding.In this thesis, we address this topic through the bin-picking scenario, in which instances of a rigid object have to be automatically detected and localized in bulk, so as to be manipulated by a robot for various industrial tasks such as machine feeding, assembling, packing, etc.To this aim, we propose a novel method for object detection and pose estimation given an input depth image, based on the aggregation of local predictions through an Hough forest technique, that is suitable with industrial constraints of performance and ease of use.Overcoming limitations of existing approaches that assume objects not to have any proper symmetries, we develop a theoretical and practical framework enabling us to consider any physical rigid object, thanks to a novel definition of the notion of pose and an associated distance.This framework provides tools to deal with poses efficiently for operations such as pose averaging or neighborhood queries, and is based on rigorous mathematical developments.Evaluation benchmarks used in the literature are not very representative of our application scenario and suffer from some intrinsic limitations, therefore we formalize a methodology suited for scenes in which many object instances, partially occluded, in arbitrary poses may be considered. We apply this methodology on real and synthetic data, and demonstrate the soundness of our approach compared to the state of the art.
194

Perception multimodale de l'homme pour l'interaction Homme-Robot / Human multimodal perception for human-robot interaction

Mollaret, Christophe 03 December 2015 (has links)
Cette thèse porte sur la perception multimodale de l'homme pour l'Interaction Homme-Robot (IHR). Elle a été financée par le projet ANR Contint RIDDLE (2012 - 2015). Ce projet est centré sur le développement d'un robot d'assistance pour les personnes âgées atteintes de troubles cognitifs légers. Celui-ci a pour but de répondre à un besoin grandissant d'aide à domicile envers les personnes âgées vivant seules. En effet, la population vieillissant de plus en plus, on estime qu'environ 33% des français auront plus de 60 ans en 2060. L'enjeu est donc de programmer un robot interactif (via ses capacités perceptuelles) capable d'apprendre la relation entre l'usager et un sous-ensemble d'objets du quotidien de ce dernier, soit des objets pertinents, présents ou possiblement égarés dans l'espace partagé du robot et de l'usager. Dans ce cadre, il reste de nombreux verrous à lever, notamment en termes de : (i) perception conjointe de l'homme et de son environnement, (ii) d'intégration sur un système robotisé, (iii) de validation par des scénarii mettant en jeu le robot et une personne âgée en interaction avec quelques objets usuels. La finalité du projet est de voir le robot répondre aux interrogations relatives à une dizaine d'objets courants (définis par une étude préliminaire sur une population qui se plaint de troubles cognitifs) par des actions appropriées. Par exemple, le robot signalera l'emplacement d'un objet en se déplaçant vers lui, en le saisissant ou en donnant des indications orales quant à sa position si l'objet n'est pas atteignable. Le projet RIDDLE est multipartenaire : il regroupe la société Magellium, le Gérontopôle de Toulouse, l'équipe MINC du LAAS-CNRS et l'entreprise Aldebaran Robotics dont le robot doit servir de plateforme pour les démonstrations finales. Cette thèse a été co-encadrée par Frédéric Lerasle et Isabelle Ferrané respectivement enseignants-chercheurs dans les équipes RAP du LAAS-CNRS et SAMoVA de l'IRIT-UPS. Lors de ce projet, nous avons, en partenariat avec le gérontopôle, défini un scénario robotique regroupant trois phases principales. Une phase de monitoring où le robot se trouve loin de l'utilisateur et l'observe de sa position, en attente d'une demande d'interaction, une phase d'interaction proximale où le robot se trouve proche de l'utilisateur et interagit avec lui, et enfin la transition qui permet au robot de passer d'une phase à l'autre. Ce scénario est donc construit de manière à créer un robot d'interaction proactif mais non-intrusif. Le caractère non-intrusif est matérialisé par la phase de monitoring. La proactivité est, quant à elle, matérialisée par la création d'un détecteur d'intentionnalité permettant au robot de comprendre de manière non-verbale la volonté de l'utilisateur de communiquer avec lui. Les contributions scientifiques de cette thèse recoupent divers aspects du projet : le scénario robotique, le détecteur d'intentionnalité, une technique de filtrage par essaim de particules, et enfin une technique bayésienne d'amélioration du taux d'erreur de mot à partir d'informations de distance. Cette thèse est divisée en quatre chapitres. Le premier traite du détecteur d'intentionnalité, le deuxième de la technique de filtrage développée, le troisième de la phase d'interaction proximale et des techniques employées, et enfin le dernier chapitre est centré sur les implémentations robotiques. / This work is about human multimodal perception for human-robot interaction (HRI). This work was financed by the RIDDLE ANR Contint project (2012-2015). This project focuses on the development of an assisting robot for the elderly who experience small losses of memory. This project aims at coping with a growing need in human care for elder people living alone. Indeed in France, the population is aging and around 33% of the estimated population will be more than 60 years old by 2060. The goal is therefore to program an interactive robot (with perceptive capabilities), which would be able to learn the relationship between the user and a set of selected objects in their shared environment. In this field, lots of problems remain in terms of : (i) shared human-environment perception, (ii) integration on a robotic platform, and (iii) the validation of some scenarii about usual objects that involve both the robot and the elderly. The aim is to see the robot answer the user's interrogations about ten objects (defined by a preliminary study) with appropriate actions. For example, the robot will indicate the position of an object by moving towards it, grapping it or giving oral indications if it is not reachable. The RIDDLE project was formed by a consortium, with Magellium, the gerontology center of Toulouse, the MINC team from the LAAS-CNRS laboratory and Aldebaran Robotics. The final demonstrations will be led on the Rom´eo platform. This thesis has been co-directed by Fr´ed´eric Lerasle and Isabelle Ferran´e, respectively from the RAP team of LAAS-CNRS and the SAMoVA team of IRIT. Along the project, in partnership with the gerontology center, a robot scenario was determined following three major steps. During the first one -the "Monitoring step"- the robot is far from the user and waits for an intention of interaction. A "Proximal interaction step" is reached when the robot interacts with the user from a close position. Finally, the last step : the "Transition" allows the robot to move to reach the two previous ones. This scenario was built in order to create a not-intrusive proactive robot. This non-intrusiveness is materialized by the "monitoring step". The proactivity is achieved by the creation of a detector of user intention, allowing the robot to understand non-verbal information about the user's will to communicate with it. The scientific contributions of this thesis include various aspects : robotic scenarii, the detector of user intention, a filtering technique based on particle swarm optimization algorithm, and finally a Baysian scheme built to improve the word error rate given distance information. This thesis is divided in four chapters. The first one is about the detector of user intention. The second chapter moves on to the filtering technique. The third chapter will focus on the proximal interaction and the employed techniques, and finally the last chapter will deal with the robotic implementations.
195

Localisation et cartographie visuelles simultanées en milieu intérieur et en temps réel / Visual SLAM in indoor environment

Decrouez, Marion 07 May 2013 (has links)
La thèse s'inscrit dans le domaine de la vision par ordinateur. Il s'agit, dans un environnement intérieur inconnu, partiellement connu ou connu de trouver la position et l'orientation d'une camera mobile en temps réel à partir d'une séquence vidéo prise par cette même camera. Le sujet implique également la reconstruction 3D de l'environnement. Les algorithmes de vision seront implémentés et testés sur des plateformes massivement parallèles. Processing the video sequence of a indoor camera in motion we have to find the position and angle of the camera in real time. We will use a single prime lens camera. It may involve an unknown, partially known or well known environment. A big part of the computation is the 3D reconstruction of the scene. The algorithms used to locate the camera will be implemented and tested on GPU. / In this thesis, we explore the problem of modeling an unknown environment using monocular vision for localization applications. We focus in modeling dynamic indoor environments. Many objects in indoor environments are likely to be moved. These movements significantly affect the structure and appearance of the environment and disrupt the existing methods of visual localization. We present in this work a new approach for modeling the environment and its evolution with time. We define explicitly the scene as a static structure and a set of dynamic objects. The object is defined as a rigid entity that a user can take, move and that is visually detectable. First, we show how to automatically discover new objects in a dynamic environment. Existing methods of visual localization simply ignore the inconsistencies due to changes in the scene. We aim to analyze these changes to extract additional information. Without any prior knowledge, an object is a set of points with coherent motion relative to the static structure of the scene. We combine two methods of visual localization to compare various explorations in the same environment taken at different time. The comparison enables to detect objects that have moved between the two shots. For each object, a geometric model and an appearance model are learned. Moreover, we extend the scene model while updating the metrical map and the topological map of the static structure of the environment. Object discovery using motion is based on a new algorithm of multiple structures detection in an image pair. Given a set of correspondences between two views, the method based on RANSAC extracts the different structures corresponding to different model parameterizations seen in the data. The method is applied to homography estimation to detect planar structures and to fundamental matrix estimation to detect structures that have been shifted one from another. Our approach for dynamic scene modeling is applied in a new formulation of place recognition to take into account the presence of dynamic objects in the environment. The model of the place consists in an appearance model of the static structure observed in that place. An object database is learned from previous observations in the environment with the method of object discovery using motion. The place recognition we propose detects the dynamic objects seen in the place and rejects the false detection due to these objects. The different methods described in this dissertation are tested on synthetic and real data. Qualitative and quantitative results are presented throughout the dissertation.
196

Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes / Structured Models for Action Recognition in Real-word Videos

Gaidon, Adrien 25 October 2012 (has links)
Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. / This dissertation introduces novel models to recognize broad action categories --- like "opening a door" and "running" --- in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich --- in order to correctly differentiate between different action categories --- and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features --- such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos.
197

Localisation absolue centimétrique par photogrammétrie aéroportée et GPS embarqués sur drone / Centimetric absolute localization using Unmanned Aerial Vehicles with airborne photogrammetry and on-board GPS

Daakir, Mehdi 11 December 2017 (has links)
Au cours de la dernière décennie, les drones ont été largement utilisés dans les domaines des applications civiles. La photogrammétrie aéroportée a trouvé place dans ces applications comme une solution efficace de modélisation 3D mais aussi comme un outil de mesure. Vinci-Construction-Terrassement est une entreprise privée spécialisée dans le secteur des Travaux Publics qui intègre les drones et la photogrammétrie comme une solution de cartographie et de métrologie de ses chantiers. Cet outil est très efficace, par exemple, pour le calcul des volumes de stocks ou pour le suivi temporel de zones spécifiques avec un risque de glissement de terrain. Le but de ce travail est d’arriver à un géo-référencement direct des images acquises par la caméra lors du vol en s’appuyant uniquement sur un récepteur GPS embarqué. Le système utilisé doit être de faible coût et par conséquent le traitement des données est adapté à cette contrainte / Over the last decade, drones have been largely used for civil applications. Airborne photogrammetry has found place in these applications as a modeling and a measuring tool. Vinci-Construction-Terrassement is a private company of public building and works sector that integrates drones and photogrammetry as a mapping solution and metrology investigation on its sites. This tool is very efficient for the calculation of stock volumes for instance, or for time tracking of specific areas with risk of landslides. The aim of the present work is to do direct georeferencing of images acquired by the camera leaning on an embedded GPS receiver. The UAS used needs to be low cost and therefore data processing is adapted to this constraint
198

Contributions to active visual estimation and control of robotic systems / Contributions à la perception active et à la commande de systèmes robotiques

Spica, Riccardo 11 December 2015 (has links)
L'exécution d'une expérience scientifique est un processus qui nécessite une phase de préparation minutieuse et approfondie. Le but de cette phase est de s'assurer que l'expérience donne effectivement le plus de renseignements possibles sur le processus que l'on est en train d'observer, de manière à minimiser l'effort (en termes, par exemple, du nombre d'essais ou de la durée de chaque expérience) nécessaire pour parvenir à une conclusion digne de confiance. De manière similaire, la perception est un processus actif dans lequel l'agent percevant (que ce soit un humain, un animal ou un robot) fait de son mieux pour maximiser la quantité d'informations acquises sur l'environnement en utilisant ses capacités de détection et ses ressources limitées. Dans de nombreuses applications robotisées, l'état d'un robot peut être partiellement récupéré par ses capteurs embarqués. Des schémas d'estimation peuvent être exploités pour récupérer en ligne les «informations manquantes» et les fournir à des planificateurs/contrôleurs de mouvement, à la place des états réels non mesurables. Cependant, l'estimation doit souvent faire face aux relations non linéaires entre l'environnement et les mesures des capteurs qui font que la convergence et la précision de l'estimation sont fortement affectées par la trajectoire suivie par le robot/capteur. Par exemple, les techniques de commande basées sur la vision, telles que l'Asservissement Visuel Basé-Image (IBVS), exigent normalement une certaine connaissance de la structure 3-D de la scène qui ne peut pas être extraite directement à partir d'une seule image acquise par la caméra. On peut exploiter un processus d'estimation (“Structure from Motion - SfM”) pour reconstruire ces informations manquantes. Toutefois, les performances d'un estimateur SfM sont grandement affectées par la trajectoire suivie par la caméra pendant l'estimation, créant ainsi un fort couplage entre mouvement de la caméra (nécessaire pour, par exemple, réaliser une tâche visuelle) et performance/précision de l'estimation 3-D. À cet égard, une contribution de cette thèse est le développement d'une stratégie d'optimisation en ligne de trajectoire qui permet de maximiser le taux de convergence d'un estimateur SfM affectant (activement) le mouvement de la caméra. L'optimisation est basée sur des conditions classiques de persistance d'excitation utilisée en commande adaptative pour caractériser le conditionnement d'un problème d'estimation. Cette mesure est aussi fortement liée à la matrice d'information de Fisher employée dans le cadre d'estimation probabiliste à des fins similaires. Nous montrons aussi comment cette technique peut être couplé avec l'exécution simultanée d'une tâche d'asservissement visuel en utilisant des techniques de résolution et de maximisation de la redondance. Tous les résultats théoriques présentés dans cette thèse sont validés par une vaste campagne expérimentale en utilisant un robot manipulateur équipé d'une caméra embarquée. / As every scientist and engineer knows, running an experiment requires a careful and thorough planning phase. The goal of such a phase is to ensure that the experiment will give the scientist as much information as possible about the process that she/he is observing so as to minimize the experimental effort (in terms of, e.g., number of trials, duration of each experiment and so on) needed to reach a trustworthy conclusion. Similarly, perception is an active process in which the perceiving agent (be it a human, an animal or a robot) tries its best to maximize the amount of information acquired about the environment using its limited sensor capabilities and resources. In many sensor-based robot applications, the state of a robot can only be partially retrieved from his on-board sensors. State estimation schemes can be exploited for recovering online the “missing information” then fed to any planner/motion controller in place of the actual unmeasurable states. When considering non-trivial cases, however, state estimation must often cope with the nonlinear sensor mappings from the observed environment to the sensor space that make the estimation convergence and accuracy strongly affected by the particular trajectory followed by the robot/sensor. For instance, when relying on vision-based control techniques, such as Image-Based Visual Servoing (IBVS), some knowledge about the 3-D structure of the scene is needed for a correct execution of the task. However, this 3-D information cannot, in general, be extracted from a single camera image without additional assumptions on the scene. One can exploit a Structure from Motion (SfM) estimation process for reconstructing this missing 3-D information. However performance of any SfM estimator is known to be highly affected by the trajectory followed by the camera during the estimation process, thus creating a tight coupling between camera motion (needed to, e.g., realize a visual task) and performance/accuracy of the estimated 3-D structure. In this context, a main contribution of this thesis is the development of an online trajectory optimization strategy that allows maximization of the converge rate of a SfM estimator by (actively) affecting the camera motion. The optimization is based on the classical persistence of excitation condition used in the adaptive control literature to characterize the well-posedness of an estimation problem. This metric, however, is also strongly related to the Fisher information matrix employed in probabilistic estimation frameworks for similar purposes. We also show how this technique can be coupled with the concurrent execution of a IBVS task using appropriate redundancy resolution and maximization techniques. All of the theoretical results presented in this thesis are validated by an extensive experimental campaign run using a real robotic manipulator equipped with a camera in-hand.
199

Application d'un langage de programmation de type flot de données à la synthèse haut-niveau de système de vision en temps-réel sur matériel reconfigurable / Application of a dataflow programming language to the high level synthesis of real time vision systems on reconfigurable hardware

Ahmed, Sameer 24 January 2013 (has links)
Les circuits reconfigurables de type FPGA (Field Programmable Gate Arrays) peuvent désormais surpasser les processeurs généralistes pour certaines applications offrant un fort degré de parallélisme intrinsèque. Ces circuits sont traditionnellement programmés en utilisant des langages de type HDL (Hardware Description Languages), comme Verilog et VHDL. L'usage de ces langages permet d'exploiter au mieux les performances offertes par ces circuits mais requiert des programmeurs une très bonne connaissance des techniques de conception numérique. Ce pré-requis limite fortement l'utilisation des FPGA par la communauté des concepteurs de logiciel en général. Afin de pallier cette limitation, un certain nombre d'outils de plus haut niveau ont été développés, tant dans le monde industriel qu'académique. Parmi les approches proposées, celles fondées sur une transformation plus ou moins automatique de langages de type C ou équivalent, largement utilisés dans le domaine logiciel, ont été les plus explorées. Malheureusement, ces approches ne permettent pas, en général, d'obtenir des performances comparables à celles issues d'une formulation directe avec un langage de type HDL, en raison, essentiellement, de l'incapacité de ces langages à exprimer le parallélisme intrinsèque des applications. Une solution possible à ce problème passe par un changement du modèle de programmation même. Dans le contexte qui est le notre, le modèle flot de données apparaît comme un bon candidat. Cette thèse explore donc l'adoption d'un modèle de programmation flot de données pour la programmation de circuits de type FPGA. Plus précisément, nous évaluons l'adéquation de CAPH, un langage orienté domaine (Domain Specific Language) à la description et à l'implantation sur FPGA d'application opérant à la volée des capteurs (stream processing applications). L'expressivité du langage et l'efficacité du code généré sont évaluées expérimentalement en utilisant un large spectre d'applications, allant du traitement d'images bas niveau (filtrage, convolution) à des applications de complexité réaliste telles que la détection de mouvement, l'étiquetage en composantes connexes ou l'encodage JPEG. / Field Programmable Gate Arrays (FPGAs) are reconfigurable devices which can outperform General Purpose Processors (GPPs) for applications exhibiting parallelism. Traditionally, FPGAs are programmed using Hardware Description Languages (HDLs) such as Verilog and VHDL. Using these languages generally offers the best performances but the programmer must be familiar with digital design. This creates a barrier for the software community to use FPGAs and limits their adoption as a computing solution. To make FPGAs accessible to both software and hardware programmers, a number of tools have been proposed both by academia and industry providing high-level programming environment. A widely used approach is to convert C-like languages to HDLs, making it easier for software programmers to use FPGAs. But these approaches generally do not provide performances on the par with those obtained with HDL languages. The primary reason is the inability of C-like approaches to express parallelism. Our claim is that in order to have a high level programming language for FPGAs as well as not to compromise on performance, a shift in programming paradigm is required. We think that the Dataflowow / actor programming model is a good candidate for this. This thesis explores the adoption of Dataflow / actor programming model for programming FPGAs. More precisely, we assess the suitability of CAPH, a domain-specific language based on this programming model for the description and implementation of stream-processing applications on FPGAs. The expressivity of the language and the efficiency of the generated code are assessed experimentally using a set of test bench applications ranging from very simple applications (basic image filtering) to more complex realistic applications such as motion detection, Connected Component Labeling (CCL) and JPEG encoder.
200

La photogrammétrie rapprochée au service de l'archéologie préventive / Close range photogrammetry for survey in preventive archaeology

Samaan, Mariam 20 June 2016 (has links)
Le développement des appareils photos numériques, de la puissance de calcul des ordinateurs, les travaux de recherche en photogrammétrie et vision par ordinateur ont abouti à l’émergence récente de solutions opérationnelles permettant de construire de manière automatique des modèles 3D à partir de prises de vues à recouvrements multiples (multi stéréoscopiques).Par exemple, en prenant les « bonnes » photos, il est aujourd’hui possible de réaliser en quelques heures de calcul et quelques minutes d’interaction opérateur, des ortho-photos rigoureuses qui, il y a quelques années, auraient demandé des jours de restitution. Ces méthodes commencent à être répandues parmi certains acteurs du relevé patrimonial (architectes ou archéologues) et une économie commence même à se construire autour de services de modélisation 3D.Cependant ces méthodes restent loin d’être pleinement acceptées par la majorité des utilisateurs potentiels. Parmi les freins liés à la diffusion de ces techniques auprès des scientifiques du patrimoine, la méconnaissance des règles d’acquisition photographique permettant de tirer un parti optimum des outils de modélisation par photo.L’objectif de ce travail de thèse est de réaliser un travail de transfert et d’accompagnent effectif des outils du monde de la technologie et de l’informatique vers celui des utilisateurs dans le domaine du patrimoine. De manière plus spécifique, la thématique d’application choisie est celle de l’archéologie préventive, dans laquelle les contraintes de budget et de calendrier pour la réalisation des fouilles rendent particulièrement intéressantes les méthodes de relevé par photo.Nos travaux ont exclusivement porté sur la mise au point de méthodes photogrammétriques à partir de protocoles d’acquisition d’images fiables et légers, ainsi que de traitements adaptés à chaque étape de la chaîne de calcul.Le choix de traiter tel ou tel type d’objet dans le cadre de nos travaux est indépendant de toute classification des nombreuses spécialités de l’archéologie, mais est plutôt lié à un cadrage méthodologique, préférant multiplier les protocoles expérimentaux de documentation de petits artéfacts plutôt que de diversifier le type de vestiges à documenter. Au-delà du cas des petits artéfacts, les problématiques soulevées par la documentation d’une fouille archéologique comme site « vivant » ont aussi été partiellement abordées. Des méthodes de relevé capables d’enregistrer de manière exhaustive l’ensemble des objets découverts tout en les associant à une stratigraphie particulière ont en effet été étudiées / The development of digital cameras, the computational power of computers, photogrammetry and computer vision research has led to the recent emergence of operational solutions for building automatically 3D models from shooting multiple overlays (stereoscopic multi).For example, taking the "good" photos, it is now possible to achieve in a few hours of calculation and a few minutes of operator interaction, rigorous ortho-photos that, there a few years have asked for days restitution. These methods are starting to be widespread among some in the heritage survey (architects or archaeologists) and an economy even starting to build around 3D modeling services.However, these methods are far from being fully accepted by the majority of potential users. Among the brakes associated with the dissemination of these techniques to the scientific heritage, ignorance of the rules of photographic acquisition to take optimum advantage of modeling tools per photo.The objective of this thesis is to do a job transfer and accompany the actual world of technology tools and IT to the users in the field of heritage. More specifically, the theme chosen for application is that of preventive archeology, in which the constraints of budget and timetable for the completion of excavations make it particularly interesting methods identified by photograph.Our work has focused exclusively on the development of photogrammetric methods from acquiring reliable and lightweight image protocols and treatments for each stage of the calculation chain.The choice to treat a particular type of object in the context of our work is independent of any classification of the many specialties of archeology, but is instead linked to a methodological framework, preferring multiply experimental protocols documentation rather small artifacts that diversify the type remains to be documented. Beyond the case of small artifacts, the issues raised by the documentation of an archaeological dig as a site "living" were also partially addressed. Survey methods capable of recording exhaustively all objects discovered while linking to a particular stratigraphy have indeed been studied

Page generated in 0.1294 seconds