• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 214
  • 149
  • 39
  • Tagged with
  • 405
  • 405
  • 405
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
231

Etude de la direction du regard dans le cadre d'interactions sociales incluant un robot / Gaze direction in the context of social human-robot interaction

Massé, Benoît 29 October 2018 (has links)
Les robots sont de plus en plus utilisés dans un cadre social. Il ne suffit plusde partager l’espace avec des humains, mais aussi d’interagir avec eux. Dansce cadre, il est attendu du robot qu’il comprenne un certain nombre de signauxambiguës, verbaux et visuels, nécessaires à une interaction humaine. En particulier, on peut extraire beaucoup d’information, à la fois sur l’état d’esprit despersonnes et sur la dynamique de groupe à l’œuvre, en connaissant qui ou quoichaque personne regarde. On parle de la Cible d’attention visuelle, désignéepar l’acronyme anglais VFOA. Dans cette thèse, nous nous intéressons auxdonnées perçues par un robot humanoı̈de qui participe activement à une in-teraction sociale, et à leur utilisation pour deviner ce que chaque personneregarde.D’une part, le robot doit “regarder les gens”, à savoir orienter sa tête(et donc la caméra) pour obtenir des images des personnes présentes. Nousprésentons une méthode originale d’apprentissage par renforcement pourcontrôler la direction du regard d’un robot. Cette méthode utilise des réseauxde neurones récurrents. Le robot s’entraı̂ne en autonomie à déplacer sa tête enfonction des données visuelles et auditives. Il atteint une stratégie efficace, quilui permet de cibler des groupes de personnes dans un environnement évolutif.D’autre part, les images du robot peuvent être utilisée pour estimer lesVFOAs au cours du temps. Pour chaque visage visible, nous calculons laposture 3D de la tête (position et orientation dans l’espace) car très fortementcorrélée avec la direction du regard. Nous l’utilisons dans deux applications.Premièrement, nous remarquons que les gens peuvent regarder des objets quine sont pas visible depuis le point de vue du robot. Sous l’hypothèse quelesdits objets soient regardés au moins une partie du temps, nous souhaitonsestimer leurs positions exclusivement à partir de la direction du regard despersonnes visibles. Nous utilisons une représentation sous forme de carte dechaleur. Nous avons élaboré et entraı̂né plusieurs réseaux de convolutions afinde d’estimer la régression entre une séquence de postures des têtes, et les posi-tions des objets. Dans un second temps, les positions des objets d’intérêt, pou-vant être ciblés, sont supposées connues. Nous présentons alors un modèleprobabiliste, suggéré par des résultats en psychophysique, afin de modéliserla relation entre les postures des têtes, les positions des objets, la directiondu regard et les VFOAs. La formulation utilise un modèle markovien à dy-namiques multiples. En appliquant une approches bayésienne, nous obtenonsun algorithme pour calculer les VFOAs au fur et à mesure, et une méthodepour estimer les paramètres du modèle.Nos contributions reposent sur la possibilité d’utiliser des données, afind’exploiter des approches d’apprentissage automatique. Toutes nos méthodessont validées sur des jeu de données disponibles publiquement. De plus, lagénération de scénarios synthétiques permet d’agrandir à volonté la quantitéde données disponibles; les méthodes pour simuler ces données sont explicite-ment détaillée. / Robots are more and more used in a social context. They are required notonly to share physical space with humans but also to interact with them. Inthis context, the robot is expected to understand some verbal and non-verbalambiguous cues, constantly used in a natural human interaction. In particular,knowing who or what people are looking at is a very valuable information tounderstand each individual mental state as well as the interaction dynamics. Itis called Visual Focus of Attention or VFOA. In this thesis, we are interestedin using the inputs from an active humanoid robot – participating in a socialinteraction – to estimate who is looking at whom or what.On the one hand, we want the robot to look at people, so it can extractmeaningful visual information from its video camera. We propose a novelreinforcement learning method for robotic gaze control. The model is basedon a recurrent neural network architecture. The robot autonomously learns astrategy for moving its head (and camera) using audio-visual inputs. It is ableto focus on groups of people in a changing environment.On the other hand, information from the video camera images are used toinfer the VFOAs of people along time. We estimate the 3D head poses (lo-cation and orientation) for each face, as it is highly correlated with the gazedirection. We use it in two tasks. First, we note that objects may be lookedat while not being visible from the robot point of view. Under the assump-tion that objects of interest are being looked at, we propose to estimate theirlocations relying solely on the gaze direction of visible people. We formulatean ad hoc spatial representation based on probability heat-maps. We designseveral convolutional neural network models and train them to perform a re-gression from the space of head poses to the space of object locations. Thisprovide a set of object locations from a sequence of head poses. Second, wesuppose that the location of objects of interest are known. In this context, weintroduce a Bayesian probabilistic model, inspired from psychophysics, thatdescribes the dependency between head poses, object locations, eye-gaze di-rections, and VFOAs, along time. The formulation is based on a switchingstate-space Markov model. A specific filtering procedure is detailed to inferthe VFOAs, as well as an adapted training algorithm.The proposed contributions use data-driven approaches, and are addressedwithin the context of machine learning. All methods have been tested on pub-licly available datasets. Some training procedures additionally require to sim-ulate synthetic scenarios; the generation process is then explicitly detailed.
232

Evaluation de la qualité de vidéos panoramiques synthétisées / Quality Evaluation for Stitched Panoramic Videos

Nabil mahrous yacoub, Sandra 27 November 2018 (has links)
La création des vidéos panoramiques de haute qualité pour des contenus immersifs en VR est généralement faite à l'aide d'un appareil doté de plusieurs caméras couvrant une scène cible. Malheureusement, cette configuration introduit à la fois des artefacts spatiaux et temporels dus à la différence entre les centres optiques et à la synchronisation imparfaite. Les mesures de qualité d'image traditionnelles ne peuvent pas être utilisées pour évaluer la qualité de ces vidéos, en raison de leur incapacité à capturer des distorsions géométriques. Dans cette thèse, nous proposons des méthodes pour l'évaluation objective des vidéos panoramiques basées sur le flux optique et la saillance visuelle. Nous validons cette métrique avec une étude centrée sur l'homme qui combine l'annotation d'erreurs percues et l'eye-tracking.Un défi important pour mesurer la qualité des vidéos panoramiques est le manque d'une vérité-terrain. Nous avons étudié l'utilisation des vidéos originales comme référence pour le panorama de sortie. Nous notons que cette approche n'est pas directement applicable, car chaque pixel du panorama final peut avoir une à $N$ sources correspondant à $N$ vidéos d'entrée avec des régions se chevauchant. Nous montrons que ce problème peut être résolu en calculant l'écart type des déplacements de tous les pixels sources à partir du déplacement du panorama en tant que mesure de la distorsion. Cela permet de comparer la différence de mouvement entre deux images données dans les vidéos originales et le mouvement dans le panorama final. Les cartes de saillance basées sur la perception humaine sont utilisées pour pondérer la carte de distorsion pour un filtrage plus précis.Cette méthode a été validée par une étude centrée sur l'homme utilisant une expérience empirique. L'expérience visait à déterminer si les humains et la métrique d'évaluation détectaient et mesuraient les mêmes erreurs, et à explorer quelles erreurs sont les plus importantes pour les humains lorsqu'ils regardent une vidéo panoramique.Les méthodes décrites ont été testées et validées et fournissent des résultats intéressants en ce qui concerne la perception humaine pour les mesures de qualité. Ils ouvrent également la voie à de nouvelles méthodes d'optimisation de l'assemblage vidéo, guidées par ces mesures de qualité. / High quality panoramic videos for immersive VR content are commonly created using a rig with multiple cameras covering a target scene. Unfortunately, this setup introduces both spatial and temporal artifacts due to the difference in optical centers as well as the imperfect synchronization. Traditional image quality metrics cannot be used to assess the quality of such videos, due to their inability to capture geometric distortions. In this thesis, we propose methods for the objective assessment of panoramic videos based on optical flow and visual salience. We validate this metric with a human-centered study that combines human error annotation and eye-tracking.An important challenge in measuring quality for panoramic videos is the lack of ground truth. We have investigated the use of the original videos as a reference for the output panorama. We note that this approach is not directly applicable, because each pixel in the final panorama can have one to N sources corresponding to N input videos with overlapping regions. We show that this problem can be solved by calculating the standard deviation of displacements of all source pixels from the displacement of the panorama as a measure of distortion. This makes it possible to compare the difference in motion between two given frames in the original videos and motion in the final panorama. Salience maps based on human perception are used to weight the distortion map for more accurate filtering.This method was validated with a human-centered study using an empirical experiment. The experiment was designed to investigate whether humans and the evaluation metric detect and measure the same errors, and to explore which errors are more salient to humans when watching a panoramic video.The methods described have been tested and validated and they provide interesting findings regarding human-based perception for quality metrics. They also open the way to new methods for optimizing video stitching guided by those quality metrics.
233

Contribution à la détection et à la reconnaissance d'objets dans les images / Contribution to detection and recognition of objects in images

Harzallah, Hedi 16 September 2011 (has links)
Cette thèse s'intéresse au problème de la reconnaissance d'objets dans les images vidéo et plus particulièrement à celui de leur localisation. Elle a été conduite dans le contexte d'une collaboration scientifique entre l'INRIA Rhône-Alpes et MBDA France. De ce fait, une attention particulière a été accordée à l’applicabilité des approches proposées aux images infra-rouges. La méthode de localisation proposée repose sur l'utilisation d'une fenêtre glissante incluant une cascade à deux étages qui, malgré sa simplicité, permet d'allier rapidité et précision. Le premier étage est un étage de filtrage rejetant la plupart des faux positifs au moyen d’un classifieur SVM linéaire. Le deuxième étage élimine les fausses détections laissées par le premier étage avec un classifieur SVM non-linéaire plus lent, mais plus performant. Les fenêtres sont représentées par des descripteurs HOG et Bag-of-words. La seconde contribution de la thèse réside dans une méthode permettant de combiner localisation d'objets et catégorisation d'images. Ceci permet, d'une part, de prendre en compte le contexte de l'image lors de la localisation des objets, et d'autre part de s'appuyer sur la structure géométrique des objets lors de la catégorisation des images. Cette méthode permet d'améliorer les performances pour les deux tâches et produit des détecteurs et classifieurs dont la performance dépasse celle de l'état de l'art. Finalement, nous nous penchons sur le problème de localisation de catégories d'objets similaires et proposons de décomposer la tâche de localisation d'objets en deux étapes. Une première étape de détection permet de trouver les objets sans déterminer leurs positions tandis qu’une seconde étape d’identification permet de prédire la catégorie de l'objet. Nous montrons que cela permet de limiter les confusions entre les classes, principal problème observé pour les catégories d'objets visuellement similaires. La thèse laisse une place importante à la validation expérimentale, conduites sur la base PASCAL VOC ainsi que sur des bases d’images spécifiquement réalisées pour la thèse. / This thesis addresses the problem of object recognition in images and more precisely the problem of object localization. It have been conducted in the context of a scientific collaboration between INRIA Rhônes-Alpes and MBDA France. Therefore, a particular attention was accorded to the applicability of the proposed approaches on infrared images. The localization method proposed here relies on the sliding windows mechanism combined with a two stage cascade that, despite its simplicity, allies rapidity and precision. The first stage is a filtering stage that rejects most of the false positives using a linear classifier. The second stage prunes the detections of the first classifier using a slower yet efficient non-linear classifier. Windows are represented with HOG and Bag-of-words descriptors. The second contribution of this thesis is a method that combines object localization and image categorization. This allows, on the one hand, to take into account context information in localization, and on the other hand, to rely on geometrical structure of objects while performing image categorization. This combination leads to a significant quality improvement and obtains performance superior to the state of the art for both tasks. Finally, we consider the problem of localizing visually similar object categories and suggest to decompose the task of object localization into two steps. The first is a detection step that allows to find objects without determining their category while the second step, an identification step, predicts the objects categories. We show that this approach limits inter-class confusion, which is the main difficulty faced when localizing visually similar object classes. This thesis accords an important place to experimental validation conducted on PASCAL VOC databases as well as other databases specifically introduced for the thesis.
234

Development of algorithms and architectures for driving assistance in adverse weather conditions using FPGAs / Développement d'algorithmes et d'architectures pour l'aide à la conduite dans des conditions météorologiques défavorables en utilisant les FPGA

Botero galeano, Diego andres 05 December 2012 (has links)
En raison de l'augmentation du volume et de la complexité des systèmes de transport, de nouveaux systèmes avancés d'assistance à la conduite (ADAS) sont étudiés dans de nombreuses entreprises, laboratoires et universités. Ces systèmes comprennent des algorithmes avec des techniques qui ont été étudiés au cours des dernières décennies, comme la localisation et cartographie simultanées (SLAM), détection d'obstacles, la vision stéréoscopique, etc. Grâce aux progrès de l'électronique, de la robotique et de plusieurs autres domaines, de nouveaux systèmes embarqués sont développés pour garantir la sécurité des utilisateurs de ces systèmes critiques. Pour la plupart de ces systèmes, une faible consommation d'énergie ainsi qu'une taille réduite sont nécessaires. Cela crée la contrainte d'exécuter les algorithmes sur les systèmes embarqués avec des ressources limitées. Dans la plupart des algorithmes, en particulier pour la vision par ordinateur, une grande quantité de données doivent être traitées à des fréquences élevées, ce qui exige des ressources informatiques importantes. Un FPGA satisfait cette exigence, son architecture parallèle combinée à sa faible consommation d'énergie et la souplesse pour les programmer permet de développer et d'exécuter des algorithmes plus efficacement que sur d'autres plateformes de traitement. Les composants virtuels développés dans cette thèse ont été utilisés dans trois différents projets: PICASSO (vision stéréoscopique), COMMROB (détection d'obstacles à partir d'une système multicaméra) et SART (Système d'Aide au Roulage tous Temps). / Due to the increase of traffic volume and complexity of new transport systems, new Advanced Driver Assistance Systems (ADAS) are a subject of research of many companies, laboratories and universities. These systems include algorithms with techniques that have been studied during the last decades like Simultaneous Lo- calization and Mapping (SLAM), obstacle detection, stereo vision, etc. Thanks to the advances in electronics, robotics and other domains, new embedded systems are being developed to guarantee the safety of the users of these critical systems. For most of these systems a low power consumption as well as reduced size is required. It creates the constraint of execute the algorithms in embedded devices with limited resources. In most of algorithms, moreover for computer vision ones, a big amount of data must be processed at high frequencies, this amount of data demands strong computing resources. FPGAs satisfy this requirement; its parallel architecture combined with its low power consumption and exibility allows developing and executing some algorithms more efficiently than any other processing platforms. In this thesis different embedded computer vision architectures intended to be used in ADAS using FPGAs are presented such as: We present the implementation of a distortion correction architecture operating at 100 Hz in two cameras simultaneously. The correction module allows also to rectify two images for implementation of stereo vision. Obstacle detection algorithms based on Inverse Perspective Mapping (IPM) and classiffication based on Color/Texture attributes are presented. The IPM transform is based in the perspective effect of a scene perceived from two different points of view. Moreover results of the detection algorithms from color/texture attributes applied on a multi-cameras system, are fused in an occupancy grid. An accelerator to apply homographies on images, is presented; this accelerator can be used for different applications like the generation of Bird's eye view or Side view. Multispectral vision is studied using both infrared images and color ones. Syn- thetic images are generated from information acquired from visible and infrared sources to provide a visual aid to the driver. Image enhancement specific for infrared images is also implemented and evaluated, based on the Contrast Lim- ited Adaptive Histogram Equalization (CLAHE). An embedded SLAM algorithm is presented with different hardware acceler- ators (point detection, landmark tracking, active search, correlation, matrix operations). All the algorithms were simulated, implemented and verified using as target FPGAs. The validation was done using development kits. A custom board integrating all the presented algorithms is presented. Virtual components developed in this thesis were used in three different projects: PICASSO (stereo vision), COMMROB (obstacle detection from a multi-cameras system) and SART (multispectral vision).
235

Modélisation, reconnaissance du geste des doigts et du haut du corps dans le design d’interaction musicale / Modeling, recognition of finger gestures and upper-body movements for musical interaction design

Hemery, Edgar 16 June 2017 (has links)
Cette thèse présente un nouvel instrument de musique, appelé Embodied Musical Instrument (EMI), qui a été conçu pour répondre à deux problèmes : comment pouvons-nous “capturer” et modéliser des gestes musicaux et comment utiliser ce modèle afin de contrôler des paramètres de synthèse sonore de manière expressive. L'EMI est articulé autour d'une stratégie de “mapping explicite” qui s'inspire de techniques du jeu pianistique, mais aussi du potentiel gestuel de certains objets. Le système que nous proposons utilise des caméras 3D et des algorithmes de vision par ordinateur afin de libérer le geste de dispositifs intrusifs, tout en facilitant le processus de capture et de performance. Nous utilisons différentes caméras 3D pour le suivi de geste et exploitons pleinement leur potentiel en ajoutant une plaque transparente. Cette plaque créer un seuil de détection pour les doigtés, mais fournit aussi une rétroaction haptique, simple mais nécessaire. Nous avons examiné les gestes des doigts par rapport à la surface de l’EMI et nous avons décomposé leurs trajectoires en phases élémentaires, ce qui nous a permis de modéliser et d'analyser des gestes de type pianistique. Une étude préliminaire sur les gestes musicaux a porté notre intérêt non seulement sur les gestes “effectifs” opérés par les doigts - dans le cas des instruments à claviers - mais aussi sur les gestes “d’accompagnements” et “figuratifs”, caractérisés principalement par les mouvements des bras et de la tête. Par conséquent, nous distinguons deux niveaux d'interactions, délimités par deux volumes d’interaction: un volume englobant dit “micro” inclut les micro-gestes opérés par les doigts, tandis qu’un volume englobant dit “macro” comprend des mouvements plus importants du haut du corps. À partir de cela, nous étendons notre modèle de jeu pianistique à un paradigme d'interaction 3D, où les paramètres musicaux de haut niveau, tels que les effets sonores (filtres, réverbération, spatialisation), peuvent être contrôlés en continu par des mouvements du haut du corps. Nous avons exploré un ensemble de scénarios réels pour cet instrument, à savoir la pratique, la composition et la performance. L'EMI introduit un cadre pour la capture et l'analyse de gestes musicaux spécifiques. Une analyse hors ligne des fonctionnalités gestuelles peut révéler des tendances, des défauts et des spécificités d'une interprétation musicale. Plusieurs œuvres musicales ont été créées pour l’EMI, réalisées en solo, accompagnées d'un quatuor à cordes, et d’autres ensembles musicaux. Un retour d'expérience montre que l'instrument peut être facilement enseigné - sinon de manière autodidacte - grâce aux paradigmes gestuels intuitifs tirés de gestes pianistiques et d'autres gestes métaphoriques. / This thesis presents a novel musical instrument, named the Embodied Musical Instrument (EMI), which has been designed to answer two problems : how can we capture and model musical gestures and how can we use this model to control sound synthesis parameters expressively. The EMI is articulated around an explicit mapping strategy, which draws inspiration from the piano-playing techniques and other objects’ affordances.  The system we propose makes use of 3D cameras and computer vision algorithms in order to free the gesture from intrusive devices and ease the process of capture and performance, while enabling precise and reactive tracking of the fingertips and upper-body. Having recourse to different 3D cameras tracking solutions, we fully exploit their potential by adding a transparent sheet, which serves as a detection threshold for fingerings as well as bringing a simple but essential haptic feedback. We examined finger movements while tapping on the surface of the EMI and decomposed their trajectories into essential phases, which enabled us to model and analyse piano-like gestures. A preliminary study of generic musical gestures directed our interest not only on the effective gestures operated by the fingers - in the case of keyboard instruments - but also on the accompanying and figurative gestures, which are mostly characterised by the arms and head movements. Consequently, we distinguish two level of interactions, delimited by two bounding volumes. The micro bounding volume includes the micro-gestures operated with the fingers, while the macro bounding volume includes larger movements with the upper-body. Building from this, we extend our piano-like model to a 3D interaction paradigm, where higher-level musical parameters, such as sound effects, can be controlled continuously by upper-body free movements. We explored a set of real-world scenarios for this instrument, namely practice, composition and performance. The EMI introduces a framework for capture and analysis, of specific musical gestures. An off-line analysis of gesture features can reveal trends, faults and musical specificities of an interpret. Several musical works have been created and performed live; either solo or accompanied by a string quartet, revealing the body gesture specificities through the sounds it synthesises. User experience feedback shows that the instrument can be easily taught - if not self-taught - thanks to the intuitive gesture paradigms drawn from piano-like gestures and other metaphorical gestures.
236

Enriching Remote Labs with Computer Vision and Drones / Enrichir les laboratoires distants grâce à la vision par ordinateur avec drone.

Khattar, Fawzi 13 December 2018 (has links)
Avec le progrès technologique, de nouvelles technologies sont en cours de développement afin de contribuer à une meilleure expérience dans le domaine de l’éducation. En particulier, les laboratoires distants constituent un moyen intéressant et pratique qui peut motiver les étudiants à apprendre. L'étudiant peut à tout moment, et de n'importe quel endroit, accéder au laboratoire distant et faire son TP (travail pratique). Malgré les nombreux avantages, les technologies à distance dans l’éducation créent une distance entre l’étudiant et l’enseignant. Les élèves peuvent avoir des difficultés à faire le TP si aucune intervention appropriée ne peut être prise pour les aider. Dans cette thèse, nous visons à enrichir un laboratoire électronique distant conçu pour les étudiants en ingénierie et appelé «LaboREM» (pour remote laboratory) de deux manières: tout d'abord, nous permettons à l'étudiant d'envoyer des commandes de haut niveau à un mini-drone disponible dans le laboratoire distant. L'objectif est d'examiner les faces-avant des instruments de mesure électroniques, à l'aide de la caméra intégrée au drone. De plus, nous autorisons la communication élève-enseignant à distance à l'aide du drone, au cas où un enseignant serait présent dans le laboratoire distant. Enfin, le drone doit revenir pour atterrir sur la plate-forme de recharge automatique des batteries, quand la mission est terminée. Nous proposons aussi un système automatique pour estimer l'état de l'étudiant (frustré / concentré..) afin de prendre les interventions appropriées pour assurer un bon déroulement du TP distant. Par exemple, si l'élève a des difficultés majeures, nous pouvons lui donner des indications ou réduire le niveau de difficulté de l’exercice. Nous proposons de faire cela en utilisant des signes visuels (estimation de la pose de la tête et analyse de l'expression faciale). De nombreuses évidences sur l'état de l'étudiant peuvent être acquises, mais elles sont incomplètes, parfois inexactes et ne couvrent pas tous les aspects de l'état de l'étudiant. C'est pourquoi nous proposons dans cette thèse de fusionner les preuves en utilisant la théorie de Dempster-Shafer qui permet la fusion de preuves incomplètes. / With the technological advance, new learning technologies are being developed in order to contribute to better learning experience. In particular, remote labs constitute an interesting and a practical way that can motivate nowadays students to learn. The student can at any time, and from anywhere, access the remote lab and do his lab-work. Despite many advantages, remote technologies in education create a distance between the student and the teacher. Without the presence of a teacher, students can have difficulties, if no appropriate interventions can be taken to help them. In this thesis, we aim to enrich an existing remote electronic lab made for engineering students called “LaboREM” (for remote Laboratory) in two ways: first we enable the student to send high level commands to a mini-drone available in the remote lab facility. The objective is to examine the front panels of electronic measurement instruments, by the camera embedded on the drone. Furthermore, we allow remote student-teacher communication using the drone, in case there is a teacher present in the remote lab facility. Finally, the drone has to go back home when the mission is over to land on a platform for automatic recharge of the batteries. Second, we propose an automatic system that estimates the affective state of the student (frustrated/ confused/ flow..) in order to take appropriate interventions to ensure good learning outcomes. For example, if the student is having major difficulties we can try to give him hints or reduce the difficulty level. We propose to do this by using visual cues (head pose estimation and facial expression analysis). Many evidences on the state of the student can be acquired, however these evidences are incomplete, sometimes inaccurate, and do not cover all the aspects of the state of the student alone. This is why we propose to fuse evidences using the theory of Dempster-Shafer that allows the fusion of incomplete evidence.
237

Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur / Convolutional neural networks for semantic segmentation and color constancy

Fourure, Damien 12 December 2017 (has links)
La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. En intelligence artificielle, et plus précisément en apprentissage automatique, domaine dans lequel se positionne cette thèse, la vision par ordinateur passe par l’extraction de caractéristiques présentes dans les images puis par la généralisation de concepts liés à ces caractéristiques. Ce domaine de recherche est devenu très populaire ces dernières années, notamment grâce aux résultats des réseaux de neurones convolutifs à la base des méthodes dites d’apprentissage profond. Aujourd’hui les réseaux de neurones permettent, entre autres, de reconnaître les différents objets présents dans une image, de générer des images très réalistes ou même de battre les champions au jeu de Go. Leurs performances ne s’arrêtent d’ailleurs pas au domaine de l’image puisqu’ils sont aussi utilisés dans d’autres domaines tels que le traitement du langage naturel (par exemple en traduction automatique) ou la reconnaissance de son. Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d’image). Une première contribution s’intéresse à la tâche de constance chromatique. En vision par ordinateur, l’approche principale consiste à estimer la couleur de l’illuminant puis à supprimer son impact sur la couleur perçue des objets. Les expériences que nous avons menées montrent que notre méthode permet d’obtenir des performances compétitives avec l’état de l’art. Néanmoins, notre architecture requiert une grande quantité de données d’entraînement. Afin de corriger en parti ce problème et d’améliorer l’entraînement des réseaux de neurones, nous présentons plusieurs techniques d’augmentation artificielle de données. Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d’image. Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d’une image, constitue un défi en vision par ordinateur de par sa complexité. D’une part, elle requiert de nombreux exemples d’entraînement dont les vérités terrains sont coûteuses à obtenir. D’autre part, elle nécessite l’adaptation des réseaux de neurones convolutifs traditionnels afin d’obtenir une prédiction dite dense, c’est-à-dire, une prédiction pour chacun pixel présent dans l’image d’entrée. Pour résoudre la difficulté liée à l’acquisition de données d’entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes. Pour cela, nous définissons une fonction de coût sélective. Nous développons aussi une approche dites d’auto-contexte capturant d’avantage les corrélations existantes entre les étiquettes des différentes bases de données. Finalement, nous présentons notre troisième contribution : une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d’image. Contrairement aux réseaux traditionnels, notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions. Afin d’exploiter la totalité des chemins de la grille, nous proposons une technique d’entraînement inspirée du dropout. En outre, nous montrons empiriquement que notre architecture généralise de nombreux réseaux bien connus de l’état de l’art. Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu’entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés / Computer vision is an interdisciplinary field that investigates how computers can gain a high level of understanding from digital images or videos. In artificial intelligence, and more precisely in machine learning, the field in which this thesis is positioned,computer vision involves extracting characteristics from images and then generalizing concepts related to these characteristics. This field of research has become very popular in recent years, particularly thanks to the results of the convolutional neural networks that form the basis of so-called deep learning methods. Today, neural networks make it possible, among other things, to recognize different objects present in an image, to generate very realistic images or even to beat the champions at the Go game. Their performance is not limited to the image domain, since they are also used in other fields such as natural language processing (e. g. machine translation) or sound recognition. In this thesis, we study convolutional neural networks in order to develop specialized architectures and loss functions for low-level tasks (color constancy) as well as high-level tasks (semantic segmentation). Color constancy, is the ability of the human visual system to perceive constant colours for a surface despite changes in the spectrum of illumination (lighting change). In computer vision, the main approach consists in estimating the color of the illuminant and then suppressing its impact on the perceived color of objects. We approach the task of color constancy with the use of neural networks by developing a new architecture composed of a subsampling operator inspired by traditional methods. Our experience shows that our method makes it possible to obtain competitive performances with the state of the art. Nevertheless, our architecture requires a large amount of training data. In order to partially correct this problem and improve the training of neural networks, we present several techniques for artificial data augmentation. We are also making two contributions on a high-level issue : semantic segmentation. This task, which consists of assigning a semantic class to each pixel of an image, is a challenge in computer vision because of its complexity. On the one hand, it requires many examples of training that are costly to obtain. On the other hand, it requires the adaptation of traditional convolutional neural networks in order to obtain a so-called dense prediction, i. e., a prediction for each pixel present in the input image. To solve the difficulty of acquiring training data, we propose an approach that uses several databases annotated with different labels at the same time. To do this, we define a selective loss function that has the advantage of allowing the training of a convolutional neural network from data from multiple databases. We also developed self-context approach that captures the correlations between labels in different databases. Finally, we present our third contribution : a new convolutional neural network architecture called GridNet specialized for semantic segmentation. Unlike traditional networks, implemented with a single path from the input (image) to the output (prediction), our architecture is implemented as a 2D grid allowing several interconnected streams to operate at different resolutions. In order to exploit all the paths of the grid, we propose a technique inspired by dropout. In addition, we empirically demonstrate that our architecture generalize many of well-known stateof- the-art networks. We conclude with an analysis of the empirical results obtained with our architecture which, although trained from scratch, reveals very good performances, exceeding popular approaches often pre-trained
238

Contributions à l'intégration vision robotique : calibrage, localisation et asservissement

Dornaika, Fadi 25 December 1995 (has links) (PDF)
Cette thèse concerne principalement l'intégration des fonctionnalités d'un système de vision avec celles d'un système robotique. Cette intégration apporte beaucoup d'avantages pour l'interaction d'un robot avec son environnement. Dans un premier temps, nous nous intéressons aux aspects de modélisation. Deux sujets liés à cette modélisation ont été traités : <br /> i) le calibrage caméra/pince et <br /> ii) la localisation caméra/objet. <br /> Pour le premier, nous proposons une méthode de calibrage non linéaire qui s'avère robuste en présence des erreurs de mesure ; pour le second, nous proposons une méthode linéaire très rapide et bien adaptée aux applications temps-réel puisqu'elle est basée sur des approximations successives par une projection para-perspective.<br /> Dans un deuxième temps, nous nous intéressons au contrôle visuel de robots. Nous adaptons la méthode "commande référencée capteur" à une caméra indépendante du robot asservi. De plus, dans le cas d'un positionnement relatif, nous montrons que le calcul de la position de référence ne dépend pas de l'estimation explicite des paramètres intrinsèques et extrinsèques de la caméra. Pour une tâche donnée, le problème de la commande peut alors se traduire sous la forme d'une régulation d'une erreur dans l'image. Nous montrons que la localisation temps-réel caméra/robot améliore le comportement dynamique de l'asservissement. Cette méthode de contrôle a été expérimentée dans la réalisation de tâches de saisie avec un robot manipulateur à six degrés de liberté. Toutes les méthodes proposées sont validées avec des mesures réelles et simulées.
239

Perception pour la robotique mobile en environnement humain

Lerasle, Frederic 18 January 2008 (has links) (PDF)
Ce mémoire d'habilitation à diriger les recherches porte sur la perception et la compréhension conjointe de l'espace et du milieu par un robot cognitif autonome. Dans ce contexte, la démarche consiste ici à intégrer des percepts multiples et incertains à tous les niveaux de la perception à partir de capteurs visuels embarqués. Ces travaux se structurent en deux thèmes. Le premier thème se focalise sur la perception de l'espace pour la navigation autonome en milieu intérieur. Nos travaux antérieurs ont mis l'accent sur une méthodologie complète de détection, reconnaissance et localisation sur amers visuels validée par des expérimentations réelles sur le robot Diligent. Ces amers sont capturés automatiquement par le robot dans les différentes représentations métriques et topologiques de son environnement de travail. La navigation consiste alors à exploiter ces modèles pour se localiser métriquement ou qualitativement, sur la base de données visuelles, éventuellement télémétriques. À terme, ces représentations seront enrichies par des informations sémantiques capturées en interaction avec l'homme. Cet apprentissage supervisé, la perspective d'un robot sociable, nous ont amené à démarrer le second thème sur la perception par le robot de l'homme pour leur interaction. Nos travaux ont porté sur la détection, le suivi, la reconnaissance de l'homme par vision monoculaire couleur. Parmi ces fonctions, la problématique du suivi est centrale puisque la plupart des tâches robotiques coordonnées avec l'homme nécessite de caractériser la relation d'une plate-forme mobile aux agents humains a priori mobiles. Nous avons ainsi prototypé puis intégré plusieurs fonctions de suivi 2D ou 3D de tout ou partie des membres corporels de l'homme par le choix conjoint de stratégies de fusion de données visuelles et de filtrage particulaire répondant aux modalit és d'interaction envisagées pour le robot "guide" Rackham et le robot compagnon Jido. Les prospectives énoncées visent à l'interactio n de percepts relative à la perception simultanée par le robot de l'espace et/ou de l'homme. La problé- matique de l'intelligence ambiante, par l'ajout de robots anthropomorphes type humanoïde dans ces environnements humains, devrait infléchir ces travaux tout en recoupant certaines investigations passées ou actuelles.
240

Guidage par Réalité Augmentée : Application à la Chirurgie Cardiaque Robotisée

Mourgues, Fabien 29 September 2003 (has links) (PDF)
La chirurgie mini-invasive limite les incisions et le traumatisme pour le patient. Elle bénéficie de l'assistance robotisée qui améliore précision et confort du geste opératoire. Cependant des difficultés subsistent. Ainsi dans les opérations de pontage des artères coronaires, la localisation et l'identification des artères cibles de l'intervention posent problème. Nous proposons alors de guider le chirurgien en superposant le modèle des artères du patient dans les images endoscopiques intra-opératoires. L'une des contributions de cette thèse consiste à définir une approche basée sur l'analyse de l'intervention et du geste chirurgical: tout d'abord nous nous intéressons à la modélisation statique des artères coronaires à partir de moyens standards d'imagerie. Nous initialisons ensuite le recalage dans les images endoscopiques en calibrant l'endoscope stéréoscopique robotisé et en recalant l'enveloppe externe du patient au bloc opératoire. Nous affinons enfin ce résultat pour tenir compte du déplacement intra-opératoire du coeur et des erreurs successives. Un mécanisme multi-modèles robuste original, basé sur la traduction des indications données par le chirurgien en mesures, permet d'aboutir à la précision nécessaire au guidage. Cet outil novateur de chirurgie assistée par ordinateur est intégré au sein d'une architecture commune expérimentée avec le robot Da Vinci au cours de nombreux tests in-vivo.

Page generated in 0.0708 seconds