• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 145
  • 28
  • 17
  • Tagged with
  • 212
  • 212
  • 186
  • 184
  • 120
  • 96
  • 94
  • 94
  • 82
  • 79
  • 79
  • 75
  • 75
  • 74
  • 72
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Une approche d'apprentissage profond pour l’estimation de l'apparence des matériaux à partir d’images

Asselin, Louis-Philippe 01 June 2021 (has links)
Ce mémoire présente une méthode d’acquisition légère et abordable basée sur l’apprentissage profond pour l’estimation des paramètres intrinsèques de surface des matériaux du monde réel. Pour ce problème d’estimation, la difficulté principale est l’entraînement des réseaux de neurones des méthodes modernes qui est habituellement effectué sur des données virtuelles exclusivement. Après cet entraînement avec des matériaux synthétiques, les résultats obtenus pour les matériaux réels ne sont pas satisfaisants. De plus, il est difficile d’évaluer et de comparer les différentes méthodes puisque la vérité terrain est inconnue pour l’estimation des paramètres des matériaux réels. Afin de résoudre ces problèmes, un nouvel appareil est développé. Il permet la capture d’images de l’apparence des surfaces sous divers angles d’illumination. Cet appareil permet l’acquisition d’une base de données contenant 80 matériaux réels. Cette base de données est mise à profit pour l’évaluation de différentes méthodes modernes basées sur l’apprentissage profond. Finalement, des stratégies supplémentaires pour les matériaux réels, ainsi qu’une nouvelle architecture de réseau de neurones sont proposées pour estimer les propriétés de surface de matériaux réels (on identifie ces propriétés par la SVBRDF pour Spatially-Varying Bidirectional Reflectance Distribution Function). Les réseaux mis au point dans les recherches permettent d’obtenir des résultats supérieurs à l’état de l’art pour l’estimation de l’apparence des matériaux réels sans avoir recours à des systèmes d’acquisition sophistiqués.
32

Développement d'outils d'IA pour évaluer l'état de douleur d'une souris

Bonilla Villatoro, William Ricardo 30 April 2024 (has links)
Ce mémoire présente une méthodologie novatrice pour mesurer les niveaux de douleur chez la souris en utilisant des techniques d'interprétation des images par apprentissage profond. L'un des principaux défis rencontrés dans cette étude a été l'acquisition de données de haute qualité. Une fois les données de qualité obtenues, il a été possible d'entraîner des réseaux de neurones capables de mesurer les niveaux de douleur. Afin de relever ces défis, nous avons développé un système de capture et de traitement d'images spécifiquement conçu pour cette étude. Ce système permet l'acquisition d'images de haute résolution avec un éclairage ajustable, ainsi que le traitement presque en temps réel des images. Grâce à ce système, nous avons pu constituer une base de données, appelée MGS_UL, comprenant plus de 2000 images annotées. Ensuite, des algorithmes d’apprentissage profond sont exploités pour évaluer de manière fiable les niveaux de douleur chez les souris. Ces algorithmes ont été testés sur la base de données MGS_UL pour évaluer leur efficacité à mesurer les niveaux de douleur. Les résultats obtenus démontrent la viabilité de ces algorithmes d’apprentissage profond pour la mesure de la douleur chez les souris. Ils ouvrent également la voie à de nouvelles avancées dans ce domaine de recherche.
33

Convolution et apprentissage profond sur graphes / On convolution of graph signals and deep learning on graph domains

Vialatte, Jean-Charles 13 December 2018 (has links)
Pour l’apprentissage automatisé de données régulières comme des images ou des signaux sonores, les réseaux convolutifs profonds s’imposent comme le modèle de deep learning le plus performant. En revanche, lorsque les jeux de données sont irréguliers (par example : réseaux de capteurs, de citations, IRMs), ces réseaux ne peuvent pas être utilisés. Dans cette thèse, nous développons une théorie algébrique permettant de définir des convolutions sur des domaines irréguliers, à l’aide d’actions de groupe (ou, plus généralement, de groupoïde) agissant sur les sommets d’un graphe, et possédant des propriétés liées aux arrêtes. A l’aide de ces convolutions, nous proposons des extensions des réseaux convolutifs à des structures de graphes. Nos recherches nous conduisent à proposer une formulation générique de la propagation entre deux couches de neurones que nous appelons la contraction neurale. De cette formule, nous dérivons plusieurs nouveaux modèles de réseaux de neurones, applicables sur des domaines irréguliers, et qui font preuve de résultats au même niveau que l’état de l’art voire meilleurs pour certains. / Convolutional neural networks have proven to be the deep learning model that performs best on regularly structured datasets like images or sounds. However, they cannot be applied on datasets with an irregular structure (e.g. sensor networks, citation networks, MRIs). In this thesis, we develop an algebraic theory of convolutions on irregular domains. We construct a family of convolutions that are based on group actions (or, more generally, groupoid actions) that acts on the vertex domain and that have properties that depend on the edges. With the help of these convolutions, we propose extensions of convolutional neural netowrks to graph domains. Our researches lead us to propose a generic formulation of the propagation between layers, that we call the neural contraction. From this formulation, we derive many novel neural network models that can be applied on irregular domains. Through benchmarks and experiments, we show that they attain state-of-the-art performances, and beat them in some cases.
34

Apprentisage profond pour la super-résolution et la segmentation d'images médicales / Deep learning for medical image super resolution and segmentation

Pham, Chi-Hieu 20 December 2018 (has links)
L'objectif de cette thèse est d'étudier le comportement de différentes représentations d'images, notamment apprentissage profond, dans le contexte d'application en imagerie médicale. Le but est de développer une méthode unifiée efficace pour les applications visées que sont la super résolution, la segmentation et la synthèse. La super-résolution est un procès d'estimation d'une image haute-résolution à partir d'une ou plusieurs images basses résolutions. Dans cette thèse, nous nous concentrons sur la super résolutionunique, c'est-à-dire que l'image haute résolution (HR) est estimée par une image basse-résolution (LR) correspondante. Augmenter la résolution de l'image grâce à la super-résolution est la clé d'une compréhension plus précise de l'anatomie. L'application de la super résolution permet d'obtenir des cartes de segmentation plus précises. Étant donné que deux bases de données qui contiennent les images différentes (par exemple, les images d'IRM et les images de CT), la synthèse est un procès d'estimation d'une image qui est approximative aux images dans la base de données de cible à partir d'une image de la base de données de source. Parfois, certains contrastes tissulaires ne peuvent pas être acquis pendant la séance d'imagerie en raison du temps et des coûts élevés ou de l'absence d'appareils. Une solution possible est à utiliser des méthodes de synthèse d'images médicales pour générer les images avec le contraste différent qui est manquée dans le domaine à cible à partir de l'image du domaine donnée. L'objectif des images synthétiques est d'améliorer d'autres étapes du traitement automatique des images médicales telles que la segmentation, la super-résolution ou l'enregistrement. Dans cette thèse, nous proposons les réseaux neurones pour la super résolutionet la synthèse d'image médicale. Les résultats démontrent le potentiel de la méthode que nous proposons en ce qui concerne les applications médicales pratiques. / In this thesis, our motivation is dedicated to studying the behaviors of different image representations and developing a method for super-resolution, cross-modal synthesis and segmentation of medical imaging. Super-Resolution aims to enhance the image resolution using single or multiple data acquisitions. In this work, we focus on single image super-resolution (SR) that estimates the high-resolution (HR) image from one corresponding low-resolution (LR) image. Increasing image resolution through SR is a key to more accurate understanding of the anatomy. The applications of super-resolution have been shown that applying super-resolution techniques leads to more accurate segmentation maps. Sometimes, certain tissue contrasts may not be acquired during the imaging session because of time-consuming, expensive costor lacking of devices. One possible solution is to use medical image cross-modal synthesis methods to generate the missing subject-specific scans in the desired target domain from the given source image domain. The objective of synthetic images is to improve other automatic medical image processing steps such as segmentation, super-resolution or registration. In this thesis, convolutional neural networks are applied to super-resolution and cross-modal synthesis in the context of supervised learning. In addition, an attempt to apply generative adversarial networks for unpaired cross-modal synthesis brain MRI is described. Results demonstrate the potential of deep learning methods with respect to practical medical applications.
35

Modélisation, détection et classification d'objets urbains à partir d’images photographiques aériennes / Modeling, detection and classification of urban objects from aerial images

Pasquet, Jérôme 03 November 2016 (has links)
Cette thèse aborde des problèmes liés à la localisation et reconnaissance d'objets urbains dans des images aériennes de très haute définition. Les objets urbains se caractérisent par une représentation très variable en terme de forme, texture et couleur. De plus, ils sont présents de multiples fois sur les images à analyser et peuvent être collés les uns aux autres. Pour effectuer la localisation et reconnaissance automatiquement des différents objets nous proposons d'utiliser des approches d'apprentissage supervisé. De part leurs caractéristiques, les objets urbains sont difficilement détectables et les approches classiques de détections n'offrent pas de performances satisfaisantes. Nous avons proposé l'utilisation d'un réseau de séparateurs à vaste marge (SVM) afin de mieux fusionner les informations issues des différentes résolutions et donc d'améliorer la représentativité de l'objet urbain. L'utilisation de réseau de SVM permet d'améliorer les performances mais à un coût calculatoire important. Nous avons alors proposé d'utiliser un chemin d'activation permettant de réduire la complexité sans perdre en efficacité. Ce chemin va activer le réseau de manière séquentielle et stoppera l'exploration lorsque la probabilité de détection d'un objet est importante. Dans le cas d'une localisation basée sur l'extraction de caractéristiques puis la classification, la réduction calculatoire est d'un facteur cinq. Par la suite, nous avons montré que nous pouvons combiner le réseau de SVM avec les cartes de caractéristiques issues de réseaux de neurones convolutifs. Cette architecture combinée avec le chemin d'activation permet une réduction théorique du coût d'activation pouvant aller jusqu'à 97% avec un gain de performances d'environ 8% sur les données utilisées. Les méthodes développées ont pour objectif d'être intégrées dans un logiciel de la société Berger-Levrault afin de faciliter et d'améliorer la gestion de cadastre dans les collectivités locales. / This thesis deals with the problems of automatic localization and recognition of urban objects in high-definition aerial images. Urban object detection is a challenging problem because they vary in appearance, color and size. Moreover, there are many urban objects which can be very close to each other in an image. The localization and the automatic recognition of different urban objects, considering these characteristics, are very difficult to detect and classical image processing algorithms do not lead to good performances. We propose then to use the supervised learning approach. In a first time, we have built a Support Vector Machine (SVM) network to merge different resolutions in an efficient way. However, this method highly increases the computational cost. We then proposed to use an “activation path” which reduces the complexity without any loss of efficiency. This path activates sequentially the network and stops the exploration when an urban object has a high probability of detection. In the case of localizations based on a feature extraction step followed by a classification step, this may reduce by a factor 5 the computational cost. Thereafter, we show that we can combine an SVM network with feature maps which have been extracted by a Convolutional Neural Network. Such an architecture associated with the activation path increased the performance by 8% on our database while giving a theoretical reduction of the computational costs up to 97%. We implemented all these new methods in order to be integrated in the software framework of Berger-Levrault company, to improve land registry for local communities.
36

Going further with direct visual servoing / Aller plus loin avec les asservissements visuels directs

Bateux, Quentin 12 February 2018 (has links)
Dans cette thèse, nous nous concentrons sur les techniques d'asservissement visuel (AV), critiques pour de nombreuses applications de vision robotique et insistons principalement sur les AV directs. Afin d'améliorer l'état de l'art des méthodes directes, nous nous intéressons à plusieurs composantes des lois de contrôle d'AV traditionnelles. Nous proposons d'abord un cadre générique pour considérer l'histogramme comme une nouvelle caractéristique visuelle. Cela permet de définir des lois de contrôle efficaces en permettant de choisir parmi n'importe quel type d'histogramme pour décrire des images, depuis l'histogramme d'intensité à l'histogramme couleur, en passant par les histogrammes de Gradients Orientés. Une nouvelle loi d'asservissement visuel direct est ensuite proposée, basée sur un filtre particulaire pour remplacer la partie optimisation des tâches d'AV classiques, permettant d'accomplir des tâches associées à des fonctions de coûts hautement non linéaires et non convexes. L'estimation du filtre particulaire peut être calculée en temps réel à l'aide de techniques de transfert d'images permettant d'évaluer les mouvements de caméra associés aux déplacements des caractéristiques visuelles considérées dans l'image. Enfin, nous présentons une nouvelle manière de modéliser le problème de l'AV en utilisant l'apprentissage profond et les réseaux neuronaux convolutifs pour pallier à la difficulté de modélisation des problèmes non convexes via les méthodes analytiques classiques. En utilisant des techniques de transfert d'images, nous proposons une méthode permettant de générer rapidement des ensembles de données d'apprentissage de grande taille afin d'affiner des architectures de réseau pré-entraînés sur des tâches connexes, et résoudre des tâches d'AV. Nous montrons que cette méthode peut être appliquée à la fois pour modéliser des scènes connues, et plus généralement peut être utilisée pour modéliser des estimations de pose relative entre des couples de points de vue pris de scènes arbitraires. / In this thesis we focus on visual servoing (VS) techniques, critical for many robotic vision applications and we focus mainly on direct VS. In order to improve the state-of-the-art of direct methods, we tackle several components of traditional VS control laws. We first propose a method to consider histograms as a new visual servoing feature. It allows the definition of efficient control laws by allowing to choose from any type of his tograms to describe images, from intensity to color histograms, or Histograms of Oriented Gradients. A novel direct visual servoing control law is then proposed, based on a particle filter to perform the optimization part of visual servoing tasks, allowing to accomplish tasks associated with highly non-linear and non-convex cost functions. The Particle Filter estimate can be computed in real-time through the use of image transfer techniques to evaluate camera motions associated to suitable displacements of the considered visual features in the image. Lastly, we present a novel way of modeling the visual servoing problem through the use of deep learning and Convolutional Neural Networks to alleviate the difficulty to model non-convex problems through classical analytic methods. By using image transfer techniques, we propose a method to generate quickly large training datasets in order to fine-tune existing network architectures to solve VS tasks.We shows that this method can be applied both to model known static scenes, or more generally to model relative pose estimations between couples of viewpoints from arbitrary scenes.
37

Localisation précise d'un véhicule par couplage vision/capteurs embarqués/systèmes d'informations géographiques / Localisation of a vehicle through low-cost sensors and geographic information systems fusion

Salehi, Achkan 11 April 2018 (has links)
La fusion entre un ensemble de capteurs et de bases de données dont les erreurs sont indépendantes est aujourd’hui la solution la plus fiable et donc la plus répandue de l’état de l’art au problème de la localisation. Les véhicules semi-autonomes et autonomes actuels, ainsi que les applications de réalité augmentée visant les contextes industriels exploitent des graphes de capteurs et de bases de données de tailles considérables, dont la conception, la calibration et la synchronisation n’est, en plus d’être onéreuse, pas triviale. Il est donc important afin de pouvoir démocratiser ces technologies, d’explorer la possibilité de l’exploitation de capteurs et bases de données bas-coûts et aisément accessibles. Cependant, ces sources d’information sont naturellement plus incertaines, et plusieurs obstacles subsistent à leur utilisation efficace en pratique. De plus, les succès récents mais fulgurants des réseaux profonds dans des tâches variées laissent penser que ces méthodes peuvent représenter une alternative peu coûteuse et efficace à certains modules des systèmes de SLAM actuels. Dans cette thèse, nous nous penchons sur la localisation à grande échelle d’un véhicule dans un repère géoréférencé à partir d’un système bas-coût. Celui-ci repose sur la fusion entre le flux vidéo d’une caméra monoculaire, des modèles 3d non-texturés mais géoréférencés de bâtiments,des modèles d’élévation de terrain et des données en provenance soit d’un GPS bas-coût soit de l’odométrie du véhicule. Nos travaux sont consacrés à la résolution de deux problèmes. Le premier survient lors de la fusion par terme barrière entre le VSLAM et l’information de positionnement fournie par un GPS bas-coût. Cette méthode de fusion est à notre connaissance la plus robuste face aux incertitudes du GPS, mais est plus exigeante en matière de ressources que la fusion via des fonctions de coût linéaires. Nous proposons une optimisation algorithmique de cette méthode reposant sur la définition d’un terme barrière particulier. Le deuxième problème est le problème d’associations entre les primitives représentant la géométrie de la scène(e.g. points 3d) et les modèles 3d des bâtiments. Les travaux précédents se basent sur des critères géométriques simples et sont donc très sensibles aux occultations en milieu urbain. Nous exploitons des réseaux convolutionnels profonds afin d’identifier et d’associer les éléments de la carte correspondants aux façades des bâtiments aux modèles 3d. Bien que nos contributions soient en grande partie indépendantes du système de SLAM sous-jacent, nos expériences sont basées sur l’ajustement de faisceaux contraint basé images-clefs. Les solutions que nous proposons sont évaluées sur des séquences de synthèse ainsi que sur des séquence urbaines réelles sur des distances de plusieurs kilomètres. Ces expériences démontrent des gains importants en performance pour la fusion VSLAM/GPS, et une amélioration considérable de la robustesse aux occultations dans la définition des contraintes. / The fusion between sensors and databases whose errors are independant is the most re-liable and therefore most widespread solution to the localization problem. Current autonomousand semi-autonomous vehicles, as well as augmented reality applications targeting industrialcontexts exploit large sensor and database graphs that are difficult and expensive to synchro-nize and calibrate. Thus, the democratization of these technologies requires the exploration ofthe possiblity of exploiting low-cost and easily accessible sensors and databases. These infor-mation sources are naturally tainted by higher uncertainty levels, and many obstacles to theireffective and efficient practical usage persist. Moreover, the recent but dazzling successes ofdeep neural networks in various tasks seem to indicate that they could be a viable and low-costalternative to some components of current SLAM systems.In this thesis, we focused on large-scale localization of a vehicle in a georeferenced co-ordinate frame from a low-cost system, which is based on the fusion between a monocularvideo stream, 3d non-textured but georeferenced building models, terrain elevation models anddata either from a low-cost GPS or from vehicle odometry. Our work targets the resolutionof two problems. The first one is related to the fusion via barrier term optimization of VS-LAM and positioning measurements provided by a low-cost GPS. This method is, to the bestof our knowledge, the most robust against GPS uncertainties, but it is more demanding in termsof computational resources. We propose an algorithmic optimization of that approach basedon the definition of a novel barrier term. The second problem is the data association problembetween the primitives that represent the geometry of the scene (e.g. 3d points) and the 3d buil-ding models. Previous works in that area use simple geometric criteria and are therefore verysensitive to occlusions in urban environments. We exploit deep convolutional neural networksin order to identify and associate elements from the map that correspond to 3d building mo-del façades. Although our contributions are for the most part independant from the underlyingSLAM system, we based our experiments on constrained key-frame based bundle adjustment.The solutions that we propose are evaluated on synthetic sequences as well as on real urbandatasets. These experiments show important performance gains for VSLAM/GPS fusion, andconsiderable improvements in the robustness of building constraints to occlusions.
38

Inter-reflections in computer vision : importance, modeling & application in spectral estimation / Inter-réflexion en vision par ordinateur : importance, modélisation and application en estimation spectrale

Deeb, Rada 04 October 2018 (has links)
Dans cette thèse, nous étudions un phénomène optique souvent ignoré en vision par ordinateur : les inter-réflexions. Les inter-réflexions, qui peuvent être trouvées dans l’état de l’art sous le nom « illumination mutuelle », se produisent quand une surface concave est illuminée. Dans ce cas, un rayon lumineux venant de la source de lumière vers un point de la surface, va réfléchir vers d’autres points de la même surface plusieurs fois avant d’arriver à nos yeux, ou aux capteurs de l’appareil photo. Donc, un rayon inter-réfléchi entre les différents points de la surface concave, d’où le nom « inter-réflexions». Les inter-réflexions conduisent aux variations de couleurs, ou gradients de couleurs, sur la totalité de la surface concave. Ces variations sont plus au moins prononcées selon plusieurs facteurs comme la réflectance de la surface et sa géométrie. Dans ce manuscrit, nous allons montrer que ces variations de couleurs contiennent en elles des informations importantes qui méritent d’être utilisées en vision par ordinateur. Ces mêmes variations jouent un rôle important dans la perception ce qui permet à l’être humain une meilleure constance de couleur, comme montré par nos résultats empiriques. Dans l’objectif d’utiliser efficacement les inter-réflexions pour quelques applications en vision par ordinateur, nous introduisons dans ce manuscrit un modèle spectral d’inter-réflexions prenant en compte une infinité de rebonds. Ce modèle construit sur des bases radiométriques nous permet de définir la relation entre les valeurs RGB brut correspondant à la surface concave dans l’image d’un côté, et la réflectance spectrale et la géométrie de cette même surface, la distribution de puissance spectrale de l’éclairage (SPD), et les courbes des réponses spectrales de l’appareil photo de l’autre côté. Grâce à ce modèle, nous sommes capables d’étudier plusieurs applications d’inter-réflexions en estimation spectrale. Nous montrons que l’estimation de la réflectance spectrale à partir d’une seule image RGB, une tâche qui est quasi-impossible sans apprentissage même sous un éclairage connu, est devenue possible grâce aux inter-réflexions. Nos résultats ontdémontré que l’estimation de la réflectance spectrale d’une surface concave donne une précision similaire, et même parfois meilleure, en comparaison avec les approches de l’état de l’art qui ont besoin de trois images de la même surface prises sous trois différents éclairages. De plus, les inter-réflexions nous ont aidés à proposer une application plus concrète de l’estimation de la réflectance spectrale dans laquelle il est possible d’utiliser un spectre d’un éclairage standard sans nécessiter un pré-calibrage pour les paramètres de l’acquisition. Par la suite, nous démontrons que les inter-réflexions sont aussi utiles dans des applications qui utilisent des mires de couleurs, comme par exemple la caractérisation de l’appareil photo. La nature de l’inter-réflexion sur une surface d’une seule couleur conduit aux couleurs spéciales qui sont les résultats des multiplications de la réflectance spectrale avec elle-même de multiples fois. Utiliser ces couleurs avec notre modèle d’inter-réflexion aide à introduire de la non-linéarité sur les mires de couleurs et donc à obtenir une meilleure caractérisation spectrale. Par conséquent, utiliser des mires de couleurs 3D est plus bénéfique qu’ajouter des nouvelles couleurs aux mires 2D. Finalement, nous entraînons un réseau neuronal convolutif sur des images simulés d’inter-réflexions dans le but d’estimer à la fois la réflectance spectrale de la surface et la SPD de l’éclairage d’une seule image RGB. Nos résultats expérimentaux démontrent que notre approche est capable d’estimer les deux spectres avec une très bonne précision en comparaison avec les autres approches. De plus, cette approche fonctionne très bien sur les images réelles grâce aux niveaux de bruits ajoutés dans le processus d’apprentissage. / In this thesis, we study an optical phenomenon often ignored in computer vision, the interreflection phenomenon. Interreflections, which can also be found in the literature under the name mutual illumination happen whenever a concave surface is illuminated. As the name tells, a light ray coming from the light source and hitting a surface point will reflect toward some other point, then another, and so on, before reaching the camera sensor or the eye. Hence, a ray does inter-reflect between the different points of a concave surface. Interreflections lead to color variations, or color gradients, all over the concave surface. These variations are more or less pronounced depending on many factors including, but not limited to, the surface reflectance and its geometry. We will show in this manuscript that these color variations hold some important information which is worth to be used in computer vision. They also play an important role in perception leading to a better color constancy in human vision as demonstrated in our experiments. In order to be able to efficiently use interreflections in some computer vision applications, a spectral infinite-bounce model of interreflections is introduced in the manuscript. This radiometric model allows us to define the relation between the raw RGB values correspondingto the concave surface in the image on one side, and the spectral reflectance and the geometry of this surface, the spectral power distribution of the light and the spectral responses of the camera sensors on the other side. Thanks to this model, we were able to study some applications of interreflections in spectral estimation. We show that a task, such as spectral reflectance estimation form a single RGB image, which is almost impossible without learning even under known illuminant and spectral responses of the camera, is made possible thanks to interreflections. Our results show that, spectral reflectance estimation of a folded surface gives a similar accuracy and sometimes a better one when compared to the state of the art approaches that need three different images of the flat surface taken under three different illuminants. Moreover, interreflections help in proposing a more concrete application of spectral reflectance estimation where a standard light SPD can be used and no pre-calibration for the acquisition settings is needed. Later, we show that interreflections are useful in some applications which need color charts such as camera characterization. The nature of interreflections leads to special colors resulted from raising the spectral reflectance to multiple powers. Using these colors along with the interreflection model helps in introducing some non linearly-related information and thus in obtaining a better spectral characterization. Hence, using 3D color charts is more beneficial than adding new colors to 2D color charts. Finally, we train a convolutional neural network on simulated images of interreflections in order to get an estimation of both the spectral reflectance and the SPD of light from a single RGB image. The experimental results show that our approach is able to get both spectra with a very good accuracy compared to other approaches. In addition, this approach performs very well on real images thanks to the added noises in the training process.
39

Place recognition based visual localization in changing environments / Localisation visuelle basée sur la reconnaissance du lieu dans les environnements changeants

Qiao, Yongliang 03 April 2017 (has links)
Dans de nombreuses applications, il est crucial qu'un robot ou un véhicule se localise, notamment pour la navigation ou la conduite autonome. Cette thèse traite de la localisation visuelle par des méthodes de reconnaissance de lieux. Le principe est le suivant: lors d'une phase hors-ligne, des images géo-référencées de l'environnement d'évolution du véhicule sont acquises, des caractéristiques en sont extraites et sauvegardées. Puis lors de la phase en ligne, il s'agit de retrouver l'image (ou la séquence d'images) de la base d'apprentissage qui correspond le mieux à l'image (ou la séquence d'images) courante. La localisation visuelle reste un challenge car l'apparence et l'illumination changent drastiquement en particulier avec le temps, les conditions météorologiques et les saisons. Dans cette thèse, on cherche alors à améliorer la reconnaissance de lieux grâce à une meilleure capacité de description et de reconnaissance de la scène. Plusieurs approches sont proposées dans cette thèse:1) La reconnaissance visuelle de lieux est améliorée en considérant les informations de profondeur, de texture et de forme par la combinaison de plusieurs de caractéristiques visuelles, à savoir les descripteurs CSLBP (extraits sur l'image couleur et l'image de profondeur) et HOG. De plus l'algorithme LSH (Locality Sensitive Hashing) est utilisée pour améliorer le temps de calcul;2) Une méthode de la localisation visuelle basée sur une reconnaissance de lieux par mise en correspondance de séquence d'images (au lieu d'images considérées indépendamment) et combinaison des descripteurs GIST et CSLBP est également proposée. Cette approche est en particulier testée lorsque les bases d'apprentissage et de test sont acquises à des saisons différentes. Les résultats obtenus montrent que la méthode est robuste aux changements perceptuels importants;3) Enfin, la dernière approche de localisation visuelle proposée est basée sur des caractéristiques apprises automatiquement (à l'aide d'un réseau de neurones à convolution) et une mise en correspondance de séquences localisées d'images. Pour améliorer l'efficacité computationnelle, l'algorithme LSH est utilisé afin de viser une localisation temps-réel avec une dégradation de précision limitée / In many applications, it is crucial that a robot or vehicle localizes itself within the world especially for autonomous navigation and driving. The goal of this thesis is to improve place recognition performance for visual localization in changing environment. The approach is as follows: in off-line phase, geo-referenced images of each location are acquired, features are extracted and saved. While in the on-line phase, the vehicle localizes itself by identifying a previously-visited location through image or sequence retrieving. However, visual localization is challenging due to drastic appearance and illumination changes caused by weather conditions or seasonal changing. This thesis addresses the challenge of improving place recognition techniques through strengthen the ability of place describing and recognizing. Several approaches are proposed in this thesis:1) Multi-feature combination of CSLBP (extracted from gray-scale image and disparity map) and HOG features is used for visual localization. By taking the advantages of depth, texture and shape information, visual recognition performance can be improved. In addition, local sensitive hashing method (LSH) is used to speed up the process of place recognition;2) Visual localization across seasons is proposed based on sequence matching and feature combination of GIST and CSLBP. Matching places by considering sequences and feature combination denotes high robustness to extreme perceptual changes;3) All-environment visual localization is proposed based on automatic learned Convolutional Network (ConvNet) features and localized sequence matching. To speed up the computational efficiency, LSH is taken to achieve real-time visual localization with minimal accuracy degradation.
40

Modèles profonds de régression et applications à la vision par ordinateur pour l'interaction homme-robot / Deep Regression Models and Computer Vision Applications for Multiperson Human-Robot Interaction

Lathuiliere, Stéphane 22 May 2018 (has links)
Dans le but d’interagir avec des êtres humains, les robots doivent effectuer destâches de perception basique telles que la détection de visage, l’estimation dela pose des personnes ou la reconnaissance de la parole. Cependant, pour interagir naturellement, avec les hommes, le robot doit modéliser des conceptsde haut niveau tels que les tours de paroles dans un dialogue, le centre d’intérêtd’une conversion, ou les interactions entre les participants. Dans ce manuscrit,nous suivons une approche ascendante (dite “top-down”). D’une part, nousprésentons deux méthodes de haut niveau qui modélisent les comportementscollectifs. Ainsi, nous proposons un modèle capable de reconnatre les activitésqui sont effectuées par différents des groupes de personnes conjointement, telsque faire la queue, discuter. Notre approche gère le cas général où plusieursactivités peuvent se dérouler simultanément et en séquence. D’autre part,nous introduisons une nouvelle approche d’apprentissage par renforcement deréseau de neurones pour le contrôle de la direction du regard du robot. Notreapproche permet à un robot d’apprendre et d’adapter sa stratégie de contrôledu regard dans le contexte de l’interaction homme-robot. Le robot est ainsicapable d’apprendre à concentrer son attention sur des groupes de personnesen utilisant seulement ses propres expériences (sans supervision extérieur).Dans un deuxième temps, nous étudions en détail les approchesd’apprentissage profond pour les problèmes de régression. Les problèmesde régression sont cruciaux dans le contexte de l’interaction homme-robotafin d’obtenir des informations fiables sur les poses de la tête et du corpsdes personnes faisant face au robot. Par conséquent, ces contributions sontvraiment générales et peuvent être appliquées dans de nombreux contextesdifférents. Dans un premier temps, nous proposons de coupler un mélangegaussien de régressions inverses linéaires avec un réseau de neurones convolutionnels. Deuxièmement, nous introduisons un modèle de mélange gaussien-uniforme afin de rendre l’algorithme d’apprentissage plus robuste aux annotations bruitées. Enfin, nous effectuons une étude à grande échelle pour mesurerl’impact de plusieurs choix d’architecture et extraire des recommandationspratiques lors de l’utilisation d’approches d’apprentissage profond dans destâches de régression. Pour chacune de ces contributions, une intense validation expérimentale a été effectuée avec des expériences en temps réel sur lerobot NAO ou sur de larges et divers ensembles de données. / In order to interact with humans, robots need to perform basic perception taskssuch as face detection, human pose estimation or speech recognition. However, in order have a natural interaction with humans, the robot needs to modelhigh level concepts such as speech turns, focus of attention or interactions between participants in a conversation. In this manuscript, we follow a top-downapproach. On the one hand, we present two high-level methods that model collective human behaviors. We propose a model able to recognize activities thatare performed by different groups of people jointly, such as queueing, talking.Our approach handles the general case where several group activities can occur simultaneously and in sequence. On the other hand, we introduce a novelneural network-based reinforcement learning approach for robot gaze control.Our approach enables a robot to learn and adapt its gaze control strategy inthe context of human-robot interaction. The robot is able to learn to focus itsattention on groups of people from its own audio-visual experiences.Second, we study in detail deep learning approaches for regression prob-lems. Regression problems are crucial in the context of human-robot interaction in order to obtain reliable information about head and body poses or theage of the persons facing the robot. Consequently, these contributions are really general and can be applied in many different contexts. First, we proposeto couple a Gaussian mixture of linear inverse regressions with a convolutionalneural network. Second, we introduce a Gaussian-uniform mixture model inorder to make the training algorithm more robust to noisy annotations. Finally,we perform a large-scale study to measure the impact of several architecturechoices and extract practical recommendations when using deep learning approaches in regression tasks. For each of these contributions, a strong experimental validation has been performed with real-time experiments on the NAOrobot or on large and diverse data-sets.

Page generated in 0.5426 seconds