• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 83
  • 56
  • 11
  • Tagged with
  • 147
  • 68
  • 31
  • 28
  • 28
  • 27
  • 23
  • 22
  • 21
  • 16
  • 15
  • 15
  • 13
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
91

Les stratégies d'apprentissage des étudiantes dans un cours de soins infirmiers utilisant l'apprentissage par problèmes

Larue, Caroline January 2005 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
92

Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset / Apprentissage faiblement supervisé basé sur le regard : application à la reconnaissance visuelle dans un ensemble de données sur l'alimentation

Wang, Xin 29 September 2017 (has links)
Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs. / In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results.
93

Robust Learning of a depth map for obstacle avoidance with a monocular stabilized flying camera / Apprentissage robuste d'une carte de profondeur pour l'évitement d'obstacle dans le cas des cameras volantes, monoculaires et stabilisées

Pinard, Clément 24 June 2019 (has links)
Le drone orienté grand public est principalement une caméra volante, stabilisée et de bonne qualité. Ceux-ci ont démocratisé la prise de vue aérienne, mais avec leur succès grandissant, la notion de sécurité est devenue prépondérante.Ce travail s'intéresse à l'évitement d'obstacle, tout en conservant un vol fluide pour l'utilisateur.Dans ce contexte technologique, nous utilisons seulement une camera stabilisée, par contrainte de poids et de coût.Pour leur efficacité connue en vision par ordinateur et leur performance avérée dans la résolution de tâches complexes, nous utilisons des réseaux de neurones convolutionnels (CNN). Notre stratégie repose sur un systeme de plusieurs niveaux de complexité dont les premieres étapes sont de mesurer une carte de profondeur depuis la caméra. Cette thèse étudie les capacités d'un CNN à effectuer cette tâche.La carte de profondeur, étant particulièrement liée au flot optique dans le cas d'images stabilisées, nous adaptons un réseau connu pour cette tâche, FlowNet, afin qu'il calcule directement la carte de profondeur à partir de deux images stabilisées. Ce réseau est appelé DepthNet.Cette méthode fonctionne en simulateur avec un entraînement supervisé, mais n'est pas assez robuste pour des vidéos réelles. Nous étudions alors les possibilites d'auto-apprentissage basées sur la reprojection différentiable d'images. Cette technique est particulièrement nouvelle sur les CNNs et nécessite une étude détaillée afin de ne pas dépendre de paramètres heuristiques.Finalement, nous développons un algorithme de fusion de cartes de profondeurs pour utiliser DepthNet sur des vidéos réelles. Plusieurs paires différentes sont données à DepthNet afin d'avoir une grande plage de profondeurs mesurées. / Customer unmanned aerial vehicles (UAVs) are mainly flying cameras. They democratized aerial footage, but with thei success came security concerns.This works aims at improving UAVs security with obstacle avoidance, while keeping a smooth flight. In this context, we use only one stabilized camera, because of weight and cost incentives.For their robustness in computer vision and thei capacity to solve complex tasks, we chose to use convolutional neural networks (CNN). Our strategy is based on incrementally learning tasks with increasing complexity which first steps are to construct a depth map from the stabilized camera. This thesis is focused on studying ability of CNNs to train for this task.In the case of stabilized footage, the depth map is closely linked to optical flow. We thus adapt FlowNet, a CNN known for optical flow, to output directly depth from two stabilized frames. This network is called DepthNet.This experiment succeeded with synthetic footage, but is not robust enough to be used directly on real videos. Consequently, we consider self supervised training with real videos, based on differentiably reproject images. This training method for CNNs being rather novel in literature, a thorough study is needed in order not to depend too moch on heuristics.Finally, we developed a depth fusion algorithm to use DepthNet efficiently on real videos. Multiple frame pairs are fed to DepthNet to get a great depth sensing range.
94

From specialists to generalists : inductive biases of deep learning for higher level cognition

Goyal, Anirudh 10 1900 (has links)
Les réseaux de neurones actuels obtiennent des résultats de pointe dans une gamme de domaines problématiques difficiles. Avec suffisamment de données et de calculs, les réseaux de neurones actuels peuvent obtenir des résultats de niveau humain sur presque toutes les tâches. En ce sens, nous avons pu former des spécialistes capables d'effectuer très bien une tâche particulière, que ce soit le jeu de Go, jouer à des jeux Atari, manipuler le cube Rubik, mettre des légendes sur des images ou dessiner des images avec des légendes. Le prochain défi pour l'IA est de concevoir des méthodes pour former des généralistes qui, lorsqu'ils sont exposés à plusieurs tâches pendant l'entraînement, peuvent s'adapter rapidement à de nouvelles tâches inconnues. Sans aucune hypothèse sur la distribution génératrice de données, il peut ne pas être possible d'obtenir une meilleure généralisation et une meilleure adaptation à de nouvelles tâches (inconnues). Les réseaux de neurones actuels obtiennent des résultats de pointe dans une gamme de domaines problématiques difficiles. Une possibilité fascinante est que l'intelligence humaine et animale puisse être expliquée par quelques principes, plutôt qu'une encyclopédie de faits. Si tel était le cas, nous pourrions plus facilement à la fois comprendre notre propre intelligence et construire des machines intelligentes. Tout comme en physique, les principes eux-mêmes ne suffiraient pas à prédire le comportement de systèmes complexes comme le cerveau, et des calculs importants pourraient être nécessaires pour simuler l'intelligence humaine. De plus, nous savons que les vrais cerveaux intègrent des connaissances a priori détaillées spécifiques à une tâche qui ne pourraient pas tenir dans une courte liste de principes simples. Nous pensons donc que cette courte liste explique plutôt la capacité des cerveaux à apprendre et à s'adapter efficacement à de nouveaux environnements, ce qui est une grande partie de ce dont nous avons besoin pour l'IA. Si cette hypothèse de simplicité des principes était correcte, cela suggérerait que l'étude du type de biais inductifs (une autre façon de penser aux principes de conception et aux a priori, dans le cas des systèmes d'apprentissage) que les humains et les animaux exploitent pourrait aider à la fois à clarifier ces principes et à fournir source d'inspiration pour la recherche en IA. L'apprentissage en profondeur exploite déjà plusieurs biais inductifs clés, et mon travail envisage une liste plus large, en se concentrant sur ceux qui concernent principalement le traitement cognitif de niveau supérieur. Mon travail se concentre sur la conception de tels modèles en y incorporant des hypothèses fortes mais générales (biais inductifs) qui permettent un raisonnement de haut niveau sur la structure du monde. Ce programme de recherche est à la fois ambitieux et pratique, produisant des algorithmes concrets ainsi qu'une vision cohérente pour une recherche à long terme vers la généralisation dans un monde complexe et changeant. / Current neural networks achieve state-of-the-art results across a range of challenging problem domains. Given enough data, and computation, current neural networks can achieve human-level results on mostly any task. In the sense, that we have been able to train \textit{specialists} that can perform a particular task really well whether it's the game of GO, playing Atari games, Rubik's cube manipulation, image caption or drawing images given captions. The next challenge for AI is to devise methods to train \textit{generalists} that when exposed to multiple tasks during training can quickly adapt to new unknown tasks. Without any assumptions about the data generating distribution it may not be possible to achieve better generalization and adaption to new (unknown) tasks. A fascinating possibility is that human and animal intelligence could be explained by a few principles (rather than an encyclopedia). If that was the case, we could more easily both understand our own intelligence and build intelligent machines. Just like in physics, the principles themselves would not be sufficient to predict the behavior of complex systems like brains, and substantial computation might be needed to simulate human intelligence. In addition, we know that real brains incorporate some detailed task-specific a priori knowledge which could not fit in a short list of simple principles. So we think of that short list rather as explaining the ability of brains to learn and adapt efficiently to new environments, which is a great part of what we need for AI. If that simplicity of principles hypothesis was correct it would suggest that studying the kind of inductive biases (another way to think about principles of design and priors, in the case of learning systems) that humans and animals exploit could help both clarify these principles and provide inspiration for AI research. Deep learning already exploits several key inductive biases, and my work considers a larger list, focusing on those which concern mostly higher-level cognitive processing. My work focuses on designing such models by incorporating in them strong but general assumptions (inductive biases) that enable high-level reasoning about the structure of the world. This research program is both ambitious and practical, yielding concrete algorithms as well as a cohesive vision for long-term research towards generalization in a complex and changing world.
95

Incorporating health factors into food recommendation : experiments on real-world data from a weight-loss app

Ling, Yabo 03 1900 (has links)
Les systèmes de recommandation typiques tentent d'imiter les comportements passés des utilisateurs pour faire des recommandations futures. Par exemple, dans le domaine des recommandations alimentaires, ces algorithmes de recommandation apprennent généralement d'abord l'historique de consommation de l'utilisateur, puis recommandent les aliments que l'utilisateur préfère. Bien qu'il existe de nombreux systèmes de recommandation d'aliments proposés dans la littérature, la plupart d'entre eux sont généralement des applications directes des algorithmes de recommandation génériques sur des ensembles de données alimentaires. Nous pensons que pour le problème de la recommandation alimentaire, les connaissances spécifiques au domaine joueraient un rôle vital dans la réussite d'un recommandeur alimentaire. Cependant, la plupart des modèles existants n'intègrent pas ces connaissances. Pour résoudre ce problème, dans cet article, nous intégrons des facteurs liés à la santé (tels que l'IMC des utilisateurs, les changements de poids sous-jacents, les calories des aliments candidats et les variétés d'aliments) dans des modèles de recommandations alimentaires séquentielles pour les utilisateurs qui souhaitent mieux gérer leur alimentation et poids. Les changements de poids sous-jacents des utilisateurs sont également traités comme leurs objectifs ou leurs intentions (perdre, maintenir ou prendre du poids). Le modèle proposé devrait adapter en douceur le flux d'articles recommandé vers l'objectif des utilisateurs en tenant compte des préférences de consommation et des facteurs de santé antérieurs de l'utilisateur. Pour étudier les meilleures stratégies pour incorporer des facteurs de santé spécifiques à un domaine dans les recommandations alimentaires, dans cette étude, nous proposons deux approches de modélisation: la recommandation du prochain article et la recommandation du prochain panier. Ces deux méthodes prennent la séquence passée d'aliments (noms d'aliments et calories) consommés par un utilisateur comme entrée et produisent une liste classée d'aliments pour le prochain aliment (Next-item) ou le lendemain (Next-basket). En outre, les recommandations de base sont améliorées sur la base des approches de pointe de chaque approche de modélisation, qui sont respectivement GRU4Rec~\cite{GRU4Rec} et LSTM hiérarchique. Pour étudier l'impact des facteurs de santé et ajuster le modèle vers un objectif, nous construisons des sous-modèles spécifiques pour chaque groupe d'utilisateurs en fonction de l'IMC et de l'intention. À savoir, les utilisateurs sont regroupés en obèses, en surpoids, normaux, sous-pondérés selon l'IMC. Leurs données (par semaines) sont segmentées en semaines de perte/gain/maintien de poids en fonction du changement de poids au cours de la semaine. Cette dernière segmentation vise à saisir les habitudes de consommation alimentaire liées au poids, qui est traité comme l'intention sous-jacente de l'utilisateur. Un modèle général formé sur l'ensemble des données historiques mixtes devrait capturer les habitudes générales de consommation alimentaire de tous les utilisateurs, tandis qu'un sous-modèle formé sur l'ensemble spécifique de données pour l'IMC et l'intention capture celles des groupes ou semaines correspondants. Pour un utilisateur au sein d'un groupe d'IMC et avec l'intention de changer de poids, nous appliquons le sous-modèle spécifique, combiné avec le modèle général, pour la recommandation alimentaire. Nos modèles sont formés sur une grande quantité de données de comportement alimentaire d'utilisateurs réels à partir d'une application de gestion du poids, où nous pouvons observer la consommation alimentaire quotidienne et le poids corporel de plusieurs utilisateurs. Lorsque nous combinons le modèle complet général avec les modèles spécifiques à l'IMC et spécifiques à l'intention avec un coefficient approprié, nous observons des améliorations significatives par rapport aux performances du modèle général basé à la fois sur la recommandation de l'article suivant et sur la recommandation du panier suivant. De plus, les sous-modèles spécifiques à l'IMC et spécifiques à l'intention se sont avérés utiles, ce qui donne de meilleurs résultats que le modèle complet général, tandis que les sous-modèles spécifiques à l'IMC ont plus d'impact que le modèle spécifique à l'intention. En pratique, pour un utilisateur qui a l'intention de perdre du poids, le système peut appliquer le modèle de résultat Perte de poids (avec l'IMC correspondant) à l'utilisateur. Cela tend à ajuster en douceur le modèle général de recommandation vers cet objectif. En outre, le niveau d'ajustement pourrait être contrôlé par le coefficient de combinaison de modèles. En d'autres termes, avec un coefficient plus élevé, le sous-modèle spécifique aura un impact plus important sur la prédiction du classement final des aliments, ce qui implique que le système donnera la priorité à la réalisation de l'objectif de l'utilisateur plutôt qu'à l'imitation de ses habitudes alimentaires précédentes. Cette stratégie est plus efficace que de toujours recommander certains types d'aliments hypocaloriques, qui ne sont pas appréciés par l'utilisateur. L'intention est alignée sur le résultat de poids réel au lieu de l'intention indiquée par l'utilisateur. Ce dernier s'avère beaucoup moins performant dans nos expérimentations. / Typical recommender systems try to mimic the past behaviors of users to make future recommendations. For example, in the food recommendation domain, those recommenders typically first learn the user’s previous consumption history and then recommend the foods the user prefers. Although there are lots of food recommender systems proposed in the literature, most of them are usually some direct applications of generic recommendation algorithms on food datasets. We argue that for the food recommendation problem, domain-specific knowledge would play a vital role in a successful food recommender. However, most existing models fail to incorporate such knowledge. To address this issue, in this paper, we incorporate health-related factors (such as users’ BMI, underlying weight changes, calories of the candidate food items, and food varieties) in sequential food recommendation models for users who want to better manage their body weight. The users' underlying weight changes are also as treated as their goals or intents (either losing, maintaining, or gaining weight). The proposed model is expected to smoothly adapt the recommended item stream toward the users’ goal by considering the user’s previous consumption preferences and health factors. To investigate the best strategies to incorporate domain-specific health factors into food recommenders, in this study, we propose two modeling approaches: Next-item Recommendation and Next-basket Recommendation. These two methods take the past sequence of foods (food names and calories) consumed by a user as the input and produce a ranked list of foods for the next one (Next-item) or the next day (Next-basket). Besides, the basic recommendations are improved based on the state-of-the-art approaches of each modeling approach, which are GRU4Rec~\cite{GRU4Rec} and hierarchical LSTM, respectively. To investigate the impact of health factors and tune the model toward a goal, we build specific sub-models for each group of users according to BMI and intent. Namely, users are grouped into Obese, Overweighted, Normal, Underweighted according to BMI. Their data (by weeks) are segmented into weight losing/gaining/maintaining weeks according to the weight change during the week. This latter segmentation aims to capture food consumption patterns related to weight outcome, which is treated as the user's underlying intent. A general model trained on the whole mixed historical data is expected to capture the general food consumption patterns of all the users, while a sub-model trained on the specific set of data for BMI and intent captures those of the corresponding groups or weeks. For a user within a BMI group and with the intent of weight change, we apply the specific sub-model, combined with the general model, for food recommendation. Our models are trained on a large amount of eating behavior data of real users from a weight management app, where we can observe the daily food consumption and the body weight of many users. When we combine the general full-model with the BMI-specific and intent-specific models with appropriate coefficient, we observe significant improvements compared with the performance of the general model based on both Next-item Recommendation and Next-basket Recommendation. Furthermore, both BMI-specific and intent-specific sub-models have been proved useful, which achieves better results than the general full-model, while BMI-specific sub-models are more impactful than the intent-specific model. In practice, for a user who intends to lose weight, the system can apply the Losing-weight outcome model (with the corresponding BMI) to the user. This tends to smoothly adjust the general recommendation model toward this goal. Besides, the adjustment level could be controlled by the coefficient of model combination. In other words, with a larger coefficient, the specific sub-model will have a greater impact on predicting the final food ranking list, implying that the system will prioritize achieving the user's goal over mimicking their previous eating habits. This strategy is more effective than always recommending some types of low-calorie foods, which are not liked by the user. The intent is aligned with the actual weight outcome instead of the indicated intention by the user. This latter turns out to be much less successful in our experiments.
96

Rethinking continual learning approach and study out-of-distribution generalization algorithms

Laleh, Touraj 08 1900 (has links)
L'un des défis des systèmes d'apprentissage automatique actuels est que les paradigmes d'IA standard ne sont pas doués pour transférer (ou exploiter) les connaissances entre les tâches. Alors que de nombreux systèmes ont été formés et ont obtenu des performances élevées sur une distribution spécifique d'une tâche, il est pas facile de former des systèmes d'IA qui peuvent bien fonctionner sur un ensemble diversifié de tâches qui appartiennent aux différentes distributions. Ce problème a été abordé sous différents angles dans différents domaines, y compris l'apprentissage continu et la généralisation hors distribution. Si un système d'IA est formé sur un ensemble de tâches appartenant à différentes distributions, il pourrait oublier les connaissances acquises lors des tâches précédentes. En apprentissage continu, ce processus entraîne un oubli catastrophique qui est l'un des problèmes fondamentaux de ce domaine. La première projet de recherche dans cette thèse porte sur la comparaison d'un apprenant chaotique et d'un naïf configuration de l'apprentissage continu. La formation d'un modèle de réseau neuronal profond nécessite généralement plusieurs itérations, ou époques, sur l'ensemble de données d'apprentissage, pour mieux estimer les paramètres du modèle. La plupart des approches proposées pour ce problème tentent de compenser les effets de mises à jour des paramètres dans la configuration incrémentielle par lots dans laquelle le modèle de formation visite un grand nombre de échantillons pour plusieurs époques. Cependant, il n'est pas réaliste de s'attendre à ce que les données de formation soient toujours alimenté au modèle. Dans ce chapitre, nous proposons un apprenant de flux chaotique qui imite le chaotique comportement des neurones biologiques et ne met pas à jour les paramètres du réseau. De plus, il peut fonctionner avec moins d'échantillons par rapport aux modèles d'apprentissage en profondeur sur les configurations d'apprentissage par flux. Fait intéressant, nos expériences sur différents ensembles de données montrent que l'apprenant de flux chaotique a moins d'oubli catastrophique de par sa nature par rapport à un modèle CNN en continu apprentissage. Les modèles d'apprentissage en profondeur ont une performance de généralisation hors distribution naïve où la distribution des tests est inconnue et différente de la formation. Au cours des dernières années, il y a eu eu de nombreux projets de recherche pour comparer les algorithmes hors distribution, y compris la moyenne et méthodes basées sur les scores. Cependant, la plupart des méthodes proposées ne tiennent pas compte du niveau de difficulté de tâches. Le deuxième projet de recherche de cette thèse, l'analyse de certains éléments logiques et pratiques les forces et les inconvénients des méthodes existantes de comparaison et de classement hors distribution algorithmes. Nous proposons une nouvelle approche de classement pour définir les ratios de difficulté des tâches afin de comparer les algorithmes de généralisation hors distribution. Nous avons comparé la moyenne, basée sur le score, et des classements basés sur la difficulté de quatre tâches sélectionnées du benchmark WILDS et cinq algorithmes hors distribution populaires pour l'expérience. L'analyse montre d'importantes changements dans les ordres de classement par rapport aux approches de classement actuelles. / One of the challenges of current machine learning systems is that standard AI paradigms are not good at transferring (or leveraging) knowledge across tasks. While many systems have been trained and achieved high performance on a specific distribution of a task, it is not easy to train AI systems that can perform well on a diverse set of tasks that belong to different distributions. This problem has been addressed from different perspectives in different domains including continual learning and out-of-distribution generalization. If an AI system is trained on a set of tasks belonging to different distributions, it could forget the knowledge it acquired from previous tasks. In continual learning, this process results in catastrophic forgetting which is one of the core issues of this domain. The first research project in this thesis focuses on the comparison of a chaotic learner and a naive continual learning setup. Training a deep neural network model usually requires multiple iterations, or epochs, over the training data set, to better estimate the parameters of the model. Most proposed approaches for this issue try to compensate for the effects of parameter updates in the batch incremental setup in which the training model visits a lot of samples for several epochs. However, it is not realistic to expect training data will always be fed to the model. In this chapter, we propose a chaotic stream learner that mimics the chaotic behavior of biological neurons and does not update network parameters. In addition, it can work with fewer samples compared to deep learning models on stream learning setups. Interestingly, our experiments on different datasets show that the chaotic stream learner has less catastrophic forgetting by its nature in comparison to a CNN model in continual learning. Deep Learning models have a naive out-of-distribution~(OoD) generalization performance where the testing distribution is unknown and different from the training. In the last years, there have been many research projects to compare OoD algorithms, including average and score-based methods. However, most proposed methods do not consider the level of difficulty of tasks. The second research project in this thesis, analysis some logical and practical strengths and drawbacks of existing methods for comparing and ranking OoD algorithms. We propose a novel ranking approach to define the task difficulty ratios to compare OoD generalization algorithms. We compared the average, score-based, and difficulty-based rankings of four selected tasks from the WILDS benchmark and five popular OoD algorithms for the experiment. The analysis shows significant changes in the ranking orders compared with current ranking approaches.
97

Calibrated uncertainty estimation for SLAM

Bansal, Dishank 04 1900 (has links)
La focus de cette thèse de maîtrise est l’analyse de l’étalonnage de l’incertitude pour la lo- calisation et la cartographie simultanées (SLAM) en utilisant des modèles de mesure basés sur les réseaux de neurones. SLAM sont un problème fondamental en robotique et en vision par ordinateur, avec de nombreuses applications allant des voitures autonomes aux réalités augmentées. Au cœur de SLAM, il s’agit d’estimer la pose (c’est-à-dire la position et l’orien- tation) d’un robot ou d’une caméra lorsqu’elle se déplace dans un environnement inconnu et de construire simultanément une carte de l’environnement environnant. Le SLAM visuel, qui utilise des images en entrée, est un cadre de SLAM couramment utilisé. Cependant, les méthodes traditionnelles de SLAM visuel sont basées sur des caractéristiques fabriquées à la main et peuvent être vulnérables à des défis tels que la mauvaise luminosité et l’occultation. L’apprentissage profond est devenu une approche plus évolutive et robuste, avec les réseaux de neurones convolutionnels (CNN) devenant le système de perception de facto en robotique. Pour intégrer les méthodes basées sur les CNN aux systèmes de SLAM, il est nécessaire d’estimer l’incertitude ou le bruit dans les mesures de perception. L’apprentissage profond bayésien a fourni diverses méthodes pour estimer l’incertitude dans les réseaux de neurones, notamment les ensembles, la distribution sur les paramètres du réseau et l’ajout de têtes de prédiction pour les paramètres de distribution de la sortie. Cependant, il est également important de s’assurer que ces estimations d’incertitude sont bien étalonnées, c’est-à-dire qu’elles reflètent fidèlement l’erreur de prédiction. Dans cette thèse de maîtrise, nous abordons ce défi en développant un système de SLAM qui intègre un réseau de neurones en tant que modèle de mesure et des estimations d’in- certitude étalonnées. Nous montrons que ce système fonctionne mieux que les approches qui utilisent la méthode traditionnelle d’estimation de l’incertitude, où les estimations de l’incertitude sont simplement considérées comme des hyperparamètres qui sont réglés ma- nuellement. Nos résultats démontrent l’importance de tenir compte de manière précise de l’incertitude dans le problème de SLAM, en particulier lors de l’utilisation d’un réseau de neur. / The focus of this Masters thesis is the analysis of uncertainty calibration for Simultaneous Localization and Mapping (SLAM) using neural network-based measurement models. SLAM is a fundamental problem in robotics and computer vision, with numerous applications rang- ing from self-driving cars to augmented reality. At its core, SLAM involves estimating the pose (i.e., position and orientation) of a robot or camera as it moves through an unknown environment and constructing a map of the surrounding environment simultaneously. Vi- sual SLAM, which uses images as input, is a commonly used SLAM framework. However, traditional Visual SLAM methods rely on handcrafted features and can be vulnerable to challenges such as poor lighting and occlusion. Deep learning has emerged as a more scal- able and robust approach, with Convolutional Neural Networks (CNNs) becoming the de facto perception system in robotics. To integrate CNN-based methods with SLAM systems, it is necessary to estimate the uncertainty or noise in the perception measurements. Bayesian deep learning has provided various methods for estimating uncertainty in neural networks, including ensembles, distribu- tions over network parameters, and adding variance heads for direct uncertainty prediction. However, it is also essential to ensure that these uncertainty estimates are well-calibrated, i.e they accurately reflect the error in the prediction. In this Master’s thesis, we address this challenge by developing a system for SLAM that incorporates a neural network as the measurement model and calibrated uncertainty esti- mates. We show that this system performs better than the approaches which uses traditional uncertainty estimation method, where uncertainty estimates are just considered hyperpa- rameters which are tuned manually. Our results demonstrate the importance of accurately accounting for uncertainty in the SLAM problem, particularly when using a neural network as the measurement model, in order to achieve reliable and robust localization and mapping.
98

Latent data augmentation and modular structure for improved generalization

Lamb, Alexander 08 1900 (has links)
This thesis explores the nature of generalization in deep learning and several settings in which it fails. In particular, deep neural networks can struggle to generalize in settings with limited data, insufficient supervision, challenging long-range dependencies, or complex structure and subsystems. This thesis explores the nature of these challenges for generalization in deep learning and presents several algorithms which seek to address these challenges. In the first article, we show how training with interpolated hidden states can improve generalization and calibration in deep learning. We also introduce a theory showing how our algorithm, which we call Manifold Mixup, leads to a flattening of the per-class hidden representations, which can be seen as a compression of the information in the hidden states. The second article is related to the first and shows how interpolated examples can be used for semi-supervised learning. In addition to interpolating the input examples, the model’s interpolated predictions are used as targets for these examples. This improves results on standard benchmarks as well as classic 2D toy problems for semi-supervised learning. The third article studies how a recurrent neural network can be divided into multiple modules with different parameters and well separated hidden states, as well as a competition mechanism restricting updating of the hidden states to a subset of the most relevant modules on a specific time-step. This improves systematic generalization when the pattern distribution is changed between the training and evaluation phases. It also improves generalization in reinforcement learning. In the fourth article, we show that attention can be used to control the flow of information between successive layers in deep networks. This allows each layer to only process the subset of the previously computed layers’ outputs which are most relevant. This improves generalization on relational reasoning tasks as well as standard benchmark classification tasks. / Cette thèse explore la nature de la généralisation dans l’apprentissage en profondeur et plusieurs contextes dans lesquels elle échoue. En particulier, les réseaux de neurones profonds peuvent avoir du mal à se généraliser dans des contextes avec des données limitées, une supervision insuffisante, des dépendances à longue portée difficiles ou une structure et des sous-systèmes complexes. Cette thèse explore la nature de ces défis pour la généralisation en apprentissage profond et présente plusieurs algorithmes qui cherchent à relever ces défis. Dans le premier article, nous montrons comment l’entraînement avec des états cachés interpolés peut améliorer la généralisation et la calibration en apprentissage profond. Nous introduisons également une théorie montrant comment notre algorithme, que nous appelons Manifold Mixup, conduit à un aplatissement des représentations cachées par classe, ce qui peut être vu comme une compression de l’information dans les états cachés. Le deuxième article est lié au premier et montre comment des exemples interpolés peuvent être utilisés pour un apprentissage semi-supervisé. Outre l’interpolation des exemples d’entrée, les prédictions interpolées du modèle sont utilisées comme cibles pour ces exemples. Cela améliore les résultats sur les benchmarks standard ainsi que sur les problèmes de jouets 2D classiques pour l’apprentissage semi-supervisé. Le troisième article étudie comment un réseau de neurones récurrent peut être divisé en plusieurs modules avec des paramètres différents et des états cachés bien séparés, ainsi qu’un mécanisme de concurrence limitant la mise à jour des états cachés à un sous-ensemble des modules les plus pertinents sur un pas de temps spécifique. . Cela améliore la généralisation systématique lorsque la distribution des modèles est modifiée entre les phases de entraînement et d’évaluation. Il améliore également la généralisation dans l’apprentissage par renforcement. Dans le quatrième article, nous montrons que l’attention peut être utilisée pour contrôler le flux d’informations entre les couches successives des réseaux profonds. Cela permet à chaque couche de ne traiter que le sous-ensemble des sorties des couches précédemment calculées qui sont les plus pertinentes. Cela améliore la généralisation sur les tâches de raisonnement relationnel ainsi que sur les tâches de classification de référence standard.
99

Self-supervision for reinforcement learning

Anand, Ankesh 03 1900 (has links)
Cette thèse tente de construire de meilleurs agents d'apprentissage par renforcement (RL) en tirant parti de l'apprentissage auto-supervisé. Il se présente sous la forme d'une thèse par article qui contient trois travaux. Dans le premier article, nous construisons un benchmark basé sur les jeux Atari pour évaluer systématiquement les méthodes d'apprentissage auto-supervisé dans les environnements RL. Nous comparons un éventail de ces méthodes à travers une suite de tâches de sondage pour identifier leurs forces et leurs faiblesses. Nous montrons en outre qu'une nouvelle méthode contrastive ST-DIM excelle à capturer la plupart des facteurs génératifs dans les environnements étudiés, sans avoir besoin de s'appuyer sur des étiquettes ou des récompenses. Dans le deuxième article, nous proposons des représentations auto-prédictives (SPR) qui apprennent un modèle latent auto-supervisé de la dynamique de l'environnement parallèlement à la résolution de la tâche RL en cours. Nous montrons que SPR réalise des améliorations spectaculaires dans l'état de l'art sur le benchmark Atari 100k difficile où les agents n'ont droit qu'à 2 heures d'expérience en temps réel. Le troisième article étudie le rôle de la RL basée sur un modèle et de l'apprentissage auto-supervisé dans le contexte de la généralisation en RL. Grâce à des contrôles minutieux, nous montrons que la planification et l'apprentissage de représentation basé sur un modèle contribuent tous deux à une meilleure généralisation pour l'agent Muzero. Nous améliorons encore MuZero avec des objectifs d'apprentissage auto-supervisés auxiliaires, et montrons que cet agent MuZero++ obtient des résultats de pointe sur les benchmarks Procgen et Metaworld. / This thesis tries to build better Reinforcement Learning (RL) agents by leveraging self-supervised learning. It is presented as a thesis by article that contains three pieces of work. In the first article, we construct a benchmark based on Atari games to systematically evaluate self-supervised learning methods in RL environments. We compare an array of such methods across a suite of probing tasks to identify their strengths and weaknesses. We further show that a novel contrastive method ST-DIM excels at capturing most generative factors in the studied environments, without needing to rely on labels or rewards. In the second article, we propose Self-Predictive Representations (SPR) that learns a self-supervised latent model of the environment dynamics alongside solving the RL task at hand. We show that SPR achieves dramatic improvements in state-of-the-art on the challenging Atari 100k benchmark where agents are allowed only 2 hours of real-time experience. The third article studies the role of model-based RL and self-supervised learning in the context of generalization in RL. Through careful controls, we show that planning and model-based representation learning both contribute towards better generalization for the Muzero agent. We further improve MuZero with auxiliary self-supervised learning objectives, and show that this MuZero++ agent achieves state-of-the-art results on the Procgen and Metaworld benchmarks.
100

Quelques outils de géométrie différentielle pour la construction automatique de modèles CAO à partir d'images télémétriques

Goulette, François 14 March 1997 (has links) (PDF)
Au niveau des grandes architectures industrielles, il existe un besoin de plans CAO précis de l'existant. A l'heure actuelle, ces plans peuvent être construits à partir de la technologie de la photogrammétrie, technique lente et coûteuse basée sur la prise de photos de plusieurs points de vue des structures dans l'espace. Une technologie récente, la télémétrie laser, permet d'obtenir directement des images denses de points tridimensionnels scannés sur les surfaces des objets. Un logiciel permet ensuite de construire un modèle CAO plaqué au mieux sur les points de mesure. La difficulté principale de la construction du modèle CAO à partir des images télémétriques réside dans la faculté de segmenter les images de points en sous-ensembles correspondant chacun à une primitive géométrique unique (cylindre, tore, sphère, cône ou plan, principalement). Ce problème étant particulièrement difficile à résoudre, le logiciel actuel fait appel à l'opérateur qui effectue interactivement cette segmentation à l'écran. L'objectif de la thèse était d'explorer les possibilités d'automatisation de ce travail. Dans un premier temps, l'étude s'est limitée aux ensembles de tuyauteries, représentant la majeure partie des scènes observées. Ces ensembles peuvent être modélisés par les seules primitives de cylindres, tores et cônes. L'approche proposée consiste à segmenter les tuyauteries en utilisant les centres de courbure locaux des surfaces observées. Ces centres de courbure dessinent des lignes dans l'espace 3D, qu'il est facile de segmenter et à partir desquelles on peut remonter à l'image de départ. Pour calculer les centres de courbure, il a été nécessaire d'effectuer une étude théorique de l'algorithme de calcul de courbures principales sur des surfaces de points discrets dans l'espace, étude qui a mené à l'amélioration de l'algorithme par rapport à ce que l'on trouve dans la littérature, et notamment à la définition d'un critère d'optimalité en termes de bruit des résultats. Les algorithmes ont été testés sur de nombreuses images industrielles. L'étude de segmentation a été menée jusqu'à la reconstruction CAO automatique d'un bout de tuyauterie, validant ainsi l'approche proposée. L'objectif initial de la thèse de segmentation CAO automatique a donc été atteint. Ce travail a cependant ouvert plus de voies de recherches futures que n'en a fermées, en proposant des solutions intéressantes mais encore améliorables sur bien des points, et en incitant à poursuivre l'étude sur les surfaces planaires observées dans les images.

Page generated in 0.0486 seconds