Spelling suggestions: "subject:"apprentissage een profondeur"" "subject:"apprentissage een profondeurs""
1 |
Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur / Efficient Deep Structured Prediction for Dense Labeling Tasks in Computer VisionChandra, Siddhartha 11 May 2018 (has links)
Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur. / In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges
|
2 |
Salient object detection and segmentation in videos / Détection d'objets saillants et segmentation dans des vidéosWang, Qiong 09 May 2019 (has links)
Cette thèse est centrée sur le problème de la détection d'objets saillants et de leur segmentation dans une vidéo en vue de détecter les objets les plus attractifs ou d'affecter des identités cohérentes d'objets à chaque pixel d'une séquence vidéo. Concernant la détection d'objets saillants dans vidéo, outre une revue des techniques existantes, une nouvelle approche et l'extension d'un modèle sont proposées; de plus une approche est proposée pour la segmentation d'instances d'objets vidéo. Pour la détection d'objets saillants dans une vidéo, nous proposons : (1) une approche traditionnelle pour détecter l'objet saillant dans sa totalité à l'aide de la notion de "bordures virtuelles". Un filtre guidé est appliqué sur la sortie temporelle pour intégrer les informations de bord spatial en vue d'une meilleure détection des bords de l'objet saillants. Une carte globale de saillance spatio-temporelle est obtenue en combinant la carte de saillance spatiale et la carte de saillance temporelle en fonction de l'entropie. (2) Une revue des développements récents des méthodes basées sur l'apprentissage profond est réalisée. Elle inclut les classifications des méthodes de l'état de l'art et de leurs architectures, ainsi qu'une étude expérimentale comparative de leurs performances. (3) Une extension d'un modèle de l'approche traditionnelle proposée en intégrant un procédé de détection d'objet saillant d'image basé sur l'apprentissage profond a permis d'améliorer encore les performances. Pour la segmentation des instances d'objets dans une vidéo, nous proposons une approche d'apprentissage profond dans laquelle le calcul de la confiance de déformation détermine d'abord la confiance de la carte masquée, puis une sélection sémantique est optimisée pour améliorer la carte déformée, où l'objet est réidentifié à l'aide de l'étiquettes sémantique de l'objet cible. Les approches proposées ont été évaluées sur des jeux de données complexes et de grande taille disponibles publiquement et les résultats expérimentaux montrent que les approches proposées sont plus performantes que les méthodes de l'état de l'art. / This thesis focuses on the problem of video salient object detection and video object instance segmentation which aim to detect the most attracting objects or assign consistent object IDs to each pixel in a video sequence. One approach, one overview and one extended model are proposed for video salient object detection, and one approach is proposed for video object instance segmentation. For video salient object detection, we propose: (1) one traditional approach to detect the whole salient object via the adjunction of virtual borders. A guided filter is applied on the temporal output to integrate the spatial edge information for a better detection of the salient object edges. A global spatio-temporal saliency map is obtained by combining the spatial saliency map and the temporal saliency map together according to the entropy. (2) An overview of recent developments for deep-learning based methods is provided. It includes the classifications of the state-of-the-art methods and their frameworks, and the experimental comparison of the performances of the state-of-the-art methods. (3) One extended model further improves the performance of the proposed traditional approach by integrating a deep-learning based image salient object detection method For video object instance segmentation, we propose a deep-learning approach in which the warping confidence computation firstly judges the confidence of the mask warped map, then a semantic selection is introduced to optimize the warped map, where the object is re-identified using the semantics labels of the target object. The proposed approaches have been assessed on the published large-scale and challenging datasets. The experimental results show that the proposed approaches outperform the state-of-the-art methods.
|
3 |
(Out-of-distribution?) : generalization in deep learningCaballero, Ethan 08 1900 (has links)
Le principe d’invariance par rapport à la causalité est au coeur d’approches notables telles que la minimisation du risque invariant (IRM) qui cherchent à résoudre les échecs de généralisation hors distribution (OOD). Malgré la théorie prometteuse, les approches basées sur le principe d’invariance échouent dans les tâches de classification courantes, où les caractéristiques invariantes (causales) capturent toutes les informations sur l’étiquette. Ces échecs sont-ils dus à l’incapacité des méthodes à capter l’invariance ? Ou le principe d’invariance lui-même est-il insuffisant ? Pour répondre à ces questions, nous réexaminons les hypothèses fondamentales dans les tâches de régression linéaire, où il a été démontré que les approches basées sur l’invariance généralisent de manière prouvée l’OOD. Contrairement aux tâches de régression linéaire, nous montrons que pour les tâches de classification linéaire, nous avons besoin de restrictions beaucoup plus fortes sur les changements de distribution, sinon la généralisation OOD est impossible. De plus, même avec des restrictions appropriées sur les changements de distribution en place, nous montrons que le principe d’invariance seul est insuffisant. Nous prouvons qu’une forme de contrainte de goulot d’étranglement d’information avec l’invariance aide à résoudre les échecs clés lorsque les caractéristiques invariantes capturent toutes les informations sur l’étiquette et conservent également le succès existant lorsqu’elles ne le font pas. Nous proposons une approche qui combine ces deux principes et démontre son efficacité sur des tests unitaires linéaires et sur divers jeux de données réelles de grande dimension. / The invariance principle from causality is at the heart of notable approaches such as invariant risk minimization (IRM) that seek to address out-of-distribution (OOD) generalization failures. Despite the promising theory, invariance principle-based approaches fail in common classification tasks, where invariant (causal) features capture all the information about the label. Are these failures due to the methods failing to capture the invariance? Or is the invariance principle itself insufficient? To answer these questions, we revisit the fundamental assumptions in linear regression tasks, where invariance-based approaches were shown to provably generalize OOD. In contrast to the linear regression tasks, we show that for linear classification tasks we need much stronger restrictions on the distribution shifts, or otherwise OOD generalization is impossible. Furthermore, even with appropriate restrictions on distribution shifts in place, we show that the invariance principle alone is insufficient. We prove that a form of the information bottleneck constraint along with invariance helps address the key failures when invariant features capture all the information about the label and also retains the existing success when they do not. We propose an approach that combines both these principles and demonstrate its effectiveness on linear unit tests and on various high-dimensional real datasets.
|
4 |
Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset / Apprentissage faiblement supervisé basé sur le regard : application à la reconnaissance visuelle dans un ensemble de données sur l'alimentationWang, Xin 29 September 2017 (has links)
Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs. / In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results.
|
5 |
From specialists to generalists : inductive biases of deep learning for higher level cognitionGoyal, Anirudh 10 1900 (has links)
Les réseaux de neurones actuels obtiennent des résultats de pointe dans une gamme de domaines problématiques difficiles.
Avec suffisamment de données et de calculs, les réseaux de neurones actuels peuvent obtenir des résultats de niveau humain sur presque toutes les tâches. En ce sens, nous avons pu former des spécialistes capables d'effectuer très bien une tâche particulière, que ce soit le jeu de Go, jouer à des jeux Atari, manipuler le cube Rubik, mettre des légendes sur des images ou dessiner des images avec des légendes. Le prochain défi pour l'IA est de concevoir des méthodes pour former des généralistes qui, lorsqu'ils sont exposés à plusieurs tâches pendant l'entraînement, peuvent s'adapter rapidement à de nouvelles tâches inconnues. Sans aucune hypothèse sur la distribution génératrice de données, il peut ne pas être possible d'obtenir une meilleure généralisation et une meilleure adaptation à de nouvelles tâches (inconnues).
Les réseaux de neurones actuels obtiennent des résultats de pointe dans une gamme de domaines problématiques difficiles.
Une possibilité fascinante est que l'intelligence humaine et animale puisse être expliquée par quelques principes, plutôt qu'une encyclopédie de faits. Si tel était le cas, nous pourrions plus facilement à la fois comprendre notre propre intelligence et construire des machines intelligentes. Tout comme en physique, les principes eux-mêmes ne suffiraient pas à prédire le comportement de systèmes complexes comme le cerveau, et des calculs importants pourraient être nécessaires pour simuler l'intelligence humaine. De plus, nous savons que les vrais cerveaux intègrent des connaissances a priori détaillées spécifiques à une tâche qui ne pourraient pas tenir dans une courte liste de principes simples. Nous pensons donc que cette courte liste explique plutôt la capacité des cerveaux à apprendre et à s'adapter efficacement à de nouveaux environnements, ce qui est une grande partie de ce dont nous avons besoin pour l'IA. Si cette hypothèse de simplicité des principes était correcte, cela suggérerait que l'étude du type de biais inductifs (une autre façon de penser aux principes de conception et aux a priori, dans le cas des systèmes d'apprentissage) que les humains et les animaux exploitent pourrait aider à la fois à clarifier ces principes et à fournir source d'inspiration pour la recherche en IA.
L'apprentissage en profondeur exploite déjà plusieurs biais inductifs clés, et mon travail envisage une liste plus large, en se concentrant sur ceux qui concernent principalement le traitement cognitif de niveau supérieur. Mon travail se concentre sur la conception de tels modèles en y incorporant des hypothèses fortes mais générales (biais inductifs) qui permettent un raisonnement de haut niveau sur la structure du monde. Ce programme de recherche est à la fois ambitieux et pratique, produisant des algorithmes concrets ainsi qu'une vision cohérente pour une recherche à long terme vers la généralisation dans un monde complexe et changeant. / Current neural networks achieve state-of-the-art results across a range of challenging problem domains.
Given enough data, and computation, current neural networks can achieve human-level results on mostly any task. In the sense, that we have been able to train \textit{specialists} that can perform a particular task really well whether it's the game of GO, playing Atari games, Rubik's cube manipulation, image caption or drawing images given captions. The next challenge for AI is to devise methods to train \textit{generalists} that when exposed to multiple tasks during training can quickly adapt to new unknown tasks. Without any assumptions about the data generating distribution it may not be possible to achieve better generalization and adaption to new (unknown) tasks.
A fascinating possibility is that human and animal intelligence could be explained by a few principles (rather than an encyclopedia). If that was the case, we could more easily both understand our own intelligence and build intelligent machines. Just like in physics, the principles themselves would not be sufficient to predict the behavior of complex systems like brains, and substantial computation might be needed to simulate human intelligence. In addition, we know that real brains incorporate some detailed task-specific a priori knowledge which could not fit in a short list of simple principles. So we think of that short list rather as explaining the ability of brains to learn and adapt efficiently to new environments, which is a great part of what we need for AI. If that simplicity of principles hypothesis was correct it would suggest that studying the kind of inductive biases (another way to think about principles of design and priors, in the case of learning systems) that humans and animals exploit could help both clarify these principles and provide inspiration for AI research.
Deep learning already exploits several key inductive biases, and my work considers a larger list, focusing on those which concern mostly higher-level cognitive processing. My work focuses on designing such models by incorporating in them strong but general assumptions (inductive biases) that enable high-level reasoning about the structure of the world. This research program is both ambitious and practical, yielding concrete algorithms as well as a cohesive vision for long-term research towards generalization in a complex and changing world.
|
6 |
Rethinking continual learning approach and study out-of-distribution generalization algorithmsLaleh, Touraj 08 1900 (has links)
L'un des défis des systèmes d'apprentissage automatique actuels est que les paradigmes d'IA standard
ne sont pas doués pour transférer (ou exploiter) les connaissances entre les tâches. Alors que de nombreux systèmes
ont été formés et ont obtenu des performances élevées sur une distribution spécifique d'une tâche, il est
pas facile de former des systèmes d'IA qui peuvent bien fonctionner sur un ensemble diversifié de tâches qui appartiennent
aux différentes distributions. Ce problème a été abordé sous différents angles dans
différents domaines, y compris l'apprentissage continu et la généralisation hors distribution.
Si un système d'IA est formé sur un ensemble de tâches appartenant à différentes distributions, il pourrait
oublier les connaissances acquises lors des tâches précédentes. En apprentissage continu, ce processus
entraîne un oubli catastrophique qui est l'un des problèmes fondamentaux de ce domaine. La première
projet de recherche dans cette thèse porte sur la comparaison d'un apprenant chaotique et d'un naïf
configuration de l'apprentissage continu. La formation d'un modèle de réseau neuronal profond nécessite généralement plusieurs
itérations, ou époques, sur l'ensemble de données d'apprentissage, pour mieux estimer les paramètres
du modèle. La plupart des approches proposées pour ce problème tentent de compenser les effets de
mises à jour des paramètres dans la configuration incrémentielle par lots dans laquelle le modèle de formation visite un grand nombre de
échantillons pour plusieurs époques. Cependant, il n'est pas réaliste de s'attendre à ce que les données de formation soient toujours
alimenté au modèle. Dans ce chapitre, nous proposons un apprenant de flux chaotique qui imite le chaotique
comportement des neurones biologiques et ne met pas à jour les paramètres du réseau. De plus, il
peut fonctionner avec moins d'échantillons par rapport aux modèles d'apprentissage en profondeur sur les configurations d'apprentissage par flux.
Fait intéressant, nos expériences sur différents ensembles de données montrent que l'apprenant de flux chaotique
a moins d'oubli catastrophique de par sa nature par rapport à un modèle CNN en continu
apprentissage.
Les modèles d'apprentissage en profondeur ont une performance de généralisation hors distribution naïve où
la distribution des tests est inconnue et différente de la formation. Au cours des dernières années, il y a eu
eu de nombreux projets de recherche pour comparer les algorithmes hors distribution, y compris la moyenne et
méthodes basées sur les scores. Cependant, la plupart des méthodes proposées ne tiennent pas compte du niveau de difficulté
de tâches. Le deuxième projet de recherche de cette thèse, l'analyse de certains éléments logiques et pratiques
les forces et les inconvénients des méthodes existantes de comparaison et de classement hors distribution
algorithmes. Nous proposons une nouvelle approche de classement pour définir les ratios de difficulté des tâches afin de comparer les algorithmes de généralisation hors distribution. Nous avons comparé la moyenne, basée sur le score,
et des classements basés sur la difficulté de quatre tâches sélectionnées du benchmark WILDS et cinq
algorithmes hors distribution populaires pour l'expérience. L'analyse montre d'importantes
changements dans les ordres de classement par rapport aux approches de classement actuelles. / One of the challenges of current machine learning systems is that standard AI paradigms
are not good at transferring (or leveraging) knowledge across tasks. While many systems
have been trained and achieved high performance on a specific distribution of a task, it is
not easy to train AI systems that can perform well on a diverse set of tasks that belong
to different distributions. This problem has been addressed from different perspectives in
different domains including continual learning and out-of-distribution generalization.
If an AI system is trained on a set of tasks belonging to different distributions, it could
forget the knowledge it acquired from previous tasks. In continual learning, this process
results in catastrophic forgetting which is one of the core issues of this domain. The first
research project in this thesis focuses on the comparison of a chaotic learner and a naive
continual learning setup. Training a deep neural network model usually requires multiple
iterations, or epochs, over the training data set, to better estimate the parameters
of the model. Most proposed approaches for this issue try to compensate for the effects of
parameter updates in the batch incremental setup in which the training model visits a lot of
samples for several epochs. However, it is not realistic to expect training data will always be
fed to the model. In this chapter, we propose a chaotic stream learner that mimics the chaotic
behavior of biological neurons and does not update network parameters. In addition, it
can work with fewer samples compared to deep learning models on stream learning setups.
Interestingly, our experiments on different datasets show that the chaotic stream learner
has less catastrophic forgetting by its nature in comparison to a CNN model in continual
learning.
Deep Learning models have a naive out-of-distribution~(OoD) generalization performance where
the testing distribution is unknown and different from the training. In the last years, there have
been many research projects to compare OoD algorithms, including average and
score-based methods. However, most proposed methods do not consider the level of difficulty
of tasks. The second research project in this thesis, analysis some logical and practical
strengths and drawbacks of existing methods for comparing and ranking OoD
algorithms. We propose a novel ranking approach to define the task difficulty ratios to compare OoD generalization algorithms. We compared the average, score-based,
and difficulty-based rankings of four selected tasks from the WILDS benchmark and five
popular OoD algorithms for the experiment. The analysis shows significant
changes in the ranking orders compared with current ranking approaches.
|
7 |
Latent data augmentation and modular structure for improved generalizationLamb, Alexander 08 1900 (has links)
This thesis explores the nature of generalization in deep learning and several settings in which it fails. In particular, deep neural networks can struggle to generalize in settings with limited data, insufficient supervision, challenging long-range dependencies, or complex structure and subsystems. This thesis explores the nature of these challenges for generalization in deep learning and presents several algorithms which seek to address these challenges. In the first article, we show how training with interpolated hidden states can improve generalization and calibration in deep learning. We also introduce a theory showing how our algorithm, which we call Manifold Mixup, leads to a flattening of the per-class hidden representations, which can be seen as a compression of the information in the hidden states. The second article is related to the first and shows how interpolated examples can be used for semi-supervised learning. In addition to interpolating the input examples, the model’s interpolated predictions are used as targets for these examples. This improves results on standard benchmarks as well as classic 2D toy problems for semi-supervised learning. The third article studies how a recurrent neural network can be divided into multiple modules with different parameters and well separated hidden states, as well as a competition mechanism restricting updating of the hidden states to a subset of the most relevant modules on a specific time-step. This improves systematic generalization when the pattern distribution is changed between the training and evaluation phases. It also improves generalization in reinforcement learning. In the fourth article, we show that attention can be used to control the flow of information between successive layers in deep networks. This allows each layer to only process the subset of the previously computed layers’ outputs which are most relevant. This improves generalization on relational reasoning tasks as well as standard benchmark classification tasks. / Cette thèse explore la nature de la généralisation dans l’apprentissage en profondeur et
plusieurs contextes dans lesquels elle échoue. En particulier, les réseaux de neurones profonds
peuvent avoir du mal à se généraliser dans des contextes avec des données limitées, une
supervision insuffisante, des dépendances à longue portée difficiles ou une structure et des
sous-systèmes complexes.
Cette thèse explore la nature de ces défis pour la généralisation en apprentissage profond
et présente plusieurs algorithmes qui cherchent à relever ces défis.
Dans le premier article, nous montrons comment l’entraînement avec des états cachés
interpolés peut améliorer la généralisation et la calibration en apprentissage profond. Nous
introduisons également une théorie montrant comment notre algorithme, que nous appelons
Manifold Mixup, conduit à un aplatissement des représentations cachées par classe, ce qui
peut être vu comme une compression de l’information dans les états cachés.
Le deuxième article est lié au premier et montre comment des exemples interpolés peuvent
être utilisés pour un apprentissage semi-supervisé. Outre l’interpolation des exemples d’entrée,
les prédictions interpolées du modèle sont utilisées comme cibles pour ces exemples. Cela
améliore les résultats sur les benchmarks standard ainsi que sur les problèmes de jouets 2D
classiques pour l’apprentissage semi-supervisé.
Le troisième article étudie comment un réseau de neurones récurrent peut être divisé en
plusieurs modules avec des paramètres différents et des états cachés bien séparés, ainsi qu’un
mécanisme de concurrence limitant la mise à jour des états cachés à un sous-ensemble des
modules les plus pertinents sur un pas de temps spécifique. . Cela améliore la généralisation
systématique lorsque la distribution des modèles est modifiée entre les phases de entraînement
et d’évaluation. Il améliore également la généralisation dans l’apprentissage par renforcement.
Dans le quatrième article, nous montrons que l’attention peut être utilisée pour contrôler le
flux d’informations entre les couches successives des réseaux profonds. Cela permet à chaque
couche de ne traiter que le sous-ensemble des sorties des couches précédemment calculées
qui sont les plus pertinentes. Cela améliore la généralisation sur les tâches de raisonnement
relationnel ainsi que sur les tâches de classification de référence standard.
|
8 |
Self-supervision for reinforcement learningAnand, Ankesh 03 1900 (has links)
Cette thèse tente de construire de meilleurs agents d'apprentissage par renforcement (RL) en tirant parti de l'apprentissage auto-supervisé. Il se présente sous la forme d'une thèse par article qui contient trois travaux.
Dans le premier article, nous construisons un benchmark basé sur les jeux Atari pour évaluer systématiquement les méthodes d'apprentissage auto-supervisé dans les environnements RL. Nous comparons un éventail de ces méthodes à travers une suite de tâches de sondage pour identifier leurs forces et leurs faiblesses. Nous montrons en outre qu'une nouvelle méthode contrastive ST-DIM excelle à capturer la plupart des facteurs génératifs dans les environnements étudiés, sans avoir besoin de s'appuyer sur des étiquettes ou des récompenses.
Dans le deuxième article, nous proposons des représentations auto-prédictives (SPR) qui apprennent un modèle latent auto-supervisé de la dynamique de l'environnement parallèlement à la résolution de la tâche RL en cours. Nous montrons que SPR réalise des améliorations spectaculaires dans l'état de l'art sur le benchmark Atari 100k difficile où les agents n'ont droit qu'à 2 heures d'expérience en temps réel.
Le troisième article étudie le rôle de la RL basée sur un modèle et de l'apprentissage auto-supervisé dans le contexte de la généralisation en RL. Grâce à des contrôles minutieux, nous montrons que la planification et l'apprentissage de représentation basé sur un modèle contribuent tous deux à une meilleure généralisation pour l'agent Muzero. Nous améliorons encore MuZero avec des objectifs d'apprentissage auto-supervisés auxiliaires, et montrons que cet agent MuZero++ obtient des résultats de pointe sur les benchmarks Procgen et Metaworld. / This thesis tries to build better Reinforcement Learning (RL) agents by leveraging self-supervised learning. It is presented as a thesis by article that contains three pieces of work.
In the first article, we construct a benchmark based on Atari games to systematically evaluate self-supervised learning methods in RL environments. We compare an array of such methods across a suite of probing tasks to identify their strengths and weaknesses. We further show that a novel contrastive method ST-DIM excels at capturing most generative factors in the studied environments, without needing to rely on labels or rewards.
In the second article, we propose Self-Predictive Representations (SPR) that learns a self-supervised latent model of the environment dynamics alongside solving the RL task at hand. We show that SPR achieves dramatic improvements in state-of-the-art on the challenging Atari 100k benchmark where agents are allowed only 2 hours of real-time experience.
The third article studies the role of model-based RL and self-supervised learning in the context of generalization in RL. Through careful controls, we show that planning and model-based representation learning both contribute towards better generalization for the Muzero agent. We further improve MuZero with auxiliary self-supervised learning objectives, and show that this MuZero++ agent achieves state-of-the-art results on the Procgen and Metaworld benchmarks.
|
9 |
Parametric Scattering NetworksGauthier, Shanel 04 1900 (has links)
La plupart des percées dans l'apprentissage profond et en particulier dans les réseaux de neurones convolutifs ont impliqué des efforts importants pour collecter et annoter des quantités massives de données. Alors que les mégadonnées deviennent de plus en plus répandues, il existe de nombreuses applications où la tâche d'annoter plus d'un petit nombre d'échantillons est irréalisable, ce qui a suscité un intérêt pour les tâches d'apprentissage sur petits échantillons.
Il a été montré que les transformées de diffusion d'ondelettes sont efficaces dans le cadre de données annotées limitées. La transformée de diffusion en ondelettes crée des invariants géométriques et une stabilité de déformation. Les filtres d'ondelettes utilisés dans la transformée de diffusion sont généralement sélectionnés pour créer une trame serrée via une ondelette mère paramétrée. Dans ce travail, nous étudions si cette construction standard est optimale. En nous concentrant sur les ondelettes de Morlet, nous proposons d'apprendre les échelles, les orientations et les rapports d'aspect des filtres. Nous appelons notre approche le Parametric Scattering Network. Nous illustrons que les filtres appris par le réseau de diffusion paramétrique peuvent être interprétés en fonction de la tâche spécifique sur laquelle ils ont été entrainés. Nous démontrons également empiriquement que notre transformée de diffusion paramétrique partage une stabilité aux déformations similaire à la transformée de diffusion traditionnelle. Enfin, nous montrons que notre version apprise de la transformée de diffusion génère des gains de performances significatifs par rapport à la transformée de diffusion standard lorsque le nombre d'échantillions d'entrainement est petit. Nos résultats empiriques suggèrent que les constructions traditionnelles des ondelettes ne sont pas toujours nécessaires. / Most breakthroughs in deep learning have required considerable effort to collect massive amounts of well-annotated data. As big data becomes more prevalent, there are many applications where annotating more than a small number of samples is impractical, leading to growing interest in small sample learning tasks and deep learning approaches towards them.
Wavelet scattering transforms have been shown to be effective in limited labeled data settings. The wavelet scattering transform creates geometric invariants and deformation stability. In multiple signal domains, it has been shown to yield more discriminative representations than other non-learned representations and to outperform learned representations in certain tasks, particularly on limited labeled data and highly structured signals. The wavelet filters used in the scattering transform are typically selected to create a tight frame via a parameterized mother wavelet. In this work, we investigate whether this standard wavelet filterbank construction is optimal. Focusing on Morlet wavelets, we propose to learn the scales, orientations, and aspect ratios of the filters to produce problem-specific parameterizations of the scattering transform. We call our approach the Parametric Scattering Network. We illustrate that filters learned by parametric scattering networks can be interpreted according to the specific task on which they are trained. We also empirically demonstrate that our parametric scattering transforms share similar stability to deformations as the traditional scattering transforms. We also show that our approach yields significant performance gains in small-sample classification settings over the standard scattering transform. Moreover, our empirical results suggest that traditional filterbank constructions may not always be necessary for scattering transforms to extract useful representations.
|
10 |
Benchmarking bias mitigation algorithms in representation learning through fairness metricsReddy, Charan 07 1900 (has links)
Le succès des modèles d’apprentissage en profondeur et leur adoption rapide dans de nombreux
domaines d’application ont soulevé d’importantes questions sur l’équité de ces modèles lorsqu’ils
sont déployés dans le monde réel. Des études récentes ont mis en évidence les biais encodés
par les algorithmes d’apprentissage des représentations et ont remis en cause la fiabilité de telles
approches pour prendre des décisions. En conséquence, il existe un intérêt croissant pour la
compréhension des sources de biais dans l’apprentissage des algorithmes et le développement de
stratégies d’atténuation des biais. L’objectif des algorithmes d’atténuation des biais est d’atténuer
l’influence des caractéristiques des données sensibles sur les décisions d’éligibilité prises. Les
caractéristiques sensibles sont des caractéristiques privées et protégées d’un ensemble de données
telles que le sexe ou la race, qui ne devraient pas affecter les décisions de sortie d’éligibilité, c’està-dire les critères qui rendent un individu qualifié ou non qualifié pour une tâche donnée, comme
l’octroi de prêts ou l’embauche. Les modèles d’atténuation des biais visent à prendre des décisions
d’éligibilité sur des échantillons d’ensembles de données sans biais envers les attributs sensibles
des données d’entrée. La difficulté des tâches d’atténuation des biais est souvent déterminée par
la distribution de l’ensemble de données, qui à son tour est fonction du déséquilibre potentiel de
l’étiquette et des caractéristiques, de la corrélation des caractéristiques potentiellement sensibles
avec d’autres caractéristiques des données, du décalage de la distribution de l’apprentissage vers
le phase de développement, etc. Sans l’évaluation des modèles d’atténuation des biais dans
diverses configurations difficiles, leurs mérites restent incertains. Par conséquent, une analyse
systématique qui comparerait différentes approches d’atténuation des biais sous la perspective de
différentes mesures d’équité pour assurer la réplication des résultats conclus est nécessaire. À
cette fin, nous proposons un cadre unifié pour comparer les approches d’atténuation des biais.
Nous évaluons différentes méthodes d’équité formées avec des réseaux de neurones profonds sur
un ensemble de données synthétiques commun et un ensemble de données du monde réel pour
obtenir de meilleures informations sur le fonctionnement de ces méthodes. En particulier, nous
formons environ 3000 modèles différents dans diverses configurations, y compris des configurations
de données déséquilibrées et corrélées, pour vérifier les limites des modèles actuels et mieux
comprendre dans quelles configurations ils sont sujets à des défaillances. Nos résultats montrent que
le biais des modèles augmente à mesure que les ensembles de données deviennent plus déséquilibrés
ou que les attributs des ensembles de données deviennent plus corrélés, le niveau de dominance
des caractéristiques des ensembles de données sensibles corrélées a un impact sur le biais, et
les informations sensibles restent dans la représentation latente même lorsque des algorithmes
d’atténuation des biais sont appliqués. Résumant nos contributions - nous présentons un ensemble
de données, proposons diverses configurations d’évaluation difficiles et évaluons rigoureusement
les récents algorithmes prometteurs d’atténuation des biais dans un cadre commun et publions
publiquement cette référence, en espérant que la communauté des chercheurs le considérerait
comme un point d’entrée commun pour un apprentissage en profondeur équitable. / The rapid use and success of deep learning models in various application domains have raised
significant challenges about the fairness of these models when used in the real world. Recent
research has shown the biases incorporated within representation learning algorithms, raising
doubts about the dependability of such decision-making systems. As a result, there is a growing
interest in identifying the sources of bias in learning algorithms and developing bias-mitigation
techniques. The bias-mitigation algorithms aim to reduce the impact of sensitive data aspects on
eligibility choices. Sensitive features are private and protected features of a dataset, such as gender
of the person or race, that should not influence output eligibility decisions, i.e., the criteria that
determine whether or not an individual is qualified for a particular activity, such as lending or
hiring. Bias mitigation models are designed to make eligibility choices on dataset samples without
bias toward sensitive input data properties. The dataset distribution, which is a function of the
potential label and feature imbalance, the correlation of potentially sensitive features with other
features in the data, the distribution shift from training to the development phase, and other factors,
determines the difficulty of bias-mitigation tasks. Without evaluating bias-mitigation models in
various challenging setups, the merits of deep learning approaches to these tasks remain unclear.
As a result, a systematic analysis is required to compare different bias-mitigation procedures using
various fairness criteria to ensure that the final results are replicated. In order to do so, this thesis
offers a single paradigm for comparing bias-mitigation methods. To better understand how these
methods work, we compare alternative fairness algorithms trained with deep neural networks on a
common synthetic dataset and a real-world dataset. We train around 3000 distinct models in various
setups, including imbalanced and correlated data configurations, to validate the present models’
limits and better understand which setups are prone to failure. Our findings show that as datasets
become more imbalanced or dataset attributes become more correlated, model bias increases, the
dominance of correlated sensitive dataset features influence bias, and sensitive data remains in the
latent representation even after bias-mitigation algorithms are applied. In summary, we present a
dataset, propose multiple challenging assessment scenarios, rigorously analyse recent promising
bias-mitigation techniques in a common framework, and openly disclose this benchmark as an entry
point for fair deep learning.
|
Page generated in 0.1375 seconds