La plupart des algorithmes modernes d'apprentissage automatique intègrent un
certain degré d'aléatoire dans leurs processus, que nous appellerons le
bruit, qui peut finalement avoir un impact sur les prédictions du modèle. Dans cette thèse, nous examinons de plus près l'apprentissage et la planification en présence de bruit pour les algorithmes d'apprentissage par renforcement et d'optimisation.
Les deux premiers articles présentés dans ce document se concentrent sur l'apprentissage par renforcement dans un environnement inconnu, et plus précisément sur la façon dont nous pouvons concevoir des algorithmes qui utilisent la stochasticité de leur politique et de l'environnement à leur avantage.
Notre première contribution présentée dans ce document se concentre sur le cadre
de l'apprentissage par renforcement non supervisé. Nous montrons comment un
agent laissé seul dans un monde inconnu sans but précis peut apprendre quels
aspects de l'environnement il peut contrôler indépendamment les uns des autres,
ainsi qu'apprendre conjointement une représentation latente démêlée de ces
aspects que nous appellerons \emph{facteurs de variation}.
La deuxième contribution se concentre sur la planification dans les tâches de
contrôle continu. En présentant l'apprentissage par renforcement comme un
problème d'inférence, nous empruntons des outils provenant de la littérature sur
les m\'thodes de Monte Carlo séquentiel pour concevoir un algorithme efficace
et théoriquement motiv\'{e} pour la planification probabiliste en utilisant un
modèle appris du monde. Nous montrons comment l'agent peut tirer parti de note
objectif probabiliste pour imaginer divers ensembles de solutions.
Les deux contributions suivantes analysent l'impact du bruit de gradient dû à l'échantillonnage dans les algorithmes d'optimisation.
La troisième contribution examine le rôle du bruit de l'estimateur du gradient dans l'estimation par maximum de vraisemblance avec descente de gradient stochastique, en explorant la relation entre la structure du bruit du gradient et la courbure locale sur la généralisation et la vitesse de convergence du modèle.
Notre quatrième contribution revient sur le sujet de l'apprentissage par
renforcement pour analyser l'impact du bruit d'échantillonnage sur l'algorithme
d'optimisation de la politique par ascension du gradient. Nous constatons que le
bruit d'échantillonnage peut avoir un impact significatif sur la dynamique
d'optimisation et les politiques découvertes en apprentissage par
renforcement. / Most modern machine learning algorithms incorporate a degree of randomness in their processes, which we will refer to as noise, which can ultimately impact the model's predictions. In this thesis, we take a closer look at learning and planning in the presence of noise for reinforcement learning and optimization algorithms.
The first two articles presented in this document focus on reinforcement learning in an unknown environment, specifically how we can design algorithms that use the stochasticity of their policy and of the environment to their advantage.
Our first contribution presented in this document focuses on the unsupervised reinforcement learning setting. We show how an agent left alone in an unknown world without any specified goal can learn which aspects of the environment it can control independently from each other as well as jointly learning a disentangled latent representation of these aspects, or factors of variation.
The second contribution focuses on planning in continuous control tasks. By framing reinforcement learning as an inference problem, we borrow tools from Sequential Monte Carlo literature to design a theoretically grounded and efficient algorithm for probabilistic planning using a learned model of the world. We show how the agent can leverage the uncertainty of the model to imagine a diverse set of solutions.
The following two contributions analyze the impact of gradient noise due to sampling in optimization algorithms.
The third contribution examines the role of gradient noise in maximum likelihood estimation with stochastic gradient descent, exploring the relationship between the structure of the gradient noise and local curvature on the generalization and convergence speed of the model.
Our fourth contribution returns to the topic of reinforcement learning to analyze the impact of sampling noise on the policy gradient algorithm. We find that sampling noise can significantly impact the optimization dynamics and policies discovered in on-policy reinforcement learning.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32122 |
Date | 06 1900 |
Creators | Thomas, Valentin |
Contributors | Bengio, Yoshua, Le Roux, Nicolas |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0028 seconds