211 |
Fear prediction for training robust RL agentsGauthier, Charlie 03 1900 (has links)
Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à
accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à
propos du monde qui les entourent de façon graduelle et adaptive. Parmi d’autres raisons,
c’est pourquoi cette branche de l’intelligence artificielle est une des avenues les plus promet-
teuses pour le contrôle des robots généralistes de demain. Cependant, la sûreté de ces algo-
rithmes de contrôle restent un champ de recherche actif. La majorité des algorithmes “d’ap-
prentissage par renforcement sûr” tâchent d’assurer la sécurité de la politique de contrôle
tant durant l’apprentissage que pendant le déploiement ou l’évaluation. Dans ce travail, nous
proposons une stratégie complémentaire.
Puisque la majorité des algorithmes de contrôle pour la robotique sont développés, entraî-
nés, et testés en simulation pour éviter d’endommager les vrais robots, nous pouvons nous
permettre d’agir de façon dangereuse dans l’environnement simulé. Nous démontrons qu’en
donnant des buts dangereux à effectuer à l’algorithme d’apprentissage durant l’apprentissage,
nous pouvons produire des populations de politiques de contrôle plus sûres au déploiement
ou à l’évaluation qu’en sélectionnant les buts avec des techniques de l’état de l’art. Pour
ce faire, nous introduisons un nouvel agent à l’entraînement de la politique de contrôle, le
“Directeur”. Le rôle du Directeur est de sélectionner des buts qui sont assez difficiles pour
aider la politique à apprendre à les résoudre sans être trop difficiles ou trop faciles. Pour
aider le Directeur dans sa tâche, nous entraînons un réseau de neurones en ligne pour prédire
sur quels buts la politique de contrôle échouera. Armé de ce “réseau de la peur” (nommé
d’après la peur de la politique de contrôle), le Directeur parviens à sélectionner les buts de
façon à ce que les politiques de contrôles finales sont plus sûres et plus performantes que
les politiques entraînées à l’aide de méthodes de l’état de l’art, ou obtiennent des métriques
semblables. De plus, les populations de politiques entraînées par le Directeur ont moins de
variance dans leur comportement, et sont plus résistantes contre des attaques d’adversaires
sur les buts qui leur sont issus. / By learning from experience, goal-conditioned reinforcement learning methods learn from
their environments gradually and adaptively. Among other reasons, this makes them a
promising direction for the generalist robots of the future. However, the safety of these goal-
conditioned RL policies is still an active area of research. The majority of “Safe Reinforce-
ment Learning” methods seek to enforce safety both during training and during deployment
and/or evaluation. In this work, we propose a complementary strategy.
Because the majority of control algorithms for robots are developed, trained, and tested in
simulation to avoid damaging the real hardware, we can afford to let the policy act in unsafe
ways in the simulated environment. We show that by tasking the learning algorithm with
unsafe goals during its training, we can produce populations of final policies that are safer at
evaluation or deployment than when trained with state-of-the-art goal-selection methods. To
do so, we introduce a new agent to the training of the policy that we call the “Director”. The
Director’s role is to select goals that are hard enough to aid the policy’s training, without
being too hard or too easy. To help the Director in its task, we train a neural network online
to predict which goals are unsafe for the current policy. Armed with this “fear network”
(named after the policy’s own fear of violating its safety conditions), the Director is able
to select training goals such that the final trained policies are safer and more performant
than policies trained on state-of-the-art goal-selection methods (or just as safe/performant).
Additionally, the populations of policies trained by the Director show decreased variance in
their behaviour, along with increased resistance to adversarial attacks on the goals issued to
them.
|
212 |
Differentiable best response shapingAghajohari, Milad 07 1900 (has links)
Cette thèse est structurée en quatre sections. La première constitue une introduction au problème de la formation d'agents coopératifs non exploitables dans les jeux à somme non nulle. La deuxième section, soit le premier chapitre, fournit le contexte nécessaire pour discuter de l'étendue et des outils mathématiques requis pour explorer ce problème. La troisième section, correspondant au deuxième chapitre, expose un cadre spécifique, nommé Best Response Shaping, que nous avons élaboré pour relever ce défi. La quatrième section contient les conclusions que nous tirons de ce travail et nous y discutons des travaux futurs potentiels.
Le chapitre introductif se divise en quatre sections. Dans la première, nous présentons le cadre d'apprentissage par renforcement (Reinforcement Learning) afin de formaliser le problème d'un agent interagissant avec l'environnement pour maximiser une récompense scalaire. Nous introduisons ensuite les Processus Décisionnels de Markov (Markov Decision Processes) en tant qu'outil mathématique pour formaliser le problème d'apprentissage par renforcement. Nous discutons de deux méthodes générales de solution pour résoudre le problème d'apprentissage par renforcement. Les premières sont des méthodes basées sur la valeur qui estiment la récompense cumulée optimale réalisable pour chaque paire action-état, et la politique serait alors apprise. Les secondes sont des méthodes basées sur les politiques où la politique est optimisée directement sans estimer les valeurs. Dans la deuxième section, nous introduisons le cadre d'apprentissage par renforcement multi-agents (Multi-Agent Reinforcement Learning) pour formaliser le problème de plusieurs agents tentant de maximiser une récompense cumulative scalaire dans un environnement partagé. Nous présentons les Jeux Stochastiques comme une extension théorique du processus de décision de Markov pour permettre la présence de plusieurs agents. Nous discutons des trois types de jeux possibles entre agents en fonction de la structure de leur système de récompense. Nous traitons des défis spécifiques à l'apprentissage par renforcement multi-agents. En particulier, nous examinons le défi de l'apprentissage par renforcement profond multi-agents dans des environnements partiellement compétitifs, où les méthodes traditionnelles peinent à promouvoir une coopération non exploitable. Dans la troisième section, nous introduisons le Dilemme du prisonnier itéré (Iterated Prisoner's Dilemma) comme un jeu matriciel simple utilisé comme exemple de jouet pour étudier les dilemmes sociaux. Dans la quatrième section, nous présentons le Coin Game comme un jeu à haute dimension qui doit être résolu grâce à des politiques paramétrées par des réseaux de neurones.
Dans le deuxième chapitre, nous introduisons la méthode Forme de la Meilleure Réponse (Best Response Shaping). Des approches existantes, comme celles des agents LOLA et POLA, apprennent des politiques coopératives non exploitables en se différenciant grâce à des étapes d'optimisation prédictives de leur adversaire. Toutefois, ces techniques présentent une limitation majeure car elles sont susceptibles d'être exploitées par une optimisation supplémentaire. En réponse à cela, nous introduisons une nouvelle approche, Forme de la Meilleure Réponse, qui se différencie par le fait qu'un adversaire approxime la meilleure réponse, que nous appelons le "détective". Pour conditionner le détective sur la politique de l'agent dans les jeux complexes, nous proposons un mécanisme de conditionnement différenciable sensible à l'état, facilité par une méthode de questions-réponses (QA) qui extrait une représentation de l'agent basée sur son comportement dans des états d'environnement spécifiques. Pour valider empiriquement notre méthode, nous mettons en évidence sa performance améliorée face à un adversaire utilisant l'Arbre de Recherche Monte Carlo (Monte Carlo Tree Search), qui sert d'approximation de la meilleure réponse dans le Coin Game. / This thesis is organized in four sections.The first is an introduction to the problem of training non-exploitable cooperative agents in general-sum games. The second section, the first chapter, provides the necessary background for discussing the scope and necessary mathematical tools for exploring this problem. The third section, the second chapter, explains a particular framework, Best Response Shaping, that we developed for tackling this challenge. In the fourth section, is the conclusion that we drive from this work and we discuss the possible future works.
The background chapter consists of four section. In the first section, we introduce the \emph{Reinforcement Learning } framework for formalizing the problem of an agent interacting with the environment maximizing a scalar reward. We then introduce \emph{Markov Decision Processes} as a mathematical tool to formalize the Reinforcement Learning problem. We discuss two general solution methods for solving the Reinforcement Learning problem. The first are Value-based methods that estimate the optimal achievable accumulative reward in each action-state pair and the policy would be learned. The second are Policy-based methods where the policy is optimized directly without estimating the values. In the second section, we introduce \emph{Multi-Agent Reinforcement Learning} framework for formalizing multiple agents trying to maximize a scalar accumulative reward in a shared environment. We introduce \emph{Stochastic Games} as a theoretical extension of the Markov Decision Process to allow multiple agents. We discuss the three types of possible games between agents based on the setup of their reward structure. We discuss the challenges that are specific to Multi-Agent Reinforcement Learning. In particular, we investigate the challenge of multi-agent deep reinforcement learning in partially competitive environments, where traditional methods struggle to foster non-exploitable cooperation. In the third section, we introduce the \emph{Iterated Prisoner's Dilemma} game as a simple matrix game used as a toy-example for studying social dilemmas. In the Fourth section, we introduce the \emph{Coin Game} as a high-dimensional game that should be solved via policies parameterized by neural networks.
In the second chapter, we introduce the Best Response Shaping (BRS) method. The existing approaches like LOLA and POLA agents learn non-exploitable cooperative policies by differentiation through look-ahead optimization steps of their opponent. However, there is a key limitation in these techniques as they are susceptible to exploitation by further optimization. In response, we introduce a novel approach, Best Response Shaping (BRS), which differentiates through an opponent approximating the best response, termed the "detective." To condition the detective on the agent's policy for complex games we propose a state-aware differentiable conditioning mechanism, facilitated by a question answering (QA) method that extracts a representation of the agent based on its behaviour on specific environment states. To empirically validate our method, we showcase its enhanced performance against a Monte Carlo Tree Search (MCTS) opponent, which serves as an approximation to the best response in the Coin Game.
This work expands the applicability of multi-agent RL in partially competitive environments and provides a new pathway towards achieving improved social welfare in general sum games.
|
213 |
Sample efficient reinforcement learning for biological sequence designNouri, Padideh 08 1900 (has links)
L’apprentissage par renforcement profond a mené à de nombreux résultats prometteurs dans
l’apprentissage des jeux vidéo à partir de pixels, dans la robotique pour l’apprentissage de
compétences généralisables et dans les soins de santé pour l’apprentissage de traitement
dynamiques. Un obstacle demeure toutefois: celui du manque d’efficacité dans le nombre
d’échantillons nécessaires pour obtenir de bons résultats. Pour résoudre ce problème, notre
objectif est d’améliorer l’efficacité de l’apprentissage en améliorant les capacité d’acquisition
de nouvelles données, un problème d’exploration. L’approche proposée consiste à :
(1) Apprendre un ensemble diversifié d’environments (donnant lieu à un changement de
dynamique)
(2) Apprendre une politique capable de mieux s’adapter aux changements dans l’envi-
ronnement, à l’aide du méta-apprentissage.
Cette méthode peut avoir des impacts bénéfiques dans de nombreux problèmes du
monde réel tels que la découverte de médicaments, dans laquelle nous sommes confrontés
à un espace d’actions très grand. D’autant plus, la conception de nouvelles substances
thérapeutiques qui sont fonctionnellement intéressantes nécessite une exploration efficace
du paysage de la recherche. / Deep reinforcement learning has led to promising results in learning video games from pixels,
robotics for learning generalizable skills, and healthcare for learning dynamic treatments.
However, an obstacle remains the lack of efficiency in the number of samples required to
achieve good results. To address this problem, our goal is to improve sample efficiency by
improving the ability to acquire new data, an issue of exploration. The proposed approach
is to:
(1) Learn a diverse set of environments (resulting in a change of dynamics)
(2) earn a policy that can better adapt to changes in the environment using meta-learning
This method can benefit many real-world problems, such as drug discovery, where we
face a large action space. Furthermore, designing new therapeutic substances that are
functionally interesting requires efficient exploration of the research landscape
|
214 |
Learning and planning with noise in optimization and reinforcement learningThomas, Valentin 06 1900 (has links)
La plupart des algorithmes modernes d'apprentissage automatique intègrent un
certain degré d'aléatoire dans leurs processus, que nous appellerons le
bruit, qui peut finalement avoir un impact sur les prédictions du modèle. Dans cette thèse, nous examinons de plus près l'apprentissage et la planification en présence de bruit pour les algorithmes d'apprentissage par renforcement et d'optimisation.
Les deux premiers articles présentés dans ce document se concentrent sur l'apprentissage par renforcement dans un environnement inconnu, et plus précisément sur la façon dont nous pouvons concevoir des algorithmes qui utilisent la stochasticité de leur politique et de l'environnement à leur avantage.
Notre première contribution présentée dans ce document se concentre sur le cadre
de l'apprentissage par renforcement non supervisé. Nous montrons comment un
agent laissé seul dans un monde inconnu sans but précis peut apprendre quels
aspects de l'environnement il peut contrôler indépendamment les uns des autres,
ainsi qu'apprendre conjointement une représentation latente démêlée de ces
aspects que nous appellerons \emph{facteurs de variation}.
La deuxième contribution se concentre sur la planification dans les tâches de
contrôle continu. En présentant l'apprentissage par renforcement comme un
problème d'inférence, nous empruntons des outils provenant de la littérature sur
les m\'thodes de Monte Carlo séquentiel pour concevoir un algorithme efficace
et théoriquement motiv\'{e} pour la planification probabiliste en utilisant un
modèle appris du monde. Nous montrons comment l'agent peut tirer parti de note
objectif probabiliste pour imaginer divers ensembles de solutions.
Les deux contributions suivantes analysent l'impact du bruit de gradient dû à l'échantillonnage dans les algorithmes d'optimisation.
La troisième contribution examine le rôle du bruit de l'estimateur du gradient dans l'estimation par maximum de vraisemblance avec descente de gradient stochastique, en explorant la relation entre la structure du bruit du gradient et la courbure locale sur la généralisation et la vitesse de convergence du modèle.
Notre quatrième contribution revient sur le sujet de l'apprentissage par
renforcement pour analyser l'impact du bruit d'échantillonnage sur l'algorithme
d'optimisation de la politique par ascension du gradient. Nous constatons que le
bruit d'échantillonnage peut avoir un impact significatif sur la dynamique
d'optimisation et les politiques découvertes en apprentissage par
renforcement. / Most modern machine learning algorithms incorporate a degree of randomness in their processes, which we will refer to as noise, which can ultimately impact the model's predictions. In this thesis, we take a closer look at learning and planning in the presence of noise for reinforcement learning and optimization algorithms.
The first two articles presented in this document focus on reinforcement learning in an unknown environment, specifically how we can design algorithms that use the stochasticity of their policy and of the environment to their advantage.
Our first contribution presented in this document focuses on the unsupervised reinforcement learning setting. We show how an agent left alone in an unknown world without any specified goal can learn which aspects of the environment it can control independently from each other as well as jointly learning a disentangled latent representation of these aspects, or factors of variation.
The second contribution focuses on planning in continuous control tasks. By framing reinforcement learning as an inference problem, we borrow tools from Sequential Monte Carlo literature to design a theoretically grounded and efficient algorithm for probabilistic planning using a learned model of the world. We show how the agent can leverage the uncertainty of the model to imagine a diverse set of solutions.
The following two contributions analyze the impact of gradient noise due to sampling in optimization algorithms.
The third contribution examines the role of gradient noise in maximum likelihood estimation with stochastic gradient descent, exploring the relationship between the structure of the gradient noise and local curvature on the generalization and convergence speed of the model.
Our fourth contribution returns to the topic of reinforcement learning to analyze the impact of sampling noise on the policy gradient algorithm. We find that sampling noise can significantly impact the optimization dynamics and policies discovered in on-policy reinforcement learning.
|
215 |
Agent abstraction in multi-agent reinforcement learningMemarian, Amin 06 1900 (has links)
Cette thèse est organisée en deux chapitres. Le premier chapitre sert d’introduction aux concepts et idées utilisés dans le deuxième chapitre (l’article).
Le premier chapitre est divisé en trois sections. Dans la première section, nous introduisons l’apprentissage par renforcement en tant que paradigme d’apprentissage automatique et montrons comment ses problèmes sont formalisés à l’aide de processus décisionnels de Markov. Nous formalisons les buts sous forme de rendements attendus et montrons comment les équations de Bellman utilisent la formulation récursive du rendement pour établir une relation entre les valeurs de deux états successifs sous la politique de l’agent. Après cela, nous soutenons que la résolution des équations d’optimalité de Bellman est insoluble et introduisons des algorithmes basés sur des valeurs tels que la programmation dynamique, les méthodes de Monte Carlo et les méthodes de différence temporelle qui se rapprochent de la solution optimale à l’aide de l’itération de politique généralisée. L’approximation de fonctions est ensuite proposée comme moyen de traiter les grands espaces d’états. Nous discutons également de la manière dont les méthodes basées sur les politiques optimisent directement la politique sans optimiser la fonction de valeur. Dans la deuxième section, nous introduisons les jeux de Markov comme une extension des processus décisionnels de Markov pour plusieurs agents. Nous couvrons les différents cadres formés par les différentes structures de récompense et donnons les dilemmes sociaux séquentiels comme exemple du cadre d’incitation mixte. En fin de compte, nous introduisons différentes structures d’information telles que l’apprentissage centralisé qui peuvent aider à faire face à la non-stationnarité in- duite par l’adversaire. Enfin, dans la troisième section, nous donnons un bref aperçu des types d’abstraction d’état et introduisons les métriques de bisimulation comme un concept inspiré de l’abstraction de non-pertinence du modèle qui mesure la similarité entre les états.
Dans le deuxième chapitre (l’article), nous approfondissons finalement l’abstraction d’agent en tant que métrique de bisimulation et dérivons un facteur de compression que nous pouvons appliquer à la diplomatie pour révéler l’agence supérieure sur les unités de joueur. / This thesis is organized into two chapters. The first chapter serves as an introduction to the concepts and ideas used in the second chapter (the article).
The first chapter is divided into three sections. In the first section, we introduce Reinforcement Learning as a Machine Learning paradigm and show how its problems are formalized using Markov Decision Processes. We formalize goals as expected returns and show how the Bellman equations use the recursive formulation of return to establish a relation between the values of two successive states under the agent’s policy. After that, we argue that solving the Bellman optimality equations is intractable and introduce value-based algorithms such as Dynamic Programming, Monte Carlo methods, and Temporal Difference methods that approximate the optimal solution using Generalized Policy Iteration. Function approximation is then proposed as a way of dealing with large state spaces. We also discuss how policy-based methods optimize the policy directly without optimizing the value function. In the second section, we introduce Markov Games as an extension of Markov Decision Processes for multiple agents. We cover the different settings formed by the different reward structures and give Sequential Social Dilemmas as an example of the mixed-incentive setting. In the end, we introduce different information structures such as centralized learning that can help deal with the opponent-induced non-stationarity. Finally, in the third section, we give a brief overview of state abstraction types and introduce bisimulation metrics as a concept inspired by model-irrelevance abstraction that measures the similarity between states.
In the second chapter (the article), we ultimately delve into agent abstraction as a bisimulation metric and derive a compression factor that we can apply to Diplomacy to reveal the higher agency over the player units.
|
216 |
Towards adaptive deep model-based reinforcement learningRahimi-Kalahroudi, Ali 08 1900 (has links)
L'une des principales caractéristiques comportementales utilisées en neurosciences afin de déterminer si le sujet d'étude --- qu'il s'agisse d'un rongeur ou d'un humain --- démontre un apprentissage basé sur un modèle (model-based) est une adaptation efficace aux changements locaux de l'environnement. Dans l'apprentissage par renforcement (RL), cependant, nous démontrons, en utilisant une version améliorée de la configuration d'adaptation au changement local (LoCA) récemment introduite, que les méthodes bien connues d'apprentissage par renforcement basées sur un modèle (MBRL) telles que PlaNet et DreamerV2 présentent un déficit dans leur capacité à s'adapter aux changements environnementaux locaux. En combinaison avec des travaux antérieurs qui ont fait une observation similaire sur l'autre méthode populaire basée sur un modèle, MuZero, une tendance semble émerger, suggérant que les méthodes MBRL profondes actuelles ont de sérieuses limites. Nous approfondissons les causes de ces mauvaises performances en identifiant les éléments qui nuisent au comportement adaptatif et en les reliant aux techniques sous-jacentes fréquemment utilisées dans la RL basée sur un modèle profond, à la fois en matière d'apprentissage du modèle mondial et de la routine de planification. Nos résultats démontrent qu'une exigence particulièrement difficile pour les méthodes MBRL profondes est qu'il est difficile d'atteindre un modèle mondial suffisamment précis dans toutes les parties pertinentes de l'espace d'état en raison de l'oubli catastrophique. Et tandis qu'un tampon de relecture peut atténuer les effets de l'oubli catastrophique, un tampon de relecture traditionnel premier-entré-premier-sorti empêche une adaptation efficace en raison du maintien de données obsolètes. Nous montrons qu'une variante conceptuellement simple de ce tampon de relecture traditionnel est capable de surmonter cette limitation. En supprimant uniquement les échantillons du tampon de la région locale des échantillons nouvellement observés, des modèles de monde profond peuvent être construits qui maintiennent leur précision dans l'espace d'état, tout en étant capables de s'adapter efficacement aux changements locaux de la fonction de récompense. Nous démontrons qu’en appliquant notre variation de tampon de relecture à une version profonde de la méthode Dyna classique, ainsi qu'à des méthodes récentes telles que PlaNet et DreamerV2, les méthodes basées sur des modèles profonds peuvent également s'adapter efficacement aux changements locaux de l'environnement. / One of the key behavioral characteristics used in neuroscience to determine whether the subject of study---be it a rodent or a human---exhibits model-based learning is effective adaptation to local changes in the environment. In reinforcement learning (RL), however, we demonstrate, using an improved version of the recently introduced Local Change Adaptation (LoCA) setup, that well-known model-based reinforcement learning (MBRL) methods such as PlaNet and DreamerV2 perform poorly in their ability to adapt to local environmental changes. Combined with prior work that made a similar observation about the other popular model-based method, MuZero, a trend appears to emerge, suggesting that current deep MBRL methods have serious limitations. We dive deeper into the causes of this poor performance by identifying elements that hurt adaptive behavior and linking these to underlying techniques frequently used in deep model-based RL, both in terms of learning the world model and the planning routine. Our findings demonstrate that one particularly challenging requirement for deep MBRL methods is that attaining a world model that is sufficiently accurate throughout relevant parts of the state-space is challenging due to catastrophic forgetting. And while a replay buffer can mitigate the effects of catastrophic forgetting, the traditional first-in-first-out replay buffer precludes effective adaptation due to maintaining stale data. We show that a conceptually simple variation of this traditional replay buffer is able to overcome this limitation. By removing only samples from the buffer from the local neighbourhood of the newly observed samples, deep world models can be built that maintain their accuracy across the state-space, while also being able to effectively adapt to local changes in the reward function. We demonstrate this by applying our replay-buffer variation to a deep version of the classical Dyna method, as well as to recent methods such as PlaNet and DreamerV2, demonstrating that deep model-based methods can adapt effectively as well to local changes in the environment.
|
217 |
Searching for Q*Piché, Alexandre 04 1900 (has links)
Les travaux dans cette thèse peuvent être vue à travers le prisme commun de la “recherche de Q*” et visent à mettre en évidence l’efficacité de la combinaison des systèmes d’apprentissage par renforcement (RL) profond et la planification. Le RL profond nous permet d’apprendre: 1) des politiques riches à partir desquelles nous pouvons échantillonner des actions futures potentielles, et 2) des fonctions Q précises permettant à l’agent d’évaluer l’impact potentiel de ses actions avant de les prendre. La planification permet à l’agent d’utiliser le calcul pour améliorer sa politique en évaluant plusieurs séquences potentielles d’actions futures et en sélectionnant la plus prometteuse. Dans cette thèse, nous explorons différentes façons de combiner ces deux composantes afin qu’elles se renforcent mutuellement et nous permettent d’obtenir des agents plus robustes.
La première contribution de cette thèse cadre le RL et la planification comme un pro- blème d’inférence. Ce cadre nous permet d’utiliser des techniques de Monte Carlo séquentiel pour approximer une distribution sur les trajectoires planifiées optimales. La deuxième contribution met en évidence une connexion entre les réseaux cibles utilisés dans l’appren- tissage Q profond et la régularisation fonctionnelle, ce qui nous conduit à une régularisation des fonctions Q plus flexible et “propre”. La troisième contribution simplifie le problème de RL via l’apprentissage supervisé en modélisant directement le retour futur comme une distribution, permettant à l’agent d’échantillonner des retours conditionnels à l’état présent plutôt qu’être un hyper paramètre specifique à chaque environnement. Enfin, la quatrième contribution propose un nouvel algorithme d’optimisation itératif basé sur l’auto-évaluation et l’auto-amélioration pour les grands modèles de langage, cet algorithme est utilisé pour réduire le taux d’hallucination des modèles sans compromettre leurs utilités. / The research in this thesis can be seen through the common lens of “Searching for Q*” and aims to highlight the effectiveness of combining deep Reinforcement Learning (RL) systems and search. Deep RL allows us to learn: 1) rich policies from which we can sample potential future actions, and 2) accurate Q-functions allowing the agent to evaluate the potential impact of its actions before taking them. Search allows the agent to use computation to improve its policy by evaluating multiple potential future sequences of actions and selecting the most promising one. In this thesis, we explore different ways to combine these two components, so they improve one another and allow us to obtain stronger agents.
The first contribution of this thesis frames RL and planning as an inference problem. This framing enables us to leverage Sequential Monte Carlo techniques to approximate a distribution over the optimal planned trajectories. The second contribution highlights a connection between Target Networks used in Q-learning and functional regularization, lead- ing us to a more flexible and “proper” regularization of Q-functions. The third contribution simplifies the RL via supervised learning (RvS) problem by directly modeling future return as a distribution, allowing the agent to sample returns on the fly instead of having it be a hyperparameter dependent on the environment. Finally, the fourth contribution proposes a novel iterative optimization algorithm based on self-evaluation and self-prompting for large language models, which reduces the hallucination rates of the model without compromising its helpfulness.
|
218 |
Optimizing vertical farming : control and scheduling algorithms for enhanced plant growthVu, Cong Vinh 10 1900 (has links)
L’agriculture verticale permet de contrôler presque totalement les conditions pour croître
des plantes, qu’il s’agisse des conditions météorologiques, des nutriments nécessaires à la
croissance des plantes ou même de la lutte contre les parasites. Il est donc possible de
trouver et de définir des paramètres susceptibles d’augmenter le rendement et la qualité des
récoltes et de minimiser la consommation d’énergie dans la mesure du possible. À cette fin,
ce mémoire présente des algorithmes d’optimisation tels qu’une version améliorée du recuit
simulé qui peut être utilisée pour trouver et donner des lignes directrices pour les paramètres
de l’agriculture verticale. Nous présentons égalementune contribution sur la façon dont les
algorithmes de contrôle, p. ex. l’apprentissage par renforcement profond avec les méthodes
critiques d’acteurs, peuvent être améliorés grâce à une exploration plus efficace en prenant
en compte de l’incertitude épistémique lors de la sélection des actions. cette contribution
peut profiter aux systèmes de contrôle conçus pour l’agriculture verticale. Nous montrons
que notre travail est capable de surpasser certains algorithmes utilisés pour l’optimisation et
le contrôle continu. / Vertical farming provides a way to have almost total control over agriculture, whether it be
controlling weather conditions, nutrients necessary for plant growth, or even pest control. As
such, it is possible to find and set parameters that can increase crop yield, and quality, and
minimize energy consumption where possible. To that end, this thesis presents optimization
algorithms such as an enhanced version of Simulated Annealing that can be used to find and
give guidelines for those parameters. We also present work on how real-time control algorithms such as Actor-Critic methods can be made to perform better through more efficient
exploration by taking into account epistemic uncertainty during action selection which can
also benefit control systems made for vertical farming. We show that our work is able to
outperform some algorithms used for optimization and continuous control.
|
219 |
Building sample-efficient reinforcement learningSchwarzer, Max Allen 11 1900 (has links)
L’efficacité des données est un défi clé pour l’apprentissage par renforcement profond (DRL), limitant souvent son utilisation aux environnements où des quantités illimitées de données simulées sont disponibles. J’envisage une gamme de solutions pour résoudre ce problème. Nous commençons par proposer une méthode permettant d’exploiter des données non étiquetées pour pré-entraîner des représentations qui sont ensuite affinées sur une petite quantité de données spécifiques à la tâche. Pour apprendre des représentations qui capturent divers aspects de la tâche sous-jacente, j’emploie une combinaison de modélisation des dynamiques latentes et de RL conditionné par objectif non supervisé. Cette approche surpasse nettement les travaux antérieurs combinant le pré-entraînement des représentations hors ligne avec l’affinement spécifique à la tâche, et se compare favorablement à d’autres méthodes de pré-entraînement nécessitant des ordres de grandeur plus de données. Nous identifions ensuite et discutons d’un défaut commun des algorithmes de DRL : une tendance à se fier aux interactions précoces et à ignorer les preuves utiles rencontrées plus tard. Les agents de DRL encourent un risque de surapprentissage par rapport aux expériences antérieures, affectant négativement le reste du processus d’apprentissage. Inspirés par les sciences cognitives, je fais référence à cet effet comme étant le biais de primauté. Nous proposons un mécanisme simple mais généralement applicable qui s’attaque au biais de primauté en réinitialisant périodiquement une partie de l’agent. Nous appliquons ce mécanisme aux algorithmes dans les domaines d’action discrets (Atari 100k) et continus (DeepMind Control Suite), améliorant constamment leurs performances. Nous démontrons ensuite que, poussée à l’extrême, cette approche basée sur la réinitialisation permet d’augmenter considérablement les ressources computationnelles même avec des données limitées, un phénomène que j’appelle franchir le mur du ratio de relecture. Les algorithmes basés sur cette stratégie sont capables d’exhiber un apprentissage beaucoup plus efficace que les travaux antérieurs, et permettent dans de nombreux cas un échange libre entre computation et données. Enfin, je conclue en démontrant qu’il est également possible de mettre à l’échelle les réseaux neuronaux utilisés dans le RL efficace en termes de données, simplement en modifiant certains hyperparamètres. En combinaison avec les autres avancées réalisées jusqu’à présent, cela nous permet d’atteindre une efficacité d’apprentissage surhumaine sur Atari 100k même en apprenant purement à partir de zéro et sans utiliser un modèle pour la planification. / Data efficiency is a key challenge for deep reinforcement learning (RL), often limiting its use to settings where unlimited quantities of simulated data are available. I consider a range of solutions to address this problem. I begin by proposing a method to leverage unlabeled data to pretrain representations that are then finetuned on a small amount of task-specific data. To learn representations that capture diverse aspects of the underlying task, I employ a combination of latent dynamics modeling and unsupervised goal-conditioned RL. This approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning and compares favorably with other pretraining methods that require orders of magnitude more data. I then identify and discuss a common flaw of deep RL algorithms: a tendency to rely on early interactions and ignore useful evidence encountered later. Deep RL agents incur a risk of overfitting to earlier experiences, negatively affecting the rest of the learning process. Inspired by cognitive science, I refer to this effect as the primacy bias. I propose a simple yet generally applicable mechanism that tackles the primacy bias by periodically resetting a part of the agent. I apply this mechanism to algorithms in both discrete (Atari 100k) and continuous action (DeepMind Control Suite) domains, consistently improving their performance. I then demonstrate that when taken to the extreme, this reset-based approach allows computational resources to be scaled up enormously even with limited data, a phenomenon which I call breaking the replay ratio barrier. Algorithms based on this strategy are able to exhibit far more efficient learning than prior work and allow computation and data to be freely exchanged in many cases. Finally, I conclude by demonstrating that it is also possible to scale up the neural networks used in sample-efficient RL, simply by changing certain hyperparameters. In combination with the other advances made so far, this allows us to achieve super-human learning efficiency on Atari 100k even when learning purely from scratch and not using a model for planning.
|
220 |
Self-supervision for reinforcement learningAnand, Ankesh 03 1900 (has links)
Cette thèse tente de construire de meilleurs agents d'apprentissage par renforcement (RL) en tirant parti de l'apprentissage auto-supervisé. Il se présente sous la forme d'une thèse par article qui contient trois travaux.
Dans le premier article, nous construisons un benchmark basé sur les jeux Atari pour évaluer systématiquement les méthodes d'apprentissage auto-supervisé dans les environnements RL. Nous comparons un éventail de ces méthodes à travers une suite de tâches de sondage pour identifier leurs forces et leurs faiblesses. Nous montrons en outre qu'une nouvelle méthode contrastive ST-DIM excelle à capturer la plupart des facteurs génératifs dans les environnements étudiés, sans avoir besoin de s'appuyer sur des étiquettes ou des récompenses.
Dans le deuxième article, nous proposons des représentations auto-prédictives (SPR) qui apprennent un modèle latent auto-supervisé de la dynamique de l'environnement parallèlement à la résolution de la tâche RL en cours. Nous montrons que SPR réalise des améliorations spectaculaires dans l'état de l'art sur le benchmark Atari 100k difficile où les agents n'ont droit qu'à 2 heures d'expérience en temps réel.
Le troisième article étudie le rôle de la RL basée sur un modèle et de l'apprentissage auto-supervisé dans le contexte de la généralisation en RL. Grâce à des contrôles minutieux, nous montrons que la planification et l'apprentissage de représentation basé sur un modèle contribuent tous deux à une meilleure généralisation pour l'agent Muzero. Nous améliorons encore MuZero avec des objectifs d'apprentissage auto-supervisés auxiliaires, et montrons que cet agent MuZero++ obtient des résultats de pointe sur les benchmarks Procgen et Metaworld. / This thesis tries to build better Reinforcement Learning (RL) agents by leveraging self-supervised learning. It is presented as a thesis by article that contains three pieces of work.
In the first article, we construct a benchmark based on Atari games to systematically evaluate self-supervised learning methods in RL environments. We compare an array of such methods across a suite of probing tasks to identify their strengths and weaknesses. We further show that a novel contrastive method ST-DIM excels at capturing most generative factors in the studied environments, without needing to rely on labels or rewards.
In the second article, we propose Self-Predictive Representations (SPR) that learns a self-supervised latent model of the environment dynamics alongside solving the RL task at hand. We show that SPR achieves dramatic improvements in state-of-the-art on the challenging Atari 100k benchmark where agents are allowed only 2 hours of real-time experience.
The third article studies the role of model-based RL and self-supervised learning in the context of generalization in RL. Through careful controls, we show that planning and model-based representation learning both contribute towards better generalization for the Muzero agent. We further improve MuZero with auxiliary self-supervised learning objectives, and show that this MuZero++ agent achieves state-of-the-art results on the Procgen and Metaworld benchmarks.
|
Page generated in 0.0334 seconds