Spelling suggestions: "subject:"explorationexploitation tradeoff"" "subject:"explorationexploitation trade.off""
1 |
Les bases neuronales de l’apprentissage décisionnel au sein des ganglions de la base : étude électrophysiologique et comportementale chez le primate non humain / The neural bases of decision learning in the basal ganglia : an electrophysiological and behavioral approach in the non-human primateLaquitaine, Steeve 08 November 2010 (has links)
Une question fondamentale en neuroscience, ainsi que dans de nombreuses disciplines s’intéressant à la compréhension du comportement, telles que la psychologie, l’Economie, et la sociologie, concerne les processus décisionnels par lesquels les animaux et les humains sélectionnent des actions renforcées positivement ou négativement. Les processus décisionnels ainsi que leur base neuronale demeurent mal compris. D’autre part de nombreuses études ont révélé que les humains ainsi que les animaux prennent souvent des décisions sous-optimales. Notre principal objectif a été de comprendre la raison de ces comportements sous-optimaux. Par ailleurs, l’altération des processus sous-tendant la prise de décision, entraîne des pathologies. La compréhension des mécanismes décisionnels est essentielle au développement de stratégies de traitements plus efficaces. Dans cette étude nous avons proposé une nouvelle approche de l’étude des comportements décisionnels, basée sur l’hétérogénéité des préférences créées au cours de l’apprentissage du choix. Puis nous avons corrélé l’activité du putamen et du globus pallidus interne aux comportements préalablement décrits. Nos résultats montrent que bien que les primates apprennent à identifier la meilleure option et convergent vers une stratégie optimale dans un nombre important de sessions, ils n’arrivent pas en moyenne à optimiser leur comportement. Nous avons montré que ce comportement suboptimal des primates est caractérisé par la création de préférences irrationnelles par ces derniers pour des paramètres non pertinents de l’environnement. Nous avons finalement montré que bien qu’un faible nombre de neurones du putamen encode la valeur de l’action, leur contribution à l’activité de population est faible. L’activité du putamen reflète les futures performances des primates et prédit donc la formation des comportements irrationnels et rationnels. / A fundamental question in neuroscience, as well as in various fields such as economics, psychology and sociology, concerns the decision making processes by which animals and humans select actions based on reward and punishment. Both decision making processes and their neural basis are still poorly understood. Also, both human and animals often make suboptimal decisions in many tasks studied. Our first aim is to improve the understanding of why such sub-optimal decisions are made. Also, the alteration of decision making processes causes diseases, the understanding of whose mechanisms is essential in developing better treatment strategies. In this report, we propose a new approach which consists in extracting the neural substrates of choice behavior heterogeneity in between sessions. Our results show that although primates learn on average to identify the best option and converge to an optimal policy in a consequent number of sessions, they fail on average to optimize their behavior. We revealed that this suboptimal behavior was characterized by an unexpected high behavioral heterogeneity during the task that was due to the creation of irrelevant preferences by the monkeys. We finally show that although a few neurons of the putamen encode the action value, their contribution to the overall population activity is weak. Putamen activity rather reflects the futures performances and predicts the creation of rational and irrational behaviors.
|
2 |
S-MARL: An Algorithm for Single-To-Multi-Agent Reinforcement Learning : Case Study: Formula 1 Race StrategiesDavide, Marinaro January 2023 (has links)
A Multi-Agent System is a group of autonomous, intelligent, interacting agents sharing an environment that they observe through sensors, and upon which they act with actuators. The behaviors of these agents can be either defined upfront by programmers or learned by trial-and-error resorting to Reinforcement Learning. In this last context, the approaches proposed by literature can be categorized either as Single-Agent or Multi-Agent. The former approaches experience more stable training at the cost of defining upfront the policies of all the agents that are not learning, with the risk of limiting the performances of the learned policy. The latter approaches do not have such a limitation but experience higher training instability. Therefore, we propose a new approach based on the transition from Single-Agent to Multi-Agent Reinforcement Learning that exploits the benefits of both approaches: higher stability at the beginning of the training to learn the environment’s dynamics, and unconstrained agents in the latest phases. To conduct this study, we chose Formula 1 as the Multi-Agent System, a complex environment with more than two interacting agents. In doing so, we designed a realistic racing simulation environment, framed as a Markov Decision Process, able to reproduce the core dynamics of races. After that, we trained three agents based on Semi-Gradient Q-Learning with different frameworks: pure Single-Agent, pure Multi-Agent, and Single-to-Multi-Agent. The results established that, given the same initial conditions and training episodes, our approach outperforms both the Single-Agent and Multi-Agent frameworks, obtaining higher scores in the proposed benchmarks. / Ett system med flera agenter är en grupp autonoma, intelligenta, interagerande agenter som delar en miljö som de observerar med hjälp av sensorer och som de agerar på med hjälp av agenter. Beteendena hos dessa agenter kan antingen definieras i förväg av programmerare eller läras in genom försök och misstag med hjälp av förstärkningsinlärning. I det sistnämnda sammanhanget kan de metoder som föreslagits i litteraturen kategoriseras som antingen en eller flera agenter. De förstnämnda tillvägagångssätten ger en stabilare utbildning till priset av att man i förväg måste definiera politiken för alla de agenter som inte lär sig, vilket innebär en risk för att den inlärda politikens prestanda begränsas. De senare metoderna har inte en sådan begränsning men upplever en högre instabilitet i utbildningen. Därför föreslår vi en ny metod som bygger på övergången från förstärkningsinlärning med en agent till förstärkningsinlärning med flera agenter och som utnyttjar fördelarna med båda metoderna: högre stabilitet i början av utbildningen för att lära sig miljöns dynamik och agenter utan begränsningar i de senaste faserna. För att genomföra den här studien valde vi Formel 1 som ett system med flera agenter, en komplex miljö med mer än två interagerande agenter. Vi utformade därför en realistisk simulering av tävlingar som är utformad som en Markov-beslutsprocess och som kan återge den centrala dynamiken i tävlingar. Därefter tränade vi tre agenter baserat på Semi-Gradient Q-Learning med olika ramar: ren Single-Agent, ren Multi-Agent och Single-to-Multi-Agent. Resultaten visade att vår metod, med samma startvillkor och träningsepisoder, överträffar både Single-Agent- och Multi-Agent-ramarna och får högre poäng i de föreslagna riktmärkena.
|
3 |
Statistical Design of Sequential Decision Making AlgorithmsChi-hua Wang (12469251) 27 April 2022 (has links)
<p>Sequential decision-making is a fundamental class of problem that motivates algorithm designs of online machine learning and reinforcement learning. Arguably, the resulting online algorithms have supported modern online service industries for their data-driven real-time automated decision making. The applications span across different industries, including dynamic pricing (Marketing), recommendation (Advertising), and dosage finding (Clinical Trial). In this dissertation, we contribute fundamental statistical design advances for sequential decision-making algorithms, leaping progress in theory and application of online learning and sequential decision making under uncertainty including online sparse learning, finite-armed bandits, and high-dimensional online decision making. Our work locates at the intersection of decision-making algorithm designs, online statistical machine learning, and operations research, contributing new algorithms, theory, and insights to diverse fields including optimization, statistics, and machine learning.</p>
<p><br></p>
<p>In part I, we contribute a theoretical framework of continuous risk monitoring for regularized online statistical learning. Such theoretical framework is desirable for modern online service industries on monitoring deployed model's performance of online machine learning task. In the first project (Chapter 1), we develop continuous risk monitoring for the online Lasso procedure and provide an always-valid algorithm for high-dimensional dynamic pricing problems. In the second project (Chapter 2), we develop continuous risk monitoring for online matrix regression and provide new algorithms for rank-constrained online matrix completion problems. Such theoretical advances are due to our elegant interplay between non-asymptotic martingale concentration theory and regularized online statistical machine learning.</p>
<p><br></p>
<p>In part II, we contribute a bootstrap-based methodology for finite-armed bandit problems, termed Residual Bootstrap exploration. Such a method opens a possibility to design model-agnostic bandit algorithms without problem-adaptive optimism-engineering and instance-specific prior-tuning. In the first project (Chapter 3), we develop residual bootstrap exploration for multi-armed bandit algorithms and shows its easy generalizability to bandit problems with complex or ambiguous reward structure. In the second project (Chapter 4), we develop a theoretical framework for residual bootstrap exploration in linear bandit with fixed action set. Such methodology advances are due to our development of non-asymptotic theory for the bootstrap procedure.</p>
<p><br></p>
<p>In part III, we contribute application-driven insights on the exploration-exploitation dilemma for high-dimensional online decision-making problems. Such insights help practitioners to implement effective high-dimensional statistics methods to solve online decisionmaking problems. In the first project (Chapter 5), we develop a bandit sampling scheme for online batch high-dimensional decision making, a practical scenario in interactive marketing, and sequential clinical trials. In the second project (Chapter 6), we develop a bandit sampling scheme for federated online high-dimensional decision-making to maintain data decentralization and perform collaborated decisions. These new insights are due to our new bandit sampling design to address application-driven exploration-exploitation trade-offs effectively. </p>
|
4 |
Large state spaces and self-supervision in reinforcement learningTouati, Ahmed 08 1900 (has links)
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme approximateur de fonction, l'apprentissage par renforcement profond (Deep RL) nous a permis récemment de nous attaquer à des tâches très complexes et de permettre à des agents artificiels de maîtriser des jeux classiques comme le Go, de jouer à des jeux vidéo à partir de pixels et de résoudre des tâches de contrôle robotique.
Toutefois, un examen plus approfondi de ces remarquables succès empiriques révèle certaines limites fondamentales. Tout d'abord, il a été difficile de combiner les caractéristiques souhaitables des algorithmes RL, telles que l'apprentissage hors politique et en plusieurs étapes, et l'approximation de fonctions, de manière à obtenir des algorithmes stables et efficaces dans de grands espaces d'états. De plus, les algorithmes RL profonds ont tendance à être très inefficaces en raison des stratégies d'exploration-exploitation rudimentaires que ces approches emploient. Enfin, ils nécessitent une énorme quantité de données supervisées et finissent par produire un agent étroit capable de résoudre uniquement la tâche sur laquelle il est entrainé. Dans cette thèse, nous proposons de nouvelles solutions aux problèmes de l'apprentissage hors politique et du dilemme exploration-exploitation dans les grands espaces d'états, ainsi que de l'auto-supervision dans la RL.
En ce qui concerne l'apprentissage hors politique, nous apportons deux contributions. Tout d'abord, pour le problème de l'évaluation des politiques, nous montrons que la combinaison des méthodes populaires d'apprentissage hors politique et à plusieurs étapes avec une paramétrisation linéaire de la fonction de valeur pourrait conduire à une instabilité indésirable, et nous dérivons une variante de ces méthodes dont la convergence est prouvée. Deuxièmement, pour l'optimisation des politiques, nous proposons de stabiliser l'étape d'amélioration des politiques par une régularisation de divergence hors politique qui contraint les distributions stationnaires d'états induites par des politiques consécutives à être proches les unes des autres.
Ensuite, nous étudions l'apprentissage en ligne dans de grands espaces d'états et nous nous concentrons sur deux hypothèses structurelles pour rendre le problème traitable : les environnements lisses et linéaires. Pour les environnements lisses, nous proposons un algorithme en ligne efficace qui apprend activement
un partitionnement adaptatif de l'espace commun en zoomant sur les régions les plus prometteuses et fréquemment visitées. Pour les environnements linéaires, nous étudions un cadre plus réaliste, où l'environnement peut maintenant évoluer dynamiquement et même de façon antagoniste au fil du temps, mais le changement total est toujours limité. Pour traiter ce cadre, nous proposons un algorithme en ligne efficace basé sur l'itération de valeur des moindres carrés pondérés. Il utilise des poids exponentiels pour oublier doucement les données qui sont loin dans le passé, ce qui pousse l'agent à continuer à explorer pour découvrir les changements.
Enfin, au-delà du cadre classique du RL, nous considérons un agent qui interagit avec son environnement sans signal de récompense. Nous proposons d'apprendre une paire de représentations qui mettent en correspondance les paires état-action avec un certain espace latent. Pendant la phase non supervisée, ces représentations sont entraînées en utilisant des interactions sans récompense pour encoder les relations à longue portée entre les états et les actions, via une carte d'occupation prédictive. Au moment du test, lorsqu'une fonction de récompense est révélée, nous montrons que la politique optimale pour cette récompense est directement obtenue à partir de ces représentations, sans aucune planification. Il s'agit d'une étape vers la construction d'agents entièrement contrôlables.
Un thème commun de la thèse est la conception d'algorithmes RL prouvables et généralisables. Dans la première et la deuxième partie, nous traitons de la généralisation dans les grands espaces d'états, soit par approximation de fonctions linéaires, soit par agrégation d'états. Dans la dernière partie, nous nous concentrons sur la généralisation sur les fonctions de récompense et nous proposons un cadre d'apprentissage non-supervisé de représentation qui est capable d'optimiser toutes les fonctions de récompense. / Reinforcement Learning (RL) is an agent-oriented learning paradigm concerned with learning by interacting with an uncertain environment. Combined with deep neural networks as function approximators, deep reinforcement learning (Deep RL) allowed recently to tackle highly complex tasks and enable artificial agents to master classic games like Go, play video games from pixels, and solve robotic control tasks.
However, a closer look at these remarkable empirical successes reveals some fundamental limitations. First, it has been challenging to combine desirable features of RL algorithms, such as off-policy and multi-step learning with function approximation in a way that leads to both stable and efficient algorithms in large state spaces. Moreover, Deep RL algorithms
tend to be very sample inefficient due to the rudimentary exploration-exploitation strategies these approaches employ. Finally, they require an enormous amount of supervised data and end up producing a narrow agent able to solve only the task that it was trained on. In this thesis, we propose novel solutions to the problems of off-policy learning and exploration-exploitation dilemma in large state spaces, as well as self-supervision in RL.
On the topic of off-policy learning, we provide two contributions. First, for the problem of policy evaluation, we show that combining popular off-policy and multi-step learning methods with linear value function parameterization could lead to undesirable instability, and we derive a provably convergent variant of these methods. Second, for policy optimization, we propose to stabilize the policy improvement step through an off-policy divergence regularization that constrains the discounted state-action visitation induced by consecutive policies to be close to one another.
Next, we study online learning in large state spaces and we focus on two structural assumptions to make the problem tractable: smooth and linear environments. For smooth environments, we propose an efficient online algorithm that actively learns an adaptive partitioning of the joint space by zooming in on more promising and frequently visited regions. For linear environments, we study a more realistic setting, where the environment is now allowed to evolve dynamically and even adversarially over time, but the total change is still bounded. To address this setting, we propose an efficient online algorithm based on weighted least squares value iteration. It uses exponential weights to smoothly forget data that are far in the past, which drives the agent to keep exploring to discover changes.
Finally, beyond the classical RL setting, we consider an agent interacting with its environments without a reward signal. We propose to learn a pair of representations that map state-action pairs to some latent space. During the unsupervised phase, these representations are trained using reward-free interactions to encode long-range relationships between states and actions, via a predictive occupancy map. At test time, once a reward function is revealed, we show that the optimal policy for that reward is directly obtained from these representations, with no planning. This is a step towards building fully controllable agents.
A common theme in the thesis is the design of provable RL algorithms that generalize. In the first and the second part, we deal with generalization in large state spaces either by linear function approximation or state aggregation. In the last part, we focus on generalization over reward functions and we propose a task-agnostic representation learning framework that is provably able to solve all reward functions.
|
Page generated in 0.1206 seconds