Global ETD Search

91	Représentations graphiques de fonctions et processus décisionnels Markoviens factorisés . / Graphical representations of functions and factored Markovian decision processes Magnan, Jean-Christophe 02 February 2016 (has links) En planification théorique de la décision, le cadre des Processus Décisionnels Markoviens Factorisés (Factored Markov Decision Process, FMDP) a produit des algorithmes efficaces de résolution des problèmes de décisions séquentielles dans l'incertain. L'efficacité de ces algorithmes repose sur des structures de données telles que les Arbres de Décision ou les Diagrammes de Décision Algébriques (ADDs). Ces techniques de planification sont utilisées en Apprentissage par Renforcement par l'architecture SDYNA afin de résoudre des problèmes inconnus de grandes tailles. Toutefois, l'état-de-l'art des algorithmes d'apprentissage, de programmation dynamique et d'apprentissage par renforcement utilisés par SDYNA, requière que le problème soit spécifié uniquement à l'aide de variables binaires et/ou utilise des structures améliorables en termes de compacité. Dans ce manuscrit, nous présentons nos travaux de recherche visant à élaborer et à utiliser une structure de donnée plus efficace et moins contraignante, et à l'intégrer dans une nouvelle instance de l'architecture SDYNA. Dans une première partie, nous présentons l'état-de-l'art de la modélisation de problèmes de décisions séquentielles dans l'incertain à l'aide de FMDP. Nous abordons en détail la modélisation à l'aide d'DT et d'ADDs.Puis nous présentons les ORFGs, nouvelle structure de données que nous proposons dans cette thèse pour résoudre les problèmes inhérents aux ADDs. Nous démontrons ainsi que les ORFGs s'avèrent plus efficaces que les ADDs pour modéliser les problèmes de grandes tailles. Dans une seconde partie, nous nous intéressons à la résolution des problèmes de décision dans l'incertain par Programmation Dynamique. Après avoir introduit les principaux algorithmes de résolution, nous nous attardons sur leurs variantes dans le domaine factorisé. Nous précisons les points de ces variantes factorisées qui sont améliorables. Nous décrivons alors une nouvelle version de ces algorithmes qui améliore ces aspects et utilise les ORFGs précédemment introduits. Dans une dernière partie, nous abordons l'utilisation des FMDPs en Apprentissage par Renforcement. Puis nous présentons un nouvel algorithme d'apprentissage dédié à la nouvelle structure que nous proposons. Grâce à ce nouvel algorithme, une nouvelle instance de l'architecture SDYNA est proposée, se basant sur les ORFGs ~:~l'instance SPIMDDI. Nous testons son efficacité sur quelques problèmes standards de la littérature. Enfin nous présentons quelques travaux de recherche autour de cette nouvelle instance. Nous évoquons d'abord un nouvel algorithme de gestion du compromis exploration-exploitation destiné à simplifier l'algorithme F-RMax. Puis nous détaillons une application de l'instance SPIMDDI à la gestion d'unités dans un jeu vidéo de stratégie en temps réel. / In decision theoretic planning, the factored framework (Factored Markovian Decision Process, FMDP) has produced several efficient algorithms in order to resolve large sequential decision making under uncertainty problems. The efficiency of this algorithms relies on data structures such as decision trees or algebraïc decision diagrams (ADDs). These planification technics are exploited in Reinforcement Learning by the architecture SDyna in order to resolve large and unknown problems. However, state-of-the-art learning and planning algorithms used in SDyna require the problem to be specified uniquely using binary variables and/or to use improvable data structure in term of compactness. In this book, we present our research works that seek to elaborate and to use a new data structure more efficient and less restrictive, and to integrate it in a new instance of the SDyna architecture. In a first part, we present the state-of-the-art modeling tools used in the algorithms that tackle large sequential decision making under uncertainty problems. We detail the modeling using decision trees and ADDs. Then we introduce the Ordered and Reduced Graphical Representation of Function, a new data structure that we propose in this thesis to deal with the various problems concerning the ADDs. We demonstrate that ORGRFs improve on ADDs to model large problems. In a second part, we go over the resolution of large sequential decision under uncertainty problems using Dynamic Programming. After the introduction of the main algorithms, we see in details the factored alternative. We indicate the improvable points of these factored versions. We describe our new algorithm that improve on these points and exploit the ORGRFs previously introduced. In a last part, we speak about the use of FMDPs in Reinforcement Learning. Then we introduce a new algorithm to learn the new datastrcture we propose. Thanks to this new algorithm, a new instance of the SDyna architecture is proposed, based on the ORGRFs : the SPIMDDI instance. We test its efficiency on several standard problems from the litterature. Finally, we present some works around this new instance. We detail a new algorithm for efficient exploration-exploitation compromise management, aiming to simplify F-RMax. Then we speak about an application of SPIMDDI to the managements of units in a strategic real time video game. Représentation graphique de fonction Apprentissage par renforcement Programmation dynamique Apprentissage des données Factored Markovian Decision Process Graphical function representation Reinforcement Learning 004
92	Des comportements flexibles aux comportements habituels : meta-apprentissage neuro-inspiré pour la robotique autonome / From flexible to habitual behaviors : neuro-inspired meta-learning for autonomous robots Renaudo, Erwan 06 June 2016 (has links) Dans cette thèse, nous proposons d'intégrer la notion d'habitude comportementale au sein d'une architecture de contrôle robotique, et d'étudier son interaction avec les mécanismes générant le comportement planifié. Les architectures de contrôle robotiques permettent à ce dernier d'être utilisé efficacement dans le monde réel et au robot de rester réactif aux changements dans son environnement, tout en étant capable de prendre des décisions pour accomplir des buts à long terme (Kortenkamp et Simmons, 2008). Or, ces architectures sont rarement dotées de capacités d'apprentissage leur permettant d'intégrer les expériences précédentes du robot. En neurosciences et en psychologie, l'étude des différents types d'apprentissage montre pour que ces derniers sont une capacité essentielle pour adapter le comportement des mammifères à des contextes changeants, mais également pour exploiter au mieux les contextes stables (Dickinson, 1985). Ces apprentissages sont modélisés par des algorithmes d'apprentissage par renforcement direct et indirect (Sutton et Barto, 1998), combinés pour exploiter leurs propriétés au mieux en fonction du contexte (Daw et al., 2005). Nous montrons que l'architecture proposée, qui s'inspire de ces modèles du comportement, améliore la robustesse de la performance lors d'un changement de contexte dans une tâche simulée. Si aucune des méthodes de combinaison évaluées ne se démarque des autres, elles permettent d'identifier les contraintes sur le processus de planification. Enfin, l'extension de l'étude de notre architecture à deux tâches (dont l'une sur robot réel) confirme que la combinaison permet l'amélioration de l'apprentissage du robot. / In this work, we study how the notion of behavioral habit, inspired from the study of biology, can benefit to robots. Robot control architectures allow the robot to be able to plan to reach long term goals while staying reactive to events happening in the environment (Kortenkamp et Simmons, 2008). However, these architectures are rarely provided with learning capabilities that would allow them to acquire knowledge from experience. On the other hand, learning has been shown as an essential abiilty for behavioral adaptation in mammals. It permits flexible adaptation to new contexts but also efficient behavior in known contexts (Dickinson, 1985). The learning mechanisms are modeled as model-based (planning) and model-free (habitual) reinforcement learning algorithms (Sutton et Barto, 1998) which are combined into a global model of behavior (Daw et al., 2005). We proposed a robotic control architecture that take inspiration from this model of behavior and embed the two kinds of algorithms, and studied its performance in a robotic simulated task. None of the several methods for combining the algorithm we studied gave satisfying results, however, it allowed to identify some properties required for the planning process in a robotic task. We extended our study to two other tasks (one being on a real robot) and confirmed that combining the algorithms improves learning of the robot's behavior. Robotique autonome Architecture de contrôle robotique Robotique bio-Inspirée Apprentissage par renforcement Comportement instrumental Sélection de l'action Reinforcement learning Autonomous robots Robot control architectures 629.89
93	Allocation de ressources et association utilisateur/cellule optimisées pour les futurs réseaux denses / Optimized resource allocation and user/cell association for future dense networks Ha, Duc Thang 30 September 2019 (has links) Depuis plusieurs années, les opérateurs de téléphonie mobile sont confrontés à une croissance considérable du trafic de données mobiles. Dans un tel contexte, la technologie Cloud Radio Access Network (CRAN) qui intègre les solutions de Cloud Computing aux réseaux d’accès radio est considérée comme une nouvelle architecture pour les futures générations de réseaux 5G. L’approche CRAN permet une optimisation globale des fonctions de traitement en bande de base du signal et de la gestion des ressources radio pour l’ensemble des RRH et des utilisateurs. Parallèlement, les réseaux hétérogènes (HetNets) ont été proposés pour augmenter efficacement la capacité et la couverture du réseau 5G tout en réduisant la consommation énergétique. En combinant les avantages du Cloud avec ceux des réseaux HetNets, le concept de réseaux H-CRAN (Heterogeneous Cloud Radio Access Networks) est né et est considéré comme l’une des architectures les plus prometteuses pour répondre aux exigences des futurs systèmes. Plus particulièrement, nous abordons le problème important de l’optimisation jointe de l’association utilisateur-RRH et de la solution de beamforming sur la liaison descendante d’un système H-CRAN. Nous formulons un problème de maximisation du débit total du système sous des contraintes de mobilité et d’imperfection de CSI (Channel State Information). Notre principal défi consiste à concevoir une solution capable de maximiser le débit tout en permettant, contrairement aux autres solutions de référence, de réduire la complexité de calcul, et les coûts de signalisation et de feedback CSI dans divers environnements. Notre étude commence par proposer un algorithme Hybride, qui active périodiquement des schémas de clustering dynamiques et statiques pour aboutir à un compromis satisfaisant entre optimalité et le coût en complexité et signalisation CSI et réassociation. L’originalité de l’algorithme Hybride réside aussi dans sa prise en compte de la dimension temporelle du processus d’allocation sur plusieurs trames successives plutôt que son optimalité (ou sous-optimalité) pour la seule trame d’ordonnancement courante. De plus, nous développons une analyse des coûts de l’algorithme en fonction de plusieurs critères afin de mieux appréhender le compromis entre les nombreux paramètres impliqués. La deuxième contribution de la thèse s’intéresse au problème sous la perspective de la mobilité utilisateur. Deux variantes améliorées de l’algorithme Hybride sont proposées : ABUC (Adaptive Beamforming et User Clustering), une version adaptée à la mobilité des utilisateurs et aux variations du canal radio, et MABUC (Mobility-Aware Beamforming et User Clustering), une version améliorée qui règle dynamiquement les paramètres de feedback du CSI (périodicité et type de CSI) en fonction de la vitesse de l’utilisateur. L’algorithme MABUC offre de très bonnes performances en termes de débit cible tout en réduisant efficacement la complexité et les coûts de signalisation CSI. Dans la dernière contribution de la thèse, nous approfondissons l’étude en explorant l’optimisation automatique des paramètres d’ordonnancement du CSI. Pour ce faire, nous exploitons l’outil de l’apprentissage par renforcement afin d’optimiser les paramètres de feedback CSI en fonction du profil de mobilité individuelle des utilisateurs. Plus spécifiquement, nous proposons deux modèles d’apprentissage. Le premier modèle basé sur un algorithme de type Q-learning a permis de démontrer l’efficacité de l’approche dans un scénario à taille réduite. Le second modèle, plus scalable car basé sur une approche Deep Q-learning, a été formulé sous la forme d’un processus de type POMDP (Partially observable Markov decision process). Les résultats montrent l’efficacité des solutions qui permettent de sélectionner les paramètres de feedback les plus adaptés à chaque profil de mobilité, même dans le cas complexe où chaque utilisateur possède un profil de mobilité différent et variable dans le temps. / Recently, mobile operators have been challenged by a tremendous growth in mobile data traffic. In such a context, Cloud Radio Access Network (CRAN) has been considered as a novel architecture for future wireless networks. The radio frequency signals from geographically distributed antennas are collected by Remote Radio Heads (RRHs) and transmitted to the cloud-centralized Baseband Units (BBUs) pool through fronthaul links. This centralized architecture enables a global optimization of joint baseband signal processing and radio resource management functions for all RRHs and users. At the same time, Heterogeneous Networks (HetNets) have emerged as another core feature for 5G network to enhance the capacity/coverage while saving energy consumption. Small cells deployment helps to shorten the wireless links to end-users and thereby improving the link quality in terms of spectrum efficiency (SE) as well as energy efficiency (EE). Therefore, combining both cloud computing and HetNet advantages results in the so-called Heterogeneous-Cloud Radio Access Networks (H-CRAN) which is regarded as one of the most promising network architectures to meet 5G and beyond system requirements. In this context, we address the crucial issue of beamforming and user-to-RRH association (user clustering) in the downlink of H-CRANs. We formulate this problem as a sum-rate maximization problem under the assumption of mobility and CSI (Channel State Information) imperfectness. Our main challenge is to design a framework that can achieve sum-rate maximization while, unlike other traditional reference solutions, being able to alleviate the computational complexity, CSI feedback and reassociation signaling costs under various mobility environments. Such gain helps in reducing the control and feedback overhead and in turn improve the uplink throughput. Our study begins by proposing a simple yet effective algorithm baptized Hybrid algorithm that periodically activates dynamic and static clustering schemes to balance between the optimality of the beamforming and association solutions while being aware of practical system constraints (complexity and signaling overhead). Hybrid algorithm considers time dimension of the allocation and scheduling process rather than its optimality (or suboptimality) for the sole current scheduling frame. Moreover, we provide a cost analysis of the algorithm in terms of several parameters to better comprehend the trade-off among the numerous dimensions involved in the allocation process. The second key contribution of our thesis is to tackle the beamforming and clustering problem from a mobility perspective. Two enhanced variants of the Hybrid algorithm are proposed: ABUC (Adaptve Beamforming and User Clustering), a mobility-aware version that is fit to the distinctive features of channel variations, and MABUC (Mobility-Aware Beamforming and User Clustering), an advanced version of the algorithm that tunes dynamically the feedback scheduling parameters (CSI feedback type and periodicity) in accordance with individual user velocity. MABUC algorithm achieves a targeted sum-rate performance while supporting the complexity and CSI signaling costs to a minimum. In our last contribution, we propose to go further in the optimization of the CSI feedback scheduling parameters. To do so, we take leverage of reinforcement learning (RL) tool to optimize on-the-fly the feedback scheduling parameters according to each user mobility profile. More specifically, we propose two RL models, one based on Q-learning and a second based on Deep Q-learning algorithm formulated as a POMDP (Partially observable Markov decision process). Simulation results show the effectiveness of our proposed framework, as it enables to select the best feedback parameters tailored to each user mobility profile, even in the difficult case where each user has a different mobility profile. H-CRAN Formation de faisceau Association utilisateur à cellule CSI imparfait Mobilité Apprentissage par renforcement H-CRAN Beamforming User-to-cell association Imperfect CSI Mobility Reinforcement learning
94	Stratégies tarifaires en assurance automobile : optimisation et expérimentation / Pricing strategies in motor insurance : optimization and experiments Bou Nader, Rami 07 December 2016 (has links) Le secteur de l'assurance automobile est confronté à plusieurs bouleversements règlementaires, financiers, comportementaux et technologiques. Afin de faire face aux défis résultant de ces changements et maintenir leur profitabilité, les assureurs doivent innover en matière de tarification. Dans ce contexte, nous développons dans cette thèse deux thématiques liées à la tarification en assurance automobile. La première thématique s'articule autour de l'optimisation des stratégies tarifaires, en souscription et au renouvellement. La deuxième thématique est orientée vers l'utilisation des expérimentations dans l'objectif de mieux appréhender les déterminants de la demande d'assurance.Tout d'abord, nous nous intéressons à l'optimisation tarifaire au renouvellement. Nous illustrons comment les modèles de demande empiriques reposant sur les données dont disposent l'assureur peuvent être utilisés afin d'optimiser sa rentabilité et la rétention de ses clients. Nous élargissons ensuite le cadre d'optimisation en tenant compte des dépendances inter-temporelles entre les décisions tarifaires actuelles et les profits générés au cours des périodes ultérieures. Ainsi, nous introduisons le cadre de Valeur Client qui permet à l'assureur d'adapter sa stratégie tarifaire en fonction des comportements des assurés au cours de leur vie client tout en tenant compte du cycle du marché. Les illustrations empiriques des deux premiers chapitres reposent sur des données naturelles observées par l'assureur.Dans la deuxième partie de la thèse, nous illustrons l'apport des expérimentions de terrain et de laboratoire à la compréhension de la demande d'assurance automobile. Une expérimentation de terrain nous permet d'affiner la mesure de l'élasticité prix des clients et de traiter le problème de tarification comme un problème de bandit contextuel. L'évaluation offline de plusieurs stratégies d'apprentissage par renforcement montre que celles appliquant une expérimentation tarifaire ciblée obtiennent de meilleures performances financières en comparaison à la stratégie myope, qui exclut toute possibilité d'expérimentation. Enfin, nous présentons les résultats d'une expérimentation de laboratoire dont l'objectif était de mesurer la valeur ajoutée des variables privées issues des modèles de décision dans le risque. En particulier, nous analysons le rôle de l'aversion au risque et la perception du risque dans l'explication des choix d'assurance automobile. La même expérimentation nous a permis d'analyser la validité externe en assurance expérimentale, c'est-à-dire la ressemblance des comportements des individus dans un contexte expérimental et dans le contexte économique réel du marché.En plus de la dualité expérimentation-optimisation dans le domaine de la tarification assurantielle, cette thèse illustre donc la dualité entre les données privées et les données publiques, ainsi que la dualité entre les modèles empiriques de demande d'assurance et les modèles théoriques. / The motor insurance sector currently confronts regulatory, financial, behavioral and technological challenges. Under these circumstances, insurers must uphold in improving their pricing strategies. Two topics related to pricing innovation are discussed in this thesis. We first take up the pricing strategy optimization for new businesses, as well as the renewals. Secondly, we highlight in the usage of experiments in leading us to a better understanding of insurance demand factors.On the first part of this thesis, we address pricing optimization at renewal, then illustrate how empirical demand models that rely on observable data could help the insurers to boost their profits and clients retention rate. We extend afterwards this framework by considering the impact of current pricing decisions on future cash-flows. Consequently, we introduce the Customer Value metric which allows insurers to reflect over the customers' behavior during their lifetime, when it comes to constructing their pricing strategy. The empirical illustrations of the first two chapters rely on natural data observed by the insurer.On the second part of this thesis, field and laboratory experiments will give us better comprehension of the motor insurance demand. Data from a field experiment refine the measure of clients' price elasticity. Offline assessment of several reinforcement learning algorithms shows how pricing experiments can achieve better performances compared with the myopic strategy which does not apply any kind of experiment. Laboratory experiments contribute to the understanding of demand models as well. In particular, we analyze the added value of risk aversion and risk perception in explaining the insurance choices. Furthermore, we examine the external validity of the experiment, i.e. the similarity between the behaviors of the customers in a lab environment versus their factual behaviors in the market.Aside from the duality between experiments and optimization, this thesis also illustrates the duality between private and public data, as well as the duality between empirical and theoretical insurance demand model. Assurance automobile Optimisation tarifaire Valeur Client Apprentissage par renforcement Assurance comportementale Validité externe Motor insurance Pricing optimization Customer Value Reinforcment learning Behavioural insurance External validity
95	Fear prediction for training robust RL agents Gauthier, Charlie 03 1900 (has links) Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à propos du monde qui les entourent de façon graduelle et adaptive. Parmi d’autres raisons, c’est pourquoi cette branche de l’intelligence artificielle est une des avenues les plus promet- teuses pour le contrôle des robots généralistes de demain. Cependant, la sûreté de ces algo- rithmes de contrôle restent un champ de recherche actif. La majorité des algorithmes “d’ap- prentissage par renforcement sûr” tâchent d’assurer la sécurité de la politique de contrôle tant durant l’apprentissage que pendant le déploiement ou l’évaluation. Dans ce travail, nous proposons une stratégie complémentaire. Puisque la majorité des algorithmes de contrôle pour la robotique sont développés, entraî- nés, et testés en simulation pour éviter d’endommager les vrais robots, nous pouvons nous permettre d’agir de façon dangereuse dans l’environnement simulé. Nous démontrons qu’en donnant des buts dangereux à effectuer à l’algorithme d’apprentissage durant l’apprentissage, nous pouvons produire des populations de politiques de contrôle plus sûres au déploiement ou à l’évaluation qu’en sélectionnant les buts avec des techniques de l’état de l’art. Pour ce faire, nous introduisons un nouvel agent à l’entraînement de la politique de contrôle, le “Directeur”. Le rôle du Directeur est de sélectionner des buts qui sont assez difficiles pour aider la politique à apprendre à les résoudre sans être trop difficiles ou trop faciles. Pour aider le Directeur dans sa tâche, nous entraînons un réseau de neurones en ligne pour prédire sur quels buts la politique de contrôle échouera. Armé de ce “réseau de la peur” (nommé d’après la peur de la politique de contrôle), le Directeur parviens à sélectionner les buts de façon à ce que les politiques de contrôles finales sont plus sûres et plus performantes que les politiques entraînées à l’aide de méthodes de l’état de l’art, ou obtiennent des métriques semblables. De plus, les populations de politiques entraînées par le Directeur ont moins de variance dans leur comportement, et sont plus résistantes contre des attaques d’adversaires sur les buts qui leur sont issus. / By learning from experience, goal-conditioned reinforcement learning methods learn from their environments gradually and adaptively. Among other reasons, this makes them a promising direction for the generalist robots of the future. However, the safety of these goal- conditioned RL policies is still an active area of research. The majority of “Safe Reinforce- ment Learning” methods seek to enforce safety both during training and during deployment and/or evaluation. In this work, we propose a complementary strategy. Because the majority of control algorithms for robots are developed, trained, and tested in simulation to avoid damaging the real hardware, we can afford to let the policy act in unsafe ways in the simulated environment. We show that by tasking the learning algorithm with unsafe goals during its training, we can produce populations of final policies that are safer at evaluation or deployment than when trained with state-of-the-art goal-selection methods. To do so, we introduce a new agent to the training of the policy that we call the “Director”. The Director’s role is to select goals that are hard enough to aid the policy’s training, without being too hard or too easy. To help the Director in its task, we train a neural network online to predict which goals are unsafe for the current policy. Armed with this “fear network” (named after the policy’s own fear of violating its safety conditions), the Director is able to select training goals such that the final trained policies are safer and more performant than policies trained on state-of-the-art goal-selection methods (or just as safe/performant). Additionally, the populations of policies trained by the Director show decreased variance in their behaviour, along with increased resistance to adversarial attacks on the goals issued to them. apprentissage par renforcement robotique apprentissage adversariel reinforcement learning robotics adversarial training machine learning apprentissage machine artificial intelligence intelligence artificielle
96	Differentiable best response shaping Aghajohari, Milad 07 1900 (has links) Cette thèse est structurée en quatre sections. La première constitue une introduction au problème de la formation d'agents coopératifs non exploitables dans les jeux à somme non nulle. La deuxième section, soit le premier chapitre, fournit le contexte nécessaire pour discuter de l'étendue et des outils mathématiques requis pour explorer ce problème. La troisième section, correspondant au deuxième chapitre, expose un cadre spécifique, nommé Best Response Shaping, que nous avons élaboré pour relever ce défi. La quatrième section contient les conclusions que nous tirons de ce travail et nous y discutons des travaux futurs potentiels. Le chapitre introductif se divise en quatre sections. Dans la première, nous présentons le cadre d'apprentissage par renforcement (Reinforcement Learning) afin de formaliser le problème d'un agent interagissant avec l'environnement pour maximiser une récompense scalaire. Nous introduisons ensuite les Processus Décisionnels de Markov (Markov Decision Processes) en tant qu'outil mathématique pour formaliser le problème d'apprentissage par renforcement. Nous discutons de deux méthodes générales de solution pour résoudre le problème d'apprentissage par renforcement. Les premières sont des méthodes basées sur la valeur qui estiment la récompense cumulée optimale réalisable pour chaque paire action-état, et la politique serait alors apprise. Les secondes sont des méthodes basées sur les politiques où la politique est optimisée directement sans estimer les valeurs. Dans la deuxième section, nous introduisons le cadre d'apprentissage par renforcement multi-agents (Multi-Agent Reinforcement Learning) pour formaliser le problème de plusieurs agents tentant de maximiser une récompense cumulative scalaire dans un environnement partagé. Nous présentons les Jeux Stochastiques comme une extension théorique du processus de décision de Markov pour permettre la présence de plusieurs agents. Nous discutons des trois types de jeux possibles entre agents en fonction de la structure de leur système de récompense. Nous traitons des défis spécifiques à l'apprentissage par renforcement multi-agents. En particulier, nous examinons le défi de l'apprentissage par renforcement profond multi-agents dans des environnements partiellement compétitifs, où les méthodes traditionnelles peinent à promouvoir une coopération non exploitable. Dans la troisième section, nous introduisons le Dilemme du prisonnier itéré (Iterated Prisoner's Dilemma) comme un jeu matriciel simple utilisé comme exemple de jouet pour étudier les dilemmes sociaux. Dans la quatrième section, nous présentons le Coin Game comme un jeu à haute dimension qui doit être résolu grâce à des politiques paramétrées par des réseaux de neurones. Dans le deuxième chapitre, nous introduisons la méthode Forme de la Meilleure Réponse (Best Response Shaping). Des approches existantes, comme celles des agents LOLA et POLA, apprennent des politiques coopératives non exploitables en se différenciant grâce à des étapes d'optimisation prédictives de leur adversaire. Toutefois, ces techniques présentent une limitation majeure car elles sont susceptibles d'être exploitées par une optimisation supplémentaire. En réponse à cela, nous introduisons une nouvelle approche, Forme de la Meilleure Réponse, qui se différencie par le fait qu'un adversaire approxime la meilleure réponse, que nous appelons le "détective". Pour conditionner le détective sur la politique de l'agent dans les jeux complexes, nous proposons un mécanisme de conditionnement différenciable sensible à l'état, facilité par une méthode de questions-réponses (QA) qui extrait une représentation de l'agent basée sur son comportement dans des états d'environnement spécifiques. Pour valider empiriquement notre méthode, nous mettons en évidence sa performance améliorée face à un adversaire utilisant l'Arbre de Recherche Monte Carlo (Monte Carlo Tree Search), qui sert d'approximation de la meilleure réponse dans le Coin Game. / This thesis is organized in four sections.The first is an introduction to the problem of training non-exploitable cooperative agents in general-sum games. The second section, the first chapter, provides the necessary background for discussing the scope and necessary mathematical tools for exploring this problem. The third section, the second chapter, explains a particular framework, Best Response Shaping, that we developed for tackling this challenge. In the fourth section, is the conclusion that we drive from this work and we discuss the possible future works. The background chapter consists of four section. In the first section, we introduce the \emph{Reinforcement Learning } framework for formalizing the problem of an agent interacting with the environment maximizing a scalar reward. We then introduce \emph{Markov Decision Processes} as a mathematical tool to formalize the Reinforcement Learning problem. We discuss two general solution methods for solving the Reinforcement Learning problem. The first are Value-based methods that estimate the optimal achievable accumulative reward in each action-state pair and the policy would be learned. The second are Policy-based methods where the policy is optimized directly without estimating the values. In the second section, we introduce \emph{Multi-Agent Reinforcement Learning} framework for formalizing multiple agents trying to maximize a scalar accumulative reward in a shared environment. We introduce \emph{Stochastic Games} as a theoretical extension of the Markov Decision Process to allow multiple agents. We discuss the three types of possible games between agents based on the setup of their reward structure. We discuss the challenges that are specific to Multi-Agent Reinforcement Learning. In particular, we investigate the challenge of multi-agent deep reinforcement learning in partially competitive environments, where traditional methods struggle to foster non-exploitable cooperation. In the third section, we introduce the \emph{Iterated Prisoner's Dilemma} game as a simple matrix game used as a toy-example for studying social dilemmas. In the Fourth section, we introduce the \emph{Coin Game} as a high-dimensional game that should be solved via policies parameterized by neural networks. In the second chapter, we introduce the Best Response Shaping (BRS) method. The existing approaches like LOLA and POLA agents learn non-exploitable cooperative policies by differentiation through look-ahead optimization steps of their opponent. However, there is a key limitation in these techniques as they are susceptible to exploitation by further optimization. In response, we introduce a novel approach, Best Response Shaping (BRS), which differentiates through an opponent approximating the best response, termed the "detective." To condition the detective on the agent's policy for complex games we propose a state-aware differentiable conditioning mechanism, facilitated by a question answering (QA) method that extracts a representation of the agent based on its behaviour on specific environment states. To empirically validate our method, we showcase its enhanced performance against a Monte Carlo Tree Search (MCTS) opponent, which serves as an approximation to the best response in the Coin Game. This work expands the applicability of multi-agent RL in partially competitive environments and provides a new pathway towards achieving improved social welfare in general sum games. Multi-Agent Reinforcement Learning General-Sum Games Best Response Shaping Jeux à somme générale mise en forme de la meilleure réponse
97	Sample efficient reinforcement learning for biological sequence design Nouri, Padideh 08 1900 (has links) L’apprentissage par renforcement profond a mené à de nombreux résultats prometteurs dans l’apprentissage des jeux vidéo à partir de pixels, dans la robotique pour l’apprentissage de compétences généralisables et dans les soins de santé pour l’apprentissage de traitement dynamiques. Un obstacle demeure toutefois: celui du manque d’efficacité dans le nombre d’échantillons nécessaires pour obtenir de bons résultats. Pour résoudre ce problème, notre objectif est d’améliorer l’efficacité de l’apprentissage en améliorant les capacité d’acquisition de nouvelles données, un problème d’exploration. L’approche proposée consiste à : (1) Apprendre un ensemble diversifié d’environments (donnant lieu à un changement de dynamique) (2) Apprendre une politique capable de mieux s’adapter aux changements dans l’envi- ronnement, à l’aide du méta-apprentissage. Cette méthode peut avoir des impacts bénéfiques dans de nombreux problèmes du monde réel tels que la découverte de médicaments, dans laquelle nous sommes confrontés à un espace d’actions très grand. D’autant plus, la conception de nouvelles substances thérapeutiques qui sont fonctionnellement intéressantes nécessite une exploration efficace du paysage de la recherche. / Deep reinforcement learning has led to promising results in learning video games from pixels, robotics for learning generalizable skills, and healthcare for learning dynamic treatments. However, an obstacle remains the lack of efficiency in the number of samples required to achieve good results. To address this problem, our goal is to improve sample efficiency by improving the ability to acquire new data, an issue of exploration. The proposed approach is to: (1) Learn a diverse set of environments (resulting in a change of dynamics) (2) earn a policy that can better adapt to changes in the environment using meta-learning This method can benefit many real-world problems, such as drug discovery, where we face a large action space. Furthermore, designing new therapeutic substances that are functionally interesting requires efficient exploration of the research landscape Reinforcement Learning Biological Sequence Design Bayesian Optimization Apprentissage par Renforcement Optimisation Bayésienne Conception de Séquences Biologiques
98	Learning and planning with noise in optimization and reinforcement learning Thomas, Valentin 06 1900 (has links) La plupart des algorithmes modernes d'apprentissage automatique intègrent un certain degré d'aléatoire dans leurs processus, que nous appellerons le bruit, qui peut finalement avoir un impact sur les prédictions du modèle. Dans cette thèse, nous examinons de plus près l'apprentissage et la planification en présence de bruit pour les algorithmes d'apprentissage par renforcement et d'optimisation. Les deux premiers articles présentés dans ce document se concentrent sur l'apprentissage par renforcement dans un environnement inconnu, et plus précisément sur la façon dont nous pouvons concevoir des algorithmes qui utilisent la stochasticité de leur politique et de l'environnement à leur avantage. Notre première contribution présentée dans ce document se concentre sur le cadre de l'apprentissage par renforcement non supervisé. Nous montrons comment un agent laissé seul dans un monde inconnu sans but précis peut apprendre quels aspects de l'environnement il peut contrôler indépendamment les uns des autres, ainsi qu'apprendre conjointement une représentation latente démêlée de ces aspects que nous appellerons \emph{facteurs de variation}. La deuxième contribution se concentre sur la planification dans les tâches de contrôle continu. En présentant l'apprentissage par renforcement comme un problème d'inférence, nous empruntons des outils provenant de la littérature sur les m\'thodes de Monte Carlo séquentiel pour concevoir un algorithme efficace et théoriquement motiv\'{e} pour la planification probabiliste en utilisant un modèle appris du monde. Nous montrons comment l'agent peut tirer parti de note objectif probabiliste pour imaginer divers ensembles de solutions. Les deux contributions suivantes analysent l'impact du bruit de gradient dû à l'échantillonnage dans les algorithmes d'optimisation. La troisième contribution examine le rôle du bruit de l'estimateur du gradient dans l'estimation par maximum de vraisemblance avec descente de gradient stochastique, en explorant la relation entre la structure du bruit du gradient et la courbure locale sur la généralisation et la vitesse de convergence du modèle. Notre quatrième contribution revient sur le sujet de l'apprentissage par renforcement pour analyser l'impact du bruit d'échantillonnage sur l'algorithme d'optimisation de la politique par ascension du gradient. Nous constatons que le bruit d'échantillonnage peut avoir un impact significatif sur la dynamique d'optimisation et les politiques découvertes en apprentissage par renforcement. / Most modern machine learning algorithms incorporate a degree of randomness in their processes, which we will refer to as noise, which can ultimately impact the model's predictions. In this thesis, we take a closer look at learning and planning in the presence of noise for reinforcement learning and optimization algorithms. The first two articles presented in this document focus on reinforcement learning in an unknown environment, specifically how we can design algorithms that use the stochasticity of their policy and of the environment to their advantage. Our first contribution presented in this document focuses on the unsupervised reinforcement learning setting. We show how an agent left alone in an unknown world without any specified goal can learn which aspects of the environment it can control independently from each other as well as jointly learning a disentangled latent representation of these aspects, or factors of variation. The second contribution focuses on planning in continuous control tasks. By framing reinforcement learning as an inference problem, we borrow tools from Sequential Monte Carlo literature to design a theoretically grounded and efficient algorithm for probabilistic planning using a learned model of the world. We show how the agent can leverage the uncertainty of the model to imagine a diverse set of solutions. The following two contributions analyze the impact of gradient noise due to sampling in optimization algorithms. The third contribution examines the role of gradient noise in maximum likelihood estimation with stochastic gradient descent, exploring the relationship between the structure of the gradient noise and local curvature on the generalization and convergence speed of the model. Our fourth contribution returns to the topic of reinforcement learning to analyze the impact of sampling noise on the policy gradient algorithm. We find that sampling noise can significantly impact the optimization dynamics and policies discovered in on-policy reinforcement learning. Deep reinforcement learning Planning Stochastic optimization Generalization Control as inference Representation learning Optimisation stochastique Apprentissage par renforcement Apprentissage de representations Planification
99	Agent abstraction in multi-agent reinforcement learning Memarian, Amin 06 1900 (has links) Cette thèse est organisée en deux chapitres. Le premier chapitre sert d’introduction aux concepts et idées utilisés dans le deuxième chapitre (l’article). Le premier chapitre est divisé en trois sections. Dans la première section, nous introduisons l’apprentissage par renforcement en tant que paradigme d’apprentissage automatique et montrons comment ses problèmes sont formalisés à l’aide de processus décisionnels de Markov. Nous formalisons les buts sous forme de rendements attendus et montrons comment les équations de Bellman utilisent la formulation récursive du rendement pour établir une relation entre les valeurs de deux états successifs sous la politique de l’agent. Après cela, nous soutenons que la résolution des équations d’optimalité de Bellman est insoluble et introduisons des algorithmes basés sur des valeurs tels que la programmation dynamique, les méthodes de Monte Carlo et les méthodes de différence temporelle qui se rapprochent de la solution optimale à l’aide de l’itération de politique généralisée. L’approximation de fonctions est ensuite proposée comme moyen de traiter les grands espaces d’états. Nous discutons également de la manière dont les méthodes basées sur les politiques optimisent directement la politique sans optimiser la fonction de valeur. Dans la deuxième section, nous introduisons les jeux de Markov comme une extension des processus décisionnels de Markov pour plusieurs agents. Nous couvrons les différents cadres formés par les différentes structures de récompense et donnons les dilemmes sociaux séquentiels comme exemple du cadre d’incitation mixte. En fin de compte, nous introduisons différentes structures d’information telles que l’apprentissage centralisé qui peuvent aider à faire face à la non-stationnarité in- duite par l’adversaire. Enfin, dans la troisième section, nous donnons un bref aperçu des types d’abstraction d’état et introduisons les métriques de bisimulation comme un concept inspiré de l’abstraction de non-pertinence du modèle qui mesure la similarité entre les états. Dans le deuxième chapitre (l’article), nous approfondissons finalement l’abstraction d’agent en tant que métrique de bisimulation et dérivons un facteur de compression que nous pouvons appliquer à la diplomatie pour révéler l’agence supérieure sur les unités de joueur. / This thesis is organized into two chapters. The first chapter serves as an introduction to the concepts and ideas used in the second chapter (the article). The first chapter is divided into three sections. In the first section, we introduce Reinforcement Learning as a Machine Learning paradigm and show how its problems are formalized using Markov Decision Processes. We formalize goals as expected returns and show how the Bellman equations use the recursive formulation of return to establish a relation between the values of two successive states under the agent’s policy. After that, we argue that solving the Bellman optimality equations is intractable and introduce value-based algorithms such as Dynamic Programming, Monte Carlo methods, and Temporal Difference methods that approximate the optimal solution using Generalized Policy Iteration. Function approximation is then proposed as a way of dealing with large state spaces. We also discuss how policy-based methods optimize the policy directly without optimizing the value function. In the second section, we introduce Markov Games as an extension of Markov Decision Processes for multiple agents. We cover the different settings formed by the different reward structures and give Sequential Social Dilemmas as an example of the mixed-incentive setting. In the end, we introduce different information structures such as centralized learning that can help deal with the opponent-induced non-stationarity. Finally, in the third section, we give a brief overview of state abstraction types and introduce bisimulation metrics as a concept inspired by model-irrelevance abstraction that measures the similarity between states. In the second chapter (the article), we ultimately delve into agent abstraction as a bisimulation metric and derive a compression factor that we can apply to Diplomacy to reveal the higher agency over the player units. Multi Agent Reinforcement Learning State Abstraction Agent Abstraction Abstraction d’état Abstraction d'agent
100	Towards adaptive deep model-based reinforcement learning Rahimi-Kalahroudi, Ali 08 1900 (has links) L'une des principales caractéristiques comportementales utilisées en neurosciences afin de déterminer si le sujet d'étude --- qu'il s'agisse d'un rongeur ou d'un humain --- démontre un apprentissage basé sur un modèle (model-based) est une adaptation efficace aux changements locaux de l'environnement. Dans l'apprentissage par renforcement (RL), cependant, nous démontrons, en utilisant une version améliorée de la configuration d'adaptation au changement local (LoCA) récemment introduite, que les méthodes bien connues d'apprentissage par renforcement basées sur un modèle (MBRL) telles que PlaNet et DreamerV2 présentent un déficit dans leur capacité à s'adapter aux changements environnementaux locaux. En combinaison avec des travaux antérieurs qui ont fait une observation similaire sur l'autre méthode populaire basée sur un modèle, MuZero, une tendance semble émerger, suggérant que les méthodes MBRL profondes actuelles ont de sérieuses limites. Nous approfondissons les causes de ces mauvaises performances en identifiant les éléments qui nuisent au comportement adaptatif et en les reliant aux techniques sous-jacentes fréquemment utilisées dans la RL basée sur un modèle profond, à la fois en matière d'apprentissage du modèle mondial et de la routine de planification. Nos résultats démontrent qu'une exigence particulièrement difficile pour les méthodes MBRL profondes est qu'il est difficile d'atteindre un modèle mondial suffisamment précis dans toutes les parties pertinentes de l'espace d'état en raison de l'oubli catastrophique. Et tandis qu'un tampon de relecture peut atténuer les effets de l'oubli catastrophique, un tampon de relecture traditionnel premier-entré-premier-sorti empêche une adaptation efficace en raison du maintien de données obsolètes. Nous montrons qu'une variante conceptuellement simple de ce tampon de relecture traditionnel est capable de surmonter cette limitation. En supprimant uniquement les échantillons du tampon de la région locale des échantillons nouvellement observés, des modèles de monde profond peuvent être construits qui maintiennent leur précision dans l'espace d'état, tout en étant capables de s'adapter efficacement aux changements locaux de la fonction de récompense. Nous démontrons qu’en appliquant notre variation de tampon de relecture à une version profonde de la méthode Dyna classique, ainsi qu'à des méthodes récentes telles que PlaNet et DreamerV2, les méthodes basées sur des modèles profonds peuvent également s'adapter efficacement aux changements locaux de l'environnement. / One of the key behavioral characteristics used in neuroscience to determine whether the subject of study---be it a rodent or a human---exhibits model-based learning is effective adaptation to local changes in the environment. In reinforcement learning (RL), however, we demonstrate, using an improved version of the recently introduced Local Change Adaptation (LoCA) setup, that well-known model-based reinforcement learning (MBRL) methods such as PlaNet and DreamerV2 perform poorly in their ability to adapt to local environmental changes. Combined with prior work that made a similar observation about the other popular model-based method, MuZero, a trend appears to emerge, suggesting that current deep MBRL methods have serious limitations. We dive deeper into the causes of this poor performance by identifying elements that hurt adaptive behavior and linking these to underlying techniques frequently used in deep model-based RL, both in terms of learning the world model and the planning routine. Our findings demonstrate that one particularly challenging requirement for deep MBRL methods is that attaining a world model that is sufficiently accurate throughout relevant parts of the state-space is challenging due to catastrophic forgetting. And while a replay buffer can mitigate the effects of catastrophic forgetting, the traditional first-in-first-out replay buffer precludes effective adaptation due to maintaining stale data. We show that a conceptually simple variation of this traditional replay buffer is able to overcome this limitation. By removing only samples from the buffer from the local neighbourhood of the newly observed samples, deep world models can be built that maintain their accuracy across the state-space, while also being able to effectively adapt to local changes in the reward function. We demonstrate this by applying our replay-buffer variation to a deep version of the classical Dyna method, as well as to recent methods such as PlaNet and DreamerV2, demonstrating that deep model-based methods can adapt effectively as well to local changes in the environment. Apprentissage profond Adaptation Model-Based Reinforcement Learning Deep Learning

Search results