Global ETD Search

121	Synthesis and mechanical properties of elastomers made by sequential-IPNs / Synthèses et propriétés mécaniques d'élastomères produites par séquence-IPNS Limpanichpakdee, Thitima 14 November 2017 (has links) Récemment, une nouvelle technique pour renforcer les élastomères acryliques non chargés a été développée. L'élastomère a été préparé par séquences de gonflement par du monomère acrylique et polymérisation radicalaire en faisant des réseaux interpénétrés. Le prétirement des chaines du premier réseau créent des liaisons sacrificielles qui améliorent de manière significative les propriétés mécaniques de l’élastomère sans modifier sa Tg. Il est donc intéressant d’étendre cette méthode à d’autres familles d’élastomères. Ainsi, dans cette étude, la stratégie des réseaux interpénétrés a été appliquée à deux matériaux intéressants. Premièrement, un élastomère silicone a été synthétisé en utilisant une polymérisation par polycondensation par réaction d'hydrosilylation qui est significativement différente de la polymérisation utilisée pour les réseaux acryliques. Les réseaux multiples ont été ensuite synthétisés en gonflant ce réseau avec des précurseurs de petite masse et un faible pourcentage de réticulant D4H. Ces réseaux multiples en silicone ont les propriétés d’un élastomère classique, avec une énergie de rupture améliorée d’environ 100%. Deuxièmement, des particules coeur-ecorce formés de copolymères dibloc amphiphiles de poly(acide acrylique)-b-poly(acrylate de n-butyle) ou PAA-b-PBA ont été synthétisés par auto-assemblage simultané par polymérisation RAFT et préparés sous la forme de films. Ensuite, les films ont été utilisés comme des charges polymères en poly (acrylate de butyle) en utilisant une technique de réseau interpénétrés multiples. Nous avons réussi pour la première fois à renforcer l'élastomère par des particules de latex. Grâce à cette stratégie d'interpénétration qui distribue des particules de latex de manière très homogène dans l’élastomère, les films interpénétrés montrent de bonnes caractéristiques mécaniques, une résistance à la fracture et une ténacité extrêmement élevées en utilisant moins de 1% de PAA vitreux et pas de réticulant ajouté dans la particule renforçante. / Recently, a new technique to reinforce unfilled acrylic elastomers has been established. The elastomer was prepared by sequential free radical polymerization and swelling of acrylic monomers making interpenetrated networks. By introducing sacrificial bonds, the elastomer had significantly enhanced mechanical properties without changing the Tg of the material. We extended this method to two different elastomeric system to probe its generality. First, a silicone elastomer was synthesized by using polycondensation polymerization via a hydrosilylation reaction which is significantly different from the free radical polymerization used for acrylic networks. The multiple networks were synthesized by sequential swelling and polymerization steps with low molecular weight preducrosrs and a small amount of D4H crosslinker. The resulting silicone multiple networks were fully elastic elastomer with a mechanical toughness improved by about 100%. Second, core-shell latexes made of amphiphilic diblock copolymers Poly(acrylic acid)-block-poly(butyl acrylate) or PAA-b-PBA were synthesized by RAFT polymerization induced self-assembly and prepared into thin films. Different types of core-shell latexes and crosslinked latexes were synthesized and characterized both in the aqueous state and in the dry film state. The films were then used as a polymeric filler to a poly(butyl acrylate) by using the interpenetrated network technique. We succeeded for the first time to reinforce elastomers by latex particles. Thanks to interpenetrated networks strategy which distributed homogenously latex particles though the entire material, the interpenetrated films show extremely enhanced mechanical characteristics, fracture energy and toughness by using less than 1 % of glassy PAA content and no crosslinker in the reinforcing particles. Élastomères Double réseau Renforcement mécanique Polydimethyl siloxane Particules cœur-Ecorce Polymérisation RAFT Unfilled elastomers Multiple network design RAFT polymerization 541.3
122	Exploratory Robotic Controllers : An Evolution and Information Theory Driven Approach / Exploration Robotique Autonome hybridant : évolution et théorie de l'information Zhang, Guohua 24 September 2015 (has links) Cette thèse porte sur la conception de contrôleurs pour robots explorateurs autonomes basée sur une approche en ligne (online) intégrée, ne nécessitant pas de vérité terrain ni d'intervention de l'expert humain au cours du processus d'entrainement.Le travail présenté se focalise sur le domaine de la robotique autonome et plus particulièrement la conception de controleurs robotiques pour les essaims de robots.Ce contexte présente deux difficultés spécifiques. Premièrement, les approches basées sur l'usage de simulateur sont d'efficacité limitée : d'une part, la précision du simulateur est limitée compte tenu de la variabilité des robots élémentaires; d'autre part, la complexité de la simulation est super-linéaire en fonction du nombre de robots de l'essaim. Deuxièmement, les approches guidées par le but se heurtent au fait que la fonction objectif n'est pas définie au niveau du robot individuel, mais au niveau de l'essaim.Une première étape vers la conception de contrôleur explorateur autonome est proposée dans cette thèse. L'approche proposée, appelée exploration robotique fondée sur l'évolution et l'information (Ev-ITER) se fonde sur l'hybridation de la robotique évolutionnaire et de l'apprentissage par renforcement utilisant l'entropie. Cette approche procède en deux phases: (i) dans une première phase l'évolution artificielle est utilisée pour générer des contrôleurs primaires (crawlers), dont les trajectoires sont d'entropie élevée dans l'espace sensori-moteur; (ii) dans une seconde phase, l'archive des trajectoires acquises par les controleurs primaires est exploitée pour définir les controleurs secondaires, inspirés de la motivation intrinsèque robuste et permettant l'exploration rigoureuse de l'environnement.Les contributions de cette thèse sont les suivantes. Premièrement, comme désiré Ev-ITER peut être lancé en ligne, et sans nécessiter de vérité terrain ou d'assistance. Deuxièmement, Ev-ITER surpasse les approches autonomes en robotique évolutionnaire en terme d'exploration de l'arène. Troisièmement, le contrôleur Ev-ITER est doté d'une certaine généralité, dans la mesure où il est capable d'explorer efficacement d'autres arènes que celle considérée pendant la première phase de l'évolution. Il est à souligner que la généralité du contrôleur appris vis-à-vis de l'environnement d'entrainement a rarement été considérée en apprentissage par renforcement ou en robotique évolutionnaire. / This thesis is concerned with building autonomous exploratory robotic controllers in an online, on-board approach, with no requirement for ground truth or human intervention in the experimental setting.This study is primarily motivated by autonomous robotics, specifically autonomous robot swarms. In this context, one faces two difficulties. Firstly, standard simulator-based approaches are hardly effective due to computational efficiency and accuracy reasons. On the one hand, the simulator accuracy is hindered by the variability of the hardware; on the other hand, this approach faces a super-linear computational complexity w.r.t. the number of robots in the swarm. Secondly, the standard goal-driven approach used for controller design does not apply as there is no explicit objective function at the individual level, since the objective is defined at the swarm level.A first step toward autonomous exploratory controllers is proposed in the thesis. The Evolution & Information Theory-based Exploratory Robotics (Ev-ITER) approach is based on the hybridization of two approaches stemming from Evolutionary Robotics and from Reinforcement Learning, with the goal of getting the best of both worlds: (i) primary controllers, or crawling controllers, are evolved in order to generate sensori-motor trajectories with high entropy; (ii) the data repository built from the crawling controllers is exploited, providing prior knowledge to secondary controllers, inspired from the intrinsic robust motivation setting and achieving the thorough exploration of the environment.The contributions of the thesis are threefold. Firstly, Ev-ITER fulfills the desired requirement: it runs online, on-board and without requiring any ground truth or support. Secondly, Ev-ITER outperforms both the evolutionary and the information theory-based approaches standalone, in terms of actual exploration of the arena. Thirdly and most importantly, the Ev-ITER controller features some generality property, being able to efficiently explore other arenas than the one considered during the first evolutionary phase. It must be emphasized that the generality of the learned controller with respect to the considered environment has rarely been considered, neither in the reinforcement learning, nor in evolutionary robotics. Robotique évolutionnaire Apprentissage par renforcement Théorie de l'information Motivation intrinsèque Entropie Evolutionary robotics Reinforcement learning Information theory Intrinsic motivation Entropy
123	Hybrid hydrogels as model nanocomposites : reinforcement mechanisms by analogy with filled rubbers / Hydrogels hybrides en tant que nanocomposites modèles : mécanismes de renforcement par analogie avec les élastomères chargés Le Gulluche, Anne-Charlotte 25 July 2019 (has links) Les hydrogels sont des matériaux intrinsèquement mous, fragiles et élastiques, majoritairement composes d'eau. Leur capacité unique à interagir avec leur environnement se traduit par une grande variation de leur volume initial et en font l'objet d'applications variées dans de nombreux domaines tels que le secteur biomédical, l'industrie agro-alimentaire et cosmétique. Plus récemment, des hydrogels ont été développés pour des secteurs de pointe comme la robotique ou l'ingénierie tissulaire, permettant d'élargir le spectre d'utilisation de la matière molle en tant que matériau structurel. De ce fait, la conception d'hydrogels mécaniquement performants représente un enjeu majeur au développement futur de ces applications.L'élaboration de matériaux nanocomposites incorporant des nanocharges à un réseau organique réticule de façon covalente s'est avérée une stratégie de renfort efficace. Le renforcement dépend alors des interactions existantes entre le polymère et les charges ainsi que de l'état de dispersion des nanoparticules au sein du réseau. Des hydrogels hybrides, à base de poly(N-alkylacrylamides) et de nanoparticules de silice ont ainsi été mis au point, démontrant une amélioration significative des propriétés mécaniques (déformation à la rupture, capacités d'autoréparation). Ce phénomène est attribué à l'adsorption réversible du polymère à la surface des nanoparticules. Si les propriétés viscoélastiques de ces composés ont été largement étudiées, peu de travaux ont été effectués sur la caractérisation et la quantification des interactions à l'interface solide/liquide. De même, le comportement au delà du domaine linéaire ne reste que peu étudié à ce jour. La première partie de ces travaux a été dédiée à la synthèse de chaines linéaires de poly- (acrylamide) (PAAm) et poly(N,N-dimethylacrylamide) (PDMA) ainsi qu'à l'étude de leurs capacités d'adsorption sur la silice tout en contrôlant la chimie de surface des nanoparticules. Cela a permis de mettre en évidence le peu d'affinité du PAAm envers la surface de silice, justifiant ainsi son emploi en tant que monomère « inerte ». En second lieu, il s'est agi de moduler les interactions entre le polymère et la silice au sein des hydrogels hybrides en substituant le polymère interagissant avec l'adsorbat (PDMA) par un polymère peu apte à s'adsorber sur la silice (PAAm). La structure de ces composés ainsi que leur comportement mécanique ont été explorés avec un intérêt marqué pour le domaine non linéaire. Le rôle de l'adsorption dans le renfort mécanique a ainsi été confirmé et plus précisément l'importance des groupements silanols à la surface de la silice. La contribution de l'état d'agrégation des nanoparticules sur la structure et les propriétés mécaniques ont ensuite été étudiés. Le comportement non-linéaire aux grandes déformations des hydrogels synthétisés a notamment été investigué par des expériences de rhéologie aux grandes amplitude de cisaillement (LAOS), permettant une caractérisation plus poussée des mécanismes de renfort, par analogie avec les élastomères chargés / Hydrogels are soft and elastic solid materials mainly composed of water. Owing to their ability to interact with their environment through drastic volume change, hydrogels already find a wide range of applications, as superabsorbants, in pharmaceutics as drug delivery systems and more recently, as sensors and actuators, widening even more the possible use of soft materials as structural or load-bearing materials. Hence, providing gels with high mechanical performances is of major importance to meet these demanding applications. Efficient toughening can be achieved by combining inorganic and organic materials linked by physical and/or chemical interactions. In such nanocomposite materials, the reinforcement depends on the interactions between the polymer and the filler and of the dispersion state of the fillers, allowing to reach the full extent of reinforcement. Hybrid hydrogels based on poly(N-alkylacrylamide) and nanosilica demonstrating great mechanical reinforcement at large strain as well as self-healing capabilities were designed by Hourdet and Marcellan . The drastic improvement of the mechanical behavior is attributed to the reversible adsorption of the polymer onto silica surface. Viscoelastic properties of such hybrids gels have been extensively studied but few studies were carried out to understand and quantify the interactions at the solid/liquid interface. Likewise, the behavior beyond viscoelastic regime of such materials remains scarcely investigated. A first part of this study focused on the synthesis and the adsorption behavior of linear polymer chains of polyacrylamides, more precisely poly(acrylamide) (PAAm), poly(N,N-dimethylacrylamide) (PDMA) onto silica nanoparticles with controlled surface chemistry. It evidenced the non-interacting behavior of PAAm towards silica surface, justifying its choice as a non-interacting polymer. A second part dealt with the modulation of particle/polymer interactions in hybrid gels either by substituting the interacting monomer (DMA) with a non-interacting one (AAm) or by tuning the surface chemistry of the nanoparticles. Then, the study of their structure and mechanical properties was conducted with a special focus on the non-linear behavior. The role of polymer adsorption for gel reinforcement was evidenced and more specifically the importance of the silanol groups at the silica surface for PDMA/silica interactions. The contribution of the dispersion state of silica on the structure and the mechanical response of hydrogels was then addressed and the non-linear domain of the resulting hydrogels was investigated using Large Amplitude Oscillatory Shear experiments. The impact of the chosen monomer and of the dispersion state of the fillers was investigated at large strain, allowing a more precise analysis of the reinforcement mechanisms, by analogy with filled elastomers Hydrogel Silice Adsorption Renforcement Poly(acrylamides) Interactions réversibles Hydrogel Silica Adsorption Reinforcement Poly(acryamides) Reversible interactions 620.1
124	Gestion cognitive des réseaux radio auto-organisant de cinquième génération / Cognitive management of self organized radio networks of fifth generation Daher, Tony 11 December 2018 (has links) L’optimisation de l’opération des réseaux mobiles a toujours été d'un très grand intérêt pour les opérateurs, surtout avec une augmentation rapide du trafic mobile, des attentes qualité de service encore plus élevées des utilisateurs, et l’émergence de nouveaux services requérant des contraintes spécifiques et différentes. Le concept de gestion autonome des réseaux (SON) a été introduit par la 3rd Generation Partnership Project comme étant une solution prometteuse pour simplifier l’opération et la gestion des réseaux complexes. Aujourd’hui, plusieurs fonctions SON sont déjà déployées dans les réseaux. Cependant, les actions conduites par les fonctions SON dans le réseau dépendent de la configuration de l’algorithme même de ces fonctions, et aussi du contexte du réseau et de l’environnement ou cette fonction est déployée. D’autre part, un réseau radio mobile auto-organisant serait idéalement un réseau où toutes les fonctions autonomes (SON) fonctionnent de manière coordonnée et cohérente pour répondre à des objectifs de haut niveau de l’opérateur. L’entité autonome serait donc le réseau capable de s’autogérer pour répondre à une stratégie globale de l’opérateur, exprimée en termes d’objectifs de haut niveau de l’opérateur. A cette fin, nous proposons dans cette thèse une approche qu'on appel « Cognitive Policy Based SON Management » (C-PBSM). Le C-PBSM est capable d’apprendre des configurations optimales des fonctions SON selon les exigences de l’opérateur. Il a également la capacité d’améliorer sa décision au cours du temps en apprenant de son expérience passée, et de s’adapter avec les changements de l’environnement. Nous étudions plusieurs approches pour mettre en place la boucle cognitive en se basant sur l’apprentissage par renforcement (RL). Nous analysons la convergence et la scalabilité de ces approches et proposons des solutions adaptées. Nous prenons en compte la non stationnarité des réseaux, notamment la variation de trafic. Nous proposons également des solutions pour mettre en œuvre un apprentissage collaboratif et un transfert des connaissances. Une architecture SDN (software defined networks) est proposée pour le déploiement des agents d’apprentissage dans le réseau. / The pressure on operators to improve the network management efficiency is constantly growing for many reasons: the user traffic that is increasing very fast, higher end users expectations, emerging services with very specific requirements. Self-Organizing Networks (SON) concept was introduced by the 3rd Generation Partnership Project as a promising solution to simplify the operation and management of complex networks. Many SON modules are already being deployed in today’s networks. Such networks are known as SON enabled networks, and they have proved to be useful in reducing the complexity of network management. However, SON enabled networks are still far from realizing a network that is autonomous and self-managed as a whole. In fact, the behavior of the SON functions depends on the parameters of their algorithm, as well as on the network environment where it is deployed. Besides, SON objectives and actions might be conflicting with each other, leading to incompatible parameter tuning in the network. Each SON function hence still needs to be itself manually configured, depending on the network environment and the objectives of the operator. In this thesis, we propose an approach for an integrated SON management system through a Cognitive Policy Based SON Management (C-PBSM) approach, based on Reinforcement Learning (RL). The C-PBSM translates autonomously high level operator objectives, formulated as target Key Performance Indicators (KPIs), into configurations of the SON functions. Furthermore, through its cognitive capabilities, the C-PBSM is able to build its knowledge by interacting with the real network. It is also capable of adapting with the environment changes. We investigate different RL approaches, we analyze the convergence time and the scalability and propose adapted solutions. We tackle the problem of non-stationarity in the network, notably the traffic variations, as well as the different contexts present in a network. We propose as well an approach for transfer learning and collaborative learning. Practical aspects of deploying RL agents in real networks are also investigated under Software Defined Network (SDN) architecture. Gestion cognitive Réseaux radio auto-organisant 5G Apprentissage par renforcement Cognitive management Self organized networks 5G Reinforcement learning
125	Real-Time Reinforcement Learning Ramstedt, Simon 09 1900 (has links) Les processus de décision markovien (MDP), le cadre mathématiques sous-jacent à la plupart des algorithmes de l'apprentissage par renforcement (RL) est souvent utilisé d'une manière qui suppose, à tort, que l'état de l'environnement d'un agent ne change pas pendant la sélection des actions. Puisque les systèmes RL basés sur les MDP classiques commencent à être appliqués dans les situations critiques pour la sécurité du monde réel, ce décalage entre les hypothèses sous-jacentes aux MDP classiques et la réalité du calcul en temps réel peut entraîner des résultats indésirables. Dans cette thèse, nous introduirons un nouveau cadre dans lequel les états et les actions évoluent simultanément, nous montrerons comment il est lié à la formulation MDP classique. Nous analyserons des algorithmes existants selon la nouvelle formulation en temps réel et montrerons pourquoi ils sont inférieurs, lorsqu'ils sont utilisés en temps réel. Par la suite, nous utiliserons ces perspectives pour créer un nouveau algorithme Real-Time Actor Critic qui est supérieur au Soft Actor Critic contrôle continu de l'état de l'art actuel, aussi bien en temps réel qu'en temps non réel. / Markov Decision Processes (MDPs), the mathematical framework underlying most algorithms in Reinforcement Learning (RL), are often used in a way that wrongfully assumes that the state of an agent's environment does not change during action selection. As RL systems based on MDPs begin to find application in real-world safety critical situations, this mismatch between the assumptions underlying classical MDPs and the reality of real-time computation may lead to undesirable outcomes. In this thesis, we introduce a new framework, in which states and actions evolve simultaneously, we show how it is related to the classical MDP formulation. We analyze existing algorithms under the new real-time formulation and show why they are suboptimal when used in real-time. We then use those insights to create a new algorithm, Real-Time Actor Critic (RTAC) that outperforms the existing state-of-the-art continuous control algorithm Soft Actor Critic both in real-time and non-real-time settings. apprentissage profond apprentissage par renforcement deep learning reinforcement learning
126	Modélisation du conditionnement animal par représentations factorisées dans un système d'apprentissage dual : explication des différences inter-individuelles aux niveaux comportemental et neurophysiologique / Modelling animal conditioning with factored representations in dual-learning : explaining inter-individual differences at behavioural and neurophysiological levels Lesaint, Florian 26 September 2014 (has links) Le conditionnement Pavlovien, l'acquisition de réponses vers des stimuli neutres associés à des récompenses, et le conditionnement instrumental, l'expression de comportements pour atteindre des buts, sont au cœur de nos capacités d'apprentissage. Ils sont souvent étudiés séparément malgré les preuves de leur enchevêtrement. Les modèles de conditionnement instrumental reposent sur le formalisme de l'apprentissage par renforcement (RL), alors que les modèles du conditionnement Pavlovien reposent surtout sur des architectures dédiées souvent incompatibles avec ce formalisme, compliquant l'étude de leurs interactions.Notre objectif est de trouver des concepts, qui combinés à des modèles RL puissent offrir une architecture unifiée permettant une telle étude. Nous développons un modèle qui combine un système RL classique, qui apprend une valeur par état, avec un système RL révisé, évaluant les stimuli séparément et biaisant le comportement vers ceux associés aux récompenses. Le modèle explique certaines réponses inadaptées par l'interaction néfaste des systèmes, ainsi que certaines différences inter-individuelles par une simple variation au niveau de la population de la contribution de chaque système dans le comportement global.Il explique une activité inattendue de la dopamine, vis-à-vis de l'hypothèse qu'elle encode un signal d'erreur, par son calcul sur les stimuli et non les états. Il est aussi compatible avec une hypothèse alternative que la dopamine contribue aussi à rendre certains stimuli recherchés pour eux-mêmes. Le modèle présente des propriétés prometteuses pour l'étude du conditionnement Pavlovien,du conditionnement instrumental et de leurs interactions. / Pavlovian conditioning, the acquisition of responses to neutral stimuli previously paired with rewards, and instrumental conditioning, the acquisition of goal-oriented responses, are central to our learning capacities. However, despite some evidences of entanglement, they are mainly studied separately. Reinforcement learning (RL), learning by trials and errors to reach goals, is central to models of instrumental conditioning, while models of Pavlovian conditioning rely on more dedicated and often incompatible architectures. This complicates the study of their interactions. We aim at finding concepts which combined with RL models may provide a unifying architecture to allow such a study. We develop a model that combines a classical RL system, learning values over states, with a revised RL system, learning values over individual stimuli and biasing the behaviour towards reward-related ones. It explains maladaptive behaviours in pigeons by the detrimental interaction of systems, and inter-individual differences in rats by a simple variation at the population level in the contribution of each system to the overall behaviour. It explains unexpected dopaminergic patterns with regard to the dominant hypothesis that dopamine parallels a reward prediction error signal by computing such signal over features rather than states, and makes it compatible with an alternative hypothesis that dopamine also contributes to the acquisition of incentive salience, making reward-related stimuli wanted for themselves. The present model shows promising properties for the investigation of Pavlovian conditioning, instrumental conditioning and their interactions. Neurosciences computationnelles Conditionnement Pavlovien Apprentissage par renforcement Représentations factorisées Conditionnement instrumental Variabilité inter-individuelle Pavlovian conditioning Instrumental conditioning 004
127	On impact of mixing times in continual reinforcement learning Raparthy, Sharath Chandra 02 1900 (has links) Le temps de mélange de la chaîne de Markov induite par une politique limite ses performances dans les scénarios réels d'apprentissage continu. Pourtant, l'effet des temps de mélange sur l'apprentissage dans l'apprentissage par renforcement (RL) continu reste peu exploré. Dans cet article, nous caractérisons des problèmes qui sont d'un intérêt à long terme pour le développement de l'apprentissage continu, que nous appelons processus de décision markoviens (MDP) « extensibles » (scalable), à travers le prisme des temps de mélange. En particulier, nous établissons théoriquement que les MDP extensibles ont des temps de mélange qui varient de façon polynomiale avec la taille du problème. Nous démontrons ensuite que les temps de mélange polynomiaux présentent des difficultés importantes pour les approches existantes, qui souffrent d'un biais myope et d'estimations à base de ré-échantillonnage avec remise ensembliste (bootstrapping) périmées. Pour valider notre théorie, nous étudions la complexité des temps de mélange en fonction du nombre de tâches et de la durée des tâches pour des politiques très performantes déployées sur plusieurs jeux Atari. Notre analyse démontre à la fois que des temps de mélange polynomiaux apparaissent en pratique et que leur existence peut conduire à un comportement d'apprentissage instable, comme l'oubli catastrophique dans des contextes d'apprentissage continu. / The mixing time of the Markov chain induced by a policy limits performance in real-world continual learning scenarios. Yet, the effect of mixing times on learning in continual reinforcement learning (RL) remains underexplored. In this paper, we characterize problems that are of long-term interest to the development of continual RL, which we call scalable MDPs, through the lens of mixing times. In particular, we theoretically establish that scalable MDPs have mixing times that scale polynomially with the size of the problem. We go on to demonstrate that polynomial mixing times present significant difficulties for existing approaches, which suffer from myopic bias and stale bootstrapped estimates. To validate our theory, we study the empirical scaling behavior of mixing times with respect to the number of tasks and task duration for high performing policies deployed across multiple Atari games. Our analysis demonstrates both that polynomial mixing times do emerge in practice and how their existence may lead to unstable learning behavior like catastrophic forgetting in continual learning settings. Reinforcement Learning Continual Learning Mixing Times Apprentissage par Renforcement Apprentissage Continuel Temps de Mélange
128	Small batch deep reinforcement learning Obando-Ceron, Johan Samir 11 1900 (has links) Dans l'apprentissage par renforcement profond basé sur la valeur avec des mémoires de relecture, le paramètre de taille de lot joue un rôle crucial en déterminant le nombre de transitions échantillonnées pour chaque mise à jour de gradient. Étonnamment, malgré son importance, ce paramètre n'est généralement pas ajusté lors de la proposition de nouveaux algorithmes. Dans ce travail, nous menons une vaste étude empirique qui suggère que la réduction de la taille des lots peut entraîner un certain nombre de gains de performances significatifs ; ceci est surprenant et contraire à la pratique courante consistant à utiliser de plus grandes tailles de lots pour améliorer la formation du réseau neuronal. Ce résultat inattendu défie la sagesse conventionnelle et appelle à une compréhension plus approfondie des gains de performances observés associés à des tailles de lots plus petites. Pour faire la lumière sur les facteurs sous-jacents, nous complétons nos résultats expérimentaux par une série d'analyses empiriques. Ces analyses approfondissent divers aspects du processus d'apprentissage, tels que l'analyse de la dynamique d'optimisation du réseau, la vitesse de convergence, la stabilité et les capacités d'exploration. Le chapitre 1 présente les concepts nécessaires pour comprendre le travail présenté, notamment des aperçus de l'Apprentissage Profond (Deep Learning) et de l'Apprentissage par Renforcement (Reinforcement Learning). Le chapitre 2 contient une description détaillée de nos contributions visant à comprendre les gains de performance observés associés à des tailles de lots plus petites lors de l'utilisation d'algorithmes d'apprentissage par renforcement profond basés sur la valeur. À la fin, des conclusions tirées de ce travail sont fournies, incluant des suggestions pour des travaux futurs. Le chapitre 3 aborde ce travail dans le contexte plus large de la recherche en apprentissage par renforcement. / In value-based deep reinforcement learning with replay memories, the batch size parameter plays a crucial role by determining the number of transitions sampled for each gradient update. Surprisingly, despite its importance, this parameter is typically not adjusted when proposing new algorithms. In this work, we conduct a broad empirical study that suggests {\em reducing} the batch size can result in a number of significant performance gains; this is surprising and contrary to the prevailing practice of using larger batch sizes to enhance neural network training. This unexpected result challenges the conventional wisdom and calls for a deeper understanding of the observed performance gains associated with smaller batch sizes. To shed light on the underlying factors, we complement our experimental findings with a series of empirical analyses such as analysis of network optimization dynamics, convergence speed, stability, and exploration capabilities. Chapter 1 introduces concepts necessary to understand the work presented, including overviews of Deep Learning and Reinforcement Learning. Chapter 2 contains a detailed description of our contributions towards understanding the observed performance gains associated with smaller batch sizes when using value based deep reinforcement learning algorithms. At the end, some conclusions drawn from this work are provided, including some exciting suggestion as future work. Chapter 3 talks about this work in the broader context of reinforcement learning research. Deep learning Reinforcement learning Representation learning Apprentissage profond Apprentissage par renforcement Apprentissage de représentations
129	Distributed fog load balancing to support IoT applications : a reinforcement learning approach Ebrahim, Maad 06 1900 (has links) L'informatique en périphérie (Fog Computing) étend le Cloud en fournissant des ressources distribuées à proximité des dispositifs IoT, soutenant les applications IoT en temps réel et sensibles aux délais. La charge de ces applications doit être intelligemment répartie à travers ces ressources limitées pour minimiser les délais d'attente dans les nœuds de périphérie, réduisant ainsi le délai d'exécution global et maximisant l'utilisation des ressources. Les solutions actuelles de répartition de charge sont souvent centralisées ou partiellement centralisées, ce qui va à l'encontre de l'objectif de l'informatique en périphérie de fournir des services distribués, entraînant des retards de décision, des points de défaillance uniques, des goulets d'étranglement et des problèmes de sécurité et de confidentialité. Ainsi, la conception d'une solution entièrement distribuée et efficace est essentielle pour les applications IoT en temps réel et sensibles aux délais dans des systèmes de périphérie complexes. Cette thèse apporte quatre contributions pour une solution efficace de répartition de charge en périphérie, évaluée sur un simulateur d'événements discrets avec des environnements réalistes et des architectures de périphérie hétérogènes. La première contribution est une solution de classement multicritère centralisée nécessitant des informations Fog en temps réel pour chaque décision d'attribution, surpassant les méthodes traditionnelles comme le Round-Robin. La deuxième contribution est un agent d'apprentissage par renforcement profond respectueux de la vie privée qui estime la charge dans chaque nœud sans la collecter, surpassant la première solution même dans des environnements partiellement observés. La troisième contribution est un cadre d'apprentissage continu pour cet agent, minimisant le délai de décision grâce à une inférence légère et ajusté par l'apprentissage par transfert, réduisant le temps d'entraînement par 5 et améliorant les performances par rapport à un agent formé à partir de zéro. La quatrième contribution déploie plusieurs instances indépendantes de l'agent aux passerelles IoT pour une solution évolutive, minimisant significativement le délai de décision et surpassant les solutions à agent unique, utilisant des protocoles de multidiffusion pour collecter les observations de l'environnement de manière réaliste. / Fog Computing extends the Cloud by providing distributed resources near IoT devices, supporting real-time and delay-sensitive IoT applications. The load of such applications must be intelligently distributed across these limited resources to minimize waiting delays in all Fog nodes, thereby reducing end-to-end execution delay and maximizing resource utilization. Existing load balancing solutions are either fully centralized or distributed with centralized components, which conflict with the aim of Fog Computing to provide distributed services, leading to decision delays, single points of failure, system bottlenecks, and security and privacy issues. Therefore, designing an efficient fully distributed solution is vital for real-time and delay-sensitive IoT applications in complex Fog systems. This thesis provides four contributions toward an efficient Fog load balancing solution for practical deployment, evaluated on a discrete-event simulator using realistic environments with heterogeneous and unbalanced Fog architectures serving heterogeneous workloads with variable generation rates. The first contribution is a centralized multi-criteria ranking solution requiring real-time Fog information for each assignment decision, outperforming traditional baseline methods like random, Round-Robin, nearest node selection, and fastest service selection methods. The second contribution is a privacy-aware Deep Reinforcement Learning agent that estimates the load in each Fog node instead of collecting it. This agent outperformed the first solution even with partially observed environments. The third contribution is a lifelong learning framework for the privacy-aware agent, minimizing decision delay using lightweight inference. To adapt to changes, the agent is fine-tuned using transfer learning instead of training from scratch, achieving a 5X reduction in training time, better generalization, and better performance than an agent trained from scratch. In the fourth contribution, multiple independent agent instances are deployed at IoT gateways for a scalable solution, outperforming single-agent solutions in minimizing decision delay. Additionally, interval-based multi-casting protocols are used to collect environment observations, unlike the common use of unrealistic instantaneous observations in the literature. IoT Informatique en périphérie Fog computing Répartition de charge Load balancing Apprentissage par renforcement Reinforcement learning
130	Méthodes d'apprentissage de la coordination multiagent : application au transport intelligent Laumônier, Julien 13 April 2018 (has links) Les problèmes de prise de décisions séquentielles multiagents sont difficiles à résoudre surtout lorsque les agents n'observent pas parfaitement l'état de Y environnement. Les approches existantes pour résoudre ces problèmes utilisent souvent des approximations de la fonction de valeur ou se basent sur la structure pour simplifier la résolution. Dans cette thèse, nous proposons d'approximer un problème de décisions séquentielles multiagent à observation limitée, modélisé par un processus décisionnel markovien décentralisé (DEC-MDP) en utilisant deux hypothèses sur la structure du problème. La première hypothèse porte sur la structure de comportement optimal et suppose qu'il est possible d'approximer la politique optimale d'un agent en connaissant seulement les actions optimales au niveau d'un petit nombre de situations auxquelles l'agent peut faire face dans son environnement. La seconde hypothèse porte, quant à elle, sur la structure organisationnelle des agents et suppose que plus les agents sont éloignés les uns des autres, moins ils ont besoin de se coordonner. Ces deux hypothèses nous amènent à proposer deux approches d'approximation. La première approche, nommée Supervised Policy Reinforcement Learning, combine l'apprentissage par renforcement et l'apprentissage supervisé pour généraliser la politique optimale d'un agent. La second approche se base, quant à elle, sur la structure organisationnelle des agents pour apprendre une politique multiagent dans des problèmes où l'observation est limitée. Pour cela, nous présentons un modèle, le D O F - D E C - M DP (Distance-Observable Factored Decentralized Markov Décision Process) qui définit une distance d'observation pour les agents. A partir de ce modèle, nous proposons des bornes sur le gain de récompense que permet l'augmentation de la distance d'observation. Les résultats empiriques obtenus sur des problèmes classiques d'apprentissage par renforcement monoagents et multiagents montrent que nos approches d'approximation sont capables d'apprendre des politiques proches de l'optimale. Enfin, nous avons testé nos approches sur un problème de coordination de véhicules en proposant une méthode de synchronisation d'agents via la communication dans un cadre à observation limitée. QA 76.05 UL 2008 L375 Intelligence artificielle répartie Systèmes de transport intelligents

Search results