• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 94
  • 67
  • 4
  • Tagged with
  • 168
  • 168
  • 168
  • 111
  • 101
  • 69
  • 69
  • 56
  • 48
  • 43
  • 39
  • 34
  • 33
  • 31
  • 30
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
131

Deep reinforcement learning for multi-modal embodied navigation

Weiss, Martin 12 1900 (has links)
Ce travail se concentre sur une tâche de micro-navigation en plein air où le but est de naviguer vers une adresse de rue spécifiée en utilisant plusieurs modalités (par exemple, images, texte de scène et GPS). La tâche de micro-navigation extérieure s’avère etre un défi important pour de nombreuses personnes malvoyantes, ce que nous démontrons à travers des entretiens et des études de marché, et nous limitons notre définition des problèmes à leurs besoins. Nous expérimentons d’abord avec un monde en grille partiellement observable (Grid-Street et Grid City) contenant des maisons, des numéros de rue et des régions navigables. Ensuite, nous introduisons le Environnement de Trottoir pour la Navigation Visuelle (ETNV), qui contient des images panoramiques avec des boîtes englobantes pour les numéros de maison, les portes et les panneaux de nom de rue, et des formulations pour plusieurs tâches de navigation. Dans SEVN, nous formons un modèle de politique pour fusionner des observations multimodales sous la forme d’images à résolution variable, de texte visible et de données GPS simulées afin de naviguer vers une porte d’objectif. Nous entraînons ce modèle en utilisant l’algorithme d’apprentissage par renforcement, Proximal Policy Optimization (PPO). Nous espérons que cette thèse fournira une base pour d’autres recherches sur la création d’agents pouvant aider les membres de la communauté des gens malvoyantes à naviguer le monde. / This work focuses on an Outdoor Micro-Navigation (OMN) task in which the goal is to navigate to a specified street address using multiple modalities including images, scene-text, and GPS. This task is a significant challenge to many Blind and Visually Impaired (BVI) people, which we demonstrate through interviews and market research. To investigate the feasibility of solving this task with Deep Reinforcement Learning (DRL), we first introduce two partially observable grid-worlds, Grid-Street and Grid City, containing houses, street numbers, and navigable regions. In these environments, we train an agent to find specific houses using local observations under a variety of training procedures. We parameterize our agent with a neural network and train using reinforcement learning methods. Next, we introduce the Sidewalk Environment for Visual Navigation (SEVN), which contains panoramic images with labels for house numbers, doors, and street name signs, and formulations for several navigation tasks. In SEVN, we train another neural network model using Proximal Policy Optimization (PPO) to fuse multi-modal observations in the form of variable resolution images, visible text, and simulated GPS data, and to use this representation to navigate to goal doors. Our best model used all available modalities and was able to navigate to over 100 goals with an 85% success rate. We found that models with access to only a subset of these modalities performed significantly worse, supporting the need for a multi-modal approach to the OMN task. We hope that this thesis provides a foundation for further research into the creation of agents to assist members of the BVI community to safely navigate.
132

Generic autonomic service management for component-based applications / Gestion autonomique générique des services pour les applications à base de composants

Belhaj, Nabila 25 September 2018 (has links)
Au cours de la dernière décennie, la complexité des applications a considérablement évolué afin de répondre aux besoins métiers émergeants. Leur conception implique une composition distribuée de composants logiciels. Ces applications fournissent des services à travers les interactions métiers maintenues par leurs composants. De telles applications sont intrinsèquement en évolution dynamique en raison de la dynamicité de leurs contextes. En effet, elles évoluent dans des environnements qui changent tout en présentant des conditions très dynamiques durant leur cycle de vie d’exécution. De tels contextes représentent une lourde charge pour les développeurs aussi bien pour leurs tâches de conception que de gestion. Cela a motivé́ le besoin de renforcer l’autonomie de gestion des applications pour les rendre moins dépendantes de l’intervention humaine en utilisant les principes de l’Informatique Autonomique. Les Systèmes Informatiques Autonomes (SIA) impliquent l’utilisation des boucles autonomiques, dédiées aux systèmes afin de les aider à accomplir leurs tâches de gestion. Ces boucles ont pour objectif d’adapter leurs systèmes à la dynamicité de leurs contextes, en se basant sur une logique d’adaptation intégrée. Cette logique est souvent donnée par des règles statiques codées manuellement. La construction de ces règles demande beaucoup de temps tout en exigeant une bonne expertise. En fait, elles nécessitent une compréhension approfondie de la dynamicité du système afin de prédire les adaptations précises à apporter à celui-ci. Par ailleurs, une telle logique ne peut envisager tous les scénarios d’adaptation possibles, donc, ne sera pas en mesure de prendre en compte des adaptations pour des situations précédemment inconnues. Les SIA devraient donc être assez sophistiqués afin de pouvoir faire face à la nature dynamique de leurs contextes et de pouvoir apprendre par eux-mêmes afin d’agir correctement dans des situations inconnues. Les SIA devraient également être capables d’apprendre de leur propre expérience passée afin de modifier leur logique d’adaptation en fonction de la dynamicité de leurs contextes. Dans ce manuscrit, nous abordons les lacunes décrites en utilisant les techniques d’Apprentissage par Renforcement (AR) afin de construire notre logique d’adaptation. Cependant, les approches fondées sur l’AR sont connues pour leur mauvaise performance lors des premières phases d’apprentissage. Cette mauvaise performance entrave leur utilisation dans le monde réel des systèmes déployés. Par conséquent, nous avons amélioré cette logique d’adaptation avec des capacités d’apprentissage plus performantes avec une approche AR en multi-pas. Notre objectif est d’optimiser la performance de l’apprentissage et de le rendre plus efficace et plus rapide, en particulier durant les premières phases d’apprentissage. Nous avons aussi proposé́ un cadriciel générique visant à aider les développeurs dans la construction d’applications auto-adaptatives. Nous avons donc proposé de transformer des applications existantes en ajoutant des capacités d’autonomie et d’apprentissage à leurs composants. La transformation consiste en l’encapsulation des composants dans des conteneurs autonomiques pour les doter du comportement auto-adaptatif nécessaire. Notre objectif est d’alléger la charge des tâches de gestion des développeurs et de leur permettre de se concentrer plus sur la logique métier de leurs applications. Les solutions proposées sont destinées à être génériques, granulaires et basées sur un standard connu, à savoir l’Architecture de Composant de Service. Enfin, nos propositions ont été évaluées et validées avec des résultats expérimentaux. Ils ont démontré leur efficacité en montrant un ajustement dynamique des applications transformées face aux dynamicités de leurs contextes en un temps beaucoup plus court comparé aux approches existantes / During the past decade, the complexity of applications has significantly scaled to satisfy the emerging business needs. Their design entails a composition of distributed and interacting software components. They provide services by means of the business interactions maintained by their components. Such applications are inherently in a dynamic evolution due to their context dynamics. Indeed, they evolve in changing environments while exhibiting highly dynamic conditions during their execution life-cycle (e.g., their load, availability, performance, etc.). Such contexts have burdened the applications developers with their design and management tasks. Subsequently, motivated the need to enforce the autonomy of their management to be less dependent on human interventions with the Autonomic Computing principles. Autonomic Computing Systems (ACS) implies the usage of autonomic loops, dedicated to help the system to achieve its management tasks. These loops main role is to adapt their associated systems to the dynamic of their contexts by acting upon an embedded adaptation logic. Most of time, this logic is given by static hand-coded rules, often concern-specific and potentially error-prone. It is undoubtedly time and effort-consuming while demanding a costly expertise. Actually, it requires a thorough understanding of the system design and dynamics to predict the accurate adaptations to bring to the system. Furthermore, such logic cannot envisage all the possible adaptation scenarios, hence, not able to take appropriate adaptations for previously unknown situations. ACS should be sophisticated enough to cope with the dynamic nature of their contexts and be able to learn on their own to properly act in unknown situations. They should also be able to learn from their past experiences and modify their adaptation logic according to their context dynamics. In this thesis manuscript, we address the described shortcomings by using Reinforcement Learning (RL) techniques to build our adaptation logic. Nevertheless, RL-based approaches are known for their poor performance during the early stages of learning. This poor performance hinders their usage in real-world deployed systems. Accordingly, we enhanced the adaptation logic with sophisticated and better-performing learning abilities with a multi-step RL approach. Our main objective is to optimize the learning performance and render it timely-efficient which considerably improves the ACS performance even during the beginning of learning phase. Thereafter, we pushed further our work by proposing a generic framework aimed to support the application developers in building self-adaptive applications. We proposed to transform existing applications by dynamically adding autonomic and learning abilities to their components. The transformation entails the encapsulation of components into autonomic containers to provide them with the needed self-adaptive behavior. The objective is to alleviate the burden of management tasks on the developers and let them focus on the business logic of their applications. The proposed solutions are intended to be generic, granular and based on a well known standard (i.e., Service Component Architecture). Finally, our proposals were evaluated and validated with experimental results. They demonstrated their effectiveness by showing a dynamic adjustment to the transformed application to its context changes in a shorter time as compared to existing approaches
133

Self-supervision for data interpretability in image classification and sample efficiency in reinforcement learning

Rajkumar, Nitarshan 06 1900 (has links)
L'apprentissage auto-surveillé (AAS), c'est-à-dire l'apprentissage de connaissances en exploitant la structure intrinsèque présente dans un ensemble de données non étiquettées, a beaucoup fait progresser l'apprentissage automatique dans la dernière décennie, et plus particulièrement dans les dernières deux années en vision informatique. Dans cet ouvrage, nous nous servons de l'AAS comme outil dans deux champs applicatifs: Pour interpréter efficacement les ensembles de données et les décisions prises par des modèles statistiques, et pour pré-entrainer un modèle d'apprentissage par renforcement pour grandement augmenter l'efficacité de son échantillonnage dans son contexte d'entraînement. Le Chapitre 1 présente les connaissances de fond nécessaires à la compréhension du reste du mémoire. Il offre un aperçu de l'apprentissage automatique, de l'apprentissage profond, de l'apprentissage auto-surveillé et de l'apprentissage par renforcement (profond). Le Chapitre 2 se détourne brièvement du sujet de l'auto-surveillance pour étudier comment le phénomène de la mémorisation se manifeste dans les réseaux de neurones profonds. Les observations que nous ferons seront alors utilisées comme pièces justificatives pour les travaux présentés dans le Chapitre 3. Ce chapitre aborde la manière dont l'auto-surveillance peut être utilisée pour découvrir efficacement les régularités structurelles présentes dans un ensemble de données d'entraînement, estimer le degré de mémorisation de celui-ci par le modèle, et l'influence d'un échantillon d'entraînement sur les résultats pour un échantillon-test. Nous passons aussi en revue de récents travaux touchant à l'importance de mémoriser la ``longue traîne'' d'un jeu de données. Le Chapitre 4 fait la démonstration d'une combinaison d'objectifs de pré-entraînement AAS axés sur les caractéristiques des données en apprentissage par renforcement, de ce fait élevant l'efficacité d'échantillonnage à un niveau comparable à celui d'un humain. De plus, nous montrons que l'AAS ouvre la porte à de plus grands modèles, ce qui a été par le passé un défi à surmonter en apprentissage par renforcement profond. Finalement, le Chapitre 5 conclut l'ouvrage avec un bref survol des contributions scientifiques et propose quelque avenues pour des recherches poussées dans le futur. / Self-Supervised Learning (SSL), or learning representations of data by exploiting inherent structure present in it without labels, has driven significant progress in machine learning over the past decade, and in computer vision in particular over the past two years. In this work, we explore applications of SSL towards two separate goals - first, as a tool for efficiently interpreting datasets and model decisions, and second, as a tool for pretraining in reinforcement learning (RL) to greatly advance sample efficiency in that setting. Chapter 1 introduces background material necessary to understand the remainder of this thesis. In particular, it provides an overview of Machine Learning, Deep Learning, Self-Supervised Representation Learning, and (Deep) Reinforcement Learning. Chapter 2 briefly detours away from this thesis' focus on self-supervision, to examine how the phenomena of memorization manifests in deep neural networks. These results are then used to partially justify work presented in Chapter 3, which examines how self-supervision can be used to efficiently uncover structural regularity in training datasets, and to estimate training memorization and the influence of training samples on test samples. Recent experimental work on understanding the importance of memorizing the long-tail of data is also revisited. Chapter 4 demonstrates how a combination of SSL pretraining objectives designed for the structure of data in RL can greatly improve sample efficiency to nearly human-level performance. Furthermore, it is shown that SSL enables the use of larger models, which has historically been a challenge in deep RL. Chapter 5 concludes by reviewing the contributions of this work, and discusses future directions.
134

Deep Reinforcement Learning on Social Environment Aware Navigation based on Maps

Sanchez, Victor January 2023 (has links)
Reinforcement learning (RL) has seen a fast expansion in recent years of its successful application to a range of decision-making and complex control tasks. Moreover, deep learning offers RL the opportunity to enlarge its spectrum of complex fields. Social Robotics is a domain that involves challenges like Human-Robot Interaction which bears inspiration for development in deep RL. Autonomous systems demand a fast and efficient environment perception so as to guarantee safety. However, while being attentive to its surrounding, a robot needs to take decisions to navigate optimally and avoid potential obstacles. In this thesis, we investigate a deep RL method for mobile robot end-to-end navigation in a social environment. Using the observation collected in a simulation environment, a convolutional neural network is trained to predict an appropriate set of discrete angular and linear velocities for a robot based on its egocentric local occupancy grid map. We compare a random learning way to a curriculum learning approach to ameliorate speed convergence during training. We divide the main problem by analysing separately end-to-end navigation and obstacle avoidance in static and dynamic environments. For each problem, we propose an adaptation that aims to improve the surrounding awareness of the agent. The qualitative and quantitative evaluations of the investigated approach were performed in simulations. The results show that the end-to-end navigation map-based model is easy to set up and shows similar performance as a Model Predictive Control approach. However, we discern that obstacle avoidance is harder to translate to a deep RL framework. Despite this difficulty, using different RL methods and configurations will definitely help and bring ideas for improvement for future work. / Förstärkande Inlärning (RL) har sett en snabb expansion de senaste åren för sin fruktbara tillämpning på en rad beslutsfattande och komplexa kontrolluppgifter. Dessutom erbjuder djupinlärning RL möjligheten att utöka sitt spektrum till komplexa områden. Social Robotics är en domän som involverar utmaningar som människa-robot interaktion som bär inspiration för utveckling i djup RL. Autonoma system kräver en snabb och effektiv miljöuppfattning för att garantera säkerheten. Men samtidigt som den är uppmärksam på sin omgivning, måste en robot fatta beslut för att navigera optimalt och undvika potentiella hinder. I detta examensarbete undersöker vi en djup RL-metod för mobil robot-end-to-end-navigering i en social miljö. Med hjälp av observationen som samlats in i en simuleringsmiljö tränas ett faltningsneuralt nätverk för att förutsäga en lämplig uppsättning diskreta vinkel- och linjärhastigheter för en robot baserat på dess egocentriska rutnätskarta över lokala beläggningar. Vi jämför ett slumpmässigt inlärningssätt med läroplansinlärningsmetod för att förbättra hastighetskonvergensen. Vi delar upp huvudproblemet genom att separat analysera end-to-end-navigering och undvikande av hinder i statisk och dynamisk miljö. För varje problem föreslår vi en anpassning som syftar till att agenten bättre förstår sin omgivning. De kvalitativa och kvantitativa utvärderingarna av det undersökta tillvägagångssättet utfördes endast i simuleringar. Resultaten visar att den heltäckande navigationskartbaserade modellen är lätt att distribuera och visar liknande prestanda som en modell för prediktiv kontroll. Vi ser dock att undvikande av hinder är svårare att översätta till ett djupt RL-ramverk. Trots denna svårighet kommer användning av olika RL-metoder och konfiguration definitivt att hjälpa och ge idéer om förbättringar för framtida arbete. / L’apprentissage par renforcement (RL) a connu une expansion rapide ces dernières années pour ses applications à une gamme de tâches de prise de décision et de contrôle complexes. Le deep learning offre au RL la possibilité d’élargir son spectre à des domaines complexes. La robotique sociale est un domaine qui implique des défis tels que l’interaction homme-robot, source d’inspiration pour le développement en RL profond. Les systèmes autonomes exigent une perception rapide et efficace de l’environnement afin de garantir la sécurité. Cependant, tout en étant attentif à son environnement, un robot doit prendre des décisions pour naviguer de manière optimale et éviter les obstacles potentiels. Dans cette thèse, nous étudions une méthode de RL profond pour la navigation de bout a bout de robots mobiles dans un environnement social. À l’aide de l’observation recueillie dans un environnement de simulation, un réseau neuronal convolutif prédit un ensemble adapté de vitesses angulaires et linéaires discrètes pour un robot en fonction de sa carte de grille d’occupation locale égocentrique. Nous comparons une méthode d’apprentissage aléatoire à une approche d’apprentissage du curriculum pour accelerer la convergence durant l’entrainement. Nous divisons le problème principal en analysant séparément la navigation de bout a bout et l’évitement d’obstacles dans un environnement statique et dynamique. Pour chaque problème, nous proposons une adaptation visant à ce que l’agent comprenne mieux son environnement. Les évaluations qualitatives et quantitatives de l’approche étudiée ont été effectuées uniquement dans des simulations. Les résultats montrent que le modèle basé sur la carte de navigation de bout en bout est facile à déployer et affiche des performances similaires à celles d’une approche de contrôle prédictif de modèle. Cependant, nous discernons que l’évitement d’obstacles est plus difficile à traduire dans un cadre RL profond. Malgré cette difficulté, l’utilisation de différentes méthodes et configurations RL aidera certainement et apportera une idée d’amélioration pour les travaux futurs.
135

Imitation from observation using behavioral learning

Djeafea Sonwa, Medric B. 11 1900 (has links)
L'Imitation par observation (IPO) est un paradigme d'apprentissage qui consiste à entraîner des agents autonomes dans un processus de décision markovien (PDM) en observant les démonstrations d'un expert et sans avoir accès à ses actions. Ces démonstrations peuvent être des séquences d'états de l'environnement ou des observations visuelles brutes de l'environnement. Bien que le cadre utilisant des états à dimensions réduites ait permis d'obtenir des résultats convaincants avec des approches récentes, l'utilisation d'observations visuelles reste un défi important en IPO. Une des procédures très adoptée pour résoudre le problème d’IPO consiste à apprendre une fonction de récompense à partir des démonstrations, toutefois la nécessité d’analyser l'environnement et l'expert à partir de vidéos pour récompenser l'agent augmente la complexité du problème. Nous abordons ce problème avec une méthode basée sur la représentation des comportements de l'agent dans un espace vectoriel en utilisant des vidéos démonstratives. Notre approche exploite les techniques récentes d'apprentissage contrastif d'images et vidéos et utilise un algorithme de bootstrapping pour entraîner progressivement une fonction d'encodage de trajectoires à partir de la variation du comportement de l'agent. Simultanément, cette fonction récompense l'agent imitateur lors de l'exécution d'un algorithme d'apprentissage par renforcement. Notre méthode utilise un nombre limité de vidéos démonstratives et nous n'avons pas accès à comportement expert. Nos agents imitateurs montrent des performances convaincantes sur un ensemble de tâches de contrôle et démontrent que l'apprentissage d'une fonction de codage du comportement à partir de vidéos permet de construire une fonction de récompense efficace dans un PDM. / Imitation from observation (IfO) is a learning paradigm that consists of training autonomous agents in a Markov Decision Process (MDP) by observing an expert's demonstrations and without access to its actions. These demonstrations could be sequences of environment states or raw visual observations of the environment. Although the setting using low-dimensional states has allowed obtaining convincing results with recent approaches, the use of visual observations remains an important challenge in IfO. One of the most common procedures adopted to solve the IfO problem is to learn a reward function from the demonstrations, but the need to understand the environment and the expert's moves through videos to appropriately reward the learning agent increases the complexity of the problem. We approach this problem with a method that focuses on the representation of the agent’s behaviors in a latent space using demonstrative videos. Our approach exploits recent techniques of contrastive learning of image and video and uses a bootstrapping algorithm to progressively train a trajectory encoding function from the variation of the agent’s policy. Simultaneously, this function rewards the imitating agent through a Reinforcement Learning (RL) algorithm. Our method uses a limited number of demonstrative videos and we do not have access to any expert policy. Our imitating agents in experiments show convincing performances on a set of control tasks and demonstrate that learning a behavior encoding function from videos allows for building an efficient reward function in MDP.
136

Reasoning with structure : graph neural networks algorithms and applications

Deac, Andreea-Ioana 08 1900 (has links)
L’avènement de l'apprentissage profond a permis à l'apprentissage automatique d’exceller dans le traitement d'images et de texte. Donnant lieu à de nombreux succès dans les domaines d’applications tels que la vision par ordinateur ou le traitement du langage naturel. Cependant, il demeure un grand nombre de problèmes d’intérêt dont les données d’entrées ne peuvent être exprimées sous l’un de ces deux formats sans perte d'informations potentiellement cruciales pour leur résolution. C’est dans l’optique de répondre à ce besoin qu’a été développée la branche de l'apprentissage profond géométrique (GDL), qui s’intéresse aux espaces de représentations plus générales, mieux adaptées aux données dont la structure sous-jacente ne correspond pas au format de chaîne de caractères unidimensionnel (texte) ou bidimensionnel (images). Dans cette thèse, nous nous concentrerons plus particulièrement sur les graphes. Les graphes sont des structures de données omniprésentes, sous-jacentes à pratiquement toutes les tâches d'intérêt, y compris celles portant sur les données naturelles (par exemple les molécules), les relations entre entités (par exemple les réseaux de transport et les placements de puces), ou encore la liaison de concepts dans les processus de raisonnement (par exemple les algorithmes et autres constructions théoriques). Alors que les architectures modernes de réseaux de neurones de graphes (GNNs) dits expressifs peuvent obtenir des résultats impressionnants sur des benchmarks comme susmentionnés, leur application pratique est toujours en proie à de nombreux problèmes et lacunes, que cette thèse abordera. Les considérations issues de ces applications préparerons le terrain pour les chapitres suivants, qui se concentreront sur la résolution des limites des réseaux de neurones de graphes en proposant de nouveaux algorithmes d'apprentissage de graphes. Tout d'abord, nous porterons notre attention sur l'amélioration des réseaux de neurones de graphes pour les données qui nécessitent des interactions à longue portée, en construisant des modèles généraux pour compléter leur graphe de calcul. Viennent ensuite les réseaux de neurones de graphes pour les données hétérophiles, où les arêtes ont tendance à connecter des nœuds de différentes classes; dans ce cas, nous proposerons une modification particulière du graphe de calcul destinée à améliorer l'homophilie atténue le problème. Dans un troisième temps, nous tirerons parti d'une caractéristique avantageuse des réseaux de neurones de graphes - leur alignement avec la programmation dynamique. Elle permet aux réseaux de neurones de graphes d'exécuter des algorithmes, sur la base desquels nous proposons une nouvelle classe de planificateurs implicites pour la prise de décision. Enfin, nous capitalisons sur l'utilité de l'apprentissage profond géométrique dans l'apprentissage par renforcement et l'étendrons au-delà des GNNs, en tirant parti des réseaux de neurones à rotation équivariante dans les agents basés sur des modèles. / Since the deep learning revolution, machine learning has excelled at tasks based on images and text, many successes being possible under the umbrella of the computer vision and natural language processing fields. However, much remains that cannot be expressed in these forms without losing information. For these cases, the field of geometric deep learning was developed, covering the space of more general representations, for data whose underlying structure doesn't match the single-dimensional string of characters (text) or 2-D shape (images) format. In this thesis, I will particularly focus on graphs. Graphs are ubiquitous data structures underlying virtually all tasks of interest, including natural inputs such as molecules, entity relations for example transportation networks and chip placements, or concept linking in reasoning processes, including algorithms and other theoretical constructs. While modern expressive graph neural network architectures can achieve impressive results on benchmarks like these, their practical application is still plagued with many issues and shortcomings, which this thesis will address. The considerations from these applications will set the scene for the following chapters, which focus on tackling the limitations of graph neural networks by proposing new graph learning algorithms. Firstly, I focus on improving graph neural networks for data that requires long-range interactions by building general templates to complement their computation graph. This is followed by graph neural networks for heterophilic data, where the edges tend to connect nodes from different classes; in this case, a specialised modification of the computation graph meant to improve homophily alleviates the problem. In the third article, I leverage a strength of graph neural networks -- their alignment with dynamic programming. This enables graph neural networks to execute algorithms, based on which I propose a new class of implicit planners for decision making. Lastly, I capitalise on the utility of geometric deep learning in reinforcement learning and extend it beyond GNNs, leveraging rotation-equivariant neural networks in model-based agents.
137

Towards simulating the emergence of environmentally responsible behavior among natural resource users : an integration of complex systems theory, machine learning and geographic information science

Harati Asl, Saeed 12 1900 (has links)
La gouvernance pour le développement durable comporte de nombreux défis. L'un de ces défis consiste à mieux comprendre les systèmes socio-écologiques gouvernés. Dans de tels systèmes, l'apprentissage par essais et erreurs implique le risque de conséquences inattendues, irréversibles et néfastes. De plus, en raison de la complexité des systèmes socio-écologiques, les leçons tirées d'expériences à petite échelle ne peuvent pas toujours être applicables à des problèmes à grande échelle. Un autre aspect difficile des problèmes de développement durable est que ces problèmes sont souvent multidisciplinaires et composés de composants qui sont chacun étudiés individuellement dans une discipline différente, mais il existe peu d'informations sur leur comportement ensemble. Un troisième défi de la gouvernance pour le développement durable est qu'il est souvent nécessaire d'impliquer les parties prenantes dans des actions de gestion et des mesures d'intervention coûteuses pour les individus qui y participent. De plus, dans de nombreuses situations de ce type, les incitations financières et l'application des réglementations se soldent par un échec et ne constituent donc pas des options de gouvernance. Dans cette thèse, les défis ci-dessus sont abordés dans un exemple de contrôle des perturbations forestières avec une approche intégrée. Pour éviter le problème des effets indésirables irréversibles et pour permettre des expériences répétées, une approche de simulation est utilisée. Pour relever le défi de la multidisciplinarité des problèmes des systèmes socio-écologiques, deux modèles sont développés indépendamment - portant sur les aspects sociaux et écologiques du système de l'étude - et ils sont ensuite couplés de telle sorte que la sortie de chaque modèle est utilisée comme entrée pour l'autre modèle. Pour résoudre le problème de l'engagement des parties prenantes, un plan est proposé pour la promotion d'un comportement respectueux de l'environnement. Ce plan est basé sur l'offre de reconnaissance à ceux qui adoptent volontairement le comportement responsable. Le modèle écologique de cette étude, qui simule la propagation d'une perturbation forestière, est construit à l'aide de l’apprentissage automatique supervisé. Le modèle social de cette étude, qui simule l'émergence d'une nouvelle norme de comportement, est construit à l'aide de l'apprentissage par renforcement. Les deux modèles sont testés et validés avant couplage. Le modèle couplé est ensuite utilisé comme un laboratoire virtuel, où plusieurs expériences sont réalisées dans un cadre hypothétique et selon différents scénarios. Chacune de ces expériences est une simulation. A travers ces simulations, cette étude montre qu'avec un algorithme de prise de décision approprié et avec suffisamment de temps pour l'interaction entre une entité gouvernante et la société, il est possible de créer une motivation pour un comportement responsable dans la société. En d'autres termes, il est possible d'encourager la participation volontaire des acteurs à l'action pour le développement durable, sans que l'entité gouvernante ait besoin d'utiliser des incitations financières ou d'imposer son autorité. Ces résultats peuvent être applicables à d'autres contextes où un comportement responsable des individus ou des entreprises est recherché afin d'atténuer l'impact d'une perturbation, de protéger une ressource écologique, ou de faciliter une transition sectorielle vers la durabilité. / Governance for sustainable development involves many challenges. One of those challenges is to gain insight about the social-ecological systems being governned. In such systems, learning by trial and error involve the risk of unexpected, irreversible and adverse consequences. Moreover, due to complexity of social-ecological systems, lessons learned from small scale experiments may not be applicable in large-scale problems. Another challenging aspect of problems of sustainable development is that these problems are often multidisciplinary and comprised of components that are each studied individually in a different discipline, but little information exists about their behavior together as a whole. A third challenge in governance for sustainable development is that often it is necessary to involve stakeholders in management actions and intervention measures that are costly for individuals who participate in them. Moreover, in many of these situations financial incentives or enforcement of regulations result in failure, and are thus not options for governance. In this thesis, the above challenges are addressed in an example case of forest disturbance control with an integrated approach. To avoid the problem of irreversible adverse effects and to allow repeated experiments, a simulation approach is used. To tackle the challenge of multidisciplinarity of problems of social-ecological systems, two models are independently developed – pertaining to social and ecological aspects of the system of the study – and they are subsequently coupled in such a way that the output of each model served as an input for the other. To address the problem of engagement of stakeholders, a scheme is proposed for promotion of environmentally responsible behavior. This scheme is based on offering recognition to those who voluntarily perform the responsible behavior. The ecological model of this study, which simulates the spread of a forest disturbance, is built using Supervised Machine Learning. The social model of this study, which simulates the emergence of a new norm of behavior, is built using Reinforcement Learning. Both models are tested and validated before coupling. The coupled model is then used as a virtual laboratory, where several experiments are performed in a hypothetical setting and under various scenarios. Each such experiment is a simulation. Through these simulations, this study shows that with an appropriate decision-making algorithm and with sufficient time for interaction between a governing entity and the society, it is possible to create motivation for responsible behavior in the society. In other words, it is possible to encourage voluntary participation of stakeholders in action for sustainable development, without the need for the governing entity to use financial incentives or impose its authority. These results may be applicable to other contexts where responsible behavior by individuals or enterprises is sought in order to mitigate the impact of a disturbance, protect an ecological resource, or facilitate a sectoral transition towards sustainability.
138

The role of continual learning and adaptive computation in improving computational efficiency of deep learning

Gupta, Kshitij 01 1900 (has links)
Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l’IA, principalement grâce aux progrès de l’apprentissage automatique, de l’apprentissage profond et de l’utilisation de modèles à grande échelle. Cependant, à mesure que ces modèles évoluent, ils présentent de nouveaux défis en termes de gestion de grands ensembles de données et d’efficacité informatique. Cette thèse propose des approches pour réduire les coûts de calcul de la formation et de l’inférence dans les systèmes d’intelligence artificielle (IA). Plus précisément, ce travail étudie les techniques d’apprentissage continu et de calcul adaptatif, démontrant des stratégies possibles pour préserver les niveaux de performance de ces systèmes tout en réduisant considérablement les coûts de formation et d’inférence. Les résultats du premier article montrent que les modèles de base peuvent être continuellement pré-entraînés grâce à une méthode d’échauffement et de relecture, ce qui réduit considérable- ment les coûts de calcul de l’entraînement tout en préservant les performances par rapport à un entraînement à partir de zéro. Par la suite, la thèse étudie comment les stratégies de calcul adaptatif, lorsqu’elles sont combinées avec la mémoire, peuvent être utilisées pour créer des agents d’IA plus efficaces au moment de l’inférence pour des tâches de raisonnement complexes, telles que le jeu stratégique de Sokoban. Nos résultats montrent que les modèles peuvent offrir des per- formances similaires ou améliorées tout en utilisant beaucoup moins de ressources de calcul. Les résultats de cette étude ont de vastes implications pour l’amélioration de l’efficacité in- formatique des systèmes d’IA, soutenant à terme le développement de technologies d’IA plus abordables, accessibles et efficaces. / Over the past decade, significant progress has been made by the field of AI, primarily due to advances in machine learning, deep learning, and the usage of large scale models. However, as these models scale, they present new challenges with respect to handling large datasets and being computationally efficient. This thesis proposes approaches to reducing computational costs of training and inference in artificial intelligence (AI) systems. Specifically, this work investigates how Continual Learning and Adaptive Computation techniques can be used to reducing training and inference costs while preserving the perfor- mance levels of these systems . The findings of the first article show that foundation models can be continually pre-trained through a method of warm-up and replay, which significantly decreases training computational costs while preserving performance compared to training from scratch. Subsequently, the thesis investigates how adaptive computation strategies, when com- bined with memory, can be utilized to create more computationally efficient AI agents at inference time for complex reasoning tasks, such as the strategic game of Sokoban. Our results exhibit that models can deliver similar or improved performances while using signifi- cantly fewer computational resources. Findings from this study have broad implications for improving the computational efficiency of AI systems, ultimately supporting the development of more affordable, accessible, and efficient AI technologies.
139

Beyond the status quo in deep reinforcement learning

Agarwal, Rishabh 05 1900 (has links)
L’apprentissage par renforcement profond (RL) a connu d’énormes progrès ces dernières années, mais il est encore difficile d’appliquer le RL aux problèmes de prise de décision du monde réel. Cette thèse identifie trois défis clés avec la façon dont nous faisons la recherche RL elle-même qui entravent les progrès de la recherche RL. — Évaluation et comparaison peu fiables des algorithmes RL ; les méthodes d’évaluation actuelles conduisent souvent à des résultats peu fiables. — Manque d’informations préalables dans la recherche RL ; Les algorithmes RL sont souvent formés à partir de zéro, ce qui peut nécessiter de grandes quantités de données ou de ressources informatiques. — Manque de compréhension de la façon dont les réseaux de neurones profonds interagissent avec RL, ce qui rend difficile le développement de méthodes évolutives de RL. Pour relever ces défis susmentionnés, cette thèse apporte les contributions suivantes : — Une méthodologie plus rigoureuse pour évaluer les algorithmes RL. — Un flux de travail de recherche alternatif qui se concentre sur la réutilisation des progrès existants sur une tâche. — Identification d’un phénomène de perte de capacité implicite avec un entraînement RL hors ligne prolongé. Dans l’ensemble, cette thèse remet en question le statu quo dans le RL profond et montre comment cela peut conduire à des algorithmes de RL plus efficaces, fiables et mieux applicables dans le monde réel. / Deep reinforcement learning (RL) has seen tremendous progress in recent years, but it is still difficult to apply RL to real-world decision-making problems. This thesis identifies three key challenges with how we do RL research itself that hinder the progress of RL research. — Unreliable evaluation and comparison of RL algorithms; current evaluation methods often lead to unreliable results. — Lack of prior information in RL research; RL algorithms are often trained from scratch, which can require large amounts of data or computational resources. — Lack of understanding of how deep neural networks interact with RL, making it hard to develop scalable RL methods. To tackle these aforementioned challenges, this thesis makes the following contributions: — A more rigorous methodology for evaluating RL algorithms. — An alternative research workflow that focuses on reusing existing progress on a task. — Identifying an implicit capacity loss phenomenon with prolonged offline RL training. Overall, this thesis challenges the status quo in deep reinforcement learning and shows that doing so can make RL more efficient, reliable and improve its real-world applicability
140

Intrinsic exploration for reinforcement learning beyond rewards

Creus-Castanyer, Roger 07 1900 (has links)
Dans l'apprentissage par renforcement, une fonction de récompense guide le comportement de l'agent vers des objectifs spécifiques. Cependant, dans des environnements complexes, ces récompenses extrinsèques ne suffisent souvent pas, car leur conception nécessite beaucoup de travail humain. Cette thèse explore les récompenses intrinsèques comme une alternative, en mettant en avant leur potentiel pour permettre aux agents d'apprendre de manière autonome et d'explorer sans supervision. Tout d'abord, nous identifions un problème majeur avec de nombreuses récompenses intrinsèques : leur nature non-stationnaire, qui complique l'optimisation. Pour résoudre ce problème, nous proposons des objectifs stationnaires pour l'exploration (SOFE), qui transforment les récompenses non-stationnaires en récompenses stationnaires grâce à des représentations d'état augmentées. Cette approche améliore les performances de différentes méthodes de récompenses intrinsèques dans divers environnements. Ensuite, nous introduisons S-Adapt, une nouvelle méthode de motivation intrinsèque adaptative basée sur le contrôle de l'entropie. Ce mécanisme, conçu comme un problème de bandit à plusieurs bras, permet aux agents de développer des comportements émergents dans divers environnements sans avoir besoin de récompenses extrinsèques. Enfin, nous présentons RLeXplore, un cadre complet qui normalise l'implémentation de huit méthodes de récompense intrinsèque de pointe. Ce cadre vise à résoudre les incohérences dans l'optimisation et les détails de mise en œuvre des récompenses intrinsèques, accélérant ainsi la recherche dans le domaine du RL à motivation intrinsèque. Ces contributions avancent notre compréhension et l'application de la motivation intrinsèque dans des environnements virtuels, montrant sa capacité à développer des comportements d'agent plus autonomes dans une variété de situations complexes / In reinforcement learning, a reward function is used to guide the agent's behavior towards task-specific objectives. However, such extrinsic rewards often fall short in complex environments due to the significant human effort required for their design. This thesis explores intrinsic rewards as an alternative, focusing on their potential to enable agents to learn autonomously and explore in an unsupervised manner. First, we identify a fundamental issue with many intrinsic rewards: their non-stationarity, which complicates the optimization process. To mitigate this, we propose Stationary Objectives For Exploration (\textbf{SOFE}), which transforms non-stationary rewards into stationary ones through augmented state representations and achieves performance gains across various intrinsic reward methods and environments. Secondly, we present \textbf{S-Adapt} a novel approach for adaptive intrinsic motivation based on entropy control. This adaptive mechanism, framed as a multi-armed bandit problem, empowers agents to exhibit emergent behaviors in diverse settings without extrinsic rewards. Finally, we introduce \textbf{RLeXplore}, a comprehensive framework that standardizes the implementation of eight state-of-the-art intrinsic reward methods. This framework addresses the lack of consistency in the optimization and implementation details of intrinsic rewards, thereby accelerating research progress in intrinsically-motivated RL. Collectively, these contributions advance the understanding and application of intrinsic motivation in RL, demonstrating its viability for developing more autonomous agent behavior across a spectrum of challenging environments.

Page generated in 0.1314 seconds