Global ETD Search

1	Intrinsic exploration for reinforcement learning beyond rewards Creus-Castanyer, Roger 07 1900 (has links) Dans l'apprentissage par renforcement, une fonction de récompense guide le comportement de l'agent vers des objectifs spécifiques. Cependant, dans des environnements complexes, ces récompenses extrinsèques ne suffisent souvent pas, car leur conception nécessite beaucoup de travail humain. Cette thèse explore les récompenses intrinsèques comme une alternative, en mettant en avant leur potentiel pour permettre aux agents d'apprendre de manière autonome et d'explorer sans supervision. Tout d'abord, nous identifions un problème majeur avec de nombreuses récompenses intrinsèques : leur nature non-stationnaire, qui complique l'optimisation. Pour résoudre ce problème, nous proposons des objectifs stationnaires pour l'exploration (SOFE), qui transforment les récompenses non-stationnaires en récompenses stationnaires grâce à des représentations d'état augmentées. Cette approche améliore les performances de différentes méthodes de récompenses intrinsèques dans divers environnements. Ensuite, nous introduisons S-Adapt, une nouvelle méthode de motivation intrinsèque adaptative basée sur le contrôle de l'entropie. Ce mécanisme, conçu comme un problème de bandit à plusieurs bras, permet aux agents de développer des comportements émergents dans divers environnements sans avoir besoin de récompenses extrinsèques. Enfin, nous présentons RLeXplore, un cadre complet qui normalise l'implémentation de huit méthodes de récompense intrinsèque de pointe. Ce cadre vise à résoudre les incohérences dans l'optimisation et les détails de mise en œuvre des récompenses intrinsèques, accélérant ainsi la recherche dans le domaine du RL à motivation intrinsèque. Ces contributions avancent notre compréhension et l'application de la motivation intrinsèque dans des environnements virtuels, montrant sa capacité à développer des comportements d'agent plus autonomes dans une variété de situations complexes / In reinforcement learning, a reward function is used to guide the agent's behavior towards task-specific objectives. However, such extrinsic rewards often fall short in complex environments due to the significant human effort required for their design. This thesis explores intrinsic rewards as an alternative, focusing on their potential to enable agents to learn autonomously and explore in an unsupervised manner. First, we identify a fundamental issue with many intrinsic rewards: their non-stationarity, which complicates the optimization process. To mitigate this, we propose Stationary Objectives For Exploration (\textbf{SOFE}), which transforms non-stationary rewards into stationary ones through augmented state representations and achieves performance gains across various intrinsic reward methods and environments. Secondly, we present \textbf{S-Adapt} a novel approach for adaptive intrinsic motivation based on entropy control. This adaptive mechanism, framed as a multi-armed bandit problem, empowers agents to exhibit emergent behaviors in diverse settings without extrinsic rewards. Finally, we introduce \textbf{RLeXplore}, a comprehensive framework that standardizes the implementation of eight state-of-the-art intrinsic reward methods. This framework addresses the lack of consistency in the optimization and implementation details of intrinsic rewards, thereby accelerating research progress in intrinsically-motivated RL. Collectively, these contributions advance the understanding and application of intrinsic motivation in RL, demonstrating its viability for developing more autonomous agent behavior across a spectrum of challenging environments. Reinforcement Learning Intrinsic Rewards Intrinsic Motivation Non-Stationarity Optimization Entropy Control Multi-armed Bandits Apprentissage par renforcement Récompenses Intrinsèques Motivation Intrinsèque Non-stationnarité Optimisation Contrôle de l’entropie Bandits à plusieurs bras

Search results

Intrinsic exploration for reinforcement learning beyond rewards