• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Domain adaptation in reinforcement learning via causal representation learning

Côté-Turcotte, Léa 07 1900 (has links)
Les progrès récents en apprentissage par renforcement ont été substantiels, mais ils dépendent souvent de l'accès à l'état. Un état est un ensemble d'informations qui fournit une description concise et complète de l'environnement, englobant tous les détails pertinents nécessaires pour que l'agent puisse prendre des décisions éclairées. Cependant, de telles données détaillées sont rarement disponibles dans les situations réelles. Les images offrent une forme de données plus réaliste et accessible, mais leur complexité pose d'importants défis dans le développement de politiques robustes et efficaces. Les méthodes d'apprentissage de représentation se sont révélées prometteuses pour améliorer l'efficacité des politiques basées sur les données de pixels. Néanmoins, les politiques peinent toujours à généraliser à de nouveaux domaines, rendant l'application de l'apprentissage par renforcement basé sur les pixels impraticable pour des scénarios du monde réel. Cela souligne le besoin urgent de s'attaquer à l'adaptation de domaine dans l'apprentissage par renforcement basé sur les pixels. Cette thèse examine le potentiel de l'apprentissage de représentation causale pour améliorer l'adaptation de domaine dans l'apprentissage par renforcement. L'idée sous-jacente est que pour que les agents s'adaptent efficacement à de nouveaux domaines, ils doivent être capables d'extraire des informations de haut niveau à partir de données brutes et de comprendre les dynamiques causales qui régulent l'environnement. Pour étudier cela, nous évaluons quatre algorithmes distincts d'apprentissage de représentation causale, chacun conçu pour capturer un niveau de structure plus détaillé dans l'espace latent, évaluant leur impact sur la performance d'adaptation de domaine. Le processus implique d'abord d'apprendre une représentation causale puis de former l'agent d'apprentissage par renforcement sur cette représentation. La performance d'adaptation de domaine de ces agents est évaluée dans deux environnements de conduite autonome : CarRacing et CARLA. Nos résultats soutiennent que l'apprentissage d'une représentation latente améliore nettement l'efficacité et la robustesse dans l'apprentissage par renforcement basé sur les pixels. De plus, ils indiquent qu'apprendre une structure causale dans l'espace latent contribue à une meilleure performance d'adaptation de domaine. Cependant, la promesse de la représentation causale pour améliorer l'adaptation de domaine est tempérée par leurs demandes computationnelles substantielles. De plus, lorsque des observations de plusieurs domaines sont disponibles, cette approche ne dépasse pas l'efficacité des méthodes plus simples. Nous avons également trouvé que les agents entraînés sur des représentations qui conservent toutes les informations de l'espace latent ont tendance à surpasser les autres, suggérant que les représentations dissociées sont préférables aux représentations invariantes. / Recent advancements in reinforcement learning have been substantial, but they often depend on access to the state. A state is a set of information that provides a concise and complete description of the environment, encompassing all relevant details necessary for the agent to make informed decisions. However, such detailed data is rarely available in real-world settings. Images present a more realistic and accessible data form, but their complexity introduces considerable challenges in developing robust and efficient policies. Representation learning methods have shown promise in enhancing the efficiency of policies based on pixel data. Nonetheless, policies continue to struggle to generalize to new domains, making the application of pixel-based reinforcement learning impractical for real-world scenarios. This highlights the urgent need to address domain adaptation in pixel-based reinforcement learning. This thesis investigates the potential of causal representation learning in improving domain adaptation in reinforcement learning. The underlying premise is that for reinforcement learning agents to adapt to new domains effectively, they must be able to extract high-level information from raw data and comprehend the causal dynamics that regulate the environment. We evaluate four distinct causal representation learning algorithms, each aimed at uncovering a more intricate level of structure within the latent space, to assess their impact on domain adaptation performance. This involves first learning a causal representation, followed by training the reinforcement learning agent on this representation. The domain adaptation performance of these agents is evaluated within two autonomous driving environments: CarRacing and CARLA. Our results support that learning a latent representation enhances efficiency and robustness in pixel-based RL. Moreover, it indicates that understanding complex causal structures in the latent space leads to improved domain adaptation performance. However, the promise of advanced causal representation in augmenting domain adaptation is tempered by its substantial computational demands. Additionally, when observations from multiple domains are available, this approach does not exceed the effectiveness of simpler methods. We also found that agents trained on representations that retain all information tend to outperform others, suggesting that disentangled representations are preferable to invariant representations.

Page generated in 0.1656 seconds