• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Searching for Q*

Piché, Alexandre 04 1900 (has links)
Les travaux dans cette thèse peuvent être vue à travers le prisme commun de la “recherche de Q*” et visent à mettre en évidence l’efficacité de la combinaison des systèmes d’apprentissage par renforcement (RL) profond et la planification. Le RL profond nous permet d’apprendre: 1) des politiques riches à partir desquelles nous pouvons échantillonner des actions futures potentielles, et 2) des fonctions Q précises permettant à l’agent d’évaluer l’impact potentiel de ses actions avant de les prendre. La planification permet à l’agent d’utiliser le calcul pour améliorer sa politique en évaluant plusieurs séquences potentielles d’actions futures et en sélectionnant la plus prometteuse. Dans cette thèse, nous explorons différentes façons de combiner ces deux composantes afin qu’elles se renforcent mutuellement et nous permettent d’obtenir des agents plus robustes. La première contribution de cette thèse cadre le RL et la planification comme un pro- blème d’inférence. Ce cadre nous permet d’utiliser des techniques de Monte Carlo séquentiel pour approximer une distribution sur les trajectoires planifiées optimales. La deuxième contribution met en évidence une connexion entre les réseaux cibles utilisés dans l’appren- tissage Q profond et la régularisation fonctionnelle, ce qui nous conduit à une régularisation des fonctions Q plus flexible et “propre”. La troisième contribution simplifie le problème de RL via l’apprentissage supervisé en modélisant directement le retour futur comme une distribution, permettant à l’agent d’échantillonner des retours conditionnels à l’état présent plutôt qu’être un hyper paramètre specifique à chaque environnement. Enfin, la quatrième contribution propose un nouvel algorithme d’optimisation itératif basé sur l’auto-évaluation et l’auto-amélioration pour les grands modèles de langage, cet algorithme est utilisé pour réduire le taux d’hallucination des modèles sans compromettre leurs utilités. / The research in this thesis can be seen through the common lens of “Searching for Q*” and aims to highlight the effectiveness of combining deep Reinforcement Learning (RL) systems and search. Deep RL allows us to learn: 1) rich policies from which we can sample potential future actions, and 2) accurate Q-functions allowing the agent to evaluate the potential impact of its actions before taking them. Search allows the agent to use computation to improve its policy by evaluating multiple potential future sequences of actions and selecting the most promising one. In this thesis, we explore different ways to combine these two components, so they improve one another and allow us to obtain stronger agents. The first contribution of this thesis frames RL and planning as an inference problem. This framing enables us to leverage Sequential Monte Carlo techniques to approximate a distribution over the optimal planned trajectories. The second contribution highlights a connection between Target Networks used in Q-learning and functional regularization, lead- ing us to a more flexible and “proper” regularization of Q-functions. The third contribution simplifies the RL via supervised learning (RvS) problem by directly modeling future return as a distribution, allowing the agent to sample returns on the fly instead of having it be a hyperparameter dependent on the environment. Finally, the fourth contribution proposes a novel iterative optimization algorithm based on self-evaluation and self-prompting for large language models, which reduces the hallucination rates of the model without compromising its helpfulness.

Page generated in 0.1352 seconds