• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Estratégias para aplicação de políticas parciais com motivação intrínseca. / Application strategies for intrinsic motivated options

Beirigo, Rafael Lemes 02 October 2014 (has links)
As técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica. / Reinforcement Learning techniques allow an agent to learn the solution to a problem by interacting with the environment and executing actions, thus receiving rewards that reflect the value of the actions taken, on a process of trial and error. When a problem has a hierarchical structure, its final solution depends on several solutions to the subproblems it contains, and it is rather common the repetition of subproblems. On these cases, by using options it is possible to learn the solution to each subproblem individually, keeping and then using them multiple times to compose the complete solution to the problem, thus accelerating the learning process. But, despite this advantage, the use of options create the need for some definitions, what can represent a burden to the designer. To circumvent this problem, automatic option discovery techniques were proposed, among which the use of intrinsic motivation deserves special attention for allowing the agent to learn the solution of the subproblems, which are useful to compose the final solution, without the need to manually define new rewards to these subproblems individually. Despite being promising, this technique is built upon a set of several learning components that need a more deep investigation on the individual and collective impacts of each component, mostly the options application strategies during the learning process. On this work two modifications are proposed concerning the application process of options on the Intrinsically Motivated Reinforcement Learning: (i) storage of the history of the options applied by the agent and (ii) allow the agent to explore, even when following an option. These modifications were implemented on an algorithm present on the literature and evaluated on a domain with strong hierarchical characteristics.
2

Estratégias para aplicação de políticas parciais com motivação intrínseca. / Application strategies for intrinsic motivated options

Rafael Lemes Beirigo 02 October 2014 (has links)
As técnicas de Aprendizado por Reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro. Em problemas com estrutura hierárquica, a solução final depende do encadeamento de soluções para subproblemas aí presentes, sendo frequente a repetição de subproblemas nesse encadeamento. Nesses casos, a utilização de políticas parciais permite o aprendizado e armazenamento das soluções individuais para cada subproblema, que podem então ser utilizadas múltiplas vezes na composição de uma solução completa para o problema final, acelerando o aprendizado. Apesar de vantajosa, a utilização de políticas parciais necessita de definições por parte do projetista, o que representa uma sobrecarga. Para contornar esse problema, foram propostas técnicas de descoberta automática de políticas parciais, dentre as quais a utilização de motivação intrínseca se destaca por permitir ao agente aprender soluções de subproblemas úteis na solução do problema final sem a necessidade de se definir manualmente novas recompensas para esses subproblemas individualmente. Apesar de promissora, essa proposta utiliza um conjunto de componentes de aprendizado que ainda carece de investigação aprofundada acerca dos impactos individual e coletivo de cada componente, notadamente a aplicação das políticas parciais durante o aprendizado. Nesta dissertação são propostas duas abordagens para a aplicação de políticas parciais no Aprendizado por Reforço com Motivação Intrínseca: (i) armazenamento das políticas parciais em aplicação pelo agente e (ii) exploração interna à aplicação das políticas parciais. O impacto das propostas no desempenho de aprendizado é avaliado experimentalmente em um domínio com forte caracterização hierárquica. / Reinforcement Learning techniques allow an agent to learn the solution to a problem by interacting with the environment and executing actions, thus receiving rewards that reflect the value of the actions taken, on a process of trial and error. When a problem has a hierarchical structure, its final solution depends on several solutions to the subproblems it contains, and it is rather common the repetition of subproblems. On these cases, by using options it is possible to learn the solution to each subproblem individually, keeping and then using them multiple times to compose the complete solution to the problem, thus accelerating the learning process. But, despite this advantage, the use of options create the need for some definitions, what can represent a burden to the designer. To circumvent this problem, automatic option discovery techniques were proposed, among which the use of intrinsic motivation deserves special attention for allowing the agent to learn the solution of the subproblems, which are useful to compose the final solution, without the need to manually define new rewards to these subproblems individually. Despite being promising, this technique is built upon a set of several learning components that need a more deep investigation on the individual and collective impacts of each component, mostly the options application strategies during the learning process. On this work two modifications are proposed concerning the application process of options on the Intrinsically Motivated Reinforcement Learning: (i) storage of the history of the options applied by the agent and (ii) allow the agent to explore, even when following an option. These modifications were implemented on an algorithm present on the literature and evaluated on a domain with strong hierarchical characteristics.
3

Temporal Abstractions in Multi-agent Learning

Jiayu Chen (18396687) 13 June 2024 (has links)
<p dir="ltr">Learning, planning, and representing knowledge at multiple levels of temporal abstractions provide an agent with the ability to predict consequences of different courses of actions, which is essential for improving the performance of sequential decision making. However, discovering effective temporal abstractions, which the agent can use as skills, and adopting the constructed temporal abstractions for efficient policy learning can be challenging. Despite significant advancements in single-agent settings, temporal abstractions in multi-agent systems remains underexplored. This thesis addresses this research gap by introducing novel algorithms for discovering and employing temporal abstractions in both cooperative and competitive multi-agent environments. We first develop an unsupervised spectral-analysis-based discovery algorithm, aiming at finding temporal abstractions that can enhance the joint exploration of agents in complex, unknown environments for goal-achieving tasks. Subsequently, we propose a variational method that is applicable for a broader range of collaborative multi-agent tasks. This method unifies dynamic grouping and automatic multi-agent temporal abstraction discovery, and can be seamlessly integrated into the commonly-used multi-agent reinforcement learning algorithms. Further, for competitive multi-agent zero-sum games, we develop an algorithm based on Counterfactual Regret Minimization, which enables agents to form and utilize strategic abstractions akin to routine moves in chess during strategy learning, supported by solid theoretical and empirical analyses. Collectively, these contributions not only advance the understanding of multi-agent temporal abstractions but also present practical algorithms for intricate multi-agent challenges, including control, planning, and decision-making in complex scenarios.</p>

Page generated in 0.0957 seconds