• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • Tagged with
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Agente topológico de aprendizado por reforço / Topological reinforcement learning agent

Braga, Arthur Plínio de Souza 07 April 2004 (has links)
Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR. / Reinforcement Learning (RL) methods have shown to be a good choice for decision-making problems due to their flexible and adaptive characteristics. Despite such promising features, RL methods often have their practical application restricted to small or medium size (at state, or state-action, space) problems mainly because of their standard strategies for value function estimation. In this thesis, a new RL approach, called \"Topological Reinforcement Learning Agent\" - TRLA, is proposed to accelerate learning through an alternative mechanism to update the state-action value function. TRLA is inspired in latent learning, which refers to animal learning that occurs in the absence of reinforcements and that is not visible until an environmental reinforcement is perceived. This concept considers that part of a task can be learned even before the agent receives any indication of how to perform such a task. Cognitive Maps are usually used to encode information about the environment where the agent is immersed. Thus, the TRLA uses a topological map, based on Self-Organized Maps, to implement cognitive map functions and permit a new simple mechanism to execute the propagation of state-action updates. The chosen problem to test TRLA is the simulation of a mobile robot navigation in some initially unknown and unstructured environments. Performance comparisons of the TRLA with six other RL algorithms were carried out to the execution of the navigation task. The obtained results are very promising and comparable with some of faster RL algorithms simulated. In some experiments, the TRLA\'s performance overcomes the others especially in simulations with unstructured environments. Three characteristics of the original TRLA were modified to make it more suitable for real implementations: (i) changes in the topological map construction to reduce the vertices number, (ii) changes in the agents heuristic for action selection, and (iii) variations on the TRLAs strategy for exploration of the state-action space. In (i), a new procedure to construct topological maps was proposed and implemented, the Incremental Classifier Topological Map ICTM, which generates the vertices for a Watsons triangulation from the classification of the input states. In (ii), it was proposed a method to optimize trajectory planning problems based on graphs, denoted \"trajectory improvement from inner point detection\". The third point considers directed exploration strategies as an option for TRLA\'s learning acceleration.
2

Agente topológico de aprendizado por reforço / Topological reinforcement learning agent

Arthur Plínio de Souza Braga 07 April 2004 (has links)
Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR. / Reinforcement Learning (RL) methods have shown to be a good choice for decision-making problems due to their flexible and adaptive characteristics. Despite such promising features, RL methods often have their practical application restricted to small or medium size (at state, or state-action, space) problems mainly because of their standard strategies for value function estimation. In this thesis, a new RL approach, called \"Topological Reinforcement Learning Agent\" - TRLA, is proposed to accelerate learning through an alternative mechanism to update the state-action value function. TRLA is inspired in latent learning, which refers to animal learning that occurs in the absence of reinforcements and that is not visible until an environmental reinforcement is perceived. This concept considers that part of a task can be learned even before the agent receives any indication of how to perform such a task. Cognitive Maps are usually used to encode information about the environment where the agent is immersed. Thus, the TRLA uses a topological map, based on Self-Organized Maps, to implement cognitive map functions and permit a new simple mechanism to execute the propagation of state-action updates. The chosen problem to test TRLA is the simulation of a mobile robot navigation in some initially unknown and unstructured environments. Performance comparisons of the TRLA with six other RL algorithms were carried out to the execution of the navigation task. The obtained results are very promising and comparable with some of faster RL algorithms simulated. In some experiments, the TRLA\'s performance overcomes the others especially in simulations with unstructured environments. Three characteristics of the original TRLA were modified to make it more suitable for real implementations: (i) changes in the topological map construction to reduce the vertices number, (ii) changes in the agents heuristic for action selection, and (iii) variations on the TRLAs strategy for exploration of the state-action space. In (i), a new procedure to construct topological maps was proposed and implemented, the Incremental Classifier Topological Map ICTM, which generates the vertices for a Watsons triangulation from the classification of the input states. In (ii), it was proposed a method to optimize trajectory planning problems based on graphs, denoted \"trajectory improvement from inner point detection\". The third point considers directed exploration strategies as an option for TRLA\'s learning acceleration.
3

Um agente autônomo baseado em aprendizagem por reforço direcionado à meta / An autonomous agent based on goal-directed reinforcement learning

Braga, Arthur Plínio de Souza 16 December 1998 (has links)
Uma meta procurada em inteligência artificial (IA) é o desenvolvimento de mecanismos inteligentes capazes de cumprir com objetivos preestabelecidos, de forma totalmente independente, em ambientes dinâmicos e complexos. Uma recente vertente das pesquisas em IA, os agentes autônomos, vem conseguindo resultados cada vez mais promissores para o cumprimento desta meta. A motivação deste trabalho é a proposição e implementação de um agente que aprenda a executar tarefas, sem a interferência de um tutor, em um ambiente não estruturado. A tarefa prática proposta para testar o agente é a navegação de um robô móvel em ambientes com diferentes configurações, e cujas estruturas são inicialmente desconhecidas pelo agente. O paradigma de aprendizagem por reforço, através de variações dos métodos de diferença temporal, foi utilizado para implementar o agente descrito nesta pesquisa. O resultado final obtido foi um agente autônomo que utiliza um algoritmo simples para desempenhar propriedades como: aprendizagem a partir de tabula rasa, aprendizagem incremental, planejamento deliberativo, comportamento reativo, capacidade de melhoria do desempenho e habilidade para gerenciar múltiplos objetivos. O agente proposto também apresenta um desempenho promissor em ambientes cuja estrutura se altera com o tempo, porém diante de certas situações seus comportamentos em tais ambientes tendem a se tornar inconsistentes. / One of the current goals of research in Artificial Intelligence is the proposition of intelligent entities that are able to reach a particular target in a dynamic and complex environment without help of a tutor. This objective has been becoming reality through the propositions of the autonomous agents. Thus, the main motivation of this work is to propose and implement an autonomous agent that can match the mentioned goals. This agent, a mobile robot, has to navigate in environments which are initially unknown and may have different structures. The agent learns through one of the main reinforcement learning strategies: temporal difference. The proposed autonomous employs a simple learning mechanisms with the following features: learns incrementally from tabula rasa, executes deliberative and reactive planning, improves its performance through interactions with the environment, and manages multiple objectives. The agent presented promising results when moving in a dynamic environment. However, there are situations in which the agent do not follow this last property.
4

Um agente autônomo baseado em aprendizagem por reforço direcionado à meta / An autonomous agent based on goal-directed reinforcement learning

Arthur Plínio de Souza Braga 16 December 1998 (has links)
Uma meta procurada em inteligência artificial (IA) é o desenvolvimento de mecanismos inteligentes capazes de cumprir com objetivos preestabelecidos, de forma totalmente independente, em ambientes dinâmicos e complexos. Uma recente vertente das pesquisas em IA, os agentes autônomos, vem conseguindo resultados cada vez mais promissores para o cumprimento desta meta. A motivação deste trabalho é a proposição e implementação de um agente que aprenda a executar tarefas, sem a interferência de um tutor, em um ambiente não estruturado. A tarefa prática proposta para testar o agente é a navegação de um robô móvel em ambientes com diferentes configurações, e cujas estruturas são inicialmente desconhecidas pelo agente. O paradigma de aprendizagem por reforço, através de variações dos métodos de diferença temporal, foi utilizado para implementar o agente descrito nesta pesquisa. O resultado final obtido foi um agente autônomo que utiliza um algoritmo simples para desempenhar propriedades como: aprendizagem a partir de tabula rasa, aprendizagem incremental, planejamento deliberativo, comportamento reativo, capacidade de melhoria do desempenho e habilidade para gerenciar múltiplos objetivos. O agente proposto também apresenta um desempenho promissor em ambientes cuja estrutura se altera com o tempo, porém diante de certas situações seus comportamentos em tais ambientes tendem a se tornar inconsistentes. / One of the current goals of research in Artificial Intelligence is the proposition of intelligent entities that are able to reach a particular target in a dynamic and complex environment without help of a tutor. This objective has been becoming reality through the propositions of the autonomous agents. Thus, the main motivation of this work is to propose and implement an autonomous agent that can match the mentioned goals. This agent, a mobile robot, has to navigate in environments which are initially unknown and may have different structures. The agent learns through one of the main reinforcement learning strategies: temporal difference. The proposed autonomous employs a simple learning mechanisms with the following features: learns incrementally from tabula rasa, executes deliberative and reactive planning, improves its performance through interactions with the environment, and manages multiple objectives. The agent presented promising results when moving in a dynamic environment. However, there are situations in which the agent do not follow this last property.

Page generated in 0.0905 seconds