11 |
Arquitetura híbrida inteligente para navegação autônoma de robôs / Intelligent hybrid architecture for robot autonomous navigationCalvo, Rodrigo 09 March 2007 (has links)
Este projeto consiste em um sistema de navegação autônomo baseado em redes neurais nebulosas modulares capacitando o robô a alcançar alvos, ou pontos metas, em ambientes desconhecidos. Inicialmente, o sistema não tem habilidade para a navegação, após uma fase de experimentos com algumas colisões, o mecanismo de navegação aprimora-se guiando o robô ao alvo de forma eficiente. Uma arquitetura híbrida inteligente é apresentada para este sistema de navegação, baseada em redes neurais artificiais e lógica nebulosa. A arquitetura é hierárquica e costitiui-se de dois módulos responsáveis por gerar comportamentos inatos de desvio de obstáculos e de busca ao alvo. Um mecanismo de aprendizagem por reforço, baseada em uma extensão da lei de Hebb, pondera os comportamentos inatos conflitantes ajustando os pesos sinápticos das redes neurais nos instantes de captura do alvo e de colisão contra obstáculos. A abordagem consolidada em simulação é validada em ambientes reais neste trabalho. Para tanto, este sistema foi implementado e testado no simulador Saphira, ambiente de simulação que acompanha o robô Pioneer I e que denota um estágio anterior aos testes em ambientes reais por apresentar comportamentos do robô similares aos comportamentos do robô móvel. Modificações na arquitetura híbrida foram necessárias para adaptar o sistema de navegação simulado ao sistema incorporado no Pioneer I. Experimentos em ambientes reais demonstraram a eficiência e a capacidade de aprendizagem do sistema de navegação, validando a arquitetura híbrida inteligente para aplicação em robôs móveis / This project consists in a autonomous navigation system based on modular neuro-fuzzy networks that is able to guide the robot in unknown environments from a initial point to the goal. Initially, the system is not able to navigate, but after a trial and error period and some collisions, it improves in guiding the robot to the goal efficiently. A intelligent hybrid architecture is presented for this naviga tion system based on artificial neural networks and fuzzy logic. This architecture is hierarquical and consists in two modules that generate innate behaviors, like obstacles avoiding and target reaching. A reinforcement learning mecanism, based on the extended Hebb law, balances this conflicting innate behaviors adjusting the neural network synaptic weights as obstacle and collision avoidance and target reaching takes place. In this project, the approach is consolidated in simulation and validated in real environments. To this end, this system has been implemented by using Saphira simulator and Pioneer I simulation environment. This simulated evironment is a previous stage of tests performed real time and presents simulated robot behaviors similar to real mobile robot behaviors. The hybrid architecture was modified to adapt the simulated navigation system into Pioneer I software. Experiments in a real environments show the efficiency and learning capabilities of the navigation system, validating the intelligent hybrid architecture for mobile robots applications
|
12 |
Agentes-Q: um algoritmo de roteamento distribuído e adaptativo para redes de telecomunicações / Q-Agents: an adaptive and distributed routing algorithm for telecommunications networksVittori, Karla 14 April 2000 (has links)
As redes de telecomunicações são responsáveis pelo envio de informação entre pontos de origem e destino. Dentre os diversos dispositivos que participam deste processo, destaca-se o sistema de roteamento, que realiza a seleção das rotas a serem percorridas pelas mensagens ao longo da rede e sua condução ao destino desejado. O avanço das tecnologias utilizadas pelas redes de telecomunicações provocou a necessidade de novos sistemas de roteamento, que sejam capazes de lidar corretamente com as diversas situações enfrentadas atualmente. Dentro deste contexto, este projeto de pesquisa desenvolveu um algoritmo de roteamento adaptativo e distribuído, resultado da integração de três estratégias de aprendizagem e da adição de alguns mecanismos extras, com o objetivo de obter um algoritmo eficiente e robusto às diversas variações das condições de operação da rede. As abordagens utilizadas foram a aprendizagem-Q, aprendizagem por reforço dual e aprendizagem baseada no comportamento coletivo de formigas. O algoritmo desenvolvido foi aplicado a duas redes de comutação de circuitos e seu desempenho foi comparado ao de dois algoritmos baseados no comportamento coletivo de formigas, que foram aplicados com sucesso ao problema de roteamento. Os experimentos conduzidos envolveram situações reais enfrentadas pelas redes, como variações dos seus padrões de tráfego, nível de carga e topologia. Além disto, foram realizados testes envolvendo a presença de ruído nas informações utilizadas para a seleção das rotas a serem percorridas pelas chamadas. O algoritmo proposto obteve melhores resultados que os demais, apresentando maior capacidade de adaptação às diversas situações consideradas. Os experimentos demonstraram que novos mecanismos de otimização devem ser anexados ao algoritmo proposto, para melhorar seu comportamento exploratório sob variações permanentes do nível de carga da rede e presença de ruído nos dados utilizados em suas tarefas. / The telecommunications networks are responsible for transmiting information between source and destination points in a fast, secure and reliable way, providing low cost and high quality services. Among the several devices that takes place on this process, there is thre routing system, which selects the routes to be traversed by the messages through the network and their forwarding to the destination desired. The advances in tecnologies used by telecommunications networks caused the necessity of new routing systems, that can work correctly with the situations faced by current telecommunications networks. Hence, this research project developed an adaptive and distributed routing algorithm, resulting of the integration of three leaming strategies and addition of some extra mechanisms, with the goal of having a robust and adaptive algorithm to the several variations on operation network conditions. The approaches chosen were Q-learning, dual reinforcement learning and learning based on collective behavior of ants. The developed algorithm was applied to two circuit-switching telecommunications networks and its performance was compared to two algorithms based on ant colony behavior, which were used with success to solve the routing problem. The experiments run comprised real situations faced by telecommunications networks, like variations on the network traffic patterns, load level and topology. Moreover, we did some tests with the presence of noise in information used to select the routes to be traversed by calls. The algorithm proposed produced better results than the others, showing higher capacity of adaptation to the several situations considered. The experiments showed that new optimization mechanisms must be added to the routing algorithm developed, to improve its exploratory behavior under permanent variations on network load level and presence of noise in data used in its tasks.
|
13 |
Algoritmos da Família LMS para a Solução Aproximada da HJB em Projetos Online de Controle Ótimo Discreto Multivariável e Aprendizado por Reforço. / Family LMS algorithms for Approximate Solution the HJB Online projects of Discrete optimal control Multivariable and reinforcement Learning .SILVA, Márcio Eduardo Gonçalves 21 August 2014 (has links)
Submitted by Maria Aparecida (cidazen@gmail.com) on 2017-09-04T13:10:41Z
No. of bitstreams: 1
Marcio Eduardo.pdf: 7939176 bytes, checksum: 3b90c4b32aeabafd3b87e4f3c36d2ed6 (MD5) / Made available in DSpace on 2017-09-04T13:10:41Z (GMT). No. of bitstreams: 1
Marcio Eduardo.pdf: 7939176 bytes, checksum: 3b90c4b32aeabafd3b87e4f3c36d2ed6 (MD5)
Previous issue date: 2014-08-21 / The technique of linear control based on the minimization of a quadratic performance
index using the second method of Lyapunov to guarantee the stability of the system,
if this is controllable and observable. however, this technique is inevitably necessary
to find the solution of the HJB or Riccati equation. The control system design online
need, real time, to adjust your feedback gain to maintain a certain dynamic, it requires
the calculation of the Riccati equation solution in each sampling generating a large
computational load that can derail its implementation. This work shows an intelligent
control system design that meets the optimal or suboptimal control action from the sensory
data of process states and the instantaneous cost observed after each state transition.
To find this optimal control action or policy, the approximate dynamic programming
and adaptive critics are used, based on the parameterizations given by the problem of
linear quadratic regulator (LQR), but without explicitly solving the associated Riccati
equation. More specifically, the LQR problem is solved by four different methods which
are the Dynamic Programming Heuristic, the Dual Heuristic Dynamic Programming,
Action Dependent Dynamic Programming Heuristic and Action Dependent Dual Heuristic
Dynamic Programming algorithms. However, these algorithms depend on knowledge of
the value functions to derive the optimal control actions. These value functions with
known structures have their parameters estimated using the least mean square family
and Recursive Least Squares algorithms. Two processes that have the Markov property
were used in the computational validation of the algorithms adaptive critics implemented,
one corresponds to the longitudinal dynamics of an aircraft and the other to an electrical
circuit. / A técnica de controle linear baseado na minimização de um índices de desempenho
quadrático utilizando o segundo método de Liapunov garante a estabilidade do sistema,
se este for controlável e observável. Por outro lado, nessa técnica inexoravelmente é
necessário encontrar a solução da Equação Hamilton-Jacobi-Bellman (HJB) ou Riccati.
Em projeto de sistema de controle online que necessita, em tempo real, alterar seus ganhos
de retroação para manter uma certa dinâmica, impõe o cálculo da solução da equação de
Riccati em cada instante de amostragem gerando uma grande carga computacional que
pode inviabilizar sua implementação. Neste trabalho, mostra-se o projeto de um sistema
de controle inteligente que encontra a ação de controle ótima ou subótima a partir de dados
sensoriais dos estados do processo e do custo instantâneo observados após cada transição
de estado. Para encontrar essa ação de controle ou política ótima, a programação dinâmica
aproximada ou críticos adaptativos são utilizados, tendo como base as parametrizações
dado pelo problema do regulador linear quadrático (LQR), mas sem resolver explicitamente
a equação de Riccati associada. Mais especificamente, o problema do LQR é resolvido por
quatro métodos distintos que são os algoritmos de Programação Dinâmica Heurística, a
Programação Dinâmica Heurística Dual, a Programação Dinâmica Heurística Dependente
de Ação e a Programação Dinâmica Heurística Dual Dependente de Ação. Entretanto,
esses algoritmos dependem do conhecimento das funções valor para, assim, derivar as ações
de controle ótimas. Essas funções valor com estruturas conhecidas tem seus parâmetros
estimados utilizando os algoritmos da família dos mínimos quadrados médios e o algoritmo
de Mínimos Quadrados Recursivo. Dois processos que obedecem à propriedade de Markov
foram empregados na validação computacional dos algoritmos críticos adaptativos, um
corresponde à dinâmica longitudinal de uma aeronave e o outro à de um circuito elétrico.
|
14 |
Agentes-Q: um algoritmo de roteamento distribuído e adaptativo para redes de telecomunicações / Q-Agents: an adaptive and distributed routing algorithm for telecommunications networksKarla Vittori 14 April 2000 (has links)
As redes de telecomunicações são responsáveis pelo envio de informação entre pontos de origem e destino. Dentre os diversos dispositivos que participam deste processo, destaca-se o sistema de roteamento, que realiza a seleção das rotas a serem percorridas pelas mensagens ao longo da rede e sua condução ao destino desejado. O avanço das tecnologias utilizadas pelas redes de telecomunicações provocou a necessidade de novos sistemas de roteamento, que sejam capazes de lidar corretamente com as diversas situações enfrentadas atualmente. Dentro deste contexto, este projeto de pesquisa desenvolveu um algoritmo de roteamento adaptativo e distribuído, resultado da integração de três estratégias de aprendizagem e da adição de alguns mecanismos extras, com o objetivo de obter um algoritmo eficiente e robusto às diversas variações das condições de operação da rede. As abordagens utilizadas foram a aprendizagem-Q, aprendizagem por reforço dual e aprendizagem baseada no comportamento coletivo de formigas. O algoritmo desenvolvido foi aplicado a duas redes de comutação de circuitos e seu desempenho foi comparado ao de dois algoritmos baseados no comportamento coletivo de formigas, que foram aplicados com sucesso ao problema de roteamento. Os experimentos conduzidos envolveram situações reais enfrentadas pelas redes, como variações dos seus padrões de tráfego, nível de carga e topologia. Além disto, foram realizados testes envolvendo a presença de ruído nas informações utilizadas para a seleção das rotas a serem percorridas pelas chamadas. O algoritmo proposto obteve melhores resultados que os demais, apresentando maior capacidade de adaptação às diversas situações consideradas. Os experimentos demonstraram que novos mecanismos de otimização devem ser anexados ao algoritmo proposto, para melhorar seu comportamento exploratório sob variações permanentes do nível de carga da rede e presença de ruído nos dados utilizados em suas tarefas. / The telecommunications networks are responsible for transmiting information between source and destination points in a fast, secure and reliable way, providing low cost and high quality services. Among the several devices that takes place on this process, there is thre routing system, which selects the routes to be traversed by the messages through the network and their forwarding to the destination desired. The advances in tecnologies used by telecommunications networks caused the necessity of new routing systems, that can work correctly with the situations faced by current telecommunications networks. Hence, this research project developed an adaptive and distributed routing algorithm, resulting of the integration of three leaming strategies and addition of some extra mechanisms, with the goal of having a robust and adaptive algorithm to the several variations on operation network conditions. The approaches chosen were Q-learning, dual reinforcement learning and learning based on collective behavior of ants. The developed algorithm was applied to two circuit-switching telecommunications networks and its performance was compared to two algorithms based on ant colony behavior, which were used with success to solve the routing problem. The experiments run comprised real situations faced by telecommunications networks, like variations on the network traffic patterns, load level and topology. Moreover, we did some tests with the presence of noise in information used to select the routes to be traversed by calls. The algorithm proposed produced better results than the others, showing higher capacity of adaptation to the several situations considered. The experiments showed that new optimization mechanisms must be added to the routing algorithm developed, to improve its exploratory behavior under permanent variations on network load level and presence of noise in data used in its tasks.
|
15 |
Agente topológico de aprendizado por reforço / Topological reinforcement learning agentArthur Plínio de Souza Braga 07 April 2004 (has links)
Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR. / Reinforcement Learning (RL) methods have shown to be a good choice for decision-making problems due to their flexible and adaptive characteristics. Despite such promising features, RL methods often have their practical application restricted to small or medium size (at state, or state-action, space) problems mainly because of their standard strategies for value function estimation. In this thesis, a new RL approach, called \"Topological Reinforcement Learning Agent\" - TRLA, is proposed to accelerate learning through an alternative mechanism to update the state-action value function. TRLA is inspired in latent learning, which refers to animal learning that occurs in the absence of reinforcements and that is not visible until an environmental reinforcement is perceived. This concept considers that part of a task can be learned even before the agent receives any indication of how to perform such a task. Cognitive Maps are usually used to encode information about the environment where the agent is immersed. Thus, the TRLA uses a topological map, based on Self-Organized Maps, to implement cognitive map functions and permit a new simple mechanism to execute the propagation of state-action updates. The chosen problem to test TRLA is the simulation of a mobile robot navigation in some initially unknown and unstructured environments. Performance comparisons of the TRLA with six other RL algorithms were carried out to the execution of the navigation task. The obtained results are very promising and comparable with some of faster RL algorithms simulated. In some experiments, the TRLA\'s performance overcomes the others especially in simulations with unstructured environments. Three characteristics of the original TRLA were modified to make it more suitable for real implementations: (i) changes in the topological map construction to reduce the vertices number, (ii) changes in the agents heuristic for action selection, and (iii) variations on the TRLAs strategy for exploration of the state-action space. In (i), a new procedure to construct topological maps was proposed and implemented, the Incremental Classifier Topological Map ICTM, which generates the vertices for a Watsons triangulation from the classification of the input states. In (ii), it was proposed a method to optimize trajectory planning problems based on graphs, denoted \"trajectory improvement from inner point detection\". The third point considers directed exploration strategies as an option for TRLA\'s learning acceleration.
|
16 |
Arquitetura híbrida inteligente para navegação autônoma de robôs / Intelligent hybrid architecture for robot autonomous navigationRodrigo Calvo 09 March 2007 (has links)
Este projeto consiste em um sistema de navegação autônomo baseado em redes neurais nebulosas modulares capacitando o robô a alcançar alvos, ou pontos metas, em ambientes desconhecidos. Inicialmente, o sistema não tem habilidade para a navegação, após uma fase de experimentos com algumas colisões, o mecanismo de navegação aprimora-se guiando o robô ao alvo de forma eficiente. Uma arquitetura híbrida inteligente é apresentada para este sistema de navegação, baseada em redes neurais artificiais e lógica nebulosa. A arquitetura é hierárquica e costitiui-se de dois módulos responsáveis por gerar comportamentos inatos de desvio de obstáculos e de busca ao alvo. Um mecanismo de aprendizagem por reforço, baseada em uma extensão da lei de Hebb, pondera os comportamentos inatos conflitantes ajustando os pesos sinápticos das redes neurais nos instantes de captura do alvo e de colisão contra obstáculos. A abordagem consolidada em simulação é validada em ambientes reais neste trabalho. Para tanto, este sistema foi implementado e testado no simulador Saphira, ambiente de simulação que acompanha o robô Pioneer I e que denota um estágio anterior aos testes em ambientes reais por apresentar comportamentos do robô similares aos comportamentos do robô móvel. Modificações na arquitetura híbrida foram necessárias para adaptar o sistema de navegação simulado ao sistema incorporado no Pioneer I. Experimentos em ambientes reais demonstraram a eficiência e a capacidade de aprendizagem do sistema de navegação, validando a arquitetura híbrida inteligente para aplicação em robôs móveis / This project consists in a autonomous navigation system based on modular neuro-fuzzy networks that is able to guide the robot in unknown environments from a initial point to the goal. Initially, the system is not able to navigate, but after a trial and error period and some collisions, it improves in guiding the robot to the goal efficiently. A intelligent hybrid architecture is presented for this naviga tion system based on artificial neural networks and fuzzy logic. This architecture is hierarquical and consists in two modules that generate innate behaviors, like obstacles avoiding and target reaching. A reinforcement learning mecanism, based on the extended Hebb law, balances this conflicting innate behaviors adjusting the neural network synaptic weights as obstacle and collision avoidance and target reaching takes place. In this project, the approach is consolidated in simulation and validated in real environments. To this end, this system has been implemented by using Saphira simulator and Pioneer I simulation environment. This simulated evironment is a previous stage of tests performed real time and presents simulated robot behaviors similar to real mobile robot behaviors. The hybrid architecture was modified to adapt the simulated navigation system into Pioneer I software. Experiments in a real environments show the efficiency and learning capabilities of the navigation system, validating the intelligent hybrid architecture for mobile robots applications
|
17 |
Um agente autônomo baseado em aprendizagem por reforço direcionado à meta / An autonomous agent based on goal-directed reinforcement learningBraga, Arthur Plínio de Souza 16 December 1998 (has links)
Uma meta procurada em inteligência artificial (IA) é o desenvolvimento de mecanismos inteligentes capazes de cumprir com objetivos preestabelecidos, de forma totalmente independente, em ambientes dinâmicos e complexos. Uma recente vertente das pesquisas em IA, os agentes autônomos, vem conseguindo resultados cada vez mais promissores para o cumprimento desta meta. A motivação deste trabalho é a proposição e implementação de um agente que aprenda a executar tarefas, sem a interferência de um tutor, em um ambiente não estruturado. A tarefa prática proposta para testar o agente é a navegação de um robô móvel em ambientes com diferentes configurações, e cujas estruturas são inicialmente desconhecidas pelo agente. O paradigma de aprendizagem por reforço, através de variações dos métodos de diferença temporal, foi utilizado para implementar o agente descrito nesta pesquisa. O resultado final obtido foi um agente autônomo que utiliza um algoritmo simples para desempenhar propriedades como: aprendizagem a partir de tabula rasa, aprendizagem incremental, planejamento deliberativo, comportamento reativo, capacidade de melhoria do desempenho e habilidade para gerenciar múltiplos objetivos. O agente proposto também apresenta um desempenho promissor em ambientes cuja estrutura se altera com o tempo, porém diante de certas situações seus comportamentos em tais ambientes tendem a se tornar inconsistentes. / One of the current goals of research in Artificial Intelligence is the proposition of intelligent entities that are able to reach a particular target in a dynamic and complex environment without help of a tutor. This objective has been becoming reality through the propositions of the autonomous agents. Thus, the main motivation of this work is to propose and implement an autonomous agent that can match the mentioned goals. This agent, a mobile robot, has to navigate in environments which are initially unknown and may have different structures. The agent learns through one of the main reinforcement learning strategies: temporal difference. The proposed autonomous employs a simple learning mechanisms with the following features: learns incrementally from tabula rasa, executes deliberative and reactive planning, improves its performance through interactions with the environment, and manages multiple objectives. The agent presented promising results when moving in a dynamic environment. However, there are situations in which the agent do not follow this last property.
|
18 |
Um agente autônomo baseado em aprendizagem por reforço direcionado à meta / An autonomous agent based on goal-directed reinforcement learningArthur Plínio de Souza Braga 16 December 1998 (has links)
Uma meta procurada em inteligência artificial (IA) é o desenvolvimento de mecanismos inteligentes capazes de cumprir com objetivos preestabelecidos, de forma totalmente independente, em ambientes dinâmicos e complexos. Uma recente vertente das pesquisas em IA, os agentes autônomos, vem conseguindo resultados cada vez mais promissores para o cumprimento desta meta. A motivação deste trabalho é a proposição e implementação de um agente que aprenda a executar tarefas, sem a interferência de um tutor, em um ambiente não estruturado. A tarefa prática proposta para testar o agente é a navegação de um robô móvel em ambientes com diferentes configurações, e cujas estruturas são inicialmente desconhecidas pelo agente. O paradigma de aprendizagem por reforço, através de variações dos métodos de diferença temporal, foi utilizado para implementar o agente descrito nesta pesquisa. O resultado final obtido foi um agente autônomo que utiliza um algoritmo simples para desempenhar propriedades como: aprendizagem a partir de tabula rasa, aprendizagem incremental, planejamento deliberativo, comportamento reativo, capacidade de melhoria do desempenho e habilidade para gerenciar múltiplos objetivos. O agente proposto também apresenta um desempenho promissor em ambientes cuja estrutura se altera com o tempo, porém diante de certas situações seus comportamentos em tais ambientes tendem a se tornar inconsistentes. / One of the current goals of research in Artificial Intelligence is the proposition of intelligent entities that are able to reach a particular target in a dynamic and complex environment without help of a tutor. This objective has been becoming reality through the propositions of the autonomous agents. Thus, the main motivation of this work is to propose and implement an autonomous agent that can match the mentioned goals. This agent, a mobile robot, has to navigate in environments which are initially unknown and may have different structures. The agent learns through one of the main reinforcement learning strategies: temporal difference. The proposed autonomous employs a simple learning mechanisms with the following features: learns incrementally from tabula rasa, executes deliberative and reactive planning, improves its performance through interactions with the environment, and manages multiple objectives. The agent presented promising results when moving in a dynamic environment. However, there are situations in which the agent do not follow this last property.
|
19 |
PROGRAMAÇÃO DINÂMICA HEURÍSTICA DUAL E REDES DE FUNÇÕES DE BASE RADIAL PARA SOLUÇÃO DA EQUAÇÃO DE HAMILTON-JACOBI-BELLMAN EM PROBLEMAS DE CONTROLE ÓTIMO / DUAL HEURISTIC DYNAMIC PROGRAMMING AND RADIAL BASIS FUNCTIONS NETWORKS FOR SOLUTION OF THE EQUATION OF HAMILTON-JACOBI-BELLMAN IN PROBLEMS OPTIMAL CONTROLAndrade, Gustavo Araújo de 28 April 2014 (has links)
Made available in DSpace on 2016-08-17T14:53:28Z (GMT). No. of bitstreams: 1
Dissertacao Gustavo Araujo.pdf: 2606649 bytes, checksum: efb1a5ded768b058f25d23ee8967bd38 (MD5)
Previous issue date: 2014-04-28 / In this work the main objective is to present the development of learning algorithms for online application for the solution of algebraic Hamilton-Jacobi-Bellman equation. The concepts covered are focused on developing the methodology for control systems, through techniques that aims to design online adaptive controllers to reject noise sensors, parametric variations and modeling errors. Concepts of neurodynamic programming and reinforcement
learning are are discussed to design algorithms where the context of a given operating point causes the control system to adapt and thus present the performance according to specifications
design. Are designed methods for online estimation of adaptive critic focusing efforts on techniques for gradient estimating of the environment value function. / Neste trabalho o principal objetivo é apresentar o desenvolvimento de algoritmos de aprendizagem para execução online para a solução da equação algébrica de Hamilton-Jacobi-Bellman. Os conceitos abordados se concentram no desenvolvimento da metodologia para sistemas de controle, por meio de técnicas que tem como objetivo o projeto online de controladores adaptativos são projetados para rejeitar ruídos de sensores, variações paramétricas e erros de modelagem. Conceitos de programação neurodinâmica e aprendizagem por reforço são abordados
para desenvolver algoritmos onde a contextualização de determinado ponto de operação faz com que o sistema de controle se adapte e, dessa forma, apresente o desempenho de acordo
com as especificações de projeto. Desenvolve-se métodos para a estimação online do crítico adaptativo concentrando os esforços em técnicas de estimação do gradiente da função valor do
ambiente.
|
20 |
Melhorias de estabilidade numérica e custo computacional de aproximadores de funções valor de estado baseados em estimadores RLS para projeto online de sistemas de controle HDP-DLQR / Numerical Stability and Computational Cost Implications of State Value Functions based on RLS Estimators for Online Design of HDP-DLQR control systemsFerreira, Ernesto Franklin Marçal 08 March 2016 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-06-23T20:34:27Z
No. of bitstreams: 1
ErnestoFerreira.pdf: 1744167 bytes, checksum: c125c90e5eb2aab2618350567f88cb31 (MD5) / Made available in DSpace on 2017-06-23T20:34:27Z (GMT). No. of bitstreams: 1
ErnestoFerreira.pdf: 1744167 bytes, checksum: c125c90e5eb2aab2618350567f88cb31 (MD5)
Previous issue date: 2016-03-08 / The development and the numerical stability analysis of a new adaptive critic algorithm to approximate the state-value function for online discrete linear quadratic regulator (DLQR) optimal control system design based on heuristic dynamic programming (HDP) are presented in this work. The proposed algorithm makes use of unitary transformations and QR decomposition methods to improve the online learning e-ciency in the critic network through the recursive least-squares (RLS) approach. The developed learning strategy provides computational performance improvements in terms of numerical stability and computational cost which aim at making possible the implementations in real time of optimal control design methodology based upon actor-critic reinforcement learning paradigms. The convergence behavior and numerical stability of the proposed online algorithm, called RLSµ-QR-HDP-DLQR, are evaluated by computational simulations in three Multiple-Input and Multiple-Output (MIMO) models, that represent the automatic pilot of an F-16 aircraft of third order, a fourth order RLC circuit with two input voltages and two controllable voltage levels, and a doubly-fed induction generator with six inputs and six outputs for wind energy conversion systems. / Neste trabalho, apresenta-se o desenvolvimento e a análise da estabilidade numérica de um novo algoritmo crítico adaptativo para aproximar a função valor de estado para o projeto do sistema de controle ótimo online, utilizando o regulador linear quadrático discreto (DLQR), com base em programação dinâmica heurística (HDP). O algoritmo proposto faz uso de transformações unitárias e métodos de decomposição QR para melhorar a e-ciência da aprendizagem online na rede crítica por meio da abordagem dos mínimos quadrados recursivos (RLS). A estratégia de aprendizagem desenvolvida fornece melhorias no desempenho computacional em termos de estabilidade numérica e custo computacional, que visam tornar possíveis as implementações em tempo real da metodologia do projeto de controle ótimo com base em paradigmas de aprendizado por reforço ator-crítico. O comportamento de convergência e estabilidade numérica do algoritmo online proposto, denominado RLSµ-QR-HDP-DLQR, são avaliados por meio de simulações computacionais em três modelos Múltiplas-Entradas e Múltiplas-Saídas (MIMO), que representam o piloto automático de uma aeronave F-16 de terceira ordem, um circuito de quarta ordem RLC com duas tensões de entrada e dois níveis de tensão controláveis, e um gerador de indução duplamente alimentados com seis entradas e seis saídas para sistemas de conversão de energia eólica.
|
Page generated in 0.1032 seconds