• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[en] PESSIMISTIC Q-LEARNING: AN ALGORITHM TO CREATE BOTS FOR TURN-BASED GAMES / [pt] Q-LEARNING PESSIMISTA: UM ALGORITMO PARA GERAÇÃO DE BOTS DE JOGOS EM TURNOS

ADRIANO BRITO PEREIRA 25 January 2017 (has links)
[pt] Este documento apresenta um novo algoritmo de aprendizado por reforço, o Q-Learning Pessimista. Nossa motivação é resolver o problema de gerar bots capazes de jogar jogos baseados em turnos e contribuir para obtenção de melhores resultados através dessa extensão do algoritmo Q-Learning. O Q-Learning Pessimista explora a flexibilidade dos cálculos gerados pelo Q-Learning tradicional sem a utilização de força bruta. Para medir a qualidade do bot gerado, consideramos qualidade como a soma do potencial de vitória e empate em um jogo. Nosso propósito fundamental é gerar bots de boa qualidade para diferentes jogos. Desta forma, podemos utilizar este algoritmo para famílias de jogos baseados em turno. Desenvolvemos um framework chamado Wisebots e realizamos experimentos com alguns cenários aplicados aos seguintes jogos tradicionais: TicTacToe, Connect-4 e CardPoints. Comparando a qualidade do Q-Learning Pessimista com a do Q-Learning tradicional, observamos ganhos de 0,8 por cento no TicTacToe, obtendo um algoritmo que nunca perde. Observamos também ganhos de 35 por cento no Connect-4 e de 27 por cento no CardPoints, elevando ambos da faixa de 50 por cento a 60 por cento para 90 por cento a 100 por cento de qualidade. Esses resultados ilustram o potencial de melhoria com o uso do Q-Learning Pessimista, sugerindo sua aplicação aos diversos tipos de jogos de turnos. / [en] This document presents a new algorithm for reinforcement learning method, Q-Learning Pessimistic. Our motivation is to resolve the problem of generating bots able to play turn-based games and contribute to achieving better results through this extension of the Q-Learning algorithm. The Q-Learning Pessimistic explores the flexibility of the calculations generated by the traditional Q-learning without the use of force brute. To measure the quality of bot generated, we consider quality as the sum of the potential to win and tie in a game. Our fundamental purpose, is to generate bots with good quality for different games. Thus, we can use this algorithm to families of turn-based games. We developed a framework called Wisebots and conducted experiments with some scenarios applied to the following traditional games TicTacToe, Connect-4 and CardPoints. Comparing the quality of Pessimistic Q-Learning with the traditional Q-Learning, we observed gains to 100 per cent in the TicTacToe, obtaining an algorithm that never loses. Also observed in 35 per cent gains Connect-4 and 27 per cent in CardPoints, increasing both the range of 60 per cent to 80 per cent for 90 per cent to 100 per cent of quality. These results illustrate the potential for improvement with the use of Q-Learning Pessimistic, suggesting its application to various types of games.
2

[en] COMPUTED-TORQUE CONTROL OF A SIMULATED BIPEDAL ROBOT WITH LOCOMOTION BY REINFORCEMENT LEARNING / [pt] CONTROLE POR TORQUE COMPUTADO DE UM ROBÔ BÍPEDE SIMULADO COM LOCOMOÇÃO VIA APRENDIZADO POR REFORÇO

CARLOS MAGNO CATHARINO OLSSON VALLE 27 October 2016 (has links)
[pt] Esta dissertação apresenta o desenvolvimento de um controle híbrido de um robô do tipo humanoide Atlas em regime de locomoção estática para a frente. Nos experimentos faz-se uso do ambiente de simulação Gazebo, que permite uma modelagem precisa do robô. O sistema desenvolvido é composto pela modelagem da mecânica do robô, incluindo as equações da dinâmica que permitem o controle das juntas por torque computado, e pela determinação das posições que as juntas devem assumir. Isto é realizado por agentes que utilizam o algoritmo de aprendizado por reforço Q-Learning aproximado para planejar a locomoção do robô. A definição do espaço de estados, que compõe cada agente, difere da cartesiana tradicional e é baseada no conceito de pontos cardeais para estabelecer as direções a serem seguidas até o objetivo e para evitar obstáculos. Esta definição permite o uso de um ambiente simulado reduzido para treinamento, fornecendo aos agentes um conhecimento prévio à aplicação no ambiente real e facilitando, em consequência, a convergência para uma ação dita ótima em poucas iterações. Utilizam-se, no total, três agentes: um para controlar o deslocamento do centro de massa enquanto as duas pernas estão apoiadas ao chão, e outros dois para manter o centro de massa dentro de uma área de tolerância de cada um dos pés na situação em que o robô estiver apoiado com apenas um dos pés no chão. O controle híbrido foi também concebido para reduzir as chances de queda do robô durante a caminhada mediante o uso de uma série de restrições, tanto pelo aprendizado por reforço como pelo modelo da cinemática do robô. A abordagem proposta permite um treinamento eficiente em poucas iterações, produz bons resultados e assegura a integridade do robô. / [en] This dissertation presents the development of a hybrid control for an Atlas humanoid robot moving forward in a static locomotion regime. The Gazebo simulation environment used in the experiments allows a precise modeling of the robot. The developed system consists of the robot mechanics modeling, including dynamical equations that allow the control of joints by computed-torque and the determination of positions the joints should take. This is accomplished by agents that make use of the approximate Q-Learning reinforcement learning algorithm to plan the robot s locomotion. The definition of the state space that makes up each agent differs from the traditional cartesian one and is based on the concept of cardinal points to establish the directions to be followed to the goal and avoid obstacles. This allows the use of a reduced simulated environment for training, providing the agents with prior knowledge to the application in a real environment and facilitating, as a result, convergence to a so-called optimal action in few iterations. Three agents are used: one to control the center of mass displacement when the two legs are poised on the floor and other two for keeping the center of mass within a tolerance range of each of the legs when only one foot is on the ground. In order to reduce the chance of the robot falling down while walking the hybrid control employs a number of constraints, both in the reinforcement learning part and in the robot kinematics model. The proposed approach allows an effective training in few iterations, achieves good results and ensures the integrity of the robot.
3

[pt] ESTUDO DE TÉCNICAS DE APRENDIZADO POR REFORÇO APLICADAS AO CONTROLE DE PROCESSOS QUÍMICOS / [en] STUDY OF REINFORCEMENT LEARNING TECHNIQUES APPLIED TO THE CONTROL OF CHEMICAL PROCESSES

30 December 2021 (has links)
[pt] A indústria 4.0 impulsionou o desenvolvimento de novas tecnologias para atender as demandas atuais do mercado. Uma dessas novas tecnologias foi a incorporação de técnicas de inteligência computacional no cotidiano da indústria química. Neste âmbito, este trabalho avaliou o desempenho de controladores baseados em aprendizado por reforço em processos químicos industriais. A estratégia de controle interfere diretamente na segurança e no custo do processo. Quanto melhor for o desempenho dessa estrategia, menor será a produção de efluentes e o consumo de insumos e energia. Os algoritmos de aprendizado por reforço apresentaram excelentes resultados para o primeiro estudo de caso, o reator CSTR com a cinética de Van de Vusse. Entretanto, para implementação destes algoritmos na planta química do Tennessee Eastman Process mostrou-se que mais estudos são necessários. A fraca ou inexistente propriedade Markov, a alta dimensionalidade e as peculiaridades da planta foram fatores dificultadores para os controladores desenvolvidos obterem resultados satisfatórios. Foram avaliados para o estudo de caso 1, os algoritmos Q-Learning, Actor Critic TD, DQL, DDPG, SAC e TD3, e para o estudo de caso 2 foram avaliados os algoritmos CMA-ES, TRPO, PPO, DDPG, SAC e TD3. / [en] Industry 4.0 boosted the development of new technologies to meet current market demands. One of these new technologies was the incorporation of computational intelligence techniques into the daily life of the chemical industry. In this context, this present work evaluated the performance of controllers based on reinforcement learning in industrial chemical processes. The control strategy directly affects the safety and cost of the process. The better the performance of this strategy, the lower will be the production of effluents and the consumption of input and energy. The reinforcement learning algorithms showed excellent results for the first case study, the Van de Vusse s reactor. However, to implement these algorithms in the Tennessee Eastman Process chemical plant it was shown that more studies are needed. The weak Markov property, the high dimensionality and peculiarities of the plant were factors that made it difficult for the developed controllers to obtain satisfactory results. For case study 1, the algorithms Q-Learning, Actor Critic TD, DQL, DDPG, SAC and TD3 were evaluated, and for case study 2 the algorithms CMA-ES, TRPO, PPO, DDPG, SAC and TD3 were evaluated.

Page generated in 0.0379 seconds