• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING / [pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINE

LUIS CARLOS PARRA CAMACHO 12 September 2024 (has links)
[pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC. / [en] Reinforcement learning, an influential technique for training intelligent systems, has gained prominence in academia and industry due to its ability to solve complex problems without pre-existing models. However, its application to real-world systems is challenging due to its complexity caused by high non-linearities, limited samples, and constraints. Consequently, research in this area has mainly focused on simulation, where models can be easily tested and refined. In this work, a reinforcement learning strategy towards a real-world bipedal robot to learn walking behavior from scratch was proposed. We present a robot system design focused on stress reduction and simplicity, ensuring robust performance, including a custom printed circuit board (PCB) for efficient handling of electrical components. The system s software is divided into the master system board and the ROS system, allowing communication between components and addressing data loss and communication delay issues. The robot model simulation is developed on the Mujoco platform, incorporating physical properties and environmental parameters. We utilize Deep Deterministic Policy Gradient (DDPG), Twin-Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC) algorithms for learning and evaluating the policy distillation technique for transferring knowledge to a more efficient network. Finally, we evaluate the transfer of learning to the real world and present a preliminary experiment of learning from scratch in the real world. Our results demonstrate the effectiveness of the robotic system design and the learning algorithms, achieving stable walking in simulation and a maximum of fourteen steps in real life with the policy distillation of the SAC algorithm.

Page generated in 0.0336 seconds