Spelling suggestions: "subject:"[een] REAL WORLD REINFORCEMENT LEARNING"" "subject:"[enn] REAL WORLD REINFORCEMENT LEARNING""
1 |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING / [pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINELUIS CARLOS PARRA CAMACHO 12 September 2024 (has links)
[pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas
inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto,
sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em
simulação, onde os modelos podem ser facilmente testados e refinados. Neste
trabalho, foi proposta uma estratégia de aprendizagem por reforço para um
robô bípede do mundo real aprender o comportamento de caminhada do zero.
Também é apresentado um desenho de sistema focado na redução de estresse
e simplicidade, garantindo um desempenho robusto, incluindo uma placa de
circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o
sistema baseado em ROS, permitindo a comunicação entre os componentes e
resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando
propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e
SAC foram utilizados para aprendizado e avaliação da técnica de destilação
de política para transferência de conhecimento para uma rede mais eficiente.
Finalmente, foi avaliada a transferência do aprendizado para o mundo real
apresentando um experimento preliminar de aprendizado do zero no mundo
real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos
algoritmos de aprendizado, alcançando uma caminhada estável na simulação
e um máximo de catorze passos na vida real com a destilação de política do
algoritmo SAC. / [en] Reinforcement learning, an influential technique for training intelligent
systems, has gained prominence in academia and industry due to its ability
to solve complex problems without pre-existing models. However, its application to real-world systems is challenging due to its complexity caused by high
non-linearities, limited samples, and constraints. Consequently, research in this
area has mainly focused on simulation, where models can be easily tested and
refined. In this work, a reinforcement learning strategy towards a real-world
bipedal robot to learn walking behavior from scratch was proposed. We present
a robot system design focused on stress reduction and simplicity, ensuring robust performance, including a custom printed circuit board (PCB) for efficient
handling of electrical components. The system s software is divided into the
master system board and the ROS system, allowing communication between
components and addressing data loss and communication delay issues. The
robot model simulation is developed on the Mujoco platform, incorporating
physical properties and environmental parameters. We utilize Deep Deterministic Policy Gradient (DDPG), Twin-Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC) algorithms for learning and evaluating
the policy distillation technique for transferring knowledge to a more efficient
network. Finally, we evaluate the transfer of learning to the real world and
present a preliminary experiment of learning from scratch in the real world.
Our results demonstrate the effectiveness of the robotic system design and the
learning algorithms, achieving stable walking in simulation and a maximum of
fourteen steps in real life with the policy distillation of the SAC algorithm.
|
Page generated in 0.0341 seconds