Spelling suggestions: "subject:"[een] SOFT ACTOR-CRITIC-SAC"" "subject:"[enn] SOFT ACTOR-CRITIC-SAC""
1 |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS / [en] DEEP REINFORCEMENT LEARNING FOR QUADROTOR TRAJECTORY CONTROL IN VIRTUAL ENVIRONMENTSGUILHERME SIQUEIRA EDUARDO 12 August 2021 (has links)
[pt] Com recentes avanços em poder computacional, o uso de novos modelos
de controle complexos se tornou viável para realizar o controle de quadrotores.
Um destes métodos é o aprendizado por reforço profundo (do inglês, Deep
Reinforcement Learning, DRL), que pode produzir uma política de controle
que atende melhor as não-linearidades presentes no modelo do quadrotor que
um método de controle tradicional. Umas das não-linearidades importantes
presentes em veículos aéreos transportadores de carga são as propriedades
variantes no tempo, como tamanho e massa, causadas pela adição e remoção
de carga. A abordagem geral e domínio-agnóstica de um controlador por DRL
também o permite lidar com navegação visual, na qual a estimação de dados
de posição é incerta. Neste trabalho, aplicamos um algorítmo de Soft Actor-
Critic com o objeivo de projetar controladores para um quadrotor a fim de
realizar tarefas que reproduzem os desafios citados em um ambiente virtual.
Primeiramente, desenvolvemos dois controladores de condução por waypoint:
um controlador de baixo nível que atua diretamente em comandos para o motor
e um controlador de alto nível que interage em cascata com um controlador de
velocidade PID. Os controladores são então avaliados quanto à tarefa proposta
de coleta e alijamento de carga, que, dessa forma, introduz uma variável
variante no tempo. Os controladores concebidos são capazes de superar o
controlador clássico de posição PID com ganhos otimizados no curso proposto,
enquanto permanece agnóstico em relação a um conjunto de parâmetros de
simulação. Finalmente, aplicamos o mesmo algorítmo de DRL para desenvolver
um controlador que se utiliza de dados visuais para completar um curso de
corrida em uma simulação. Com este controlador, o quadrotor é capaz de
localizar portões utilizando uma câmera RGB-D e encontrar uma trajetória
que o conduz a atravessar o máximo possível de portões presentes no percurso. / [en] With recent advances in computational power, the use of novel, complex
control models has become viable for controlling quadrotors. One such method
is Deep Reinforcement Learning (DRL), which can devise a control policy
that better addresses non-linearities in the quadrotor model than traditional
control methods. An important non-linearity present in payload carrying air
vehicles are the inherent time-varying properties, such as size and mass,
caused by the addition and removal of cargo. The general, domain-agnostic
approach of the DRL controller also allows it to handle visual navigation,
in which position estimation data is unreliable. In this work, we employ a
Soft Actor-Critic algorithm to design controllers for a quadrotor to carry out
tasks reproducing the mentioned challenges in a virtual environment. First,
we develop two waypoint guidance controllers: a low-level controller that acts
directly on motor commands and a high-level controller that interacts in
cascade with a velocity PID controller. The controllers are then evaluated
on the proposed payload pickup and drop task, thereby introducing a timevarying
variable. The controllers conceived are able to outperform a traditional
positional PID controller with optimized gains in the proposed course, while
remaining agnostic to a set of simulation parameters. Finally, we employ the
same DRL algorithm to develop a controller that can leverage visual data to
complete a racing course in simulation. With this controller, the quadrotor is
able to localize gates using an RGB-D camera and devise a trajectory that
drives it to traverse as many gates in the racing course as possible.
|
Page generated in 0.0341 seconds