1 |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS / [en] DEEP REINFORCEMENT LEARNING FOR QUADROTOR TRAJECTORY CONTROL IN VIRTUAL ENVIRONMENTSGUILHERME SIQUEIRA EDUARDO 12 August 2021 (has links)
[pt] Com recentes avanços em poder computacional, o uso de novos modelos
de controle complexos se tornou viável para realizar o controle de quadrotores.
Um destes métodos é o aprendizado por reforço profundo (do inglês, Deep
Reinforcement Learning, DRL), que pode produzir uma política de controle
que atende melhor as não-linearidades presentes no modelo do quadrotor que
um método de controle tradicional. Umas das não-linearidades importantes
presentes em veículos aéreos transportadores de carga são as propriedades
variantes no tempo, como tamanho e massa, causadas pela adição e remoção
de carga. A abordagem geral e domínio-agnóstica de um controlador por DRL
também o permite lidar com navegação visual, na qual a estimação de dados
de posição é incerta. Neste trabalho, aplicamos um algorítmo de Soft Actor-
Critic com o objeivo de projetar controladores para um quadrotor a fim de
realizar tarefas que reproduzem os desafios citados em um ambiente virtual.
Primeiramente, desenvolvemos dois controladores de condução por waypoint:
um controlador de baixo nível que atua diretamente em comandos para o motor
e um controlador de alto nível que interage em cascata com um controlador de
velocidade PID. Os controladores são então avaliados quanto à tarefa proposta
de coleta e alijamento de carga, que, dessa forma, introduz uma variável
variante no tempo. Os controladores concebidos são capazes de superar o
controlador clássico de posição PID com ganhos otimizados no curso proposto,
enquanto permanece agnóstico em relação a um conjunto de parâmetros de
simulação. Finalmente, aplicamos o mesmo algorítmo de DRL para desenvolver
um controlador que se utiliza de dados visuais para completar um curso de
corrida em uma simulação. Com este controlador, o quadrotor é capaz de
localizar portões utilizando uma câmera RGB-D e encontrar uma trajetória
que o conduz a atravessar o máximo possível de portões presentes no percurso. / [en] With recent advances in computational power, the use of novel, complex
control models has become viable for controlling quadrotors. One such method
is Deep Reinforcement Learning (DRL), which can devise a control policy
that better addresses non-linearities in the quadrotor model than traditional
control methods. An important non-linearity present in payload carrying air
vehicles are the inherent time-varying properties, such as size and mass,
caused by the addition and removal of cargo. The general, domain-agnostic
approach of the DRL controller also allows it to handle visual navigation,
in which position estimation data is unreliable. In this work, we employ a
Soft Actor-Critic algorithm to design controllers for a quadrotor to carry out
tasks reproducing the mentioned challenges in a virtual environment. First,
we develop two waypoint guidance controllers: a low-level controller that acts
directly on motor commands and a high-level controller that interacts in
cascade with a velocity PID controller. The controllers are then evaluated
on the proposed payload pickup and drop task, thereby introducing a timevarying
variable. The controllers conceived are able to outperform a traditional
positional PID controller with optimized gains in the proposed course, while
remaining agnostic to a set of simulation parameters. Finally, we employ the
same DRL algorithm to develop a controller that can leverage visual data to
complete a racing course in simulation. With this controller, the quadrotor is
able to localize gates using an RGB-D camera and devise a trajectory that
drives it to traverse as many gates in the racing course as possible.
|
2 |
[en] ENABLING AUTONOMOUS DATA ANNOTATION: A HUMAN-IN-THE-LOOP REINFORCEMENT LEARNING APPROACH / [pt] HABILITANDO ANOTAÇÕES DE DADOS AUTÔNOMOS: UMA ABORDAGEM DE APRENDIZADO POR REFORÇO COM HUMANO NO LOOPLEONARDO CARDIA DA CRUZ 10 November 2022 (has links)
[pt] As técnicas de aprendizado profundo têm mostrado contribuições significativas em vários campos, incluindo a análise de imagens. A grande maioria
dos trabalhos em visão computacional concentra-se em propor e aplicar
novos modelos e algoritmos de aprendizado de máquina. Para tarefas de
aprendizado supervisionado, o desempenho dessas técnicas depende de uma
grande quantidade de dados de treinamento, bem como de dados rotulados. No entanto, a rotulagem é um processo caro e demorado. Uma recente
área de exploração são as reduções dos esforços na preparação de dados,
deixando-os sem inconsistências, ruídos, para que os modelos atuais possam obter um maior desempenho. Esse novo campo de estudo é chamado
de Data-Centric IA. Apresentamos uma nova abordagem baseada em Deep
Reinforcement Learning (DRL), cujo trabalho é voltado para a preparação
de um conjunto de dados em problemas de detecção de objetos, onde as anotações de caixas delimitadoras são feitas de modo autônomo e econômico.
Nossa abordagem consiste na criação de uma metodologia para treinamento
de um agente virtual a fim de rotular automaticamente os dados, a partir do
auxílio humano como professor desse agente. Implementamos o algoritmo
Deep Q-Network para criar o agente virtual e desenvolvemos uma abordagem de aconselhamento para facilitar a comunicação do humano professor
com o agente virtual estudante. Para completar nossa implementação, utilizamos o método de aprendizado ativo para selecionar casos onde o agente
possui uma maior incerteza, necessitando da intervenção humana no processo de anotação durante o treinamento. Nossa abordagem foi avaliada
e comparada com outros métodos de aprendizado por reforço e interação
humano-computador, em diversos conjuntos de dados, onde o agente virtual precisou criar novas anotações na forma de caixas delimitadoras. Os
resultados mostram que o emprego da nossa metodologia impacta positivamente para obtenção de novas anotações a partir de um conjunto de dados
com rótulos escassos, superando métodos existentes. Desse modo, apresentamos a contribuição no campo de Data-Centric IA, com o desenvolvimento
de uma metodologia de ensino para criação de uma abordagem autônoma
com aconselhamento humano para criar anotações econômicas a partir de
anotações escassas. / [en] Deep learning techniques have shown significant contributions in various
fields, including image analysis. The vast majority of work in computer
vision focuses on proposing and applying new machine learning models
and algorithms. For supervised learning tasks, the performance of these
techniques depends on a large amount of training data and labeled data.
However, labeling is an expensive and time-consuming process.
A recent area of exploration is the reduction of efforts in data preparation,
leaving it without inconsistencies and noise so that current models can
obtain greater performance. This new field of study is called Data-Centric
AI. We present a new approach based on Deep Reinforcement Learning
(DRL), whose work is focused on preparing a dataset, in object detection
problems where the bounding box annotations are done autonomously and
economically. Our approach consists of creating a methodology for training
a virtual agent in order to automatically label the data, using human
assistance as a teacher of this agent.
We implemented the Deep Q-Network algorithm to create the virtual agent
and developed a counseling approach to facilitate the communication of the
human teacher with the virtual agent student. We used the active learning
method to select cases where the agent has more significant uncertainty,
requiring human intervention in the annotation process during training to
complete our implementation. Our approach was evaluated and compared
with other reinforcement learning methods and human-computer interaction
in different datasets, where the virtual agent had to create new annotations
in the form of bounding boxes. The results show that the use of our
methodology has a positive impact on obtaining new annotations from
a dataset with scarce labels, surpassing existing methods. In this way,
we present the contribution in the field of Data-Centric AI, with the
development of a teaching methodology to create an autonomous approach
with human advice to create economic annotations from scarce annotations.
|
3 |
[en] A FRAMEWORK FOR AUTOMATED VISUAL INSPECTION OF UNDERWATER PIPELINES / [pt] UM FRAMEWORK PARA INSPEÇÃO VISUAL AUTOMATIZADA DE DUTOS SUBAQUÁTICOSEVELYN CONCEICAO SANTOS BATISTA 30 January 2024 (has links)
[pt] Em ambientes aquáticos, o uso tradicional de mergulhadores ou veiculos
subaquáticos tripulados foi substituído por veículos subaquáticos não tripulados (como ROVs ou AUVs). Com vantagens em termos de redução de riscos
de segurança, como exposição à pressão, temperatura ou falta de ar. Além
disso, conseguem acessar áreas de extrema profundidade que até então não
eram possiveis para o ser humano.
Esses veiculos não tripulados são amplamente utilizados para inspeções
como as necessárias para o descomissionamento de plataformas de petróleo
Neste tipo de fiscalização é necessário analisar as condições do solo, da tu-
bulação e, principalmente, se foi criado um ecossistema próximo à tubulação.
Grande parte dos trabalhos realizados para a automação desses veículos utilizam diferentes tipos de sensores e GPS para realizar a percepção do ambiente.
Devido à complexidade do ambiente de navegação, diferentes algoritmos de
controle e automação têm sido testados nesta área, O interesse deste trabalho
é fazer com que o autômato tome decisões através da análise de eventos visuais.
Este método de pesquisa traz a vantagem de redução de custos para o projeto,
visto que as câmeras possuem um preço inferior em relação aos sensores ou
dispositivos GPS.
A tarefa de inspeção autônoma tem vários desafios: detectar os eventos,
processar as imagens e tomar a decisão de alterar a rota em tempo real. É
uma tarefa altamente complexa e precisa de vários algoritmos trabalhando
juntos para ter um bom desempenho. A inteligência artificial apresenta diversos
algoritmos para automatizar, como os baseados em aprendizagem por reforço
entre outros na área de detecção e classificação de imagens
Esta tese de doutorado consiste em um estudo para criação de um sistema
avançado de inspeção autônoma. Este sistema é capaz de realizar inspeções
apenas analisando imagens da câmera AUV, usando aprendizagem de reforço profundo profundo para otimizar o planejamento do ponto de vista e técnicas de detecção de novidades. Contudo, este quadro pode ser adaptado a muitas outras tarefas de inspecção.
Neste estudo foram utilizados ambientes realistas complexos, nos quais o
agente tem o desafio de chegar da melhor forma possível ao objeto de interesse
para que possa classificar o objeto. Vale ressaltar, entretanto, que os ambientes
de simulação utilizados neste contexto apresentam certo grau de simplicidade
carecendo de recursos como correntes marítimas on dinâmica de colisão em
seus cenários simulados
Ao final deste projeto, o Visual Inspection of Pipelines (VIP) framework
foi desenvolvido e testado, apresentando excelentes resultados e ilustrando
a viabilidade de redução do tempo de inspeção através da otimização do
planejamento do ponto de vista. Esse tipo de abordagem, além de agregar
conhecimento ao robô autônomo, faz com que as inspeções subaquáticas exijam
pouca presença de ser humano (human-in-the-loop), justificando o uso das
técnicas empregadas. / [en] In aquatic environments, the traditional use of divers or manned underwater
vehicles has been replaced by unmanned underwater vehicles (such as
ROVs or AUVs). With advantages in terms of reducing safety risks, such as
exposure to pressure, temperature or shortness of breath. In addition, they are
able to access areas of extreme depth that were not possible for humans until
then.
These unmanned vehicles are widely used for inspections, such as those
required for the decommissioning of oil platforms. In this type of inspection, it
is necessary to analyze the conditions of the soil, the pipeline and, especially,
if an ecosystem was created close to the pipeline. Most of the works carried
out for the automation of these vehicles use different types of sensors and
GPS to perform the perception of the environment. Due to the complexity of
the navigation environment, different control and automation algorithms have
been tested in this area. The interest of this work is to make the automaton
take decisions through the analysis of visual events. This research method provides the advantage of cost reduction for the project, given that cameras have a lower price compared to sensors or GPS devices.
The autonomous inspection task has several challenges: detecting the
events, processing the images and making the decision to change the route in
real time. It is a highly complex task and needs multiple algorithms working
together to perform well. Artificial intelligence presents many algorithms to
automate, such as those based on reinforcement learning, among others in the
area of image detection and classification.
This doctoral thesis consists of a study to create an advanced autonomous
inspection system. This system is capable of performing inspections only by
analyzing images from the AUV camera, using deep reinforcement learning,
and novelty detection techniques. However, this framework can be adapted to
many other inspection tasks.
In this study, complex realistic environments were used, in which the
agent has the challenge of reaching the object of interest in the best possible
way so that it can classify the object.
It is noteworthy, however, that the simulation environments utilized in this context exhibit a certain degree of
simplicity, lacking features like marine currents or collision dynamics in their
simulated scenarios.
At the conclusion of this project, a Visual Inspection of Pipelines (VIP)
framework was developed and tested, showcasing excellent results and illustrating the feasibility of reducing inspection time through the optimization of
viewpoint planning. This type of approach, in addition to adding knowledge to
the autonomous robot, means that underwater inspections require little pres-
ence of a human being (human-in-the-loop), justifying the use of the techniques
employed.
|
4 |
[en] A SIMULATION STUDY OF TRANSFER LEARNING IN DEEP REINFORCEMENT LEARNING FOR ROBOTICS / [pt] UM ESTUDO DE TRANSFER LEARNING EM DEEP REINFORCEMENT LEARNING EM AMBIENTES ROBÓTICOS SIMULADOSEVELYN CONCEICAO SANTOS BATISTA 05 August 2020 (has links)
[pt] Esta dissertação de mestrado consiste em um estudo avançado sobre aprendizado profundo por reforço visual para robôs autônomos através de técnicas de transferência de aprendizado. Os ambientes de simulação testados neste estudo são ambientes realistas complexos onde o robô tinha como desafio aprender e transferir conhecimento em diferentes contextos para aproveitar a experiência de ambientes anteriores em ambientes futuros. Este tipo de abordagem, além de agregar conhecimento ao robô autônomo, diminui o número de épocas de treinamento do algoritmo, mesmo em ambientes complexos, justificando o uso de técnicas de transferência de aprendizado. / [en] This master s thesis consists of an advanced study on deep learning by visual reinforcement for autonomous robots through transfer learning techniques. The simulation environments tested in this study are highly realistic environments where the challenge of the robot was to learn and tranfer knowledge in different contexts to take advantage of the experiencia of previous environments in future environments. This type of approach besides adding knowledge to the autonomous robot reduces the number of training epochs the algorithm, even in complex environments, justifying the use of transfer learning techniques.
|
5 |
[pt] ESTUDO DE TÉCNICAS DE APRENDIZADO POR REFORÇO APLICADAS AO CONTROLE DE PROCESSOS QUÍMICOS / [en] STUDY OF REINFORCEMENT LEARNING TECHNIQUES APPLIED TO THE CONTROL OF CHEMICAL PROCESSES30 December 2021 (has links)
[pt] A indústria 4.0 impulsionou o desenvolvimento de novas tecnologias
para atender as demandas atuais do mercado. Uma dessas novas tecnologias
foi a incorporação de técnicas de inteligência computacional no cotidiano
da indústria química. Neste âmbito, este trabalho avaliou o desempenho de
controladores baseados em aprendizado por reforço em processos químicos
industriais. A estratégia de controle interfere diretamente na segurança e
no custo do processo. Quanto melhor for o desempenho dessa estrategia,
menor será a produção de efluentes e o consumo de insumos e energia. Os
algoritmos de aprendizado por reforço apresentaram excelentes resultados
para o primeiro estudo de caso, o reator CSTR com a cinética de Van de
Vusse. Entretanto, para implementação destes algoritmos na planta química
do Tennessee Eastman Process mostrou-se que mais estudos são necessários.
A fraca ou inexistente propriedade Markov, a alta dimensionalidade e as
peculiaridades da planta foram fatores dificultadores para os controladores
desenvolvidos obterem resultados satisfatórios. Foram avaliados para o estudo
de caso 1, os algoritmos Q-Learning, Actor Critic TD, DQL, DDPG, SAC e
TD3, e para o estudo de caso 2 foram avaliados os algoritmos CMA-ES, TRPO,
PPO, DDPG, SAC e TD3. / [en] Industry 4.0 boosted the development of new technologies to meet
current market demands. One of these new technologies was the incorporation
of computational intelligence techniques into the daily life of the chemical
industry. In this context, this present work evaluated the performance of
controllers based on reinforcement learning in industrial chemical processes.
The control strategy directly affects the safety and cost of the process. The
better the performance of this strategy, the lower will be the production of
effluents and the consumption of input and energy. The reinforcement learning
algorithms showed excellent results for the first case study, the Van de Vusse s
reactor. However, to implement these algorithms in the Tennessee Eastman
Process chemical plant it was shown that more studies are needed. The weak
Markov property, the high dimensionality and peculiarities of the plant were
factors that made it difficult for the developed controllers to obtain satisfactory
results. For case study 1, the algorithms Q-Learning, Actor Critic TD, DQL,
DDPG, SAC and TD3 were evaluated, and for case study 2 the algorithms
CMA-ES, TRPO, PPO, DDPG, SAC and TD3 were evaluated.
|
Page generated in 0.0541 seconds