1 |
[en] USING REINFORCEMENT LEARNING ON WEB PAGES REVISITING PROBLEM / [pt] APRENDIZADO POR REFORÇO SOBRE O PROBLEMA DE REVISITAÇÃO DE PÁGINAS WEBEUGENIO PACELLI FERREIRA DIAS JUNIOR 14 June 2012 (has links)
[pt] No ambiente da Internet, as informações que desejamos frequentemente encontram-se em diferentes localidades. Algumas aplicações, para funcionarem corretamente, precisam manter cópias locais de parte dessas informações. Manter a consistência e a atualidade de uma base de dados, mais especificamente um conjunto de cópias de páginas web, é uma tarefa que vem sendo sistematicamente estudada. Uma abordagem possível a esse problema é a aplicação de técnicas de aprendizado por reforço, que utiliza técnicas de programação dinâmica e análise estocástica para obter uma boa política de agendamento de atualizações das cópias de páginas web. O presente trabalho tem por finalidade validar o uso de técnicas de aprendizado por reforço no problema em questão, assim como encontrar aspectos do problema que possam ser úteis na modelagem da solução empregada. / [en] In the Internet, the information we desire is usually spread over different locations. For some applications, it is necessary to maintain local copies of this information. Keeping consistency as well as freshness of a data base, or more specifically a set of internet web pages, is a task systematically studied. An approach to this problem is the use of reinforcement learning techniques, using dynamic programming and stochastic analysis to obtain a good rescheduling policy for the web pages copies. This work is proposed to validate the use of reinforcement learning techniques over this problem, as well as finding features of the problem useful to model the developed solution.
|
2 |
[pt] COORDENAÇÃO INTELIGENTE PARA MULTIAGENTES BASEADOS EM MODELOS NEURO-FUZZY HIERÁRQUICOS COM APRENDIZADO POR REFORÇO / [en] INTELLIGENT COORDINATION FOR MULTIAGENT BASED MODELS HIERARCHICAL NEURO-FUZZY WITH REINFORCEMENT LEARNING08 November 2018 (has links)
[pt] Esta tese consiste na investigação e no desenvolvimento de estratégias de coordenação inteligente que possam ser integradas a modelos neuro-fuzzy hierárquicos para sistemas de múltiplos agentes em ambientes complexos. Em ambientes dinâmicos ou complexos a organização dos agentes deve se adaptar a mudanças nos objetivos do sistema, na disponibilidade de recursos, nos relacionamentos entre os agentes, e assim por diante. Esta flexibilidade é um problema chave nos sistemas multiagente. O objetivo principal dos modelos propostos é fazer com que múltiplos agentes interajam de forma inteligente entre si em sistemas complexos. Neste trabalho foram desenvolvidos dois novos modelos inteligentes neuro-fuzzy hierárquicos com mecanismo de coordenação para sistemas multiagentes, a saber: modelo Neuro-Fuzzy Hierárquico com Aprendizado por Reforço com mecanismo de coordenação Market-Driven (RL-NFHP-MA-MD); e o Modelo Neuro-Fuzzy Hierárquico com Aprendizado por Reforço com modelo de coordenação por grafos (RL-NFHP-MA-CG). A inclusão de modelos de coordenação ao modelo Neuro-Fuzzy Hierárquicos com Aprendizado por Reforço (RL-NHFP-MA) foi motivada principalmente pela importância de otimizar o desempenho do trabalho em conjunto dos agentes, melhorando os resultados do modelo e visando aplicações mais complexas. Os modelos foram concebidos a partir do estudo das limitações existentes nos modelos atuais e das características desejáveis para sistemas de aprendizado baseados em RL, em particular quando aplicados a ambientes contínuos e/ou ambientes considerados de grande dimensão. Os modelos desenvolvidos foram testados através de basicamente dois estudos de caso: a aplicação benchmark do jogo da presa-predador (Pursuit- Game) e Futebol de robôs (simulado e com agentes robóticos). Os resultados obtidos tanto no jogo da presa-predador quanto no futebol de robô através dos novos modelos RL-NFHP-MA-MD e RL-NFHP-MA-CG para múltiplos agentes se mostraram bastante promissores. Os testes demonstraram que o novo sistema mostrou capacidade de coordenar as ações entre agentes com uma velocidade de convergência quase 30 por cento maior que a versão original. Os resultados de futebol de robô foram obtidos com o modelo RL-NFHP-MA-MD e o modelo RL-NFHP-MA-CG, os resultados são bons em jogos completos como em jogadas específicas, ganhando de times desenvolvidos com outros modelos similares. / [en] This thesis is the research and development of intelligent coordination strategies that can be integrated into models for hierarchical neuro-fuzzy systems of multiple agents in complex environments. In dynamic environments or complex organization of agents must adapt to changes in the objectives of the system, availability of resources, relationships between agents, and so on. This flexibility is a key problem in multiagent systems. The main objective of the proposed models is to make multiple agents interact intelligently with each other in complex systems. In this work we developed two new intelligent neuro-fuzzy models with hierarchical coordination mechanism for multi-agent systems, namely Neuro-Fuzzy Model with Hierarchical Reinforcement Learning with coordination mechanism Market-Driven (RL-NFHP-MA-MD), and Neuro-Fuzzy model with Hierarchical Reinforcement Learning with coordination model for graphs (RL-NFHP-MA-CG). The inclusion of coordination models to model with Neuro-Fuzzy Hierarchical Reinforcement Learning (RL-NHFP-MA) was primarily motivated by the importance of optimizing the performance of the work in all players, improving the model results and targeting more complex applications. The models were designed based on the study of existing limitations in current models and desirable features for learning systems based RL, in particular when applied to continuous environments and/or environments considered large. The developed models were tested primarily through two case studies: application benchmark game of predator-prey ( Pursuit-Game) and Soccer robots (simulated and robotic agents). The results obtained both in the game of predator-prey as in soccer robot through new models RL-NFHP-MA-MD and RL-NFHP-MA-CG for multiple agents proved promising. The tests showed that the new system showed ability to coordinate actions among agents with a convergence rate nearly 30 percent higher than the original version. Results soccer robot were obtained with model RL-NFHP-MA-MD–NFHP-RL and model-CG-MA, the results are good in games played in full as specific winning teams developed with other similar models.
|
3 |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS / [en] DEEP REINFORCEMENT LEARNING FOR HAPTIC SHARED CONTROL IN UNKNOWN TASKSFRANKLIN CARDENOSO FERNANDEZ 19 November 2020 (has links)
[pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com
novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa.
O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa
pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas. / [en] Recent years have shown a growing interest in using haptic share control (HSC) in teleoperated systems. In HSC, the application of virtual guiding forces decreases the user’s control effort and improves execution time in various tasks, presenting a good alternative in comparison with direct teleoperation. HSC, despite demonstrating good performance, opens a new gap: how to design the guiding forces. For this reason, the real challenge lies in developing controllers to provide the virtual guiding forces, able to deal with new situations that appear while a task is being performed. This work addresses this challenge by designing a controller based on the deep deterministic policy gradient (DDPG) algorithm to provide the assistance, and
a convolutional neural network (CNN) to perform the task detection. The agent learns to minimize the time it takes the human to execute the desired task, while simultaneously minimizing their resistance to the provided feedback. This resistance thus provides the learning algorithm with information about
which direction the human is trying to follow, in this case, the pick-and-place task. Diverse results demonstrate the successful application of the proposed approach by learning custom policies for each user who was asked to test the system. It exhibits stable convergence and aids the user in completing the task
with the least amount of steps possible.
|
4 |
[en] DEEP REINFORCEMENT LEARNING FOR VOLTAGE CONTROL IN POWER SYSTEMS / [pt] DEEP REINFORCEMENT LEARNING PARA CONTROLE DE TENSÃO EM SISTEMAS DE POTÊNCIAMAURICIO RAPHAEL WAISBLUM BARG 30 June 2021 (has links)
[pt] Os sistemas de potência são sistemas cyber-físicos responsáveis pela
geração e transporte da energia elétrica desde sua fonte geradora até os consumidores
finais. Durante este percurso, existem diversos processos que devem ser
seguidos para se manter a qualidade do serviço e a segurança e estabilidade do
sistema. Um destes processos envolve o controle de diversos equipamentos de
maneira que a tensão dos barramentos do sistema se mantenha dentro de faixas
pré-estabelecidas. Este controle, normalmente realizado pelos operadores
do sistema em tempo real e por equipamentos automáticos de controle, envolve
um número muito grande de considerações que dificilmente serão avaliadas no
momento da decisão. Para contornar este problema, propõe-se a utilização de
uma ferramenta inteligente que seja capaz de escolher as melhores ações a
serem tomadas para que a tensão do sistema se mantenha nos níveis adequados
levando em consideração as variadas condições do sistema. A metodologia
utilizada pela ferramenta consiste na técnica de Deep Reinforcement Learning
juntamente com três novas variações: windowed, ensemble e windowed ensemble
Q-Learning, que consistem na divisão do processo otimizado em janelas de
treinamento, utilização de múltiplos agentes inteligentes para um mesmo processo
e a combinação destas duas metodologias. As variações são testadas em
circuitos consagrados na literatura e são capazes de obter resultados expressivos
quando comparados com a abordagem de Deep Reinforcement Learning
tradicional utilizada em outros estudos e com o controle intrínseco do próprio
sistema, mantendo a tensão sob controle ao longo do dia. / [en] Electrical Power Systems are cyber-physical systems responsible for the generation and transportation of energy from its generating source to the final customers. During this process many different activities must be conducted in order to keep quality of service and the system s safety and stability. One of these activities regards control of various equipment in order to keep the voltage level on each system bus between specified limits. This control, which is usually conducted by system s operators in real time and by automatic control equipment involves many different constraints and considerations that are hardly ever taken into account during the decision process. In order to mitigate this problem a smart agent capable of deciding which action is best in order to keep the voltages in adequate levels taking into account system s conditions is proposed. The proposed methodology consists on the Deep Reinforcement Learning technique along with three novel variations: windowed, ensemble and windowed ensemble Q-Learning, which consist on the division of the problem in training windows, the usage of multiple learning agents for the same process and on the combination of both these techniques. The variations are tested on academically consecrated test circuits and are capable of attaining expressive results when compared to the traditional Deep Reinforcement Learning approach which is used in other academic studies and also with the systems intrinsic control, keeping voltage under control along the day.
|
5 |
[en] OPTIMIZED FINANCIAL TRADE EXECUTION A EMPIRICAL STUDY / [pt] EXECUÇÃO OTIMIZADA DE TRANSAÇÕES FINANCEIRAS: UM ESTUDO EMPÍRICODIEGO CEDRIM GOMES REGO 01 April 2009 (has links)
[pt] Apresentamos um estudo empírico comparativo para o problema de Execução Otimizada de Transações nos mercados financeiros modernos. Construímos um simulador dos mercados financeiros, e então, baseado nessa ferramenta, comparamos o desempenho de algumas estratégias propostas na literatura. Os melhores resultados foram obtidos por estratégias que usam técnicas de aprendizado de máquina. / [en] We present a comparative empirical study for the Optimized
Trade Execution
problem in moderns financial markets. We build a financial
market
simulator and then, based on this tool, we compare the
performance of
many strategies available in the literature. The best
results were achieved
by strategies that make use of machine learning techniques.
|
6 |
[en] HIERARCHICAL NEURAL FUZZY MODELS BASED ON REINFORCEMENT LEARNING OF INTELLIGENT AGENTS / [pt] MODELOS NEURO-FUZZY HIERÁRQUICOS COM APRENDIZADO POR REFORÇO PARA MULTI-AGENTES INTELIGENTESMARCELO FRANCA CORREA 20 February 2013 (has links)
[pt] Os benefícios trazidos pela aplicação de Sistemas Multi-Agentes (SMA) são
diversos. Através da computação paralela, agentes podem trabalhar em conjunto para
explorar melhor a estrutura descentralizada de uma determinada tarefa e acelerar sua
conclusão. Além disso, agentes também podem trocar experiências se comunicando,
fornecer alto grau de escalabilidade, através da inclusão de novos agentes quando
necessário, e ainda fazer com que agentes assumam as atividades de outros agentes em
casos de falha. Vários modelos de agentes desenvolvidos até o momento usam o
aprendizado por reforço como algoritmo base no processo de aprendizado. Quando o
agente está inserido em ambientes pequenos ou discretos, os resultados obtidos com o uso
de métodos como Q-learning são satisfatórios. No entanto, quando o ambiente é grande
ou contínuo, o uso de métodos de aprendizado por reforço torna-se inviável, devido à
grande dimensão do espaço de estados. Nos SMA, este problema é consideravelmente
maior, já que a memória necessária passa a crescer exponencialmente com a quantidade
de agentes envolvidos na aplicação. Esta tese teve como finalidade o desenvolvimento de
um novo modelo de aprendizado autônomo para Sistemas Multi-Agentes (SMA) visando
superar estas limitações. O trabalho foi realizado em três etapas principais: levantamento
bibliográfico, seleção e implementação do modelo proposto, e desenvolvimento de estudo
de casos. O levantamento bibliográfico contemplou o estudo de agentes inteligentes e
Sistemas Multi-Agentes, buscando identificar as propriedades e limitações dos algoritmos
já desenvolvidos, as aplicações existentes, e as características desejadas em um SMA. A
seleção e utilização de um modelo neuro-fuzzy hierárquico da família RL-NFH foi
motivada especialmente pela importância de se estender a autonomia e aprendizado de
agentes através do quesito inteligência, e pela sua capacidade de superar limitações
presentes em algoritmos de aprendizado por reforço tradicionais. Inicialmente, ao modelo
anterior foram adicionados os conceitos de satisfatoriedade e não-dominação, com a
finalidade de acelerar o processo de aprendizado do algoritmo. Em seguida, o novo
modelo multi-agente foi criado, viabilizando o desenvolvimento de aplicações de
natureza tanto cooperativa como competitiva, com múltiplos agentes. Os estudos de caso
contemplaram situações distintas de cooperação e competição entre agentes autônomos.
Foram implementadas três aplicações distintas: uma aplicação benckmark do jogo da
presa-predador (Pursuit-Game); um leilão energia elétrica, em que os fornecedores de
energia fazem ofertas para atender à previsão de demanda em um período de tempo
determinado; e uma aplicação na área de gerenciamento de projetos, onde agentes
inteligentes são criados com o objetivo de fornecer estimativas de duração de atividades e
automatizar alguns processos realizados pelo Gerente de Projetos. Em todos os Estudos
de Caso, os resultados foram comparados com técnicas convencionais e/ou com o
desempenho de outros Sistemas Multi-Agente. Os resultados alcançados pelo novo
modelo se mostraram promissores. Os testes evidenciaram que o modelo teve a
capacidade de coordenar as ações entre agentes totalmente autônomos em diferentes
situações e ambientes. Além disso, o novo modelo mostrou-se genérico e flexível,
podendo ser usado no futuro em outras aplicações envolvendo múltiplos agentes. / [en] There are several benefits provided by Multi-Agent Systems (MAS). Through
parallel computing, agents can work together to better explore the decentralized structure
of a given task and speed up its completion. In addition, agents can also exchange
knowledge through communication, provide scalability by adding new agents when
appropriate, and replace troubled agents in cases of failures. A great number of existing
agent models is based on reinforcement learning algorithms for learning. When the agent
works in small or discrete environments, the results obtained with methods such as Qlearning
are satisfactory. However, when the environment is large or continuous
reinforcement learning methods become unfeasible due to the large state space. In MAS,
this problem is considerably greater, since the required memory begins to grow
exponentially with the number of agents involved in the application. The main objective
of this thesis is to develop a new model of autonomous learning for multi-agents in order
to overcome these limitations. The study consisted of three main stages: literature review,
new model development and implementation, and case studies. Literature review
included the study of intelligent agents and Multi-Agent Systems, seeking to identify the
properties and limitations of the algorithms already developed, existing applications, and
desired features in the new MAS. The choice of a neuro-fuzzy hierarchical model of the
family RL-NFH as a basis was especially motivated by the importance of extending the
autonomy and learning of the agents through intelligence. And also, because of its
capacity to overcome some of the limitations present in traditional reinforcement learning
algorithms. Initially, the concepts of satisficing and non-domination were incorporated
into the previous model to accelerate the learning algorithm. Then, the new multi-agent
model was elaborated and implemented, enabling the development of cooperative and
competitive applications, with multiple agents. Case studies have covered different
situations of cooperation and competition between autonomous agents. Three applications
were considered: the Pursuit-Game benckmark game, an electricity auction, where energy
suppliers make offers to meet forecast demand in a given period of time, and an
application in project management area, where intelligent agents are created to provide
activity duration estimates and to automate some processes done usually by the Project
Manager. In all case studies, results were compared with conventional techniques and/or
the performance of other MAS. The results achieved by the new model are encouraging.
The tests showed that the new system has the capacity to coordinate actions between fully
autonomous agents in different situations and environments. Moreover, the new model is
strongly generic and flexible. Due to these properties, it can be used in future in several
other applications involving multiple agents.
|
7 |
[en] METHODS FOR ACCELERATION OF LEARNING PROCESS OF REINFORCEMENT LEARNING NEURO-FUZZY HIERARCHICAL POLITREE MODEL / [pt] MÉTODOS DE ACELERAÇÃO DE APRENDIZADO APLICADO AO MODELO NEURO-FUZZY HIERÁRQUICO POLITREE COM APRENDIZADO POR REFORÇOFABIO JESSEN WERNECK DE ALMEIDA MARTINS 04 October 2010 (has links)
[pt] Neste trabalho foram desenvolvidos e avaliados métodos com o objetivo de melhorar e acelerar o processo de aprendizado do modelo de Reinforcement Learning Neuro-Fuzzy Hierárquico Politree (RL-NFHP). Este modelo pode ser utilizado para dotar um agente de inteligência através de processo de Aprendizado por Reforço (Reinforcement Learning). O modelo RL-NFHP apresenta as seguintes características: aprendizado automático da estrutura do modelo; auto-ajuste dos parâmetros associados à estrutura; capacidade de aprendizado da ação a ser adotada quando o agente está em um determinado estado do ambiente; possibilidade de lidar com um número maior de entradas do que os sistemas neuro-fuzzy tradicionais; e geração de regras linguísticas com hierarquia. Com intenção de melhorar e acelerar o processo de aprendizado do modelo foram implementadas seis políticas de seleção, sendo uma delas uma inovação deste trabalho (Q-DC-roulette); implementado o método early stopping para determinação automática do fim do treinamento; desenvolvido o eligibility trace cumulativo; criado um método de poda da estrutura, para eliminação de células desnecessárias; além da reescrita do código computacional original. O modelo RL-NFHP modificado foi avaliado em três aplicações: o benchmark Carro na Montanha simulado, conhecido na área de agentes autônomos; uma simulação robótica baseada no robô Khepera; e uma num robô real NXT. Os testes efetuados demonstram que este modelo modificado se ajustou bem a problemas de sistemas de controle e robótica, apresentando boa generalização. Comparado o modelo RL-NFHP modificado com o original, houve aceleração do aprendizado e obtenção de menores modelos treinados. / [en] In this work, methods were developed and evaluated in order to improve and accelerate the learning process of Reinforcement Learning Neuro-Fuzzy Hierarchical Politree Model (RL-NFHP). This model is employed to provide an agent with intelligence, making it autonomous, due to the capacity of ratiocinate (infer actions) and learning, acquired knowledge through interaction with the environment by Reinforcement Learning process. The RL-NFHP model has the following features: automatic learning of structure of the model; self-adjustment of parameters associated with its structure, ability to learn the action to be taken when the agent is in a particular state of the environment; ability to handle a larger number of inputs than the traditional neuro-fuzzy systems; and generation of rules with linguistic interpretable hierarchy. With the aim to improve and accelerate the learning process of the model, six selection action policies were developed, one of them an innovation of this work (Q-DC-roulette); implemented the early stopping method for automatically determining the end of the training; developed a cumulative eligibility trace; created a method of pruning the structure, for removing unnecessary cells; in addition to rewriting the original computer code. The modified RL-NFHP model was evaluated in three applications: the simulated benchmark Car-Mountain problem, well known in the area of autonomous agents; a simulated application in robotics based on the Khepera robot; and an application in a real robot. The experiments show that this modified model fits well the problems of control systems and robotics, with a good generalization. Compared the modified RL-NFHP model with the original one, there was acceleration of learning process and smaller structures of the model trained.
|
8 |
[en] PESSIMISTIC Q-LEARNING: AN ALGORITHM TO CREATE BOTS FOR TURN-BASED GAMES / [pt] Q-LEARNING PESSIMISTA: UM ALGORITMO PARA GERAÇÃO DE BOTS DE JOGOS EM TURNOSADRIANO BRITO PEREIRA 25 January 2017 (has links)
[pt] Este documento apresenta um novo algoritmo de aprendizado por reforço, o Q-Learning Pessimista. Nossa motivação é resolver o problema de gerar bots capazes de jogar jogos baseados em turnos e contribuir para obtenção de melhores resultados através dessa extensão do algoritmo Q-Learning. O Q-Learning Pessimista explora a flexibilidade dos cálculos gerados pelo Q-Learning tradicional sem a utilização de força bruta. Para medir a qualidade do bot gerado, consideramos qualidade como a soma do potencial de vitória e empate em um jogo. Nosso propósito fundamental é gerar bots de boa qualidade para diferentes jogos. Desta forma, podemos utilizar este algoritmo para famílias de jogos baseados em turno. Desenvolvemos um framework chamado Wisebots e realizamos experimentos com alguns cenários aplicados aos seguintes jogos tradicionais: TicTacToe, Connect-4 e CardPoints. Comparando a qualidade do Q-Learning Pessimista com a do Q-Learning tradicional, observamos ganhos de 0,8 por cento no TicTacToe, obtendo um algoritmo que nunca perde. Observamos também ganhos de 35 por cento no Connect-4 e de 27 por cento no CardPoints, elevando ambos da faixa de 50 por cento a 60 por cento para 90 por cento a 100 por cento de qualidade. Esses resultados ilustram o potencial de melhoria com o uso do Q-Learning Pessimista, sugerindo sua aplicação aos diversos tipos de jogos de turnos. / [en] This document presents a new algorithm for reinforcement learning method, Q-Learning Pessimistic. Our motivation is to resolve the problem of generating bots able to play turn-based games and contribute to achieving better results through this extension of the Q-Learning algorithm. The Q-Learning Pessimistic explores the flexibility of the calculations generated by the traditional Q-learning without the use of force brute. To measure the quality of bot generated, we consider quality as the sum of the potential to win and tie in a game. Our fundamental purpose, is to generate bots with good quality for different games. Thus, we can use this algorithm to families of turn-based games. We developed a framework called Wisebots and conducted experiments with some scenarios applied to the following traditional games TicTacToe, Connect-4 and CardPoints. Comparing the quality of Pessimistic Q-Learning with the traditional Q-Learning, we observed gains to 100 per cent in the TicTacToe, obtaining an algorithm that never loses. Also observed in 35 per cent gains Connect-4 and 27 per cent in CardPoints, increasing both the range of 60 per cent to 80 per cent for 90 per cent to 100 per cent of quality. These results illustrate the potential for improvement with the use of Q-Learning Pessimistic, suggesting its application to various types of games.
|
9 |
[en] AUV AUTO-DOCKING APPROACH BASED ON REINFORCEMENT LEARNING AND VISUAL SERVOING / [pt] TÉCNICA DE ACOPLAGEM AUTOMÁTICA DE AUV BASEADA EM APRENDIZADO POR REFORÇO E SERVOVISÃOMATHEUS DO NASCIMENTO SANTOS 24 January 2024 (has links)
[pt] No campo em crescimento da robótica subaquática, Veículos Subaquáticos
Automatizados (AUVs) estão se tornando cada vez mais importantes para
uma variedade de usos, como exploração, mapeamento e inspeção. Esta dissertação
foca em estudar os principais desafios da acoplagem automática de AUVs,
considerando um ambiente 3D simulado personalizado. A pesquisa divide essa
tarefa em duas partes principais: estimativa da pose da garagem e estratégia
de controle do AUV. Utilizando uma mistura de métodos tradicionais e novos,
incluindo sistemas baseados em marcos fiduciais, Redes Neurais Convolucionais
(CNN) e Aprendizado por Reforço (RL), o estudo realiza experimentos
para verificar o desempenho e as limitações do sistema.
Um aspecto significativo desta dissertação é o uso de um ambiente 3D
simulado para facilitar o desenvolvimento e o teste de algoritmos de acoplagem
automática para AUVs. Este ambiente simula dinâmicas subaquáticas,
sensores robóticos e atuadores, permitindo experimentar diferentes técnicas de
estimativa de pose e estratégias de controle. Além disso, o estabelecimento
de um ambiente 3D simulado amigável para RL representa uma contribuição
relevante, oferecendo uma plataforma reutilizável que não apenas valida os algoritmos
de acoplagem automática desenvolvidos neste estudo, mas também
serve como base para futuras aplicações subaquáticas baseadas em RL.
Em resumo, a dissertação explora uma série de cenários para avaliar a
eficácia de várias técnicas de acoplagem automática. Inicialmente, ela utiliza
servo-visualização junto com um controlador PID tradicional, seguido pela
introdução de métodos mais avançados, como estimadores de pose baseados
em CNN e controladores de Aprendizado por Reforço. Esses métodos são
avaliados tanto individualmente quanto em combinações híbridas para medir
sua adequação e limitações para entender os principais desafios por trás da
acoplagem automática de AUVs. / [en] In the growing field of underwater robotics, Automated Underwater
Vehicles (AUVs) are becoming more important for a range of uses, such as
exploration, mapping, and inspection. This dissertation focuses on studying
the main challenges of AUV auto-docking, considering a customized 3D
simulated environment. The research breaks down this challenging task into
two main parts: cage pose estimation and AUV control strategy. Using a mix of
traditional and new methods, including fiducial-based systems, Convolutional
Neural Networks (CNN), and Reinforcement Learning (RL), the study carries
out experiments to check system performance and limitations.
A significant aspect of this dissertation is using a 3D simulated environment
to facilitate the development and testing of auto-docking algorithms
for AUVs. This environment simulates crucial underwater dynamics, robotic
sensors, and actuators, allowing for experimenting with different pose estimation
techniques and control strategies. Additionally, the establishment of an
RL-friendly 3D simulated environment stands as a relevant contribution, offering
a reusable platform that not only validates the auto-docking algorithms
developed in this study but also serves as a foundation for future RL-based
underwater applications.
In summary, the dissertation explores a range of scenarios to evaluate the
efficacy of various auto-docking techniques. It initially utilizes visual servoing
along with a traditional PID controller, followed by the introduction of more
advanced methods like CNN-based pose estimators and Reinforcement Learning
controllers. These methods are assessed both individually and in hybrid
combinations to gauge their suitability and limitations for understanding the
main challenges behind the AUV auto-docking.
|
10 |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING / [pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINELUIS CARLOS PARRA CAMACHO 12 September 2024 (has links)
[pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas
inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto,
sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em
simulação, onde os modelos podem ser facilmente testados e refinados. Neste
trabalho, foi proposta uma estratégia de aprendizagem por reforço para um
robô bípede do mundo real aprender o comportamento de caminhada do zero.
Também é apresentado um desenho de sistema focado na redução de estresse
e simplicidade, garantindo um desempenho robusto, incluindo uma placa de
circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o
sistema baseado em ROS, permitindo a comunicação entre os componentes e
resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando
propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e
SAC foram utilizados para aprendizado e avaliação da técnica de destilação
de política para transferência de conhecimento para uma rede mais eficiente.
Finalmente, foi avaliada a transferência do aprendizado para o mundo real
apresentando um experimento preliminar de aprendizado do zero no mundo
real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos
algoritmos de aprendizado, alcançando uma caminhada estável na simulação
e um máximo de catorze passos na vida real com a destilação de política do
algoritmo SAC. / [en] Reinforcement learning, an influential technique for training intelligent
systems, has gained prominence in academia and industry due to its ability
to solve complex problems without pre-existing models. However, its application to real-world systems is challenging due to its complexity caused by high
non-linearities, limited samples, and constraints. Consequently, research in this
area has mainly focused on simulation, where models can be easily tested and
refined. In this work, a reinforcement learning strategy towards a real-world
bipedal robot to learn walking behavior from scratch was proposed. We present
a robot system design focused on stress reduction and simplicity, ensuring robust performance, including a custom printed circuit board (PCB) for efficient
handling of electrical components. The system s software is divided into the
master system board and the ROS system, allowing communication between
components and addressing data loss and communication delay issues. The
robot model simulation is developed on the Mujoco platform, incorporating
physical properties and environmental parameters. We utilize Deep Deterministic Policy Gradient (DDPG), Twin-Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC) algorithms for learning and evaluating
the policy distillation technique for transferring knowledge to a more efficient
network. Finally, we evaluate the transfer of learning to the real world and
present a preliminary experiment of learning from scratch in the real world.
Our results demonstrate the effectiveness of the robotic system design and the
learning algorithms, achieving stable walking in simulation and a maximum of
fourteen steps in real life with the policy distillation of the SAC algorithm.
|
Page generated in 0.0658 seconds