Return to search

[pt] CONJUNTOS ONLINE PARA APRENDIZADO POR REFORÇO PROFUNDO EM ESPAÇOS DE AÇÃO CONTÍNUA / [en] ONLINE ENSEMBLES FOR DEEP REINFORCEMENT LEARNING IN CONTINUOUS ACTION SPACES

[pt] Este trabalho busca usar o comitê de algoritmos de aprendizado por
reforço profundo (deep reinforcement learning) sob uma nova perspectiva.
Na literatura, a técnica de comitê é utilizada para melhorar o desempenho,
mas, pela primeira vez, esta pesquisa visa utilizar comitê para minimizar a
dependência do desempenho de aprendizagem por reforço profundo no ajuste
fino de hiperparâmetros, além de tornar o aprendizado mais preciso e robusto.
Duas abordagens são pesquisadas; uma considera puramente a agregação de
ação, enquanto que a outra também leva em consideração as funções de valor.
Na primeira abordagem, é criada uma estrutura de aprendizado online com
base no histórico de escolha de ação contínua do comitê com o objetivo de
integrar de forma flexível diferentes métodos de ponderação e agregação para
as ações dos agentes. Em essência, a estrutura usa o desempenho passado para
combinar apenas as ações das melhores políticas. Na segunda abordagem, as
políticas são avaliadas usando seu desempenho esperado conforme estimado
por suas funções de valor. Especificamente, ponderamos as funções de valor do
comitê por sua acurácia esperada, calculada pelo erro da diferença temporal.
As funções de valor com menor erro têm maior peso. Para medir a influência do
esforço de ajuste do hiperparâmetro, grupos que consistem em uma mistura de
diferentes quantidades de algoritmos bem e mal parametrizados foram criados.
Para avaliar os métodos, ambientes clássicos como o pêndulo invertido, cart
pole e cart pole duplo são usados como benchmarks. Na validação, os ambientes
de simulação Half Cheetah v2, um robô bípede, e o Swimmer v2 apresentaram
resultados superiores e consistentes demonstrando a capacidade da técnica de
comitê em minimizar o esforço necessário para ajustar os hiperparâmetros dos
algoritmos. / [en] This work seeks to use ensembles of deep reinforcement learning algorithms from a new perspective. In the literature, the ensemble technique is
used to improve performance, but, for the first time, this research aims to use
ensembles to minimize the dependence of deep reinforcement learning performance on hyperparameter fine-tuning, in addition to making it more precise
and robust. Two approaches are researched; one considers pure action aggregation, while the other also takes the value functions into account. In the first
approach, an online learning framework based on the ensemble s continuous
action choice history is created, aiming to flexibly integrate different scoring
and aggregation methods for the agents actions. In essence, the framework
uses past performance to only combine the best policies actions. In the second approach, the policies are evaluated using their expected performance as
estimated by their value functions. Specifically, we weigh the ensemble s value
functions by their expected accuracy as calculated by the temporal difference
error. Value functions with lower error have higher weight. To measure the
influence on the hyperparameter tuning effort, groups consisting of a mix of
different amounts of well and poorly parameterized algorithms were created.
To evaluate the methods, classic environments such as the inverted pendulum,
cart pole and double cart pole are used as benchmarks. In validation, the Half
Cheetah v2, a biped robot, and Swimmer v2 simulation environments showed
superior and consistent results demonstrating the ability of the ensemble technique to minimize the effort needed to tune the the algorithms.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:57260
Date01 February 2022
CreatorsRENATA GARCIA OLIVEIRA
ContributorsWOUTER CAARLS
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0027 seconds