1 |
APRENDIZAGEM POR REFORÇO E PROGRAMACÃO DINÂMICA ADAPTATIVA PARA PROJETO E AVALIAÇÃO DO DESEMPENHO DE ALGORITMOS DLQR EM SISTEMAS MIMO / LEARNING BY STRENGTHENING AND ADAPTIVE DYNAMIC PROGRAMMING FOR DESIGN AND EVALUATION OF PERFORMANCE DLQR ALGORITHMS IN MIMO SYSTEMSLopes, Leandro Rocha 04 April 2011 (has links)
Made available in DSpace on 2016-08-17T14:53:16Z (GMT). No. of bitstreams: 1
Leandro Rocha Lopes.pdf: 1075564 bytes, checksum: 01e184ed6d7c65323c0dfc1515da19a3 (MD5)
Previous issue date: 2011-04-04 / Due to the increasing of technological development and its associated industrial
applications, control design methods to attend high performance requests and reinforcement
learning are been developed, not only, to solve new problems, as well
as, to improve the performance of implemented controllers in the real systems.
The reinforcement learning (RL) and discrete linear quadratic regulator (DLQR)
approaches are connected by adaptive dynamic programming (ADP). This connection
is oriented to the design of optimal controller for multivariable systems
(MIMO). The proposed method for DLQR controllers tuning can been heuristic
guidance for biased variations in weighting matrices of instantenous reward. The
heuristics performance are evaluated in terms of convergence of heuristic dynamic
programming (HDP) and action dependent (AD-HDP) algorithms. The algorithms
and tuning are evaluated by the capability to map the plane-Z in MIMO
dynamic system of third order. / Em decorrência do crescente desenvolvimento tecnológico e das consequentes
aplicações industriais, técnicas de controle de alto desempenho e aprendizado por
reforço estão sendo desenvolvidas não só para solucionar novos problemas, mas
também para melhorar o desempenho de controladores já implementados em sistemas
do mundo real. As abordagens do aprendizado por reforço e do regulador
linear quadrático discreto (DLQR) são conectadas pelos métodos de programação
dinâmica adaptativa. Esta união é orientada para o projeto de controladores
ótimos em sistemas multivariáveis (MIMO). O método proposto para sintonia
de controladores DLQR fornece diretrizes para construção de heurísticas polarizadas
que são aplicadas na seleção das matrizes de ponderação da recompensa
instantânea. Investiga-se o desempenho das heurísticas associadas com a sintonia
de controladores lineares discretos e aspectos de convergência que estão relacionados
com as variações QR nos algoritmos de programação dinâmica heurística
(HDP) e Ação Dependente (ADHDP). Os algoritmos e a sintonia são avaliados
pela capacidade em estabelecer a política de controle ótimo que mapeia o plano-Z
em um sistema dinãmico multivariável de terceira ordem.
|
Page generated in 0.0164 seconds