Return to search

Algoritmos da Família LMS para a Solução Aproximada da HJB em Projetos Online de Controle Ótimo Discreto Multivariável e Aprendizado por Reforço. / Family LMS algorithms for Approximate Solution the HJB Online projects of Discrete optimal control Multivariable and reinforcement Learning .

Submitted by Maria Aparecida (cidazen@gmail.com) on 2017-09-04T13:10:41Z
No. of bitstreams: 1
Marcio Eduardo.pdf: 7939176 bytes, checksum: 3b90c4b32aeabafd3b87e4f3c36d2ed6 (MD5) / Made available in DSpace on 2017-09-04T13:10:41Z (GMT). No. of bitstreams: 1
Marcio Eduardo.pdf: 7939176 bytes, checksum: 3b90c4b32aeabafd3b87e4f3c36d2ed6 (MD5)
Previous issue date: 2014-08-21 / The technique of linear control based on the minimization of a quadratic performance
index using the second method of Lyapunov to guarantee the stability of the system,
if this is controllable and observable. however, this technique is inevitably necessary
to find the solution of the HJB or Riccati equation. The control system design online
need, real time, to adjust your feedback gain to maintain a certain dynamic, it requires
the calculation of the Riccati equation solution in each sampling generating a large
computational load that can derail its implementation. This work shows an intelligent
control system design that meets the optimal or suboptimal control action from the sensory
data of process states and the instantaneous cost observed after each state transition.
To find this optimal control action or policy, the approximate dynamic programming
and adaptive critics are used, based on the parameterizations given by the problem of
linear quadratic regulator (LQR), but without explicitly solving the associated Riccati
equation. More specifically, the LQR problem is solved by four different methods which
are the Dynamic Programming Heuristic, the Dual Heuristic Dynamic Programming,
Action Dependent Dynamic Programming Heuristic and Action Dependent Dual Heuristic
Dynamic Programming algorithms. However, these algorithms depend on knowledge of
the value functions to derive the optimal control actions. These value functions with
known structures have their parameters estimated using the least mean square family
and Recursive Least Squares algorithms. Two processes that have the Markov property
were used in the computational validation of the algorithms adaptive critics implemented,
one corresponds to the longitudinal dynamics of an aircraft and the other to an electrical
circuit. / A técnica de controle linear baseado na minimização de um índices de desempenho
quadrático utilizando o segundo método de Liapunov garante a estabilidade do sistema,
se este for controlável e observável. Por outro lado, nessa técnica inexoravelmente é
necessário encontrar a solução da Equação Hamilton-Jacobi-Bellman (HJB) ou Riccati.
Em projeto de sistema de controle online que necessita, em tempo real, alterar seus ganhos
de retroação para manter uma certa dinâmica, impõe o cálculo da solução da equação de
Riccati em cada instante de amostragem gerando uma grande carga computacional que
pode inviabilizar sua implementação. Neste trabalho, mostra-se o projeto de um sistema
de controle inteligente que encontra a ação de controle ótima ou subótima a partir de dados
sensoriais dos estados do processo e do custo instantâneo observados após cada transição
de estado. Para encontrar essa ação de controle ou política ótima, a programação dinâmica
aproximada ou críticos adaptativos são utilizados, tendo como base as parametrizações
dado pelo problema do regulador linear quadrático (LQR), mas sem resolver explicitamente
a equação de Riccati associada. Mais especificamente, o problema do LQR é resolvido por
quatro métodos distintos que são os algoritmos de Programação Dinâmica Heurística, a
Programação Dinâmica Heurística Dual, a Programação Dinâmica Heurística Dependente
de Ação e a Programação Dinâmica Heurística Dual Dependente de Ação. Entretanto,
esses algoritmos dependem do conhecimento das funções valor para, assim, derivar as ações
de controle ótimas. Essas funções valor com estruturas conhecidas tem seus parâmetros
estimados utilizando os algoritmos da família dos mínimos quadrados médios e o algoritmo
de Mínimos Quadrados Recursivo. Dois processos que obedecem à propriedade de Markov
foram empregados na validação computacional dos algoritmos críticos adaptativos, um
corresponde à dinâmica longitudinal de uma aeronave e o outro à de um circuito elétrico.

Identiferoai:union.ndltd.org:IBICT/oai:tede2:tede/1891
Date21 August 2014
CreatorsSILVA, Márcio Eduardo Gonçalves
ContributorsFONSECA NETO, João Viana da, SOUZA, Francisco das Chagas de, FONSECA NETO, João Viana da, SOUZA, Francisco das Chagas de, PINTO, Vandilberto Pereira, SANTANA, Ewaldo Eder Carvalho
PublisherUniversidade Federal do Maranhão, PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET, UFMA, Brasil, DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFMA, instname:Universidade Federal do Maranhão, instacron:UFMA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds