Submitted by Maria Aparecida (cidazen@gmail.com) on 2017-08-30T15:33:12Z
No. of bitstreams: 1
Patricia Helena.pdf: 11110405 bytes, checksum: ca1f067231658f897d84b86181dbf1b9 (MD5) / Made available in DSpace on 2017-08-30T15:33:12Z (GMT). No. of bitstreams: 1
Patricia Helena.pdf: 11110405 bytes, checksum: ca1f067231658f897d84b86181dbf1b9 (MD5)
Previous issue date: 2014-07-24 / In this thesis a proposal of an uni ed approach of dynamic programming,
reinforcement learning and function approximation theories aiming at the development of methods and algorithms for design of optimal control systems is
presented. This approach is presented in the approximate dynamic programming
context that allows approximating the optimal feedback solution as to reduce the
computational complexity associated to the conventional dynamic programming
methods for optimal control of multivariable systems. Speci cally, in the state
and action dependent heuristic dynamic programming framework, this proposal
is oriented for the development of online approximated solutions, numerically
stable, of the Riccati-type Hamilton-Jacobi-Bellman equation associated to the
discrete linear quadratic regulator problem which is based on a formulation that
combines value function estimates by means of a RLS (Recursive Least-Squares)
structure, temporal di erences and policy improvements. The development of the
proposed methodologies, in this work, is focused mainly on the UDU T factorization that is inserted in this framework to improve the RLS estimation process of
optimal decision policies of the discrete linear quadratic regulator, by circumventing convergence and numerical stability problems related to the covariance matrix
ill-conditioning of the RLS approach. / Apresenta-se nesta tese uma proposta de uma abordagem uni cada de teorias
de programação dinâmica, aprendizagem por reforço e aproximação de função
que tem por objetivo o desenvolvimento de métodos e algoritmos para projeto
online de sistemas de controle ótimo. Esta abordagem é apresentada no contexto
de programação dinâmica aproximada que permite aproximar a solução de realimentação ótima de modo a reduzir a complexidade computacional associada com
métodos convencionais de programação dinâmica para controle ótimo de sistemas
multivariáveis. Especi camente, no quadro de programação dinâmica heurística e
programação dinâmica heurística dependente de ação, esta proposta é orientada
para o desenvolvimento de soluções aproximadas online, numericamente estáveis,
da equação de Hamilton-Jacobi-Bellman do tipo Riccati associada ao problema
do regulador linear quadrático discreto que tem por base uma formulação que
combina estimativas da função valor por meio de uma estrutura RLS (do inglês
Recursive Least-Squares), diferenças temporais e melhorias de política. O desenvolvimento das metodologias propostas, neste trabalho, tem seu foco principal
voltado para a fatoração UDU T que é inserida neste quadro para melhorar o processo de estimação RLS de políticas de decisão ótimas do regulador linear quadrá-
tico discreto, contornando-se problemas de convergência e estabilidade numérica
relacionados com o mal condicionamento da matriz de covariância da abordagem
RLS.
Identifer | oai:union.ndltd.org:IBICT/oai:tede2:tede/1879 |
Date | 24 July 2014 |
Creators | RÊGO, Patrícia Helena Moraes |
Contributors | FONSECA NETO, João Viana da, FONSECA NETO, João Viana da, FREIRE, Raimundo Carlos Silvério, OLIVEIRA, Roberto Célio Limão de, SERRA, Ginalber Luiz de Oliveira, SOUZA, Francisco das Chagas de |
Publisher | Universidade Federal do Maranhão, PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET, UFMA, Brasil, DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações da UFMA, instname:Universidade Federal do Maranhão, instacron:UFMA |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.002 seconds