41 |
Inferência bayesiana em modelos discretos com fração de curaFernandes, Luísa Martins January 2013 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas,
Departamento de Estatística, Programa de Mestrado em Estatística, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-01-29T11:43:35Z
No. of bitstreams: 1
2013_LuisaMartinsFernandes.pdf: 1810343 bytes, checksum: 245568a555335f8f6f78b949879f36c9 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-02-11T14:14:36Z (GMT) No. of bitstreams: 1
2013_LuisaMartinsFernandes.pdf: 1810343 bytes, checksum: 245568a555335f8f6f78b949879f36c9 (MD5) / Made available in DSpace on 2014-02-11T14:14:36Z (GMT). No. of bitstreams: 1
2013_LuisaMartinsFernandes.pdf: 1810343 bytes, checksum: 245568a555335f8f6f78b949879f36c9 (MD5) / Este trabalho apresenta inferências do modelo Weibull discreto para dados de sobrevivência com fração de cura. As inferências foram realizadas dentro de um cenário bayesiano fazendo-se o uso das técnicas de MCMC (Markov Chain Monte Carlo). São apresentadas estimativas pontuais dos parâmetros do modelo e seus respectivos intervalos de credibilidade HPD (Highest Posterior Density), assim como um teste de significância genuinamente bayesiano – FBST (Full Bayesian Significance Test) como uma forma de seleção de modelos. A metodologia apresentada foi aplicada em dados simulados e ilustrada por dois problemas práticos: o primeiro sobre o tempo até a rehospitalização de pacientes com esquizofrenia, e o segundo sobre o tempo até a morte de homens com AIDS. O FBST se mostrou um procedimento simples e útil para seleção de modelos, motivando assim uma abordagem bayesiana na modelagem de dados discretos de sobrevivência. _______________________________________________________________________________________ ABSTRACT / This work presents inferences of the discrete Weibull model for survival data with cure rate. The inferences were conducted within a Bayesian context, using the MCMC (Markov Chain Monte Carlo) techniques. Point estimates of model’s parameters and their respective HPD (Highest Posterior Density) credible intervals are presented, as well as a Full Bayesian Significance Test (FBST) as a way to model selection. The methodology presented was applied on simulated data and illustrated by two practical problems: the time until re-hospitalization of patients with schizophrenia and the time until death of men with AIDS. The FBST proved being a simple and useful procedure for model selection, thus motivating a Bayesian approach in the modeling of discrete survival data.
|
42 |
Controle semiativo de vibrações por força de controle não linear / Semiactive vibrations control by nonlinear control forceGuimarães, Marco Paulo 26 September 2013 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, Programa de Pós-Graduação em Ciências Mecânicas, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-02-21T11:33:33Z
No. of bitstreams: 1
2013_MarcoPauloGuimaraes.pdf: 4890160 bytes, checksum: 22610f00c133fd540cb0a2a9dbddbf5f (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-02-21T11:52:13Z (GMT) No. of bitstreams: 1
2013_MarcoPauloGuimaraes.pdf: 4890160 bytes, checksum: 22610f00c133fd540cb0a2a9dbddbf5f (MD5) / Made available in DSpace on 2014-02-21T11:52:13Z (GMT). No. of bitstreams: 1
2013_MarcoPauloGuimaraes.pdf: 4890160 bytes, checksum: 22610f00c133fd540cb0a2a9dbddbf5f (MD5) / Este trabalho propõe avaliar o uso de forças (momentos) de controle não lineares para o controle semiativo de vibrações em uma estrutura sujeita a esforços torcionais, modelada por parâmetros discretos que resultam em baixas frequências naturais. O controle semiativo é concebido para ser realizado por meio de um momento de controle produzido por atrito de Coulomb em um freio eletromagnético. Estratégias de controle específicas são apresentadas considerando as flexibilidades e restrições apresentadas por este tipo de controlador. Técnicas de otimização estocásticas são utilizadas para desenvolver modelos não lineares adotados para o momento de controle. Esses modelos consideram momentos de controle que podem ser função da velocidade e/ou do deslocamento e de suas potências. Os resultados obtidos por simulação são comparados com os de um controle passivo clássico para a mesma estrutura e permitem avaliar a vantagem relativa da estratégia adotada para diferentes tipos de excitação. _________________________________________________________________________________ ABSTRACT / This study aims at evaluating the use of nonlinear control forces (moments) for semiactive control of vibrations in a structure with torsional efforts, modeled by lumped parameters that result in low natural frequencies. Semiactive control is designed to be performed by Coulomb friction forces in a magnetic brake. Specific control strategies are presented considering the flexibilities and constraints presented by this type of controller. Stochastic optimization are used to develop nonlinear models adopted for the control moment. These models consider control moments that can be function of speed and/or displacement and its powers. The results obtained by simulation are compared with those of a classical passive control applied to the same structure to evaluate the advantage of the strategy used for different excitations.
|
43 |
Algoritmos para o custo médio a longo prazo de sistemas com saltos markovianos parcialmente observados / Algorithms for the long run average cost for linear systems with partially observed Markov jump parametersCarlos Alexandre Silva 13 August 2012 (has links)
Neste trabalho procuramos determinar o controle ótimo para problemas de custo médio a longo prazo (CMLP) de sistemas lineares com saltos markovianos (SLSMs) com observação parcial dos estados da cadeia de Markov, e, para isso, implementamos métodos computacionais heurísticos como algoritmos evolutivos de primeira geração - algoritmo genético (AG) básico - e os algoritmos UMDA(Univariate Marginal Distribution Algorithm) e BOA(Bayesian Optimization Algorithm), de segunda geração. Utilizamos um algoritmo variacional para comparar com os métodos implementados e medir a qualidade de suas soluções. Desenvolvemos uma abordagem de transição de níveis de observação (ATNO), partindo de um problema de observação completa e migrando através de problemas parcialmente observados. Cada um dos métodos mencionados acima foi implementado também no contexto da ATNO. Para realizar uma análise estatística sobre o desempenho dos métodos computacionais, utilizamos um gerador de SLSMs com importantes características da teoria de controle como: estabilidade, estabilizabilidade, observabilidade, controlabilidade e detetabilidade. Por fim, apresentamos alguns resultados sobre o CMLP com controles estabilizantes e resultados parciais a respeito da unicidade de solução / In this work we are interested in the optimal control for the long run average cost (LRAC) problem for linear systems with Markov jump parameters (LSMJP), using heuristic methods like first generation evolutionary algorithms - genetic algorithm (GA) - and second generation algorithms including UMDA (Univariate Marginal Distribution Algorithm) and BOA (Bayesian Optimization Algorithm). We have developed a scheme that employs different problems with intermediate levels of observation of the Markov chain, starting with complete observation and shifting to the partial observation problem. The aforementioned methods have been implemented using this scheme. Moreover, in order to compare the methods, we use an algorithm for generating a number of LSMJP and we present a basic statistical analysis of the results. Finally, we present some results on the LRAC with stabilizing control and some partial results on the uniqueness of the solution
|
44 |
Comportamento hidrodinâmico para o processo de exclusão com taxa lenta no bordoBaldasso, Rangel January 2013 (has links)
Apresentamos o teorema de limite hidrodinâmico para o processo de exclusão simples simétrico com taxa lenta no bordo. Neste processo, partículas descrevem passeios aleatórios independentes no espaço {O, 1, , N}, respeitando a regra de exclusão (que afirma que duas partículas não ocupam o mesmo lugar ao mesmo instante). Paralelamente, partículas podem nascer ou morrer nos sítios O e N com taxas proporcionais a N-1 . Com o devido reescalonamento, a densidade de partículas converge para a solução fraca de urna equação diferencial parcial parabólica. Além disso, no primeiro capítulo, apresentamos seções sobre o Teorema de Prohorov, o espaço das funções càdlàg e a métrica de Skorohod definida nesse espaço. / We present the hydrodynamic limit theorem for the simple symmetric exclusion process with slow driven boundary. In this process, particles describe independent random walks in the space {O, 1, , N}, using the exclusion rule (which says that two particles do not occupy the same place at the same time). We also suppose that particles can be born or die on the sites O and N with rates proportional to N -1 . With the right rescaling procedure, the density of particles converges to the weak solution of a parabolic partial differential equation. In the first chapter, we present sections about Prohorov's Theorem, the càdlàg function space and Skorohod's metric defined in this space.
|
45 |
Controle ótimo de sistemas com saltos Markovianos e ruído multiplicativo com custos linear e quadrático indefinido. / Indefinite quadratic with linear costs optimal control of Markov jump with multiplicative noise systems.Paulo, Wanderlei Lima de 01 November 2007 (has links)
Esta tese trata do problema de controle ótimo estocástico de sistemas com saltos Markovianos e ruído multiplicativo a tempo discreto, com horizontes de tempo finito e infinito. A função custo é composta de termos quadráticos e lineares nas variáveis de estado e de controle, com matrizes peso indefinidas. Como resultado principal do problema com horizonte finito, é apresentada uma condição necessária e suficiente para que o problema de controle seja bem posto, a partir da qual uma solução ótima é derivada. A condição e a lei de controle são escritas em termos de um conjunto acoplado de equações de Riccati interconectadas a um conjunto acoplado de equações lineares recursivas. Para o caso de horizonte infinito, são apresentadas as soluções ótimas para os problemas de custo médio a longo prazo e com desconto, derivadas a partir de uma solução estabilizante de um conjunto de equações algébricas de Riccati acopladas generalizadas (GCARE). A existência da solução estabilizante é uma condição suficiente para que tais problemas sejam do tipo bem posto. Além disso, são apresentadas condições para a existência das soluções maximal e estabilizante do sistema GCARE. Como aplicações dos resultados obtidos, são apresentadas as soluções de um problema de otimização de carteiras de investimento com benchmark e de um problema de gestão de ativos e passivos de fundos de pensão do tipo benefício definido, ambos os casos com mudanças de regime nas variáreis de mercado. / This thesis considers the finite-horizon and infinite-horizon stochastic optimal control problem for discrete-time Markov jump with multiplicative noise linear systems. The performance criterion is assumed to be formed by a linear combination of a quadratic part and a linear part in the state and control variables. The weighting matrices of the state and control for the quadratic part are allowed to be indefinite. For the finite-horizon problem the main results consist of deriving a necessary and sufficient condition under which the problem is well posed and a optimal control law is derived. This condition and the optimal control law are written in terms of a set of coupled generalized Riccati difference equations interconnected with a set of coupled linear recursive equations. For the infinite-horizon problem a set of generalized coupled algebraic Riccati equations (GCARE) is studied. In this case, a sufficient condition under which there exists the maximal solution and a necessary and sufficient condition under which there exists the mean square stabilizing solution for the GCARE are presented. Moreover, a solution for the discounted and long run average cost problems is presented. The results obtained are applied to solver a portfolio optimization problem with benchmark and a pension fund problem with regime switching.
|
46 |
Seleção dinâmica de portfólios em média-variância com saltos Markovianos. / Dynamic mean-variance portfolio selection with Markov regime switching.Araujo, Michael Viriato 19 October 2007 (has links)
Investiga-se, em tempo discreto, o problema multi-período de otimização de carteiras generalizado em média-variância cujos coeficientes de mercado são modulados por uma cadeia de Markov finita. O problema multi-período generalizado de média-variância com saltos Markovianos (PGMV ) é um problema de controle estocástico sem restrição cuja função objetivo consiste na maximização da soma ponderada ao longo do tempo da combinação linear de três elementos: o valor esperado da riqueza do investidor, o quadrado da esperança desta riqueza e a esperança do quadrado deste patrimônio. A principal contribuição deste trabalho é a derivação analítica de condições necessárias e suficientes para a determinação de uma estratégia ótima de investimento para o problema PGMV . A partir deste modelo são derivadas várias formulações de médiavariância, como o modelo tradicional cujo objetivo é maximizar o valor esperado da riqueza final do investidor, dado um nível de risco (variância) do portfólio no horizonte de investimento, bem como o modelo mais complexo que busca maximizar a soma ponderada das esperanças da riqueza ao longo do tempo, limitando a perda deste patrimônio em qualquer momento. Adicionalmente, derivam-se formas fechadas para a solução dos problemas citados quando as restrições incidem somente no instante final. Outra contribuição deste trabalho é a extensão do modelo PGMV para a solução do problema de seleção de carteiras em média-variância com o objetivo de superar um benchmark estocástico, com restrições sobre o valor esperado ou sobre a variância do tracking error do portfólio. Por fim, aplicam-se os resultados obtidos em exemplos numéricos cujo universo de investimento são todas as ações do IBOVESPA. / In this work we deal with a discrete-time multi-period mean-variance portfolio selection model with the market parameters subject to Markov regime switching. The multi-period generalized mean-variance portfolio selection model with regime switching (PGMV ) is an unrestricted stochastic control problem, in which the objective function involves the maximization of the weighted sum of a linear combination of three parts: the expected wealth, the square of the expected wealth and the expected value of the wealth squared. The main contribution of this work is the analytical derivation of necessary and sufficient conditions for the existence of an optimal control strategy to this PGMV model. We show that several mean-variance models are derived from the PGMV model, as the traditional formulation in which the objective is to maximize the expected terminal wealth for a given final risk (variance), or the complex one in which the objective function is to maximize the weighted sum of the wealth throughout its investment horizon, with control over maximum wealth lost. Additionally, we derive closed forms solutions for the above models when the restrictions are just in the final time. Another contribution of this work is to extend the PGMV model to solve the multi-period portfolio selection problem of beating a stochastic benchmark with control over the tracking error variance or its expected value. Finally, we run numerical examples in which the investment universe is formed by all the stocks belonging to the IBOVESPA.
|
47 |
Finite dimensional optimal linear mean square filter for continuos time Markovian jump linear systemsVergés, Fortià Vila 24 February 2017 (has links)
Submitted by Maria Cristina (library@lncc.br) on 2018-06-27T12:31:36Z
No. of bitstreams: 1
Dissertacao_final_Fortia.pdf: 758629 bytes, checksum: 6b31d1df1ed8f464b298cce7e1ee4180 (MD5) / Approved for entry into archive by Maria Cristina (library@lncc.br) on 2018-06-27T12:31:54Z (GMT) No. of bitstreams: 1
Dissertacao_final_Fortia.pdf: 758629 bytes, checksum: 6b31d1df1ed8f464b298cce7e1ee4180 (MD5) / Made available in DSpace on 2018-06-27T12:32:06Z (GMT). No. of bitstreams: 1
Dissertacao_final_Fortia.pdf: 758629 bytes, checksum: 6b31d1df1ed8f464b298cce7e1ee4180 (MD5)
Previous issue date: 2017-02-24 / Fundação Carlos Chagas Filho de Amparo à Pesquisa do Estado do Rio de Janeiro (FAPERJ) / Stochastic differential equations with Markovian jump parameters constitute one of the
most important class of hybrid dynamical systems, which has been extensively used for the
modeling of dynamical systems which are subject to abrupt changes in their structure. The
abrupt changes can be due, for instance, to abrupt environmental disturbances, component
failure, volatility in economic systems, changes in subsystems interconnections, abrupt
changes in the operation of a nonlinear plant, etc. This can be found, for instance, in
aircraft control systems, robot systems, large flexible structure for space station, etc. We
shall be particularly interested in the linear class which is dubbed in the literature as
the class of Markov jump linear systems (MJLS). The jump mechanism is modeled by
a Markov process, which is also known in the literature as the operation mode. The
dissertation address the filtering problem of the operation mode for the class of MJLS.
Previous result in the literature on this problem has been obtained by Wonham, which has
shown the existence of an optimal nonlinear filter for this problem. The main hindrance
with Wonham’s result, in the context of the control problem with partial observation of
operation mode, is that it introduces a great deal of nonlinearity in the Hamilton-Jacobi-
Belman equation, which makes it difficult to get an explicit closed solution for the control
problem. Motivated by this, the main contribution of this dissertation is to devise an
optimal linear filter for the mode operation, which we believe could be more favorable
in the solution of the control problem with partial observations. In addition, relying on
Murayama’s stochastic numerical method and the results of Yuan and Mao, we carry out
simulation of Wonham’s filter, and the one devised in the dissertation, in order to compare
their performances. / As equações diferenciais estocáticas com salto Markoviano constituem uma das clases de sistemas dinâmicos híbridos mais importantes, e tem sido muito usados para modelar sistemas sujeitos a mudanças abruptas na sua estructura. Essas mudanças podem ser devido a, por exemplo, perturbações ambientais, falhas em componentes, volatilidade em sistemas econômicos, mudanças em interconexões de subsistemas, mudanças abruptas em operações de plantas não lineares, etc. Estas falhas podem ser encontradas em sistemas de controle para aeronaves, sistemas robóticos, estructuras grandes e flexíveis em estações espaciais, etc. Nós estamos especialmente interessados na clase de sistemas lineares que é referenciada na literatura como sistemas lineares com salto Markoviano (SLSM). O mecanismo de salto é modelado por um processo de Markov, que é conhecido na literatura como modo de operação do sistema. Essa dissertação visa o problema de filtragem para o modo de operação do sistema linear com salto. Na literatura pode-se encontrar resultados já obtidos para esse problema como é o caso do filtro ótimo não linear deduzido por Wonham.
Mas no contexto de controle ótimo com observações parciais do modo de operação, o filtro de Wonham introduz não linearidades na equação de Hamilton-Jacobi-Belman, fazendo com que seja muito complexo obter uma solução fechada para o problema de controle. A principal motivação desta dissertação é deduzir o filtro ótimo linear para o modo de operação, já que esta pode ser uma solução mais favorável para o problema de controle ótimo. Finalmente, usando o método numérico para equações diferenciais estocásticas de Euler-Murayama e o resultado de Yuan e Mao, realizamos a simulação do filtro de Wonham tal como o filtro deduzido neste trabalho, com o objetivo de comparar as respectivas performances.
|
48 |
Relational transfer across reinforcement learning tasks via abstract policies. / Transferência relacional entre tarefas de aprendizado por reforço via políticas abstratas.Koga, Marcelo Li 21 November 2013 (has links)
When designing intelligent agents that must solve sequential decision problems, often we do not have enough knowledge to build a complete model for the problems at hand. Reinforcement learning enables an agent to learn behavior by acquiring experience through trial-and-error interactions with the environment. However, knowledge is usually built from scratch and learning the optimal policy may take a long time. In this work, we improve the learning performance by exploring transfer learning; that is, the knowledge acquired in previous source tasks is used to accelerate learning in new target tasks. If the tasks present similarities, then the transferred knowledge guides the agent towards faster learning. We explore the use of a relational representation that allows description of relationships among objects. This representation simplifies the use of abstraction and the extraction of the similarities among tasks, enabling the generalization of solutions that can be used across different, but related, tasks. This work presents two model-free algorithms for online learning of abstract policies: AbsSarsa(λ) and AbsProb-RL. The former builds a deterministic abstract policy from value functions, while the latter builds a stochastic abstract policy through direct search on the space of policies. We also propose the S2L-RL agent architecture, containing two levels of learning: an abstract level and a ground level. The agent simultaneously builds a ground policy and an abstract policy; not only the abstract policy can accelerate learning on the current task, but also it can guide the agent in a future task. Experiments in a robotic navigation environment show that these techniques are effective in improving the agents learning performance, especially during the early stages of the learning process, when the agent is completely unaware of the new task. / Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou seja, utilizar o conhecimento adquirido para se resolver tarefas passadas no aprendizado de novas tarefas. Assim, se as tarefas tiverem similaridades, o conhecimento prévio guiará o agente para um aprendizado mais rápido. Neste trabalho é explorado o uso de uma representação relacional, que explicita relações entre objetos e suas propriedades. Essa representação possibilita que se explore abstração e semelhanças estruturais entre as tarefas, possibilitando a generalização de políticas de ação para o uso em tarefas diferentes, porém relacionadas. Este trabalho contribui com dois algoritmos livres de modelo para construção online de políticas abstratas: AbsSarsa(λ) e AbsProb-RL. O primeiro constrói uma política abstrata determinística através de funções-valor, enquanto o segundo constrói uma política abstrata estocástica através de busca direta no espaço de políticas. Também é proposta a arquitetura S2L-RL para o agente, que possui dois níveis de aprendizado: o nível abstrato e o nível concreto. Uma política concreta é construída simultaneamente a uma política abstrata, que pode ser utilizada tanto para guiar o agente no problema atual quanto para guiá-lo em um novo problema futuro. Experimentos com tarefas de navegação robótica mostram que essas técnicas são efetivas na melhoria do desempenho do agente, principalmente nas fases inicias do aprendizado, quando o agente desconhece completamente o novo problema.
|
49 |
Controle ótimo multi-período de média-variância para sistemas lineares sujeitos a saltos Markovianos e ruídos multiplicativos. / Multi-period mean-variance optimal control of Markov jumps linear systems with multiplicative noise.Okimura, Rodrigo Takashi 06 April 2009 (has links)
Este estudo considera o problema de controle ótimo multi-período de média-variância para sistemas em tempo discreto com saltos markovianos e ruídos multiplicativos. Inicialmente considera-se um critério de desempenho formado por uma combinação linear da variância nal e valor esperado da saída do sistema. É apresentada uma solução analítica na obtenção da estratégia ótima para este problema. Em seguida são considerados os casos onde os critérios de desempenho são minimizar a variância nal sujeito a uma restrição no valor esperado ou maximizar o valor esperado nal sujeito a uma restrição na variância nal da saída do sistema. As estratégias ótimas de controle são obtidas de um conjunto de equações de diferenças acopladas de Riccati. Os resultados obtidos neste estudo generalizam resultados anteriores da literatura para o problema de controle ótimo com saldos markovianos e ruídos multiplicativos, apresentando condições explícitas e sucientes para a otimalidade da estratégia de controle. São apresentados modelos e simulações numéricas em otimização de carteiras de investimento e estratégias de gestão de ALM (asset liabilities management). / This thesis focuses on the stochastic optimal control problem of discrete-time linear systems subject to Markov jumps and multiplicative noise under three kinds of performance criterions related to the nal value of the expectation and variance of the output. In the first problem it is desired to minimize the nal variance of the output subject to a restriction on its nal expectation, in the second one it is desired to maximize the nal expectation of the output subject to a restriction on its nal variance, and in the third one it is considered a performance criterion composed by a linear combination of the nal variance and expectation of the output of the system. The optimal control strategies are obtained from a set of interconnected Riccati dierence equations and explicit sufficient conditions are presented for the existence of an optimal control strategy for these problems, generalizing previous results in the literature. Numerical simulations of investment portfolios and asset liabilities management models for pension funds with regime switching are presented.
|
50 |
Relational transfer across reinforcement learning tasks via abstract policies. / Transferência relacional entre tarefas de aprendizado por reforço via políticas abstratas.Marcelo Li Koga 21 November 2013 (has links)
When designing intelligent agents that must solve sequential decision problems, often we do not have enough knowledge to build a complete model for the problems at hand. Reinforcement learning enables an agent to learn behavior by acquiring experience through trial-and-error interactions with the environment. However, knowledge is usually built from scratch and learning the optimal policy may take a long time. In this work, we improve the learning performance by exploring transfer learning; that is, the knowledge acquired in previous source tasks is used to accelerate learning in new target tasks. If the tasks present similarities, then the transferred knowledge guides the agent towards faster learning. We explore the use of a relational representation that allows description of relationships among objects. This representation simplifies the use of abstraction and the extraction of the similarities among tasks, enabling the generalization of solutions that can be used across different, but related, tasks. This work presents two model-free algorithms for online learning of abstract policies: AbsSarsa(λ) and AbsProb-RL. The former builds a deterministic abstract policy from value functions, while the latter builds a stochastic abstract policy through direct search on the space of policies. We also propose the S2L-RL agent architecture, containing two levels of learning: an abstract level and a ground level. The agent simultaneously builds a ground policy and an abstract policy; not only the abstract policy can accelerate learning on the current task, but also it can guide the agent in a future task. Experiments in a robotic navigation environment show that these techniques are effective in improving the agents learning performance, especially during the early stages of the learning process, when the agent is completely unaware of the new task. / Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou seja, utilizar o conhecimento adquirido para se resolver tarefas passadas no aprendizado de novas tarefas. Assim, se as tarefas tiverem similaridades, o conhecimento prévio guiará o agente para um aprendizado mais rápido. Neste trabalho é explorado o uso de uma representação relacional, que explicita relações entre objetos e suas propriedades. Essa representação possibilita que se explore abstração e semelhanças estruturais entre as tarefas, possibilitando a generalização de políticas de ação para o uso em tarefas diferentes, porém relacionadas. Este trabalho contribui com dois algoritmos livres de modelo para construção online de políticas abstratas: AbsSarsa(λ) e AbsProb-RL. O primeiro constrói uma política abstrata determinística através de funções-valor, enquanto o segundo constrói uma política abstrata estocástica através de busca direta no espaço de políticas. Também é proposta a arquitetura S2L-RL para o agente, que possui dois níveis de aprendizado: o nível abstrato e o nível concreto. Uma política concreta é construída simultaneamente a uma política abstrata, que pode ser utilizada tanto para guiar o agente no problema atual quanto para guiá-lo em um novo problema futuro. Experimentos com tarefas de navegação robótica mostram que essas técnicas são efetivas na melhoria do desempenho do agente, principalmente nas fases inicias do aprendizado, quando o agente desconhece completamente o novo problema.
|
Page generated in 0.0176 seconds