Return to search

Aceleração do aprendizado por reforço em sistemas com múltiplos objetivos.

O objetivo deste trabalho é a implementação e análise de técnicas para aceleração do aprendizado por reforço em sistemas com múltiplos objetivos. Problemas com múltiplos objetivos, por sua vez, podem ser descritos de várias formas diferentes. O foco aqui é naqueles casos em que um único agente deve aprender simultaneamente e de modo online várias sub-tarefas independentes resultantes de uma decomposição a priori do problema em questão. O agente será responsável pelo aprendizado autônomo de um processo de seleção de ações em que pode ocorrer competição entre as várias sub-tarefas, cada uma das quais representada por um processo decisório distinto. O projeto envolve uma análise empírica baseada em resultados prévios da literatura, seguida de um estudo de variantes mistas de maximização de utilidade e minimização de custos associados às ações propostas pelos processos decisórios de Markov que compõem as sub-tarefas. Como resultado dessa análise são propostas as técnicas de aceleração do aprendizado baseadas em heurísticas testadas e estudadas no contexto de problemas de objetivos simples. Os resultados experimentais obtidos indicam que tais heurísticas adaptadas e aplicadas às políticas de ações dos MDPs são capazes de proporcionar aceleração da convergência dos algoritmos de aprendizado autônomo em problemas com múltiplos objetivos.

Identiferoai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:892
Date13 November 2009
CreatorsHelen Cristina de Mattos Senefonte
ContributorsCarlos Henrique Costa Ribeiro
PublisherInstituto Tecnológico de Aeronáutica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds