Em aplicações de Aprendizagem por Reforço tais como a navegação de robôs autônomos, o uso de opções (macro-operadores) no lugar de ações de baixo nível tem sido considerado como um meio para produzir convergência mais rápida e uma exploração mais significativa do espaço de estados.Esta dissertação apresenta um estudo sobre a utilização de opções em Aprendizagem por Reforço com o objetivo de encontrar formas para acelerar o processo de aprendizagem. São abordados dois tipos de opções, opções OP e OS. Uma opção OP corresponde a uma política de ações que depende de todos os estados visitados durante a execução da opção, sendo que uma política de ações mapeia uma ação para cada estado do ambiente. O segundo tipo de opções, cuja proposta é uma das principais contribuições do trabalho, corresponde a uma seqüência fixa de ações, que depende exclusivamente do estado em que a opção foi disparada. O desempenho das opções OP e OS foi comparado através da realização de experimentos com o simulador do robô móvel Khepera usando-se o algoritmo de aprendizagem Q-Learning. Também foram realizados experimentos com as opções OP e uma adaptação do método de Campos Potenciais, no qual cada opção OP corresponde a um mapeamento de ações que podem aproximar o agente do seu alvo ou fazer com que o mesmo desvie de obstáculos. Para finalizar os estudos, algumas técnicas conhecidas na literatura que possibilitam melhoras na aprendizagem com opções OP, tais como o Término Melhorado e a utilização de Hierarquias foram aplicadas às opções OS. A primeira técnica possibilita que a execução de uma opção seja interrompida sempre que isto pareça ser melhor que ir até o final da mesma e a utilização de hierarquias permite uma categorização de comportamentos, fazendo a chamada de determinados comportamentos apenas quando estes forem necessários. Os resultados desta última fase experimental também são relatados na dissertação.
Identifer | oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2511 |
Date | 00 December 2002 |
Creators | Letícia Maria Friske |
Contributors | Carlos Henrique Costa Ribeiro |
Publisher | Instituto Tecnológico de Aeronáutica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds