Return to search

Utilização de opções para o controle autônomo de robôs móveis.

Em aplicações de Aprendizagem por Reforço tais como a navegação de robôs autônomos, o uso de opções (macro-operadores) no lugar de ações de baixo nível tem sido considerado como um meio para produzir convergência mais rápida e uma exploração mais significativa do espaço de estados.Esta dissertação apresenta um estudo sobre a utilização de opções em Aprendizagem por Reforço com o objetivo de encontrar formas para acelerar o processo de aprendizagem. São abordados dois tipos de opções, opções OP e OS. Uma opção OP corresponde a uma política de ações que depende de todos os estados visitados durante a execução da opção, sendo que uma política de ações mapeia uma ação para cada estado do ambiente. O segundo tipo de opções, cuja proposta é uma das principais contribuições do trabalho, corresponde a uma seqüência fixa de ações, que depende exclusivamente do estado em que a opção foi disparada. O desempenho das opções OP e OS foi comparado através da realização de experimentos com o simulador do robô móvel Khepera usando-se o algoritmo de aprendizagem Q-Learning. Também foram realizados experimentos com as opções OP e uma adaptação do método de Campos Potenciais, no qual cada opção OP corresponde a um mapeamento de ações que podem aproximar o agente do seu alvo ou fazer com que o mesmo desvie de obstáculos. Para finalizar os estudos, algumas técnicas conhecidas na literatura que possibilitam melhoras na aprendizagem com opções OP, tais como o Término Melhorado e a utilização de Hierarquias foram aplicadas às opções OS. A primeira técnica possibilita que a execução de uma opção seja interrompida sempre que isto pareça ser melhor que ir até o final da mesma e a utilização de hierarquias permite uma categorização de comportamentos, fazendo a chamada de determinados comportamentos apenas quando estes forem necessários. Os resultados desta última fase experimental também são relatados na dissertação.

Identiferoai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2511
Date00 December 2002
CreatorsLetícia Maria Friske
ContributorsCarlos Henrique Costa Ribeiro
PublisherInstituto Tecnológico de Aeronáutica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0064 seconds