Return to search

Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.

Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.

Identiferoai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:382
Date24 April 2007
CreatorsCeleny Fernandes Alves
ContributorsCarlos Henrique Costa Ribeiro
PublisherInstituto Tecnológico de Aeronáutica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds