Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.
Identifer | oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:382 |
Date | 24 April 2007 |
Creators | Celeny Fernandes Alves |
Contributors | Carlos Henrique Costa Ribeiro |
Publisher | Instituto Tecnológico de Aeronáutica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0014 seconds