O aprendizado por reforço é uma técnica muito conhecida para a solução de problemas quando o agente precisa atuar com sucesso em um local desconhecido por meio de tentativa e erro. Porem, ela não é eficiente o bastante para ser usada em aplicações com exigências do mundo real devido ao tempo que o agente precisa para o aprendizado. Este trabalho propõe um mecanismo para a aceleração do aprendizado por reforço, utilizando transferência do aprendizado com a combinação de varias técnicas distintas, como, redes neurais artificiais, aprendizado por reforço, raciocínio baseado em casos e uso de heurística para aceleração do aprendizado, utilizando a semelhança entre domínios. Com o objetivo de avaliar o mecanismo proposto, implementou-se o algoritmo Q-Learning Acelerado por Transferência de Aprendizado (Q-Learning Accelerated by Transfer Learning - Q-LATL) que estende o conhecido algoritmo Q-Learning utilizando métodos de aproveitamento de casos para extração da função heurística, métodos estes que podem ser usados para a aceleração do aprendizado por reforço. Foram realizados experimentos utilizando a transferência de aprendizado para solucionar problemas em diversos domínios. Os resultados experimentais deste trabalho permitem concluir que a transferência do aprendizado, na forma como aplicada neste trabalho, melhora o desempenho do algoritmo de aprendizado por reforço utilizado.
Identifer | oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:2058 |
Date | 06 June 2012 |
Creators | Luiz Antonio Celiberto Junior |
Contributors | Jackson Paul Matsuura, Reinaldo Augusto da Costa Bianchi |
Publisher | Instituto Tecnológico de Aeronáutica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0018 seconds