Return to search

Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada

O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original.

Identiferoai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:3376
Date17 November 2015
CreatorsLuisa Amaral de Almeida
ContributorsCarlos Henrique Costa Ribeiro
PublisherInstituto Tecnológico de Aeronáutica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações do ITA, instname:Instituto Tecnológico de Aeronáutica, instacron:ITA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds