Return to search

Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go

Orientador: Prof. Dr. Fabrício Olivetti de França / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. / Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo
de Go, ii) a combinação dessas estratégias permitem a construção de um agente
inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para
aprender, com base em um jogador heurístico e posteriormente com base nos melhores
agentes treinados, a posicionar as pedras para permitir a expansão do território,
este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados
em diferentes estágios e também a capturar pedras. Também foram treinados dois
agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias
específicas de captura e defesa das pedras. Em ambos os treinamentos foi
possível notar que o conhecimento para resolver um problema era propagado para
as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao
pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir
qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro.
Foi possível constatar que este agente, jogando contra outros indivíduos da
população, evoluiu na escolha de melhores estratégias, permitindo a dominação de
territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes
Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go,
e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber
a evolução dos agentes para aprender as estratégias e comportamentos distintos de
forma segmentada. O nível do agente inteligente gerado ainda está distante de um
jogador profissional, porém ainda existem opções de melhorias para serem testadas
com parametrização, reformulação da função de aptidão, entre outros. Esses resultados
propõem novas possibilidades para a criação de agentes inteligentes para jogos
complexos. / Go is a board game that draws a lot of attention in the Artificial Intelligence
area, because it is a complex problem to solve and needs different strategies in order
to obtain a good skill level in the game. By 2015, all the Go¿s best programs must
start the match with advantage to win over a professional player, but in the end
of 2015, the AlphaGo program was the first and, so far, the only one capable of
beating a professional player without needing advantage, combining the use of deep
convolutional neural networks to orientate the searches on Monte-Carlo trees. This
dissertation has as main objective to create an intelligent agent of Go that decides
its next movements based on current scenario of the board and in prediction models
created for three specific strategies of the game. For this purpose, two hypothesis
were tested: i) whether it is possible to specialize intelligent agents to learn partial
strategies of Go game, ii) whether the combination of these strategies allows the
construction of an intelligent agent to play Go. For the first hyphotesis, an agent
was trained to learn, based on matches again a heuristic player and later based on
the best trained agents, to position the stones to allow the expansion of territory, this
agent learn to generalize this strategy against individuals trained in different stages
and capture stones too. Two agents were also trained based on problem solving,
in order to learn the specific strategies of catching and defense of stones. In both
trainings were possible to note that the knowledge to solve a problem was propagated
to the next generations of individuals, but the level of learning was low due to the
short training. For the second hyphotesis, an agent was trained to decide which of
the three specific strategies to use according to the current state of the board. It
was possible to verify that this agent, playing against other individuals population,
evolved in choosing better strategies, allowing territories domination, capture and
defend stones. The agents was created using Convolution Neural Networks, without
any previous knowledge about how to play Go, and the training was performed using
Neuroevolution. As a result, it was possible to perceive the evolution of agents to
learn different strategies and behaviours in a segmented way. The intelligent agent
generated¿s skill still far from a professional player, however there are still options for
improvement to be tested with parameterization, reformulation of fitness function,
and others. These results propose new opportunities for the creation of intelligent
agents for complex games.

Identiferoai:union.ndltd.org:IBICT/oai:BDTD:106651
Date January 2017
CreatorsSakurai, Rafael Guimarães
ContributorsFrança, Fabricio Olivetti de, Martins Junior, David Corrêa, Peres, Sarajane Marques
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf, 122 f. : il.
Sourcereponame:Repositório Institucional da UFABC, instname:Universidade Federal do ABC, instacron:UFABC
Rightsinfo:eu-repo/semantics/openAccess
Relationhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729, http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730, Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=106651

Page generated in 0.0024 seconds