A interação entre agentes inteligentes na disputa por recursos necessários à sobrevivência é um fato onipresente na luta pela vida. Este tipo de interação é estudado e formalizado matematicamente pela teoria dos jogos. Na literatura experimental encontramos vários estudos envolvendo primatas humanos e não humanos em tarefas de jogos estratégicos, mas, até o momento, não foi desenvolvido nenhum modelo deste comportamento com roedores. Estudos do comportamento animal mostram que estes aprendem e aprimoram este tipo de estratégias através de aprendizagem por reforço. O elemento central dos modelos computacionais de aprendizado por reforço é o sinal de violação de expectativa, que sinaliza o quanto um resultado difere, para mais ou para menos, do esperado. Este sinal é utilizado pelo agente para atualização dos valores e, assim, da probabilidade de escolha das opções. A pesquisa neurofisiológica tem consistentemente demonstrado que o sinal fásico emitido pelo sistema dopaminérgico conforma-se muito de perto às características do sinal descrito pela teoria computacional. Dessa maneira, os objetivos do presente estudo são pesquisar (1) se roedores são capazes de jogar um jogo estratégico simples e se a evolução do seu desempenho é consistente com o aprendizado por reforço e (2) se os efeitos de agonistas e antagonistas dopaminérgicos na estratégia de jogo são consistentes com a teoria segundo a qual o sinal dopaminérgico fásico desempenha função central na atualização constante da estratégia de jogo. Nossos resultados demonstram que, neste jogo estratégico, roedores efetivamente são capazes de um desempenho muito próximo do normativo, que seu desempenho é consistente com o aprendizado por reforço e, finalmente, que o sistema dopaminérgico está envolvido no processo de atualização da estratégia. / Intelligent agents competing for the resources necessary for survival is a universal factor in the struggle for life. This type of interaction has been studied and mathematically formalized by game theory. In scientific literature we have come across several studies involving human and non-human primates carrying out strategic game tasks; however, until now, no model for such behavior has been developed for rodents. Animal behavior studies have shown that animals learn and develop strategies through reinforcement learning. A central element of computational models of reinforcement learning is the reward-prediction error signal, which indicates how much a result differs, either positively or negatively, from the expected result. This signal is used by the agent to update the values of its options, and so their probability of being chosen. Neurophysiologic research has consistently shown that the phasic signal emitted by the dopamine system conforms very closely to the characteristics of the signal described by computational theory. The purposes of this study are: (1) to discover whether rodents are capable of playing a simple strategic game and whether the evolution of their performance is consistent with reinforcement learning; and (2) whether the effects of dopamine agonists and antagonists on game strategy are consistent with the theory that phasic dopamine signals have a primary role in the constant update of game strategy. Our results prove that, in this strategic game, rodents are effectively capable of finding a strategy that is very close to the normative one, that their performance is consistent with reinforcement learning and, finally, that the dopamine system is involved in the process of strategic updating.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-21092011-084317 |
Date | 10 June 2011 |
Creators | Tassi, Luiz Eduardo |
Contributors | Xavier, Gilberto Fernando |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0018 seconds