[pt] Esta tese investiga modelos híbridos neuro-fuzzy para
aprendizado automático de ações efetuadas por agentes. O
objetivo dos modelos é dotar um agente de inteligência,
tornando-o capaz de, através da interação com o seu
ambiente, adquirir e armazenar o conhecimento e raciocinar
(inferir uma ação). O aprendizado desses modelos é
realizado através de processo não-supervisionado denominado
Aprendizado por Reforço (RL: Reinforcement Learning). Esta
nova proposta de modelos neuro-fuzzy apresenta as seguintes
características: aprendizado automático da estrutura do
modelo; auto-ajuste dos parâmetros associados à estrutura;
capacidade de aprender a ação a ser tomada quando o agente
está em um determinado estado do ambiente; possibilidade de
lidar com um número maior de entradas do que os sistemas
neuro-fuzzy tradicionais; e geração de regras lingüísticas
com hierarquia.
O trabalho envolveu três etapas principais: levantamento
bibliográfico e estudo de modelos de aprendizado; definição
e implementação de dois novos modelos neuro-fuzzy
hierárquicos baseados em RL; e estudo de casos.
O levantamento bibliográfico e o estudo de modelos de
aprendizado foi feito a partir dos modelos usados em
agentes (com o objetivo de ampliar a ação autônoma) e em
espaço de estados grande e/ou contínuo.
A definição dos dois novos modelos neuro-fuzzy foi motivada
pela importância de se estender a capacidade autônoma de
agentes através do quesito inteligência, em particular a
capacidade de aprendizado. Os modelos foram concebidos a
partir do estudo das limitações existentes nos modelos
atuais e das características desejáveis para sistemas de
aprendizado baseados em RL, em particular quando aplicados
a ambientes contínuos e/ou ambientes considerados de grande
dimensão. Tais ambientes apresentam uma característica
denominada curse of dimensionality que inviabiliza a
aplicação direta de métodos tradicionais de RL. Assim
sendo, a decisão de se usar uma metodologia de
particionamento recursivo, já explorada com excelentes
resultados em Souza (1999), que reduz significativamente as
limitações dos sistemas neuro-fuzzy existentes, foi de
fundamental importância para este trabalho. Optou-se pelos
particionamentos BSP e Quadtree/Politree, gerando os dois
modelos RL-NFHB (Reinforcement Learning - Neuro-Fuzzy
Hierárquico BSP) e RL-NFHP (Reinforcement Learning
- Neuro-Fuzzy Hierárquico Politree). Estes dois novos
modelos são derivados dos modelos neuro-fuzzy hierárquicos
NFHB e NFHQ (Souza, 1999) que utilizam aprendizado
supervisionado. Com o uso desses métodos de particionamento,
associados ao Reinforcement Learning, obteve-se uma nova
classe de Sistemas Neuro-Fuzzy (SNF) que executam, além do
aprendizado da estrutura, o aprendizado autônomo das ações
a serem tomadas por um agente. Essas características
representam um importante diferencial em relação aos
sistemas de aprendizado de agentes inteligentes existentes.
No estudo de casos, os dois modelos foram testados em 3
aplicações benckmark e uma aplicação em robótica. As
aplicações benchmark são referentes a 3 problemas de
sistemas de controle: o carro na montanha (mountain cart
problem), estacionamento do carro (cart-centering problem)
e o pêndulo invertido. A aplicação em robótica utilizou o
modelo Khepera. A implementação dos modelos RL-NFHB e RL-
NFHP foi feita em linguagem Java em microcomputadores com
plataforma Windows 2000.
Os testes efetuados demonstram que estes novos modelos se
ajustam bem a problemas de sistemas de controle e robótica,
apresentando boa generalização e gerando sua própria
estrutura hierárquica de regras com interpretação
Além disso, o aprendizado automático do ambiente dota o
agente de inteligência - (base de conhecimento, raciocínio
e aprendizado), característica que aumenta a capacidade
autônoma deste agente. A área de sistemas neuro-fuzzy
hie / [en] This thesis investigates neuro-fuzzy hybrid models for
automatic learning of actions taken by agents. The
objective of these models is to provide an agent with
intelligence, making it capable of acquiring and retaining
knowledge and of reasoning (infer an action) by interacting
with its environment. Learning in these models is performed
by a non-supervised process, called Reinforcement Learning.
These novel neuro-fuzzy models have the following
characteristics: automatic learning of the model structure;
auto-adjustment of parameters associated with the
structure; capability of learning the action to be taken
when the agent is on a given environment state; possibility
of dealing with a larger number of inputs than those of
traditional neuro-fuzzy systems; and the generation of
hierarchical linguistic rules.
This work comprised three main stages: bibliographic survey
and study of learning models; definition and implementation
of two new hierarchical neurofuzzy models based on
Reinforcement Learning; and case studies.
The bibliographic survey and the study of learning models
considered learning models employed in agents (aiming to
enhance the autonomous action) and in large and/or
continuous state spaces.
The definition of the two new neuro-fuzzy models was
motivated by the importance of extending the autonomous
capacity of agents through its intelligence, particularly
the learning capacity. The models were conceived from
the study of the existing limitations in current models, as
well as the desirable characteristics for RL-based learning
systems, particularly, when applied to continuous and/or
high dimension environments. These environments present a
characteristic called curse of dimensionality, which makes
impracticable the direct application of the traditional RL-
methods. Therefore, the decision of using a recursive
partitioning methodology (already explored with excellent
results in Souza, 1999), which significantly reduces the
existing neuro-fuzzy systems limitations, was crucial to
this work. The BSP (Binary Space Partitioning) and the
Quadtree/Politree partitioning were then chosen, generating
the RL-NFHB (Reinforcement Learning - Hierarchical Neuro-
Fuzzy BSP) and RL-NFHP (Reinforcement Learning -
Hierarchical Neuro-Fuzzy Politree) models. These two
new models are derived from the hierarchical neuro-fuzzy
models NFHB and NFHQ (Souza, 1999), which use supervised
learning. By using these partitioning methods, together
with the Reinforcement Learning methodology, a new class of
Neuro-Fuzzy Systems (SNF) was obtained, which executes, in
addition to structure learning, the autonomous learning of
the actions to be taken by an agent.
These characteristics represent an important differential
when compared to the existing intelligent agents learning
In the case studies, the two models were tested in three
benchmark applications and one application in robotics. The
benchmark applications refer to 3 problems of control
systems : the mountain cart problem, cart-centering
problem, and the inverted pendulum. The application in
robotics made use of the
Khepera model. The RL-NFHB and RL-NFHP models were
implemented using the Java language in Windows 2000
platform microcomputers.
The experiments demonstrate that these new models are
suitable for problems of control systems and robotics,
presenting a good generalization and generating their own
hierarchical structure of rules with linguistic
Moreover, the automatic environment learning endows the
agent with intelligence (knowledge base, reasoning and
learning). These are characteristics that increase
the autonomous capacity of this agent. The hierarchical
neuro-fuzzy systems field was also enhanced by the
introduction of reinforcement learning, allowing the
learning of hierarchical rules and actions to take place
within the same process.
