1 |
Control and identification of non-linear systems using neural networks and reinforcement learningMatos, Lucas Guilhem de 02 March 2018 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018. / Submitted by Fabiana Santos (fabianacamargo@bce.unb.br) on 2018-09-27T20:19:43Z
No. of bitstreams: 1
2018_LucasGuilhemdeMatos_RESUMO.pdf: 59314 bytes, checksum: fcca0edce88c4bbe8975f96cfb38ac6f (MD5) / Rejected by Fabiana Santos (fabianacamargo@bce.unb.br), reason: O arquivo PDF está errado. on 2018-10-08T21:05:29Z (GMT) / Submitted by Fabiana Santos (fabianacamargo@bce.unb.br) on 2018-10-08T21:06:22Z
No. of bitstreams: 1
2018_LucasGuilhemdeMatos.pdf: 22624129 bytes, checksum: 8246b13bfdcea5ae4862864196f406be (MD5) / Approved for entry into archive by Fabiana Santos (fabianacamargo@bce.unb.br) on 2018-10-09T20:24:27Z (GMT) No. of bitstreams: 1
2018_LucasGuilhemdeMatos.pdf: 22624129 bytes, checksum: 8246b13bfdcea5ae4862864196f406be (MD5) / Made available in DSpace on 2018-10-09T20:24:27Z (GMT). No. of bitstreams: 1
2018_LucasGuilhemdeMatos.pdf: 22624129 bytes, checksum: 8246b13bfdcea5ae4862864196f406be (MD5)
Previous issue date: 2018-08-24 / Fundação de Apoio a Pesquisa do Distrito Federal (FAP-DF). / Este trabalho propõe um contolador adaptativo utilizando redes neuras e aprendizado por reforço para lidar com não-linearidades e variância no tempo. Para a realização de testes, um sistema de nível de líquidos de quarta ordem foi escolhido por apresentar uma gama de constantes de tempo e por possibilitar a mudança de parâmetros. O sistema foi identificado com redes neurais para prever estados futuros com o objetivo de compensar o atraso e melhorar a performance do controlador. Diversos testes foram realizados com diversas redes neurais para decidir qual rede neural seria utilizada para cada tarefa pertinente ao controlador. Os parâmetros do controlador foram ajustados e testados para que o controlador pudesse alcançar parâmetros arbitrários de performance. O controlador foi testado e comparado com o PI tradicional para validação e mostrou caracteristicas adaptativas e melhoria de performance ao longo do tempo, além disso, o controlador desenvolvido não necessita de informação prévia do sistema. / This work presents a proposal of an adaptive controller using reinforcement learning and neural networks in order to deal with non-linearities and time-variance. To test the controller a fourth-order fluid level system was chosen because of its great range of time constants and the possibility of varying the system parameters. System identification was performed to predict future states of the system, bypass delay and enhance the controller’s performance. Several tests with different neural networks were made in order to decide which network would be assigned to which task. Various parameters of the controller were tested and tuned to achieve a controller that satisfied arbitrary specifications. The controller was tested against a conventional PI controller used as reference and has shown adaptive features and improvement during execution. Also, the proposed controller needs no previous information on the system in order to be designed.
|
2 |
Patrulha multi-agente com aprendizagem por reforçoPimentel de Santana, Hugo January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:13Z (GMT). No. of bitstreams: 2
arquivo7179_1.pdf: 868288 bytes, checksum: df107b96148023142bed070723decd67 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2005 / A tarefa de patrulha pode ser encontrada em diferentes domínios, desde administração
de redes de computadores a simulações de jogos de guerra. Esta é uma tarefa multi-agente
complexa, que requer que os agentes participantes coordenem as suas tomadas de decisão de
modo a obter um bom desempenho para o grupo como um todo.
Neste trabalho, é mostrado de que maneira a tarefa da patrulha pode ser modelada
como um problema de aprendizagem por reforço (AR), permitindo uma adaptação contínua e
automática das estratégias dos agentes ao ambiente. Nós demonstramos que um
comportamento cooperativo eficiente pode ser obtido utilizando técnicas padrão de AR, como
Q-Learning, para treinar os agentes individualmente.
É feita uma análise detalhada da optimalidade das soluções propostas e os resultados
obtidos constituem um caso de estudo positivo no uso de técnicas de aprendizagem por
reforço em sistemas multi-agentes. As reflexões e técnicas apresentadas são igualmente
valiosas para outros problemas que compartilham propriedades similares.
Além disto, a abordagem proposta é totalmente distribuída, o que a torna
computacionalmente eficiente. A avaliação empírica comprova a eficácia da mesma, e torna
este trabalho uma primeira abordagem de sucesso na obtenção de uma estratégia adaptativa
para tal tarefa
|
3 |
Piloto baseado em aprendizagem por reforço para o simulador de corridas TORCS / Reinforcement learning driver for TORCS car racing simulatorDaros, Vinícius Kiwi 06 August 2015 (has links)
Corrida de carros e um gênero popular de jogos eletrônicos e um domínio com vários desafios a serem explorados no âmbito da Inteligência Artificial (IA), tendo recebido atenção crescente nos últimos anos. Naturalmente, um desses desafios e criar pilotos virtuais capazes de aprender sozinhos a correr nas pistas. Neste projeto de mestrado, nos adaptamos e aplicamos técnicas de Aprendizagem por Reforço (Reinforcement Learning) no desenvolvimento de um agente completamente autônomo capaz de correr em pistas de vários formatos dentro do simulador TORCS. Esse jogo de código aberto possui um sistema de física muito elaborado e permite a criação de módulos de IA para controlar os carros, sendo assim um ambiente de testes frequentemente adotado para pesquisas nesse contexto. O objetivo do nosso agente e encontrar ações de controle do acelerador e freio a fim de gastar o menor tempo possível em cada volta. Para atingir tal meta, ele coleta dados na primeira volta, gera um modelo do circuito, segmenta e classifica cada trecho da pista e, finalmente, da voltas no percurso ate atingir um comportamento consistente. Além das questões relacionadas a aprendizagem, este trabalho explora conceitos de Sistemas de Controle, em especial controladores PID (Proporcional, Integrativo, Derivativo), usados para a implementação da heurística do manejo do volante. Também abordamos os fundamentos de alguns assistentes de direção, tais como ABS (Anti-lock Braking System) e controle de estabilidade. Esses princípios são de grande importância para tornar o agente capaz de guiar o carro dentro de um ambiente com simulação física tão próxima a realidade. Nesse ponto e no emprego do sensoriamento para a aquisição de dados, nosso trabalho flerta com a área de Robótica Móvel. Por fim, avaliamos o desempenho de nosso piloto virtual comparando seus resultados com os de controladores baseados em outras técnicas. / Reinforcement learning driver for TORCS car racing simulator.
|
4 |
Utilização de CPGs e técnicas de inteligência computacional na geração de marcha em robôs humanóides / Using CPGs and computational intelligence techniques in the gait generation of humanoid robotsPaiva, Rafael Cortes de 18 August 2014 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2014. / Submitted by Ana Cristina Barbosa da Silva (annabds@hotmail.com) on 2014-11-25T17:23:31Z
No. of bitstreams: 1
2014_RafaelCortesdePaiva.pdf: 7660330 bytes, checksum: eaad53db8e1c76edec638a3e30ee5f3e (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2014-11-25T17:58:53Z (GMT) No. of bitstreams: 1
2014_RafaelCortesdePaiva.pdf: 7660330 bytes, checksum: eaad53db8e1c76edec638a3e30ee5f3e (MD5) / Made available in DSpace on 2014-11-25T17:58:54Z (GMT). No. of bitstreams: 1
2014_RafaelCortesdePaiva.pdf: 7660330 bytes, checksum: eaad53db8e1c76edec638a3e30ee5f3e (MD5) / Nesse trabalho foi realizado o estudo de técnicas bio-inspiradas para gerar a marcha de um robô bípede. Foi utilizado o conceito de CPG, Central Pattern Generator (CPG), que é uma rede neural capaz de produzir respostas rítmicas. Elas foram modeladas como osciladores acoplados chamados de osciladores neurais. Para tanto foram utilizados alguns modelos de osciladores, o modelo de Matsuoka, o modelo de Kuramoto e o modelo de Kuramoto com acoplamento entre a dinâmica do oscilador e a dinâmica da marcha. Foram usados dois modelos de robôs, o Bioloid e o NAO. Para otimizar os parâmetros dos osciladores foram utilizados o Algoritmo Genético (AG), o Particle Swarm Optimization (PSO) e o Nondominated sorting Genetic Algorithm II (NSGA-II). Foi utilizada uma função de custo que através de determinadas condições tem como objetivo obter uma marcha eficiente. No NSGA-II, além dessa função de custo, foi utilizada outra função de custo que considera o trabalho realizado pelo robô. Além disso, também foi utilizada a aprendizagem por reforço para treinar um controlador que corrige a postura do robô durante a marcha. Foi possível propor um framework para obter os parâmetros dos osciladores e através dele obter uma marcha estável em ambas as plataformas. Também foi possível propor um framework utilizando aprendizagem por reforço para treinar um controlador para corrigir a postura do robô com a marcha sendo gerado pelo oscilador de Kuramoto com acoplamento. O objetivo do algoritmo foi minimizar a velocidade do ângulo de arfagem do corpo do robô, dessa forma, a variação do ângulo de arfagem também foi minimizada consequentemente. Além disso, o robô andou mais “cautelosamente” para poder manter a postura e dessa forma percorreu uma distância menor do que se estivesse sem o controlador. ______________________________________________________________________________ ABSTRACT / This document describes computational optimized bipedal robot gait generators. Thegaits are applied by a neural oscillator, composed of coupled central pattern generators(CPG), which are neural networks capable of producing rhythmic output. The models ofthe oscillators used were the Matsuoka model, Kuramoto model and Kura moto model withcoupling between the dynamics of the oscillator and dynamics of the gait. Two bipedalrobots, a NAO and a Bioloid, were used. The neural oscillators were optimized with threealgorithms, a Genetic Algorithm (GA), Particle Swarm Optimization (PSO) and Nondominatedsorting Genetic Algorithm II (NSGA-II). It was used a fitness function that has theobjective to obtain an efficient gait through some conditions. In NSGA-II, besides this fitnessfunction, another one was used that has the objective to minimize the work done by therobot. Additionally, reinforcement learning techniques were used to train a controller thatcorrects the robots gait posture. It was proposed a framework to obtain the parameters of theoscillators used and obtain efficient gaits in both robots. Also, it was proposed a frameworkusing reinforcement learning to train a controller to correct the robots gait posture. The objective of the algorithm was to minimize the pitch angular velocity, consequently the pitchangle standard deviation was minimized. Additionally, the robot moved with more “caution” and walked less compared with the walk without the posture controller.
|
5 |
Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCupVIEIRA, Davi Carnaúba de Lima 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:58:23Z (GMT). No. of bitstreams: 2
arquivo4030_1.pdf: 9256625 bytes, checksum: 7f4c7776d120f9fef113904bc5e3e526 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco / A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um resultado associado a cada estado nem a cada ação tomada por um agente inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência da exploração dos espaços de estados e de ações que produz uma explosão de dados cujo armazenamento se torna um problema em muitas situações. Por outro lado, tem-se a mineração de dados como uma área da inteligência artificial que busca extrair informações ou padrões de grandes quantidades de dados, ou armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados.
A principal contribuição deste trabalho é mostrar como as técnicas de mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é reduzir a complexidade do problema e a quantidade de memória usada pelo agente, que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-se ao não armazenamento dos dados provenientes da exploração dos espaços de estados e de ações em um banco de dados. Este trabalho também contribui propondo um esquema de armazenamento para os estados visitados e as ações executadas pelo agente.
Neste estudo, o método de seleção de atributos e de ações foi validado experimentalmente em um problema no qual a aprendizagem por reforço é a abordagem mais adequada; o drible no futebol de robôs RoboCup-2D. Este problema é composto de 23 variáveis contínuas e 113 ações disponíveis para o agente que consome cerca de 18MB de memória quando utilizado o algoritmo combinado com a técnica de tile-coding. Os resultados dos experimentos mostraram que a quantidade de variáveis do ambiente pode ser reduzida em até 56% e a quantidade de ações em até 85%, com uma redução do uso da memória de 95% e um aumento no desempenho de aproximadamente 10% de acordo com a distribuição da freqüência relativa de sucesso do agente. A abordagem proposta é simples de usar e eficiente
|
6 |
Balanceamento dinâmico de jogos: uma abordagem baseada em aprendizagem por reforçoDanzi de Andrade, Gustavo January 2006 (has links)
Made available in DSpace on 2014-06-12T15:59:36Z (GMT). No. of bitstreams: 2
arquivo5292_1.pdf: 1798840 bytes, checksum: db998e56499727753cab2c45845f898c (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A capacidade de entretenimento de jogos digitais depende de vários fatores, como qualidade
gráfica, enredo e jogabilidade. Um dos elementos que afetam a jogabilidade é o nível de
desafio enfrentado pelo usuário, que é determinado pelo balanceamento do jogo. Balancear
consiste em proporcionar níveis adequados de desafios, evitando os extremos de entediar o
jogador com tarefas triviais ou frustrá-lo com tarefas intransponíveis. Jogos possuem uma
grande diversidade de usuários, em termos de habilidades e experiências, e cada um evolui em
um ritmo distinto. Dessa forma, a dificuldade sentida por cada jogador é influenciada por suas
características individuais. A adaptação dos desafios ao perfil de cada um é realizada através
do balanceamento dinâmico, que automaticamente avalia cada usuário e propõe desafios
adequados a suas habilidades. Este trabalho apresenta um método original de balanceamento
dinâmico de jogos baseado em aprendizagem por reforço. A abordagem consiste em dividir o
problema em duas dimensões: competência (o conhecimento) e desempenho (a utilização
prática do conhecimento). Para a aquisição de competência, são criados agentes inteligentes
capazes de descobrir, por meio de aprendizagem por reforço, diferentes estratégias de
comportamento. Para adaptar o desempenho, é definida uma política de atuação que escolhe,
dentre as estratégias aprendidas, aquela mais adequada a cada usuário. O método proposto e
outras abordagens encontradas na literatura são implementados, testados e comparados em
um jogo de luta. Os experimentos realizados através de simulações com outros agentes
indicam que o método proposto consegue, com sucesso, adaptar-se a oponentes com
diferentes perfis. Complementarmente, são realizados testes com jogadores reais, para os
quais é definido um método de avaliação de balanceamento de jogos baseado em técnicas de
usabilidade. Os resultados obtidos indicam as vantagens e limitações de cada abordagem e
fornecem indícios de que um balanceamento adequado efetivamente melhora o
entretenimento
|
7 |
Piloto baseado em aprendizagem por reforço para o simulador de corridas TORCS / Reinforcement learning driver for TORCS car racing simulatorVinícius Kiwi Daros 06 August 2015 (has links)
Corrida de carros e um gênero popular de jogos eletrônicos e um domínio com vários desafios a serem explorados no âmbito da Inteligência Artificial (IA), tendo recebido atenção crescente nos últimos anos. Naturalmente, um desses desafios e criar pilotos virtuais capazes de aprender sozinhos a correr nas pistas. Neste projeto de mestrado, nos adaptamos e aplicamos técnicas de Aprendizagem por Reforço (Reinforcement Learning) no desenvolvimento de um agente completamente autônomo capaz de correr em pistas de vários formatos dentro do simulador TORCS. Esse jogo de código aberto possui um sistema de física muito elaborado e permite a criação de módulos de IA para controlar os carros, sendo assim um ambiente de testes frequentemente adotado para pesquisas nesse contexto. O objetivo do nosso agente e encontrar ações de controle do acelerador e freio a fim de gastar o menor tempo possível em cada volta. Para atingir tal meta, ele coleta dados na primeira volta, gera um modelo do circuito, segmenta e classifica cada trecho da pista e, finalmente, da voltas no percurso ate atingir um comportamento consistente. Além das questões relacionadas a aprendizagem, este trabalho explora conceitos de Sistemas de Controle, em especial controladores PID (Proporcional, Integrativo, Derivativo), usados para a implementação da heurística do manejo do volante. Também abordamos os fundamentos de alguns assistentes de direção, tais como ABS (Anti-lock Braking System) e controle de estabilidade. Esses princípios são de grande importância para tornar o agente capaz de guiar o carro dentro de um ambiente com simulação física tão próxima a realidade. Nesse ponto e no emprego do sensoriamento para a aquisição de dados, nosso trabalho flerta com a área de Robótica Móvel. Por fim, avaliamos o desempenho de nosso piloto virtual comparando seus resultados com os de controladores baseados em outras técnicas. / Reinforcement learning driver for TORCS car racing simulator.
|
8 |
Inferência de contexto para dispositivos móveis utilizando aprendizagem por reforçoGuimarães, Leonardo Lira 25 May 2015 (has links)
Submitted by Kamila Costa (kamilavasconceloscosta@gmail.com) on 2015-06-18T19:47:28Z
No. of bitstreams: 1
Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-06T15:14:50Z (GMT) No. of bitstreams: 1
Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-07-06T15:21:38Z (GMT) No. of bitstreams: 1
Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5) / Made available in DSpace on 2015-07-06T15:21:38Z (GMT). No. of bitstreams: 1
Dissertação-Leonardo Lira Guimarães.pdf: 5378144 bytes, checksum: 17c3316e73590efa02a215df4d7e88b6 (MD5)
Previous issue date: 2015-05-25 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Advances in wireless communication and computer hardware technologies have boosted
the popularity of mobile devices. Increasingly, these devices gain new features of
hardware (i.e., sensors and other gadgets) and software (e.g., facial, voice and gestures
recognition) so that the human-computer interaction can occur more naturally.
These features allowed a greater awareness of the environment and the conditions under
which the users are, enabling the development of applications ever more proactive
and sensitive.
A context aware system can modify its behavior according to the inferred context
of the environment. However, erroneous interpretations of the collected data may
induce inappropriate and unwanted actions in applications. Although there is variety
of inference techniques in the literature (e.g., rules, ontologies, that uses supervised
and unsupervised learning), generally, they do not consider whether the inferences
were indeed suitable to the user contexts. Furthermore, most of these techniques uses
static inference models (i.e., they are unable to adjust themselves to changes in the
environment conditions), which represents a limitation of these techniques when applied
to the field of mobile applications.
This work proposes a new context reasoning technique for mobile applications –
called CoRe-RL – which uses reinforcement learning in order that the produced inferences
could be ever more suitable to the user’s contexts. In this technique, learning
occurs in an incremental manner and as the user interacts with the system, allowing
the inference to be adjusted by the rewards (positive reinforcements) and punishments
(negative reinforcements) associated to the inferred contexts. As the contexts are
continuously being learned, the proposed technique also allows a flexible context management
to the applications, which enables new contexts (labels) to be registered and
learned over time. The operation of the technique is divided into two stages – classification
and adaptation. The CoRe-RL uses a modified version of the K nearest neighbors
in the classification stage. The learning (adaptation) stage is based on examples, but
also makes adjustments on the models (features ranking) which weigh the most relevant
xv
features of each context in the classification stage.
In order to validate and evaluate the proposed technique, it was developed, as
a case study of this work, an application that implements all of the functionality and
capabilities of CoRe-RL. Through this application, practical experiments for evaluating
the classification and adaptation were executed in two specific scenarios: there was a
single context in the first scenario; and in the second, there were three. Through the
practical experiments, it was observed that, in accordance to the cutting threshold
used, it is possible to obtain good performances in the classification even with a small
base and with a slightly adjusted ranking. Furthermore, it was demonstrated that
the CoRe-RL improves its performance, converging to the optimal performance, in
accordance to the occurrence of new interactions. / Os avanços das tecnologias de comunicação sem fio e de hardware impulsionaram a
popularização do uso de dispositivos móveis. Cada vez mais, estes dispositivos ganham
novos recursos de hardware (i.e., sensores e outros gadgets) e software (e.g., reconhecimento
facial, de voz, gestos) a fim de que a interação humano-computador ocorra
de forma mais natural. Esses recursos deram aos dispositivos móveis uma capacidade
maior de percepção do ambiente e das condições nas quais os usuários se encontram,
possibilitando o desenvolvimento de aplicações cada vez mais proativas e sensíveis ao
contexto.
Um sistema sensível ao contexto é capaz de modificar seu comportamento de
acordo com os contextos inferidos do ambiente. Entretanto, interpretações errôneas
dos dados coletados podem induzir ações inapropriadas e indesejadas nas aplicações.
Embora exista uma variedade de técnicas de inferência na literatura (e.g., regras, ontologias,
que utilizam aprendizagem supervisionada e não supervisionada), em geral,
elas não consideram se as inferências foram de fato adequadas para os contextos do
usuário. Além disso, a maioria dessas técnicas utiliza modelos estáticos de inferência
(i.e., que não são capazes de se ajustar à mudanças nas condições do ambiente), o que
representa uma limitação dessas técnicas quando aplicadas ao domínio das aplicações
móveis.
Neste trabalho, é proposta uma nova técnica de inferência de contexto para aplicações
móveis – chamada de CoRe-RL – que utiliza aprendizagem por reforço a fim de
que sejam produzidas inferências cada vez mais adequadas aos contextos do usuário.
Nesta técnica, a aprendizagem ocorre de maneira incremental e conforme o usuário
interage com o sistema, permitindo que a inferência seja ajustada por meio de recompensas
(reforços positivos) e punições (reforços negativos) associadas aos contextos
inferidos. Como os contextos estão continuamente sendo aprendidos, a técnica proposta
também permite às aplicações um gerenciamento flexível de contextos, ou seja,
é possível que novos contextos (rótulos) sejam cadastrados e aprendidos ao longo do
tempo. O funcionamento da técnica é divido em duas etapas – classificação e adapxiii
tação. O CoRe-RL utiliza o método dos K vizinhos mais próximos (modificado) na
classificação. A aprendizagem (adaptação) é baseada em exemplos, mas também faz
ajustes sobre os modelos (ranking de características) que ponderam as características
mais relevantes de cada contexto, na etapa de classificação.
Com o intuito de testar e avaliar o desempenho da técnica proposta, foi desenvolvido,
como estudo de caso deste trabalho, um aplicativo que implementa todas as
funcionalidades e recursos do CoRe-RL. Através deste aplicativo, foram realizados experimentos
práticos de avaliação da classificação e adaptação, em dois cenários específicos:
no primeiro cenário havia um único contexto; e no segundo haviam três. Por meio
dos experimentos práticos, observou-se que, de acordo com o limiar de corte usado, é
possível obter bons desempenhos na classificação mesmo com uma base pequena e com
um ranking pouco ajustado. Além disso, demonstrou-se que o CoRe-RL melhora seu
desempenho, convergindo para o desempenho ótimo, de acordo com a ocorrência das
interações.
|
9 |
Controle Inteligente de Tempo Livre em Tutoria Multissessão / Intelligent Control of Free Time in Multi-session TutoringGOMES, Viviane Margarida 22 August 2009 (has links)
Made available in DSpace on 2014-07-29T15:08:22Z (GMT). No. of bitstreams: 1
dissertacao_Viviane_Margarida_Gomes_EEEC_UFG_2009.pdf: 1229653 bytes, checksum: 6dded0cdb59c4c56c5eb4f04ee56788f (MD5)
Previous issue date: 2009-08-22 / Intelligent Tutoring Systems are softwares to provide customized instruction by using techniques of Computational Intelligence. This research proposes the intelligent control of free time (break interval) in multi-session tutoring. The
teaching strategy employs tutoring modules with the following steps: 1) video class, 2) exercise, 3) practical suggestion, 4) free time, and 5) revision exercise. As part of the learning environment, free time (step 4) can contribute to increase
the knowledge retention. Based on the student performance in exercises, the proposed system uses Reinforcement Learning to control free time durations. The intelligent agent decides according to the policy that has been indicated
by the Softmax method. Among the relevant points of this algorithm, it can be highlighted the optimistic initial values, the incremental implementation and the temperature adjustment (Gibbs distribution parameter) to the selection of action. Two student groups have participated of data collection. The experimental group (with intelligent control) has been compared to the control group (where decisions belong to the student). In the groups, the intelligent
agent or the student determines the action that will be followed or, in more detail, if free time will be shorter, longer or maintained. In comparison, statistical data analysis have shown significant and equivalent gains in knowledge
retention. However, students from experimental group have realized more accurately the role of free time as a component of the teaching strategy / Sistemas Tutores Inteligentes são programas para prover instrução personalizada a partir de técnicas de Inteligência Computacional. Esta pesquisa propõe o controle inteligente de tempo livre (pausas) em tutoria multissessão. A estratégia de ensino apresenta a tutoria em módulos, com as seguintes etapas: 1) vídeo-aula, 2) exercício, 3) sugestão prática, 4) tempo livre e 5) exercício de revisão. Como parte do ambiente de aprendizagem, o tempo livre (etapa 4) pode contribuir para aumentar a retenção de conhecimento. Baseado no desempenho do aluno nos exercícios, o sistema proposto utiliza Aprendizagem por Reforço para controlar a duração do tempo livre. O agente inteligente toma decisões de acordo com a política definida pelo método Softmax. Entre os pontos relevantes do algoritmo, destacam-se o valor inicial otimizado das ações, a implementação incremental e o ajuste da temperatura (parâmetro da distribuição de Gibbs) para a seleção de ação. Dois grupos de estudantes participaram
da coleta de dados. O grupo experimental (com controle inteligente do tempo livre) foi comparado ao grupo controle (onde a decisão pertence ao próprio estudante). Nos grupos, o agente inteligente ou o aluno determina a ação a ser seguida, mais detalhadamente, diminuir, manter ou aumentar a
duração do tempo livre. Por meio de estudo comparativo, a análise estatística dos dados mostrou ganhos significativos e equivalentes na retenção de conhecimento. Contudo, alunos do grupo experimental perceberam melhor o tempo livre como componente da estratégia de ensino
|
10 |
Agente topológico de aprendizado por reforço / Topological reinforcement learning agentBraga, Arthur Plínio de Souza 07 April 2004 (has links)
Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR. / Reinforcement Learning (RL) methods have shown to be a good choice for decision-making problems due to their flexible and adaptive characteristics. Despite such promising features, RL methods often have their practical application restricted to small or medium size (at state, or state-action, space) problems mainly because of their standard strategies for value function estimation. In this thesis, a new RL approach, called \"Topological Reinforcement Learning Agent\" - TRLA, is proposed to accelerate learning through an alternative mechanism to update the state-action value function. TRLA is inspired in latent learning, which refers to animal learning that occurs in the absence of reinforcements and that is not visible until an environmental reinforcement is perceived. This concept considers that part of a task can be learned even before the agent receives any indication of how to perform such a task. Cognitive Maps are usually used to encode information about the environment where the agent is immersed. Thus, the TRLA uses a topological map, based on Self-Organized Maps, to implement cognitive map functions and permit a new simple mechanism to execute the propagation of state-action updates. The chosen problem to test TRLA is the simulation of a mobile robot navigation in some initially unknown and unstructured environments. Performance comparisons of the TRLA with six other RL algorithms were carried out to the execution of the navigation task. The obtained results are very promising and comparable with some of faster RL algorithms simulated. In some experiments, the TRLA\'s performance overcomes the others especially in simulations with unstructured environments. Three characteristics of the original TRLA were modified to make it more suitable for real implementations: (i) changes in the topological map construction to reduce the vertices number, (ii) changes in the agents heuristic for action selection, and (iii) variations on the TRLAs strategy for exploration of the state-action space. In (i), a new procedure to construct topological maps was proposed and implemented, the Incremental Classifier Topological Map ICTM, which generates the vertices for a Watsons triangulation from the classification of the input states. In (ii), it was proposed a method to optimize trajectory planning problems based on graphs, denoted \"trajectory improvement from inner point detection\". The third point considers directed exploration strategies as an option for TRLA\'s learning acceleration.
|
Page generated in 0.3189 seconds