Spelling suggestions: "subject:"aprendizaje por esfuerzo"" "subject:"aprendizaje por esfuerzos""
1 |
Efecto de la modalidad deportiva sobre la inhibición motora proactiva y reactivaGonzález Céspedes, Guy 19 April 2024 (has links)
La literatura que estudia la relación entre el deporte y la cognición comúnmente categoriza la práctica deportiva entre, deportes de habilidades motoras abiertas (p.e., baloncesto) y de habilidades motoras cerradas (p.e., natación). Esta diferencia surge a partir de las características del entorno en que se desarrollan ambas modalidades deportivas, que imponen distintos requerimientos cognitivos sobre el control de las habilidades motoras. El deporte de habilidades abiertas tiene lugar en un entorno dinámico y caracterizado por la incertidumbre, mientras que el deporte de habilidades cerradas se realiza en un entorno relativamente estable y previsible. El aprendizaje de habilidades motoras abiertas parece estar relacionado con el desarrollo de la capacidad de control cognitivo o de las funciones ejecutivas en el dominio general, evaluado por ejemplo en tareas neuropsicológicas de control inhibitorio de la respuesta motora. El control cognitivo en la toma de decisión puede ser proactivo o reactivo dependiendo de la diferencia en la dinámica temporal durante el control de la habilidad. El control proactivo se caracteriza como una forma de selección de acción adaptativa temprana dirigida por una expectativa sobre las consecuencias de la acción, previamente al conocimiento del resultado. Mientras que, el control reactivo se trata de una forma de selección de acción tardía o correctiva, impulsada por el desajuste entre una expectativa imprecisa o ausente y el resultado realmente obtenido. Este estudio tuvo como objetivos: 1) Evaluar las diferencias conductuales en el control inhibitorio entre participantes de deportes de habilidades motoras abiertas, habilidades motoras cerradas y control no deportistas. 2) Investigar las diferencias en la dinámica temporal de la actividad neuronal asociada al procesamiento del error de predicción de recompensa que guía la selección de acción temprana (ERN / Ne) y tardía (FRN), para disociar entre un modo de control inhibitorio proactivo y reactivo, respectivamente. 3) Analizar el efecto moderador de la experiencia deportiva acumulada sobre la conducta y los componentes de procesamiento de error de predicción de recompensa. 4) Analizar la relación entre los factores de desempeño conductual y de procesamiento de error de predicción de recompensa. Sesenta y siete adultos jóvenes (18-25 años) estudiantes universitarios de Ciencias del Deporte de la Universidad de Granada participaron en el estudio. Fueron asignados a un grupo de deporte de habilidades abiertas (n= 30), un grupo de deporte de habilidades cerradas (n= 20) y un grupo control no deportista (n= 17). Los participantes completaron una tarea go/no-go de control inhibitorio. Se manipuló la incertidumbre de tarea a través de la variabilidad de la probabilidad de ocurrencia estímulo objetivo que determina la regla de tarea (go y no-go). Se introdujeron tres preíndices predictivos asociados con una probabilidad distinta de estímulo objetivo. Se trataba del color de fondo de pantalla: verde, amarillo o rojo, que estaban vinculados con una probabilidad de no-go del 13,33%, 33,33% y 53,33%, respectivamente. Los participantes no fueron informados explícitamente sobre la relación de probabilidad entre el preíndice y el estímulo objetivo. Se registró la actividad neuroeléctrica de los participantes durante la realización de la tarea a través de electroencefalografía (EEG), y se realizó un análisis de potenciales evocados relacionados con el evento (PRE) asociados al procesamiento de error de predicción de recompensa. Los resultados del efecto del contexto de probabilidad vinculado al preíndice (x3; verde, amarillo, rojo) sobre la conducta indicaron que el contexto verde era el único que causaba una mayor tasa de error de comisión respecto a los contextos amarillo y rojo, que no mostraron diferencias entre sí. Mientras que no se hallaron diferencias significativas entre los distintos contextos de probabilidad sobre la velocidad de respuesta ante el estímulo go. La observación de esta ausencia de diferencias debidas a la manipulación, indica que los participantes no lograron aprender la relación de probabilidad, entre el preíndice y el estímulo objetivo, para generar expectativas que guíen un control inhibitorio proactivo. Además, no hubo un efecto de interacción entre el contexto de probabilidad y la modalidad deportiva (x3; deportes abiertos, cerrados y control no deportista), por lo que ningún grupo de forma aislada logró este aprendizaje. Sin embargo, a pesar de este resultado, nuestra tarea go/no-go de 540 ensayos cuenta con 360 ensayos go (66,67%) y 180 ensayos no-go (33,33%). Esta relación de probabilidad entre ambos estímulos objetivos también puede ser aprendida por los participantes para generar sus expectativas y llevar a cabo un modo de control proactivo [Catena y cols., 2012]. Por lo tanto, comprobamos el efecto de la modalidad deportiva sobre el desempeño conductual y los componentes de procesamiento de error de predicción de recompensa previo (ERN / Ne), y posterior (FRN) a la aparición del estímulo objetivo, en la tarea completa, independientemente del contexto de probabilidad asociado al preíndice. Los resultados del ANOVA unifactorial entre sujetos mostraron que los tres grupos tenían la misma precisión (aciertos, errores de comisión y errores de omisión), sin embargo, el grupo de habilidades abiertas tuvo una mayor velocidad de respuesta (tiempo de respuesta medio, y tiempo de respuesta medio ajustado a la precisión) que el grupo de habilidades cerradas. Debido a que ningún grupo de deporte mostraba diferencias en la velocidad de respuesta con el grupo control, se interpreta un desempeño intermedio de los no deportistas en el control inhibitorio. Además, se mostró efecto de la modalidad deportiva sobre el componente ERN / Ne relacionado con la expectativa sobre la regla de tarea. Concretamente, el grupo de habilidades abiertas tuvo una menor latencia ERN / Ne. Es decir, alcanzó su pico de amplitud máxima antes que el resto de los grupos. No se encontraron diferencias en los parámetros de FRN. El ANOVA factorial entre sujetos tampoco arrojó un efecto de interacción entre la modalidad y la experiencia deportiva acumulada de los participantes sobre las mismas variables dependientes. Por último, se observó que aquellos participantes que obtuvieron un mejor desempeño conductual en la prueba de control inhibitorio, independientemente de la modalidad deportiva, tuvieron una mayor amplitud ERN / Ne, que los que se desempeñaron peor. Los hallazgos conductuales y electrofisiológicos sugirieron que la práctica deportiva de habilidades motoras abiertas es más eficaz para el desarrollo de la capacidad de control inhibitorio que la práctica de habilidades motoras cerradas. Además, los deportistas de habilidades abiertas habrían llevado a cabo un control inhibitorio proactivo en la toma de decisión más eficiente, debido a un procesamiento del error de predicción de recompensa previo al procesamiento del estímulo objetivo más rápido que los deportistas de habilidades cerradas y control. Este hecho podría reflejarse en su conducta de mantenimiento de la precisión sin la disminución de la velocidad de respuesta. En último lugar, se examinó una relación entre la dinámica temporal en el procesamiento del error de predicción de recompensa y la conducta, debido a que aquellos participantes que tuvieron un mejor rendimiento lograban generar una expectativa más precisa sobre la regla de tarea para la preparación de la selección de acción, determinada por la mayor amplitud ERN / Ne.
|
2 |
Gradient-based reinforcement learning techniques for underwater robotics behavior learningEl-Fakdi Sencianes, Andrés 03 March 2011 (has links)
Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG. / A considerable interest has arisen around Autonomous Underwater Vehicle (AUV) applications. AUVs are very useful because of their size and their independence from human operators. However, comparison with humans in terms of efficiency and flexibility is often unequal. The development of autonomous control systems able to deal with such issues becomes a priority. The use of AUVs for covering large unknown dynamic underwater areas is a very complex problem, mainly when the AUV is required to react in real time to unpredictable changes in the environment. This thesis is concerned with the field of AUVs and the problem of action-decision. The methodology chosen to solve this problem is Reinforcement Learning (RL). The work presented here focuses on the study and development of RL-based behaviors and their application to AUVs in real robotic tasks. The principal contribution of this thesis is the application of different RL techniques for autonomy improvement of an AUV, with the final purpose of demonstrating the feasibility of learning algorithms to help AUVs perform autonomous tasks. In RL, the robot tries to maximize a scalar evaluation obtained as a result of its interaction with the environment with the aim of finding an optimal policy to map the state of the environment to an action which in turn will maximize the accumulated future rewards. Thus, this dissertation is based on the principals of RL theory, surveying the two main classes of RL algorithms: Value Function (VF)-based methods and Policy Gradient (PG)-based techniques. A particular class of algorithms, Actor-Critic methods, born of the combination of PG algorithms with VF methods, is used for the final experimental results of this thesis: a real underwater task in which the underwater robot Ictineu AUV learns to perform an autonomous cable tracking task.
|
3 |
A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robotCarreras Pérez, Marc 16 September 2003 (has links)
Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina.En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies.En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni.Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.
|
4 |
Neurodynamical modeling of arbitrary visuomotor tasksLoh, Marco 11 February 2008 (has links)
El aprendizaje visuomotor condicional es un paradigma en el que las asociaciones estímulo-respuesta se aprenden a través de una recompensa. Un experimento típico se desarrolla de la siguiente forma: cuando se presenta un estímulo a un sujeto, éste debe decidir qué acción realizar de entre un conjunto. Una vez seleccionada la acción, el sujeto recibirá una recompensa en el caso de que la acción escogida sea correcta. En este tipo de tareas interactúan distintas regiones cerebrales, entre las que destacan el córtex prefrontal, el córtex premotor, el hipocampo y los ganglios basales. El objetivo de este proyecto consiste en estudiar la dinámica neuronal subyacente a esta clase de tareas a través de modelos computacionales. Proponemos el término processing pathway para describir cómo ejecuta esta tarea el cerebro y explicar los roles e interacciones entre las distintas áreas cerebrales. Además, tratamos el procesamiento anómalo en una hipótesis neurodinámica de la esquizofrenia. / Conditional visuomotor learning is a paradigm in which stimulus-response associations are learned upon reward feedback. A typical experiment is as follows: Upon a stimulus presentation, a subject has to decide which action to choose among a number of actions. After an action is selected, the subject receives reward if the action was correct. Several interacting brain regions work together to perform this task, most prominently the prefrontal cortex, the premotor cortex, the hippocampus, and the basal ganglia. Using computational modeling, we analyze and discuss the neurodynamics underlying this task. We propose the term processing pathway to describe how the brain performs this task and detail the roles and interactions of the brain regions. In addition, we address aberrant processing in a neurodynamical hypothesis of schizophrenia.
|
5 |
[en] ADAPTIVE ROUTING IN DATA COMMUNICATION NETWORKS THROUGH REINFORCEMENT LEARNING / [pt] ROTEAMENTO ADAPTATIVO EM REDES DE COMUNICAÇÃO DE DADOS POR REINFORCEMENT LEARNING / [es] RUTEAMIENTO ADAPTATIVO EN REDES DE COMUNICACIÓN DE DATOR POR REINFORCEMENT LEARNINGYVAN JESUS TUPAC VALDIVIA 13 March 2001 (has links)
[pt] Esta dissertação investiga a aplicação dos métodos de
Reinforcement Learning na descoberta de rotas ótimas em uma
rede de comunicação. Uma rede de comunicação real possui um
comportamento dinâmico, mudando seu estado com o tempo. Os
algoritmos de roteamento devem, portanto, oferecer rapidez
na resposta às mudanças do estado da rede. O objetivo do
trabalho é avaliar a aplicação de técnicas de Reinforcement
Learning (RL) como base de algoritmos adaptativos de
roteamento de pacotes. O problema de roteamento de pacotes
sob a visão de RL consiste na definição de cada nó na rede
como um agente RL, sendo que este agente deve definir ações
de forma a minimizar uma função objetivo que pode ser o
tempo de roteamento dos pacotes. Um dos objetivos do RL é
precisamente aprender a tomar as ações que minimizem uma
função. O trabalho consistiu de 4 etapas principais: um
estudo sobre a área de Reinforcement Learning (RL); um
estudo sobre a área de redes de comunicação e roteamento de
pacotes; a modelagem do problema de roteamento como um
sistema RL e implementação de diferentes métodos de RL para
obter algoritmos de roteamento; e o estudo de casos.
O estudo na área de Reinforcement Learning abrangeu desde
as definições mais fundamentais: suas características, os
elementos de um sistema RL e modelagem do ambiente como um
Processo de Decisão de Markov, até os métodos básicos de
solução: Programação Dinâmica, método de Monte Carlo, e o
método de Diferenças Temporais. Neste último método, foram
considerados dois algoritmos específicos: TD e Q-Learning.
Em seguida, foi avaliado o parâmetro Eligibility Traces
como uma alternativa para apressar o processo de
aprendizado, obtendo o TD(lambda) e o Q(lambda)
respectivamente. O estudo sobre Redes de Comunicação e
Roteamento de pacotes envolveu os conceitos básicos de
redes de comunicações, comutação por pacotes, a questão do
roteamento de pacotes e os algoritmos existentes
adaptativos e não adaptativos, que são utilizados na
atualidade. Nas redes de comunicação, definidas como um
conjunto de nós ligados através de enlaces de comunicação,
para se enviar uma mensagem de um nó a outro, geralmente, a
mensagem é quebrada em pedaços, chamados pacotes, e
enviados através de outros nós, até chegar ao destino.
Deste modo surge o problema de escolher os nós que levem o
pacote o mais rápido possível até o nó destino. Os
algoritmos analisados foram: Shortest Path Routing que
procura os caminhos com menor número de nós
intermediários, não sendo sensível às mudanças na carga nem
na topologia da rede; Weighted Shortest Path Routing, que
oferece um melhor desempenho a partir de uma visão global
do estado da rede, que nem sempre é fácil de obter em redes
reais e o algoritmo de Bellman-Ford, baseado em decisões de
roteamento locais e atualizações periódicas, com algumas
limitações para obter políticas em altas cargas. Este
último é um dos algoritmos mais utilizados na atualidade,
sendo base de muitos protocolos de roteamento existentes.
A modelagem do problema de roteamento como um sistema RL
foi inspirada por uma característica na definição de um
sistema RL: um agente que interage com o ambiente e aprende
a atingir um objetivo. Assim, a modelagem dos algoritmos
tem como objetivo aprender a descobrir as rotas que
minimizem o tempo de roteamento de pacotes desde uma origem
até um dado destino. A avaliação de uma rota escolhida não
pode ser obtida antes que o pacote alcance o seu destino
final. Este fato faz com que os processos de aprendizado
supervisionado tenham dificuldade de se aplicar a esse
problema. Por outro lado, o Reinforcement Learning não
necessita de um par entrada-resposta para fazer o
aprendizado, permitindo-lhe abordar o problema com relativa
facilidade. Na modelagem efetuada, cada nó na rede se
comporta como um agente de RL que age na própria rede, a
qual é o ambiente. A informação das rotas é armazenada nas
funções de valor existentes em todos os nós da rede para / [en] This dissertation investigates the application of
Reinforcement Learning methods to the discovery of
optimal routes in communication networks. Any current
communication network displays dynamic behavior,
changing its states over time. Therefore, the routing
algorithms must react swiftly to changes in the network
status. The objective of this work is to evaluate the
application of some Reinforcement Learning techniques to
define adaptive packet routing algorithms. The packet
routing problem under the RL vision consists in the
definition of each node on network as an RL agent. Thus,
each agent must take actions in order to minimize an
objective function such as end to end packet routing delay.
One main objective of the RL is precisely learning to
take the actions that minimize a given function.
This thesis is consists of 4 main parts: first, a study of
Reinforcement Learning (RL); a study of the
communication networks and packet routing; the routing
problem model as a RL system and the implementation
of several RL methods in order to obtain some routing
algorithms; e finally, the case study.
The study of Reinforcement Learning extends from the more
basic definitions, Reinforcement Learning
features, elements of a RL system and environment modeling
as a Markovian Decision Process, to the basic
methods of solution: Dynamic Programming, Monte Carlo
methods and Temporal Differences methods. In this
last case, two specific algorithms have been considered: TD
and Q-Learning, and, finally, the Eligibility Traces
are evaluated as a useful tool that permits us to
accelerate the learning process leading to the TD(lambda)
and the Q(lambda) routing algorithms. The study on
communication networks and packet routing
involves the foundations of communication networks, packet
switching, the packet routing problem, and adaptive and non-
adaptive routing algorithms used
at the present time. Communication networks are defined as
a set of nodes connected through communication
links. In order to send a message from a source node to a
destination node usually the message is broken into
segments called packets, and these are sent through other
nodes until arriving at the destination. In this way the
problem appears to choose the path which takes the shortest
possible time for the packet to reach the destination
node. The following algorithms have been analyzed: Shortest
Path Routing that looks for paths with minimal
hop number, not being sensible to the changes of load level
and network topology; Weighted Shortest Path
Routing that offers better performance from a global vision
of the state of the network, which is not always easy
to get in real networks; on the other hand, the Bellman-
Ford routing algorithm was studied, this is based on local
routing decisions and periodic updates, with some
limitations to obtain policies in high load conditions.
Bellman-Ford
is one of the algorithms most used at the present time,
being the basis for many existing routing protocols.
The modeling of the routing problem as a RL system was
inspired by one of the main features of the
definition of an RL system: an agent who interacts with the
environment and learns to reach an objective;
therefore, the modeling of the routing algorithms has as
its objective to learn to discover the paths that minimize
packet routing time from an origin to an destination. The
evaluation of a chosen route cannot be completed
before the package reaches its final destination. This fact
implies that supervised learning cannot be applied to
the routing problem. On the other hand, Reinforcement
Learning does not need a input-output pair for the
learning process, allowing it to approach the problem with
relative ease. In the modeling, each network node is
viewed as a RL agent that acts in the same network; the
network is the environment. The routing information is
stored in the existing value functions in all nodes in the
network, for each node and all another destination node / [es] Esta disertación investiga la aplicación de los métodos de
Reinforcement Learning en la determinación de rutas óptimas
en una red de comunicación. Una red de comunicación real
posee un comportamiento dinámico, donde su estado varia en
el tiempo. Los algoritmos de ruta óptima deben, por lo
tanto, ofrecer rapidez en la respuesta a las variaciones
del estado de la red. El objetivo de este trabajo es
evaluar la aplicación de técnicas de Reinforcement Learning
(RL) como base de algoritmos adaptativos de problemas de
ruteamiento en redes. Este problema consiste en la
definición de cada nodo de la red como un agente RL. Este
agente debe definir acciones de modo a minimizar una
función objetivo que puede ser el tiempo de ruteamiento.
El trabajo consta de 4 etapas principais: un estudio sobre
el área de Reinforcement Learning (RL); un estudio sobre
redes de comunicación y problema de ruteamiento; el modelo
de ruta óptima como un sistema RL y la implementación de
diferentes métodos de RL para obtener algoritmos de ruta
óptima; y un estudio de casos.
El estudio en el área de Reinforcement Learning va desde
las definiciones fundamentales: características, elementos
de un sistema RL y modelaje del ambiente como un Proceso de
Decisión de Markov, hasta los métodos básicos de solución:
Programación Dinámica, método de Monte Carlo, y método de
Diferencias Temporales. En este último método, fueron
considerados dos algoritmos específicos: TD e Q-Learning.
A seguir, fue evaluado el parámetro Eligibility Traces como
una alternativa para agilizar el proceso de aprendizaje,
obteniendo el TD(lambda) y el Q(lambda) respectivamente.
El estudio sobre Redes de Comunicación y Problema de
Transporte incluye los conceptos básicos de redes de
comunicaciones, la cuestión de la ruta óptima y los
algoritmos adaptativos y no adaptativos existentes, que se
utilizan actualmente. Los algoritmos analizados fueron:
Shortest Path Routing, que busca los caminos con menor
número de nodos intermedios, no siendo sensible a
variaciones en la carga ni en la topología de la red;
Weighted Shortest Path Routing, que ofrece un mejor
desempeño a partir de una visión global del estado de la
red, que no siempre es fácil de obtener en redes reales; y
el algoritmo de Bellman-Ford, que tiene como base
decisiones de rutas locales y actualizaciones periódicas,
con algunas limitaciones para obtener políticas en altas
cargas. Este último es uno de los algoritmos más utilizados
en la actualidad, siendo base de muchos protocolos de
trazado de ruta existentes. La solución para modelar el
problema de ruteamiento como un
sistema RL fue inspirada por una característica en la
definición de un sistema RL: un agente que interactúa con
el ambiente y aprende a alcanzar un objetivo. Así, el
modelo tiene como objetivo aprender a determinar las rutas
que minimizen el timpo desde el origen hasta un destino
dado. La evaluación de uma ruta seleccionada no puede ser
obtenida antes que el paquete alcance su destino final.
Esto hace que los procesos de aprendizaje supervisionado
tengan dificultades para ser aplicados a este problema. Por
otro lado, Reinforcement Learning no necesita de un par
entrada-salida para el aprendizaje, permitiendo así,
abordar el problema con relativa facilidad. En el modelo
establecido, cada nodo en la red se comporta como un agente
de RL que actúa en la propria red.
La información de las rutas se almacena en las funciones de
valor existentes en todos los nodos de la red para cada
nodo destino diferente. Esta información contiene un valor
estimado del tiempo requerido para un paquete para llegar
hasta el nodo destino. La actualización de esos valores se
realiza durante la transición del paquete hasta el vecino
seleccionado. En este trabajo se implementaron varios
algoritmos de ruta óptima. Cada uno de los algoritmos
aplica características de las técnicas en Reinforcement
Learning: o Q(lambda)-Routing, y el TD-Routing. En el
estudio d
|
Page generated in 0.1138 seconds