Global ETD Search

1	Efecto de la modalidad deportiva sobre la inhibición motora proactiva y reactiva González Céspedes, Guy 19 April 2024 (has links) La literatura que estudia la relación entre el deporte y la cognición comúnmente categoriza la práctica deportiva entre, deportes de habilidades motoras abiertas (p.e., baloncesto) y de habilidades motoras cerradas (p.e., natación). Esta diferencia surge a partir de las características del entorno en que se desarrollan ambas modalidades deportivas, que imponen distintos requerimientos cognitivos sobre el control de las habilidades motoras. El deporte de habilidades abiertas tiene lugar en un entorno dinámico y caracterizado por la incertidumbre, mientras que el deporte de habilidades cerradas se realiza en un entorno relativamente estable y previsible. El aprendizaje de habilidades motoras abiertas parece estar relacionado con el desarrollo de la capacidad de control cognitivo o de las funciones ejecutivas en el dominio general, evaluado por ejemplo en tareas neuropsicológicas de control inhibitorio de la respuesta motora. El control cognitivo en la toma de decisión puede ser proactivo o reactivo dependiendo de la diferencia en la dinámica temporal durante el control de la habilidad. El control proactivo se caracteriza como una forma de selección de acción adaptativa temprana dirigida por una expectativa sobre las consecuencias de la acción, previamente al conocimiento del resultado. Mientras que, el control reactivo se trata de una forma de selección de acción tardía o correctiva, impulsada por el desajuste entre una expectativa imprecisa o ausente y el resultado realmente obtenido. Este estudio tuvo como objetivos: 1) Evaluar las diferencias conductuales en el control inhibitorio entre participantes de deportes de habilidades motoras abiertas, habilidades motoras cerradas y control no deportistas. 2) Investigar las diferencias en la dinámica temporal de la actividad neuronal asociada al procesamiento del error de predicción de recompensa que guía la selección de acción temprana (ERN / Ne) y tardía (FRN), para disociar entre un modo de control inhibitorio proactivo y reactivo, respectivamente. 3) Analizar el efecto moderador de la experiencia deportiva acumulada sobre la conducta y los componentes de procesamiento de error de predicción de recompensa. 4) Analizar la relación entre los factores de desempeño conductual y de procesamiento de error de predicción de recompensa. Sesenta y siete adultos jóvenes (18-25 años) estudiantes universitarios de Ciencias del Deporte de la Universidad de Granada participaron en el estudio. Fueron asignados a un grupo de deporte de habilidades abiertas (n= 30), un grupo de deporte de habilidades cerradas (n= 20) y un grupo control no deportista (n= 17). Los participantes completaron una tarea go/no-go de control inhibitorio. Se manipuló la incertidumbre de tarea a través de la variabilidad de la probabilidad de ocurrencia estímulo objetivo que determina la regla de tarea (go y no-go). Se introdujeron tres preíndices predictivos asociados con una probabilidad distinta de estímulo objetivo. Se trataba del color de fondo de pantalla: verde, amarillo o rojo, que estaban vinculados con una probabilidad de no-go del 13,33%, 33,33% y 53,33%, respectivamente. Los participantes no fueron informados explícitamente sobre la relación de probabilidad entre el preíndice y el estímulo objetivo. Se registró la actividad neuroeléctrica de los participantes durante la realización de la tarea a través de electroencefalografía (EEG), y se realizó un análisis de potenciales evocados relacionados con el evento (PRE) asociados al procesamiento de error de predicción de recompensa. Los resultados del efecto del contexto de probabilidad vinculado al preíndice (x3; verde, amarillo, rojo) sobre la conducta indicaron que el contexto verde era el único que causaba una mayor tasa de error de comisión respecto a los contextos amarillo y rojo, que no mostraron diferencias entre sí. Mientras que no se hallaron diferencias significativas entre los distintos contextos de probabilidad sobre la velocidad de respuesta ante el estímulo go. La observación de esta ausencia de diferencias debidas a la manipulación, indica que los participantes no lograron aprender la relación de probabilidad, entre el preíndice y el estímulo objetivo, para generar expectativas que guíen un control inhibitorio proactivo. Además, no hubo un efecto de interacción entre el contexto de probabilidad y la modalidad deportiva (x3; deportes abiertos, cerrados y control no deportista), por lo que ningún grupo de forma aislada logró este aprendizaje. Sin embargo, a pesar de este resultado, nuestra tarea go/no-go de 540 ensayos cuenta con 360 ensayos go (66,67%) y 180 ensayos no-go (33,33%). Esta relación de probabilidad entre ambos estímulos objetivos también puede ser aprendida por los participantes para generar sus expectativas y llevar a cabo un modo de control proactivo [Catena y cols., 2012]. Por lo tanto, comprobamos el efecto de la modalidad deportiva sobre el desempeño conductual y los componentes de procesamiento de error de predicción de recompensa previo (ERN / Ne), y posterior (FRN) a la aparición del estímulo objetivo, en la tarea completa, independientemente del contexto de probabilidad asociado al preíndice. Los resultados del ANOVA unifactorial entre sujetos mostraron que los tres grupos tenían la misma precisión (aciertos, errores de comisión y errores de omisión), sin embargo, el grupo de habilidades abiertas tuvo una mayor velocidad de respuesta (tiempo de respuesta medio, y tiempo de respuesta medio ajustado a la precisión) que el grupo de habilidades cerradas. Debido a que ningún grupo de deporte mostraba diferencias en la velocidad de respuesta con el grupo control, se interpreta un desempeño intermedio de los no deportistas en el control inhibitorio. Además, se mostró efecto de la modalidad deportiva sobre el componente ERN / Ne relacionado con la expectativa sobre la regla de tarea. Concretamente, el grupo de habilidades abiertas tuvo una menor latencia ERN / Ne. Es decir, alcanzó su pico de amplitud máxima antes que el resto de los grupos. No se encontraron diferencias en los parámetros de FRN. El ANOVA factorial entre sujetos tampoco arrojó un efecto de interacción entre la modalidad y la experiencia deportiva acumulada de los participantes sobre las mismas variables dependientes. Por último, se observó que aquellos participantes que obtuvieron un mejor desempeño conductual en la prueba de control inhibitorio, independientemente de la modalidad deportiva, tuvieron una mayor amplitud ERN / Ne, que los que se desempeñaron peor. Los hallazgos conductuales y electrofisiológicos sugirieron que la práctica deportiva de habilidades motoras abiertas es más eficaz para el desarrollo de la capacidad de control inhibitorio que la práctica de habilidades motoras cerradas. Además, los deportistas de habilidades abiertas habrían llevado a cabo un control inhibitorio proactivo en la toma de decisión más eficiente, debido a un procesamiento del error de predicción de recompensa previo al procesamiento del estímulo objetivo más rápido que los deportistas de habilidades cerradas y control. Este hecho podría reflejarse en su conducta de mantenimiento de la precisión sin la disminución de la velocidad de respuesta. En último lugar, se examinó una relación entre la dinámica temporal en el procesamiento del error de predicción de recompensa y la conducta, debido a que aquellos participantes que tuvieron un mejor rendimiento lograban generar una expectativa más precisa sobre la regla de tarea para la preparación de la selección de acción, determinada por la mayor amplitud ERN / Ne. Habilidades motoras abiertas Habilidades motoras cerradas Control cognitivo proactivo Control cognitivo reactivo Aprendizaje por refuerzo Error de predicción de recompensa
2	Gradient-based reinforcement learning techniques for underwater robotics behavior learning El-Fakdi Sencianes, Andrés 03 March 2011 (has links) Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG. / A considerable interest has arisen around Autonomous Underwater Vehicle (AUV) applications. AUVs are very useful because of their size and their independence from human operators. However, comparison with humans in terms of efficiency and flexibility is often unequal. The development of autonomous control systems able to deal with such issues becomes a priority. The use of AUVs for covering large unknown dynamic underwater areas is a very complex problem, mainly when the AUV is required to react in real time to unpredictable changes in the environment. This thesis is concerned with the field of AUVs and the problem of action-decision. The methodology chosen to solve this problem is Reinforcement Learning (RL). The work presented here focuses on the study and development of RL-based behaviors and their application to AUVs in real robotic tasks. The principal contribution of this thesis is the application of different RL techniques for autonomy improvement of an AUV, with the final purpose of demonstrating the feasibility of learning algorithms to help AUVs perform autonomous tasks. In RL, the robot tries to maximize a scalar evaluation obtained as a result of its interaction with the environment with the aim of finding an optimal policy to map the state of the environment to an action which in turn will maximize the accumulated future rewards. Thus, this dissertation is based on the principals of RL theory, surveying the two main classes of RL algorithms: Value Function (VF)-based methods and Policy Gradient (PG)-based techniques. A particular class of algorithms, Actor-Critic methods, born of the combination of PG algorithms with VF methods, is used for the final experimental results of this thesis: a real underwater task in which the underwater robot Ictineu AUV learns to perform an autonomous cable tracking task. Reinforcement learning Underwater robotics Learning in robotics Aprendizaje por refuerzo Robótica submarina Aprendizaje en robótica Aprenentatge per reforç Robòtica submarina Aprenentatge en robòtica 621.3 68
3	A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot Carreras Pérez, Marc 16 September 2003 (has links) Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina.En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies.En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni.Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals. Aprenentatge per reforç Reinforcement learning Arquitecturas de control Control architectures Robótica submarina Arquitectures de control Underwater robotics Robòtica submarina Robots móviles Vehicles autònoms Learning in robotics Aprenentatge en robótica Aprendizaje por refuerzo Aprendizaje en robótica Robots mòbils Mobile robots 621.3 68
4	Neurodynamical modeling of arbitrary visuomotor tasks Loh, Marco 11 February 2008 (has links) El aprendizaje visuomotor condicional es un paradigma en el que las asociaciones estímulo-respuesta se aprenden a través de una recompensa. Un experimento típico se desarrolla de la siguiente forma: cuando se presenta un estímulo a un sujeto, éste debe decidir qué acción realizar de entre un conjunto. Una vez seleccionada la acción, el sujeto recibirá una recompensa en el caso de que la acción escogida sea correcta. En este tipo de tareas interactúan distintas regiones cerebrales, entre las que destacan el córtex prefrontal, el córtex premotor, el hipocampo y los ganglios basales. El objetivo de este proyecto consiste en estudiar la dinámica neuronal subyacente a esta clase de tareas a través de modelos computacionales. Proponemos el término processing pathway para describir cómo ejecuta esta tarea el cerebro y explicar los roles e interacciones entre las distintas áreas cerebrales. Además, tratamos el procesamiento anómalo en una hipótesis neurodinámica de la esquizofrenia. / Conditional visuomotor learning is a paradigm in which stimulus-response associations are learned upon reward feedback. A typical experiment is as follows: Upon a stimulus presentation, a subject has to decide which action to choose among a number of actions. After an action is selected, the subject receives reward if the action was correct. Several interacting brain regions work together to perform this task, most prominently the prefrontal cortex, the premotor cortex, the hippocampus, and the basal ganglia. Using computational modeling, we analyze and discuss the neurodynamics underlying this task. We propose the term processing pathway to describe how the brain performs this task and detail the roles and interactions of the brain regions. In addition, we address aberrant processing in a neurodynamical hypothesis of schizophrenia. association learning visuomotor learning neuropsychology neural networks cognition modeling neurodynamics esquizofrenia computational neuroscience aprendizaje por refuerzo aprendizaje asociativo aprendizaje visuomotor neuropsicología redes neuronales cognición elaboración de modelos neurodinámica neurociencia computacional reinforcement learning schizophrenia 61 616.8
5	[en] ADAPTIVE ROUTING IN DATA COMMUNICATION NETWORKS THROUGH REINFORCEMENT LEARNING / [pt] ROTEAMENTO ADAPTATIVO EM REDES DE COMUNICAÇÃO DE DADOS POR REINFORCEMENT LEARNING / [es] RUTEAMIENTO ADAPTATIVO EN REDES DE COMUNICACIÓN DE DATOR POR REINFORCEMENT LEARNING YVAN JESUS TUPAC VALDIVIA 13 March 2001 (has links) [pt] Esta dissertação investiga a aplicação dos métodos de Reinforcement Learning na descoberta de rotas ótimas em uma rede de comunicação. Uma rede de comunicação real possui um comportamento dinâmico, mudando seu estado com o tempo. Os algoritmos de roteamento devem, portanto, oferecer rapidez na resposta às mudanças do estado da rede. O objetivo do trabalho é avaliar a aplicação de técnicas de Reinforcement Learning (RL) como base de algoritmos adaptativos de roteamento de pacotes. O problema de roteamento de pacotes sob a visão de RL consiste na definição de cada nó na rede como um agente RL, sendo que este agente deve definir ações de forma a minimizar uma função objetivo que pode ser o tempo de roteamento dos pacotes. Um dos objetivos do RL é precisamente aprender a tomar as ações que minimizem uma função. O trabalho consistiu de 4 etapas principais: um estudo sobre a área de Reinforcement Learning (RL); um estudo sobre a área de redes de comunicação e roteamento de pacotes; a modelagem do problema de roteamento como um sistema RL e implementação de diferentes métodos de RL para obter algoritmos de roteamento; e o estudo de casos. O estudo na área de Reinforcement Learning abrangeu desde as definições mais fundamentais: suas características, os elementos de um sistema RL e modelagem do ambiente como um Processo de Decisão de Markov, até os métodos básicos de solução: Programação Dinâmica, método de Monte Carlo, e o método de Diferenças Temporais. Neste último método, foram considerados dois algoritmos específicos: TD e Q-Learning. Em seguida, foi avaliado o parâmetro Eligibility Traces como uma alternativa para apressar o processo de aprendizado, obtendo o TD(lambda) e o Q(lambda) respectivamente. O estudo sobre Redes de Comunicação e Roteamento de pacotes envolveu os conceitos básicos de redes de comunicações, comutação por pacotes, a questão do roteamento de pacotes e os algoritmos existentes adaptativos e não adaptativos, que são utilizados na atualidade. Nas redes de comunicação, definidas como um conjunto de nós ligados através de enlaces de comunicação, para se enviar uma mensagem de um nó a outro, geralmente, a mensagem é quebrada em pedaços, chamados pacotes, e enviados através de outros nós, até chegar ao destino. Deste modo surge o problema de escolher os nós que levem o pacote o mais rápido possível até o nó destino. Os algoritmos analisados foram: Shortest Path Routing que procura os caminhos com menor número de nós intermediários, não sendo sensível às mudanças na carga nem na topologia da rede; Weighted Shortest Path Routing, que oferece um melhor desempenho a partir de uma visão global do estado da rede, que nem sempre é fácil de obter em redes reais e o algoritmo de Bellman-Ford, baseado em decisões de roteamento locais e atualizações periódicas, com algumas limitações para obter políticas em altas cargas. Este último é um dos algoritmos mais utilizados na atualidade, sendo base de muitos protocolos de roteamento existentes. A modelagem do problema de roteamento como um sistema RL foi inspirada por uma característica na definição de um sistema RL: um agente que interage com o ambiente e aprende a atingir um objetivo. Assim, a modelagem dos algoritmos tem como objetivo aprender a descobrir as rotas que minimizem o tempo de roteamento de pacotes desde uma origem até um dado destino. A avaliação de uma rota escolhida não pode ser obtida antes que o pacote alcance o seu destino final. Este fato faz com que os processos de aprendizado supervisionado tenham dificuldade de se aplicar a esse problema. Por outro lado, o Reinforcement Learning não necessita de um par entrada-resposta para fazer o aprendizado, permitindo-lhe abordar o problema com relativa facilidade. Na modelagem efetuada, cada nó na rede se comporta como um agente de RL que age na própria rede, a qual é o ambiente. A informação das rotas é armazenada nas funções de valor existentes em todos os nós da rede para / [en] This dissertation investigates the application of Reinforcement Learning methods to the discovery of optimal routes in communication networks. Any current communication network displays dynamic behavior, changing its states over time. Therefore, the routing algorithms must react swiftly to changes in the network status. The objective of this work is to evaluate the application of some Reinforcement Learning techniques to define adaptive packet routing algorithms. The packet routing problem under the RL vision consists in the definition of each node on network as an RL agent. Thus, each agent must take actions in order to minimize an objective function such as end to end packet routing delay. One main objective of the RL is precisely learning to take the actions that minimize a given function. This thesis is consists of 4 main parts: first, a study of Reinforcement Learning (RL); a study of the communication networks and packet routing; the routing problem model as a RL system and the implementation of several RL methods in order to obtain some routing algorithms; e finally, the case study. The study of Reinforcement Learning extends from the more basic definitions, Reinforcement Learning features, elements of a RL system and environment modeling as a Markovian Decision Process, to the basic methods of solution: Dynamic Programming, Monte Carlo methods and Temporal Differences methods. In this last case, two specific algorithms have been considered: TD and Q-Learning, and, finally, the Eligibility Traces are evaluated as a useful tool that permits us to accelerate the learning process leading to the TD(lambda) and the Q(lambda) routing algorithms. The study on communication networks and packet routing involves the foundations of communication networks, packet switching, the packet routing problem, and adaptive and non- adaptive routing algorithms used at the present time. Communication networks are defined as a set of nodes connected through communication links. In order to send a message from a source node to a destination node usually the message is broken into segments called packets, and these are sent through other nodes until arriving at the destination. In this way the problem appears to choose the path which takes the shortest possible time for the packet to reach the destination node. The following algorithms have been analyzed: Shortest Path Routing that looks for paths with minimal hop number, not being sensible to the changes of load level and network topology; Weighted Shortest Path Routing that offers better performance from a global vision of the state of the network, which is not always easy to get in real networks; on the other hand, the Bellman- Ford routing algorithm was studied, this is based on local routing decisions and periodic updates, with some limitations to obtain policies in high load conditions. Bellman-Ford is one of the algorithms most used at the present time, being the basis for many existing routing protocols. The modeling of the routing problem as a RL system was inspired by one of the main features of the definition of an RL system: an agent who interacts with the environment and learns to reach an objective; therefore, the modeling of the routing algorithms has as its objective to learn to discover the paths that minimize packet routing time from an origin to an destination. The evaluation of a chosen route cannot be completed before the package reaches its final destination. This fact implies that supervised learning cannot be applied to the routing problem. On the other hand, Reinforcement Learning does not need a input-output pair for the learning process, allowing it to approach the problem with relative ease. In the modeling, each network node is viewed as a RL agent that acts in the same network; the network is the environment. The routing information is stored in the existing value functions in all nodes in the network, for each node and all another destination node / [es] Esta disertación investiga la aplicación de los métodos de Reinforcement Learning en la determinación de rutas óptimas en una red de comunicación. Una red de comunicación real posee un comportamiento dinámico, donde su estado varia en el tiempo. Los algoritmos de ruta óptima deben, por lo tanto, ofrecer rapidez en la respuesta a las variaciones del estado de la red. El objetivo de este trabajo es evaluar la aplicación de técnicas de Reinforcement Learning (RL) como base de algoritmos adaptativos de problemas de ruteamiento en redes. Este problema consiste en la definición de cada nodo de la red como un agente RL. Este agente debe definir acciones de modo a minimizar una función objetivo que puede ser el tiempo de ruteamiento. El trabajo consta de 4 etapas principais: un estudio sobre el área de Reinforcement Learning (RL); un estudio sobre redes de comunicación y problema de ruteamiento; el modelo de ruta óptima como un sistema RL y la implementación de diferentes métodos de RL para obtener algoritmos de ruta óptima; y un estudio de casos. El estudio en el área de Reinforcement Learning va desde las definiciones fundamentales: características, elementos de un sistema RL y modelaje del ambiente como un Proceso de Decisión de Markov, hasta los métodos básicos de solución: Programación Dinámica, método de Monte Carlo, y método de Diferencias Temporales. En este último método, fueron considerados dos algoritmos específicos: TD e Q-Learning. A seguir, fue evaluado el parámetro Eligibility Traces como una alternativa para agilizar el proceso de aprendizaje, obteniendo el TD(lambda) y el Q(lambda) respectivamente. El estudio sobre Redes de Comunicación y Problema de Transporte incluye los conceptos básicos de redes de comunicaciones, la cuestión de la ruta óptima y los algoritmos adaptativos y no adaptativos existentes, que se utilizan actualmente. Los algoritmos analizados fueron: Shortest Path Routing, que busca los caminos con menor número de nodos intermedios, no siendo sensible a variaciones en la carga ni en la topología de la red; Weighted Shortest Path Routing, que ofrece un mejor desempeño a partir de una visión global del estado de la red, que no siempre es fácil de obtener en redes reales; y el algoritmo de Bellman-Ford, que tiene como base decisiones de rutas locales y actualizaciones periódicas, con algunas limitaciones para obtener políticas en altas cargas. Este último es uno de los algoritmos más utilizados en la actualidad, siendo base de muchos protocolos de trazado de ruta existentes. La solución para modelar el problema de ruteamiento como un sistema RL fue inspirada por una característica en la definición de un sistema RL: un agente que interactúa con el ambiente y aprende a alcanzar un objetivo. Así, el modelo tiene como objetivo aprender a determinar las rutas que minimizen el timpo desde el origen hasta un destino dado. La evaluación de uma ruta seleccionada no puede ser obtenida antes que el paquete alcance su destino final. Esto hace que los procesos de aprendizaje supervisionado tengan dificultades para ser aplicados a este problema. Por otro lado, Reinforcement Learning no necesita de un par entrada-salida para el aprendizaje, permitiendo así, abordar el problema con relativa facilidad. En el modelo establecido, cada nodo en la red se comporta como un agente de RL que actúa en la propria red. La información de las rutas se almacena en las funciones de valor existentes en todos los nodos de la red para cada nodo destino diferente. Esta información contiene un valor estimado del tiempo requerido para un paquete para llegar hasta el nodo destino. La actualización de esos valores se realiza durante la transición del paquete hasta el vecino seleccionado. En este trabajo se implementaron varios algoritmos de ruta óptima. Cada uno de los algoritmos aplica características de las técnicas en Reinforcement Learning: o Q(lambda)-Routing, y el TD-Routing. En el estudio d [pt] REDE NEURAL [pt] ROTEAMENTO ADAPTATIVO [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO POR REFORCO [en] NEURAL NETWORKS [en] COMPUTER COMMUNICATION NETWORKS [en] ADAPTIVE ROUTING [en] MACHINE LEARNING [en] REINFORCEMENT LEARNING [es] REDES NEURALES [es] APRENDIZAJE POR REFUERZO

1

Page generated in 0.0633 seconds