• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • Tagged with
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Gradient-based reinforcement learning techniques for underwater robotics behavior learning

El-Fakdi Sencianes, Andrés 03 March 2011 (has links)
Darrerament, l'interès pel desenvolupament d'aplicacions amb robots submarins autònoms (AUV) ha crescut de forma considerable. Els AUVs són atractius gràcies al seu tamany i el fet que no necessiten un operador humà per pilotar-los. Tot i això, és impossible comparar, en termes d'eficiència i flexibilitat, l'habilitat d'un pilot humà amb les escasses capacitats operatives que ofereixen els AUVs actuals. L'utilització de AUVs per cobrir grans àrees implica resoldre problemes complexos, especialment si es desitja que el nostre robot reaccioni en temps real a canvis sobtats en les condicions de treball. Per aquestes raons, el desenvolupament de sistemes de control autònom amb l'objectiu de millorar aquestes capacitats ha esdevingut una prioritat. Aquesta tesi tracta sobre el problema de la presa de decisions utilizant AUVs. El treball presentat es centra en l'estudi, disseny i aplicació de comportaments per a AUVs utilitzant tècniques d'aprenentatge per reforç (RL). La contribució principal d'aquesta tesi consisteix en l'aplicació de diverses tècniques de RL per tal de millorar l'autonomia dels robots submarins, amb l'objectiu final de demostrar la viabilitat d'aquests algoritmes per aprendre tasques submarines autònomes en temps real. En RL, el robot intenta maximitzar un reforç escalar obtingut com a conseqüència de la seva interacció amb l'entorn. L'objectiu és trobar una política òptima que relaciona tots els estats possibles amb les accions a executar per a cada estat que maximitzen la suma de reforços totals. Així, aquesta tesi investiga principalment dues tipologies d'algoritmes basats en RL: mètodes basats en funcions de valor (VF) i mètodes basats en el gradient (PG). Els resultats experimentals finals mostren el robot submarí Ictineu en una tasca autònoma real de seguiment de cables submarins. Per portar-la a terme, s'ha dissenyat un algoritme anomenat mètode d'Actor i Crític (AC), fruit de la fusió de mètodes VF amb tècniques de PG. / A considerable interest has arisen around Autonomous Underwater Vehicle (AUV) applications. AUVs are very useful because of their size and their independence from human operators. However, comparison with humans in terms of efficiency and flexibility is often unequal. The development of autonomous control systems able to deal with such issues becomes a priority. The use of AUVs for covering large unknown dynamic underwater areas is a very complex problem, mainly when the AUV is required to react in real time to unpredictable changes in the environment. This thesis is concerned with the field of AUVs and the problem of action-decision. The methodology chosen to solve this problem is Reinforcement Learning (RL). The work presented here focuses on the study and development of RL-based behaviors and their application to AUVs in real robotic tasks. The principal contribution of this thesis is the application of different RL techniques for autonomy improvement of an AUV, with the final purpose of demonstrating the feasibility of learning algorithms to help AUVs perform autonomous tasks. In RL, the robot tries to maximize a scalar evaluation obtained as a result of its interaction with the environment with the aim of finding an optimal policy to map the state of the environment to an action which in turn will maximize the accumulated future rewards. Thus, this dissertation is based on the principals of RL theory, surveying the two main classes of RL algorithms: Value Function (VF)-based methods and Policy Gradient (PG)-based techniques. A particular class of algorithms, Actor-Critic methods, born of the combination of PG algorithms with VF methods, is used for the final experimental results of this thesis: a real underwater task in which the underwater robot Ictineu AUV learns to perform an autonomous cable tracking task.
2

A proposal of a behavior-based control architecture with reinforcement learning for an autonomous underwater robot

Carreras Pérez, Marc 16 September 2003 (has links)
Aquesta tesi proposa l'ús d'un seguit de tècniques pel control a alt nivell d'un robot autònom i també per l'aprenentatge automàtic de comportaments. L'objectiu principal de la tesis fou el de dotar d'intel·ligència als robots autònoms que han d'acomplir unes missions determinades en entorns desconeguts i no estructurats. Una de les premisses tingudes en compte en tots els passos d'aquesta tesis va ser la selecció d'aquelles tècniques que poguessin ésser aplicades en temps real, i demostrar-ne el seu funcionament amb experiments reals. El camp d'aplicació de tots els experiments es la robòtica submarina.En una primera part, la tesis es centra en el disseny d'una arquitectura de control que ha de permetre l'assoliment d'una missió prèviament definida. En particular, la tesis proposa l'ús de les arquitectures de control basades en comportaments per a l'assoliment de cada una de les tasques que composen la totalitat de la missió. Una arquitectura d'aquest tipus està formada per un conjunt independent de comportaments, els quals representen diferents intencions del robot (ex.: "anar a una posició", "evitar obstacles",...). Es presenta una recerca bibliogràfica sobre aquest camp i alhora es mostren els resultats d'aplicar quatre de les arquitectures basades en comportaments més representatives a una tasca concreta. De l'anàlisi dels resultats se'n deriva que un dels factors que més influeixen en el rendiment d'aquestes arquitectures, és la metodologia emprada per coordinar les respostes dels comportaments. Per una banda, la coordinació competitiva és aquella en que només un dels comportaments controla el robot. Per altra banda, en la coordinació cooperativa el control del robot és realitza a partir d'una fusió de totes les respostes dels comportaments actius. La tesis, proposa un esquema híbrid d'arquitectura capaç de beneficiar-se dels principals avantatges d'ambdues metodologies.En una segona part, la tesis proposa la utilització de l'aprenentatge per reforç per aprendre l'estructura interna dels comportaments. Aquest tipus d'aprenentatge és adequat per entorns desconeguts i el procés d'aprenentatge es realitza al mateix temps que el robot està explorant l'entorn. La tesis presenta també un estat de l'art d'aquest camp, en el que es detallen els principals problemes que apareixen en utilitzar els algoritmes d'aprenentatge per reforç en aplicacions reals, com la robòtica. El problema de la generalització és un dels que més influeix i consisteix en permetre l'ús de variables continues sense augmentar substancialment el temps de convergència. Després de descriure breument les principals metodologies per generalitzar, la tesis proposa l'ús d'una xarxa neural combinada amb l'algoritme d'aprenentatge per reforç Q_learning. Aquesta combinació proporciona una gran capacitat de generalització i una molt bona disposició per aprendre en tasques de robòtica amb exigències de temps real. No obstant, les xarxes neurals són aproximadors de funcions no-locals, el que significa que en treballar amb un conjunt de dades no homogeni es produeix una interferència: aprendre en un subconjunt de l'espai significa desaprendre en la resta de l'espai. El problema de la interferència afecta de manera directa en robòtica, ja que l'exploració de l'espai es realitza sempre localment. L'algoritme proposat en la tesi té en compte aquest problema i manté una base de dades representativa de totes les zones explorades. Així doncs, totes les mostres de la base de dades s'utilitzen per actualitzar la xarxa neural, i per tant, l'aprenentatge és homogeni.Finalment, la tesi presenta els resultats obtinguts amb la arquitectura de control basada en comportaments i l'algoritme d'aprenentatge per reforç. Els experiments es realitzen amb el robot URIS, desenvolupat a la Universitat de Girona, i el comportament après és el seguiment d'un objecte mitjançant visió per computador. La tesi detalla tots els dispositius desenvolupats pels experiments així com les característiques del propi robot submarí. Els resultats obtinguts demostren la idoneïtat de les propostes en permetre l'aprenentatge del comportament en temps real. En un segon apartat de resultats es demostra la capacitat de generalització de l'algoritme d'aprenentatge mitjançant el "benchmark" del "cotxe i la muntanya". Els resultats obtinguts en aquest problema milloren els resultats d'altres metodologies, demostrant la millor capacitat de generalització de les xarxes neurals.
3

Explainable Reinforcement Learning for Gameplay

Costa Sánchez, Àlex January 2022 (has links)
State-of-the-art Machine Learning (ML) algorithms show impressive results for a myriad of applications. However, they operate as a sort of a black box: the decisions taken are not human-understandable. There is a need for transparency and interpretability of ML predictions to be wider accepted in society, especially in specific fields such as medicine or finance. Most of the efforts so far have focused on explaining supervised learning. This project aims to use some of these successful explainability algorithms and apply them to Reinforcement Learning (RL). To do so, we explain the actions of a RL agent playing Atari’s Breakout game, using two different explainability algorithms: Shapley Additive Explanations (SHAP) and Local Interpretable Model-agnostic Explanations (LIME). We successfully implement both algorithms, which yield credible and insightful explanations of the mechanics of the agent. However, we think the final presentation of the results is sub-optimal for the final user, as it is not intuitive at first sight. / De senaste algoritmerna för maskininlärning (ML) visar imponerande resultat för en mängd olika tillämpningar. De fungerar dock som ett slags ”svart låda”: de beslut som fattas är inte begripliga för människor. Det finns ett behov av öppenhet och tolkningsbarhet för ML-prognoser för att de ska bli mer accepterade i samhället, särskilt inom specifika områden som medicin och ekonomi. De flesta insatser hittills har fokuserat på att förklara övervakad inlärning. Syftet med detta projekt är att använda några av dessa framgångsrika algoritmer för att förklara och tillämpa dem på förstärkning lärande (Reinforcement Learning, RL). För att göra detta förklarar vi handlingarna hos en RL-agent som spelar Ataris Breakout-spel med hjälp av två olika förklaringsalgoritmer: Shapley Additive Explanations (SHAP) och Local Interpretable Model-agnostic Explanations (LIME). Vi genomför framgångsrikt båda algoritmerna, som ger trovärdiga och insiktsfulla förklaringar av agentens mekanik. Vi anser dock att den slutliga presentationen av resultaten inte är optimal för slutanvändaren, eftersom den inte är intuitiv vid första anblicken. / Els algoritmes d’aprenentatge automàtic (Machine Learning, ML) d’última generació mostren resultats impressionants per a moltes aplicacions. Tot i això, funcionen com una mena de caixa negra: les decisions preses no són comprensibles per a l’ésser humà. Per tal que les prediccion preses mitjançant ML siguin més acceptades a la societat, especialment en camps específics com la medicina o les finances, cal transparència i interpretabilitat. La majoria dels esforços que s’han fet fins ara s’han centrat a explicar l’aprenentatge supervisat (supervised learning). Aquest projecte pretén utilitzar alguns d’aquests existosos algoritmes d’explicabilitat i aplicar-los a l’aprenentatge per reforç (Reinforcement Learning, RL). Per fer-ho, expliquem les accions d’un agent de RL que juga al joc Breakout d’Atari utilitzant dos algoritmes diferents: explicacions additives de Shapley (SHAP) i explicacions model-agnòstiques localment interpretables (LIME). Hem implementat amb èxit tots dos algoritmes, que produeixen explicacions creïbles i interessants de la mecànica de l’agent. Tanmateix, creiem que la presentació final dels resultats no és òptima per a l’usuari final, ja que no és intuïtiva a primera vista.

Page generated in 0.1067 seconds