Return to search

Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation.

De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés dans des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes. Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents "à tendance optimiste réglable ". Le second est le Swing between Optimistic or Neutral (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00362529
Date04 December 2008
CreatorsMatignon, Laëtitia
PublisherUniversité de Franche-Comté
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0022 seconds