Return to search

Méthodes d'apprentissage de la coordination multiagent : application au transport intelligent

Les problèmes de prise de décisions séquentielles multiagents sont difficiles à résoudre surtout lorsque les agents n'observent pas parfaitement l'état de Y environnement. Les approches existantes pour résoudre ces problèmes utilisent souvent des approximations de la fonction de valeur ou se basent sur la structure pour simplifier la résolution. Dans cette thèse, nous proposons d'approximer un problème de décisions séquentielles multiagent à observation limitée, modélisé par un processus décisionnel markovien décentralisé (DEC-MDP) en utilisant deux hypothèses sur la structure du problème. La première hypothèse porte sur la structure de comportement optimal et suppose qu'il est possible d'approximer la politique optimale d'un agent en connaissant seulement les actions optimales au niveau d'un petit nombre de situations auxquelles l'agent peut faire face dans son environnement. La seconde hypothèse porte, quant à elle, sur la structure organisationnelle des agents et suppose que plus les agents sont éloignés les uns des autres, moins ils ont besoin de se coordonner. Ces deux hypothèses nous amènent à proposer deux approches d'approximation. La première approche, nommée Supervised Policy Reinforcement Learning, combine l'apprentissage par renforcement et l'apprentissage supervisé pour généraliser la politique optimale d'un agent. La second approche se base, quant à elle, sur la structure organisationnelle des agents pour apprendre une politique multiagent dans des problèmes où l'observation est limitée. Pour cela, nous présentons un modèle, le D O F - D E C - M DP (Distance-Observable Factored Decentralized Markov Décision Process) qui définit une distance d'observation pour les agents. A partir de ce modèle, nous proposons des bornes sur le gain de récompense que permet l'augmentation de la distance d'observation. Les résultats empiriques obtenus sur des problèmes classiques d'apprentissage par renforcement monoagents et multiagents montrent que nos approches d'approximation sont capables d'apprendre des politiques proches de l'optimale. Enfin, nous avons testé nos approches sur un problème de coordination de véhicules en proposant une méthode de synchronisation d'agents via la communication dans un cadre à observation limitée.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/20000
Date13 April 2018
CreatorsLaumônier, Julien
ContributorsChaib-Draa, Brahim
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
Typethèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat
Formatxii, 178 f., application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0023 seconds