Global ETD Search

Return to search

Contraintes et observabilité dans les systèmes de Markov décentralisés

De manière générale, les problèmes séquentiels de décisions multiagents sont très difficiles à résoudre surtout lorsque les agents n'observent pas parfaitement ni complètement l'état de leur environnement. Les modèles actuels pour représenter ces problèmes restent à ce jour très généraux et difficilement applicables dans les multiples applications possibles. Nous proposons dans cette thèse plusieurs approches de réduction de la complexité computationnelle et en pire cas de ces modèles. Une première approche se base sur l'utilisation de contraintes sur l'espace des actions possibles que les différents agents du système peuvent entreprendre. Cette utilisation de connaissances a priori dans la modélisation au travers de modèles déjà connus, mais non appliqués à la prise de décision séquentielle permet une réduction significative d'un des facteurs de la complexité algorithmique. La seconde approche consiste à restreindre les possibilités d'observations de l'agent à un ensemble similaire à l'espace d'états utilisé pour représenter son environnement. De cette manière, nous montrons que les agents peuvent converger rapidement en probabilité vers des croyances communes sans nécessairement avoir à communiquer. Dans ce contexte, nous avons également développé un algorithme permettant alors aux agents de se coordonner au moment de l'exécution lorsqu'il n'existe pas de communication explicite. Enfin, nous avons entrepris la mise en application de telles réductions à deux problèmes. Un premier problème de patrouille multiagent est considéré et modélisé, et un second problème lié à l'apprentissage de POMDPS continus dans des cas précis de transition et d'observabilité est également abordé. Les résultats obtenus montrent que dans certains cas de problèmes de coordination, la communication ? lorsqu'elle est disponible ? est non négligeable, et que dans le cas de l'apprentissage de POMDPs, considérer le quasi-déterminisme du modèle permet l'apprentissage de converger.

QA 76.05 UL 2010 B557

Processus de Markov

Algorithmes

Identifer	oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/21402
Date	16 April 2018
Creators	Besse, Camille
Contributors	Chaib-Draa, Brahim
Source Sets	Université Laval
Language	French
Detected Language	French
Type	thèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat
Format	xxii, 210 f., application/pdf
Rights	http://purl.org/coar/access_right/c_abf2

Page generated in 0.0026 seconds

Contraintes et observabilité dans les systèmes de Markov décentralisés

Description

Links & Downloads

Tags

Additional Fields