Spelling suggestions: "subject:"processus dde décision markovien"" "subject:"processus dde décision markoviens""
1 |
Apprentissage par simulation stochastique : étude de convergence et application à un modèle markovien de tarification en transport aérienLevy, Kim January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
2 |
Dynamic modeling in sustainable operations and supply chain managementLiu, Baolong 06 September 2018 (has links)
Cette thèse articule plusieurs questions importantes dans les opérations durables et la gestion de la chaîne d'approvisionnement, non seulement afin de fournir des idées pour améliorer la performance des entreprises, mais aussi pour inciter ces dernières à adopter les moyens appropriés pour un meilleur environnement de notre société. Le lien entre le niveau de l'entreprise et le niveau de la société est que l'amélioration de la performance écologique par une meilleure gestion des opérations dans les entreprises et les chaînes d'approvisionnement est un élément indispensable pour améliorer l'environnement dans notre société. Prenons la Chine comme exemple. Depuis quelques années, le gouvernement a commencé à favoriser toutes les initiatives pour résoudre les problèmes de pollution de l'air. Un moyen important et utile est de mettre en place une réglementation stricte et de surveiller les efforts des entreprises qui seront passibles d'amendes sérieuses si certaines normes ne sont pas respectées par des inspections aléatoires. Par conséquent, les entreprises doivent coopérer pour améliorer leur rentabilité et, plus important encore, leurs impacts environnementaux. Grâce à cet effort prolongé, malgré le fait que la situation future est incertaine, la qualité de l'air s'est progressivement améliorée en Chine. Cette thèse, dans un cadre plus général, vise à fournir aux entreprises des informations importantes afin qu'elles soient non seulement en mesure de respecter la réglementation, mais aussi en mesure d'apporter véritablement leur contribution à la construction d'un environnement meilleur pour les générations futures. Notre objectif fondamental est d'obtenir une compréhension approfondie des compromis auxquels les entreprises sont confrontées, de modéliser les problèmes de recherche de solutions possibles et d'aider les entreprises/chaînes d'approvisionnement à améliorer leur performance d'un point de vue théorique. Ensuite, la thèse aidera indirectement les entreprises à réaliser l'importance du développement de moyens de gestion durable des opérations et de la chaîne d'approvisionnement sur notre société. La thèse est organisée comme la structure suivante. Le chapitre 3 est le premier essai, Environmental Collaboration and Process Innovation in Supply Chain Management with Coordination. Le chapitre 4 comprend le contenu du deuxième essai, Remanufacturing of Multi-Component Systems with Product Substitution, et le troisième essai, Joint Dynamic Pricing and Return Quality Strategies Under Demand Cannibalization , est présenté au chapitre 5. Le chapitre 6 donne les remarques finales générales des trois essais, suivies de la liste de référence, et les annexes. / This thesis articulates several important issues in sustainable operations and supply chain management not only to provide insights for enhancing the performance of firms but also to appeal to the enterprises to adopt appropriate means for a better environment of our society. The link from firm level to society level is that, to improve the green performance through better operations management efficiency in firms and supply chains, is an indispensable element to ameliorate the environment in our society. Taking China as an example. Since a few years ago (The Straitstimes, 2017; Stanway & Perry, 2018), the government started to spare no effort in resolving the air pollution problems. An important and useful means is to put strict regulations and monitoring the efforts of firms which will face serious fine if certain standards are not met by random inspection. Therefore, firms have to cooperate for the betterment of its profitability and, more importantly, the environmental impacts. Throughout the endeavor, despite the uncertain future situation, the air quality has gradually improved in China (Zheng, 2018). This thesis, in a more general setting, aims to provide important insights to firms so that they are not only able to meet the regulations but genuinely to make contributions to building a better environment for our future generations. Basically, our goal is to obtain deep understanding of the trade-offs with which companies are faced, and to model the problems for seeking possible solutions and helping firms/supply chains to enhance their performance from a theoretical point of view. Then, indirectly, the work will help firms to realize the importance of developing sustainable operations and supply chain management means on our society. The structure of the thesis is organized as follows. Chapter 2 introduces the thesis in French. Chapter 3 is the first essay, Environmental Collaboration and Process Innovation in Supply Chain Management with Coordination. Chapter 4 includes the contents of the second essay, Remanufacturing of Multi-Component Systems with Product Substitution , and the third essay, Joint Dynamic Pricing and Return Quality Strategies Under Demand Cannibalization, is introduced in Chapter 5. Chapter 6 gives the general concluding remarks of the three essays which is followed by the reference list and the appendices.
|
3 |
Contrôle d'un Système Multi-Agents Réactif par Modélisation et Apprentissage de sa Dynamique GlobaleKlein, François 04 December 2009 (has links) (PDF)
Dans un système multi-agent (SMA) réactif, le lien entre le comportement collectif et celui des individus qui composent ce système est difficile à établir. Obtenir un comportement particulier est donc également difficile. Nous défendons le principe de maîtriser le comportement d'un SMA par une approche de contrôle. Pour cela, nous agissons sur le SMA à partir d'informations relatives à ses comportements globaux. Pour y parvenir, nous proposons tout d'abord de modéliser la dynamique globale du SMA sous forme d'un graphe d'états. Des outils d'apprentissage par renforcement permettent de construire ce graphe et de calculer une politique qui indique quelle action effectuer en fonction de l'état courant et d'un comportement cible à atteindre. Ensuite, cette politique est exploitée pour contrôler le SMA. L'originalité de notre proposition est de s'appuyer sur la dynamique du SMA décrite à son niveau global. Ainsi, les différents comportements du SMA sont exprimés dans notre proposition au même niveau de description que celui du comportement à atteindre. La proposition est appliquée au contrôle d'un SMA inspiré du déplacement de piétons dans un couloir. Nous la comparons à d'autres approches destinées à maîtriser le comportement d'un SMA. Nous vérifions que le principe du contrôle au niveau global fonctionne. Nous montrons que notre proposition fournit de bonnes performances de contrôle et permet d'atteindre un comportement cible plus fréquemment que les autres approches testées. Nous posons ainsi les premières pierres d'un cadre paradigmatique pour le contrôle au niveau global des systèmes multi-agents.
|
4 |
Éléments pour l'Apprentissage et l'Optimisation de Fonctions ChèresRolet, Philippe 22 December 2010 (has links) (PDF)
Ces travaux de doctorat sont centrés sur l'apprentissage artificiel et l'optimisation, c'est à dire la construction de programmes apprenant à identifier un concept, à approximer une fonction ou à trouver un optimum à partir d'exemples de ce concept (ou de points de la fonction). Le contexte applicatif est l'apprentissage et l'optimisation de modèles simplifiés en ingénierie numérique, pour des problèmes industriels pour lesquels les exemples sont coûteux à obtenir. Il est nécessaire d'en utiliser le moins possible pour l'apprentissage; c'est le principe de l'apprentissage actif et de l'optimisation de fonction chères. Mes efforts de recherche ont d'abord porté sur la conception et le développement d'une nouvelle approche de l'apprentissage Actif, fondée sur l'apprentissage par renforcement. Les fondements théoriques de l'approche ont été établis. Parallèlement, l'implémentation d'un logiciel fondé sur cette approche, BAAL, a permis une validation expérimentale (publications: CAP'09, ECML'09). Une extension de cette approche a été réalisée pour l'optimisation de fonction chères (publication: GECCO 2009). La deuxième partie de mon doctorat s'intéresse aux potentiels et aux limites de l'apprentissage actif et de l'optimisation chère d'un point de vue théorique. Une étude des bornes de complexités de l'apprentissage actif par "paquets" a été réalisée (publication: ECML 2010). Dans le domaine de l'optimisation bruitée, des résultats sur le nombre minimal d'exemples nécessaires pour trouver un optimum ont été obtenus (publications: LION 2010, EvoSTAR 2010).
|
5 |
Decision-making algorithms for autonomous robots / Algorithmes de prise de décision stratégique pour robots autonomesHofer, Ludovic 27 November 2017 (has links)
Afin d'être autonomes, les robots doivent êtres capables de prendre des décisions en fonction des informations qu'ils perçoivent de leur environnement. Cette thèse modélise les problèmes de prise de décision robotique comme des processus de décision markoviens avec un espace d'état et un espace d'action tous deux continus. Ce choix de modélisation permet de représenter les incertitudes sur le résultat des actions appliquées par le robot. Les nouveaux algorithmes d'apprentissage présentés dans cette thèse se focalisent sur l'obtention de stratégies applicables dans un domaine embarqué. Ils sont appliqués à deux problèmes concrets issus de la RoboCup, une compétition robotique internationale annuelle. Dans ces problèmes, des robots humanoïdes doivent décider de la puissance et de la direction de tirs afin de maximiser les chances de marquer et contrôler la commande d'une primitive motrice pour préparer un tir. / The autonomy of robots heavily relies on their ability to make decisions based on the information provided by their sensors. In this dissertation, decision-making in robotics is modeled as continuous state and action markov decision process. This choice allows modeling of uncertainty on the results of the actions chosen by the robots. The new learning algorithms proposed in this thesis focus on producing policies which can be used online at a low computational cost. They are applied to real-world problems in the RoboCup context, an international robotic competition held annually. In those problems, humanoid robots have to choose either the direction and power of kicks in order to maximize the probability of scoring a goal or the parameters of a walk engine to move towards a kickable position.
|
6 |
A General Sequential Model for Constrained Classification / Modèles Sequentiels pour la Classification Multiclasse, Sparse et BudgetéeDulac-Arnold, Gabriel 07 February 2014 (has links)
Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes.
|
7 |
Nouvelles approches aux jeux évolutionnaires et processus de décision / New approaches to evolutionary games and decision dynamicsBrunetti, Ilaria 08 December 2015 (has links)
Nouvelles approches aux jeux évolutionnaires et processus de décision. La théorie des jeux évolutionnaires (EGT) constitue un cadre simple pour étudier le comportement de populations larges dont les membres sont engagés en interactions stratégiques. Dans la première partie de cette thèse nous proposons une nouvelle approche pour la modélisation de l’ évolution, où le joueur est formé par un ensemble d’individus. Nous considérons toujours des interactions entre individus mais nous supposons qu’ils maximisent le fitness du group auquel ils appartiennent. Nous présentons, dans la deuxième partie du manuscrit, une nouvelle approche dynamique des Markov Decision Evolutionary Games, qui constituent une classe des jeux stochastiques. À différence de l’approche statique standard, en ce travail nous considérons les dynamiques des états individuels et couplée avec les politiques et nous les décrivons à travers des équations différentielles interdépendantes. Dans la troisième partie du manuscrit, nous poursuivons l’étude des jeux stochastiques dynamiques dans un contexte différent, la théorie du contrôle. Nous définissions un système stochastique dynamique contrôlé simultanément par deux joueurs engagés dans un jeu à somme non nulle (et non constante) et nous montrons que le problème stochastique peut être approximé à travers un jeu dynamique déterministe. / Evolutionary Game Theory (EGT) constitutes a simple framework to study the behavior of large populations whose individuals are repeatedly engaged in pairwise strategic interactions. While in standard EGT, the interacting individual is the player, choosing the actions to play in order to maximize its own fitness, in the first part of this dissertation we propose, in the first part of this work, a new approach to model evolution, where the player is supposed to be a whole group. We still consider pairwise interactions among individuals but we assume that they maximize the fitness of the group they belong to, which is thus the actual player of the game. In the second part of this dissertation, we present our new dynamical approach to Markov Decision Evolutionary Games. In contrast with the standard static approach, we study here the local dynamics of individual states and the dynamics intrinsically related to the distribution of policies in the population, describing them by interdependent differential equations. In the third part of the manuscript we pursue the study of stochastic dynamics in a different context, that of control theory. We define a hybrid stochastic dynamical system jointly controlled by two players involved in a non-zero sum game and we prove that the problem can be approximated by an averaged deterministic differential game.
|
8 |
Opportunistic spectrum usage and optimal control in heterogeneous wireless networks / Accès opportuniste au spectre et contrôle optimal dans les réseaux sans fil hétérogènesRaiss El Fenni, Mohammed 12 December 2012 (has links)
Durant cette thèse l’objectif été d’améliorer la manière d'utiliser la précieuse bande passante, qui est gaspillée à cause de la sous-utilisation des réseaux sans fil. Nous étions particulièrement intéressés à toutes les ressources qui peuvent être utilisées de façon opportuniste en utilisant différentes technologies. Nous avons conçu de nouveaux modèles pour une utilisation meilleure et plus efficace des systèmes sans fil. Dans ce sens nous nous sommes focalisés sur les réseaux de communication cognitifs dans la première partie, où un fournisseur de service cellulaire peut louer une partie de ses ressources à des utilisateurs secondaires ou des fournisseurs virtuels. Dans la deuxième partie, nous nous sommes intéressés aux réseaux tolérants au délai comme étant une alternative à l’augmentation importante de la charge de trafic dans le réseau cellulaire. Dans les régions où l'implémentation d'infrastructures réseaux est géographiquement difficile, l'utilisation des réseaux ad-hoc semble une solution adéquate. En effet, nous avons développé dans la dernière partie, une nouvelle modélisation analytique du protocole IEEE 802.11e utilisé dans ce type de réseaux / The present dissertation deals with how to use the precious wireless resources that are usually wasted by under-utilization of networks. We have been particularly interested by all resources that can be used in an opportunistic fashion using different technologies. We have designed new schemes for better and more efficient use of wireless systems by providing mathematical frameworks. In the first part, We have been interested in cognitive radio networks, where a cellular service provider can lease a part of its resources to secondary users or virtual providers. In the second part, we have chosen delay-tolerant networks as a solution to reduce the pressure on the cell traffic, where mobile users come to use available resources effectively and with a cheaper cost. We have focused on optimal strategy for smartphones in hybrid wireless networks. In the last part, an alternative to delay-tolerant networks, specially in regions that are not covered by the cellular network, is to use Ad-hoc networks. Indeed, they can be used as an extension of the coverage area. We have developed a new analytical modeling of the IEEE 802.11e DCF/EDCF. We have investigated the intricate interactions among layers by building a general cross-layered framework to represent multi-hop ad hoc networks with asymmetric topology and traffic
|
9 |
Apprentissage par renforcement hiérarchique et factoriséKozlova, Olga 07 June 2010 (has links) (PDF)
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.
|
10 |
Contribution à l'optimisation de la décision sous incertitudes : application à la maintenanceCastanier, Bruno 27 November 2012 (has links) (PDF)
L'intérêt principal de mes recherches se définit dans la construction de modèles décisionnels en contexte incertain qu'il soit dû au comportement aléatoire des systèmes étudiés, des environnements dans lesquels ils évoluent ou encore à la connaissance et la caractérisation de ces modes d'évolution. Les premiers points réfèrent plus à l'analyse des comportements stochastiques des phénomènes étudiés alors que les deux derniers portent essentiellement sur l'analyse statistique des données collectées et l'information disponible. Le document présente une synthèse de mes travaux suivant deux axes : les modèles de décision paramétriques pour l'optimisation de la maintenance conditionnelle et les approches Processus de Décision Markovien appliqués pour des problèmes de gestion de l'entretien routier ou encore l'optimisation de la maintenance sous des contraintes d'évolution technologique.
|
Page generated in 0.1339 seconds