Spelling suggestions: "subject:"processus décisionnels"" "subject:"processus décisionnel""
1 |
Modèles Probabilistes de Séquences Temporelles et Fusion de Décisions. Application à la Classification de Défauts de Rails et à leur Maintenance / Probabilistic Models for temporal sequences and fusion of decisions. Application to the classification of rail defects and their maintenanceBen Salem, Abdeljabbar 07 March 2008 (has links)
Par rapport aux différentes composantes du MCO (Maintien en Conditions Opérationnelles) d’un système industriel, ces travaux de thèse, initiés dans le cadre d'un partenariat entre l'INRETS et le CRAN, portent plus spécifiquement sur le processus de maintenance dans un contexte applicatif dédié à la maintenance des voies ferrées. En effet, les exploitants ferroviaires, ayant pour priorité d’améliorer sans cesse la sécurité et le bien-être des passagers, cherchent actuellement à faire évoluer leur politique de maintenance, d’une politique essentiellement corrective ou exécutée à intervalles de temps prédéterminés, vers une politique plus conditionnelle voire prévisionnelle et à moindre coût. Dans cette nouvelle dimension, la maintenance des rails ne doit plus être limitée à la seule vision du composant (portion de rail) siège de la défaillance mais à l'étude du système dans sa globalité (système à n-composants). Les décisions relatives à la maintenance ne sont donc plus isolées de leur contexte et s'inscrivent dans un continuum Surveillance - Diagnostic - Aide à la décision. Face à ce besoin industriel et aux enjeux scientifiques qui s’y réfèrent, notre contribution porte premièrement sur une approche originale de diagnostic (approche hybride) qui se base sur une fusion de deux sources d'informations de natures différentes : Approche Locale (capteur à courants de Foucault) et Approche Globale. Dans ce cadre, les RBD ont été utilisés pour développer des modèles stochastiques facilitant la classification des points singuliers de la voie. La fusion entre ces modèles et l’approche basée sur le traitement des données mesurées en un point précis du rail a été réalisée par fusion bayésienne naïve. Le résultat de cette fusion est repris comme point d’entrée du processus d’aide à la décision, pour lequel nous avons proposé, deuxièmement, une méthode générique pour l’optimisation de la maintenance conditionnelle des systèmes à N-composants. Cette proposition se base sur une combinaison des réseaux bayésiens dynamiques et des MDP (Markov Decision Processes) afin de pouvoir modéliser les systèmes à N-composants de façon factorisée. Notre démarche a été illustrée d’abord par un exemple académique pour mettre en évidence sa faisabilité puis elle a été appliquée dans le cadre de l’optimisation de la maintenance des défauts surfaciques du rail. / Compared to the various activities of “Keeping the Operational Conditions” of an industrial system, these PhD, initiated in the framework of a partnership between the INRETS and CRAN, is focusing on the maintenance process with an application context dedicated to the maintenance of the railway. Railway firms, with the priority of improving the safety and welfare of passengers, are seeking to adjust their maintenance policy which is nowadays primarily corrective or executed at a predetermined time interval, to a more conditional or predictive planning with a minimum of costs. In this new context, rails maintenance should no longer be limited to the vision of the isolated component (portion of rail), but to the study of the whole system failure (N-components system). Therefore, maintenance decisions are no longer isolated from their context and exist on a continuum Surveillance - Diagnostic - Decision making. In response to these industrial needs and its scientific issues, our contribution focuses first on an original approach of diagnosis (hybrid approach), which is based on a fusion of two different information sources: Local Approach (sensor eddy currents) and Global Approach. RBD have been used to develop probabilistic models to for the classification of singular points of the track. The fusion between these models and the local approach was produced by naive Bayes fusion method. The result of this fusion constitutes the input of decision making process, for which we have proposed, secondly, a generic methodology for optimizing conditional based maintenance of N-components systems. Our approach is based on a combination of dynamic Bayesian networks and MDP (Markov Decision Processes) to be able to model N-components systems in a factored way. This new proposal was illustrated by a first instance academic to highlight its feasibility then it has been applied in the framework of the optimization of maintenance of the surface defects rail.
|
2 |
Le processus judiciaire montréalais en réponse aux infractions relatives à la pollution de l'air et de l'eauFontaine, Isabelle January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
3 |
Mathematical programming methods for decentralized POMDPs / Des programmes mathématiques pour les processus décisionnels de Markoff décentralisés et partiellement observésAras, Raghav 23 October 2008 (has links)
Nous étudions le problème du contrôle optimale décentralisé d'un processus de Markoff partiellement observé sur un horizon fini. Mathématiquement, ce problème se défini comme un DEC-POMDP. Plusieurs problèmes des domaines de l'intélligence artificielles et recherche opérationelles se formalisent comme des DEC-POMDPs. Résoudre un DEC-POMDP dans une mannière exacte est un problème difficile (NEXP-dur). Pourtant, des algorithmes exactes sont importants du point de vue des algorithmes approximés pour résoudre des problèmes pratiques. Les algorithmes existants sont nettement inefficace même pour des DEC-POMDP d'une très petite taille. Dans cette thèse, nous proposons une nouvelle approche basée sur la programmation mathématique. En utilisant la forme séquentielle d'une politique, nous montrons que ce problème peut être formalisé comme un programme non-linéaire. De plus, nous montrons comment transformer ce programme nonl-linéaire un des programmes linéaire avec des variables bivalents et continus (0-1 MIPs). L'éxpérience computationelle sur quatres problèmes DEC-POMDP standards montrent que notre approche trouve une politique optimale beaucoup plus rapidement que des approches existantes. Le temps réduit des heures aux seconds ou minutes. / In this thesis, we study the problem of the optimal decentralized control of a partially observed Markov process over a finite horizon. The mathematical model corresponding to the problem is a decentralized POMDP (DEC-POMDP). Many problems in practice from the domains of artificial intelligence and operations research can be modeled as DEC-POMDPs. However, solving a DEC-POMDP exactly is intractable (NEXP-hard). The development of exact algorithms is necessary in order to guide the development of approximate algorithms that can scale to practical sized problems. Existing algorithms are mainly inspired from POMDP research (dynamic programming and forward search) and require an inordinate amount of time for even very small DEC-POMDPs. In this thesis, we develop a new mathematical programming based approach for exactly solving a finite horizon DEC-POMDP. We use the sequence form of a control policy in this approach. Using the sequence form, we show how the problem can be formulated as a mathematical progam with a nonlinear object and linear constraints. We thereby show how this nonlinear program can be linearized to a 0-1 mixed integer linear program (MIP). We present two different 0-1 MIPs based on two different properties of a DEC-POMDP. The computational experience of the mathematical programs presented in the thesis on four benchmark problems (MABC, MA-Tiger, Grid Meeting, Fire Fighting) shows that the time taken to find an optimal joint policy is one or two orders or magnitude lesser than the exact existing algorithms. In the problems tested, the time taken drops from several hours to a few seconds or minutes.
|
4 |
Sur le rôle de l’être humain dans le dialogue humain/machine / On the role of the human being in human/machine dialogueBarlier, Merwan 14 December 2018 (has links)
Cette thèse s'inscrit dans le cadre de l'apprentissage par renforcement pour les systèmes de dialogue. Ce document propose différentes manières de considérer l'être humain, interlocuteur du système de dialogue. Après un aperçu des limites du cadre agent/environnement traditionnel, nous proposons de modéliser dans un premier temps le dialogue comme un jeu stochastique. Dans ce cadre, l'être humain n'est plus vu comme une distribution de probabilité stationnaire mais comme un agent cherchant à optimiser ses préférences. Nous montrons que ce cadre permet une prise en compte de phénomènes de co-adaptation intrinsèques au dialogue humain/machine et nous montrons que ce cadre étend le champ d'application des systèmes de dialogue, par exemple aux dialogues de négociations. Dans un second temps, nous présentons une méthode permettant à l'être humain d'accélérer et de sécuriser la phase d'apprentissage de son système de dialogue par le biais de conseils encodés sous la forme d'une fonction de récompense. Nous montrons que cette prise en compte de conseils permet de significativement améliorer les performances d'un agent apprenant par renforcement. Finalement, une troisième situation est considérée. Ici, un système écoute une conversation entre humains et agit de manière à influer sur le cours de la conversation. Une fonction de récompense originale permettant de maximiser le résultat de la conversation tout en minimisant l'intrusivité du système est proposé. Nous montrons que notre approche permet de significativement améliorer les conversations. Pour implémenter cette approche, un modèle de la conversation est requis. C'est pourquoi nous proposons dans une quatrième contribution d'apprendre ce modèle à partir d'un algorithme d'apprentissage d'automates à multiplicité. / The context of this thesis takes place in Reinforcement Learning for Spoken Dialogue Systems. This document proposes several ways to consider the role of the human interlocutor. After an overview of the limits of the traditional Agent/Environment framework, we first suggest to model human/machine dialogue as a Stochastic Game. Within this framework, the human being is seen as a rational agent, acting in order to optimize his preferences. We show that this framework allows to take into consideration co-adaptation phenomena and extend the applications of human/machine dialogue, e.g. negociation dialogues. In a second time, we address the issue of allowing the incorporation of human expertise in order to speed-up the learning phase of a reinforcement learning based spoken dialogue system. We provide an algorithm that takes advantage of those human advice and shows a great improvement over the performance of traditional reinforcement learning algorithms. Finally, we consider a third situation in which a system listens to a conversation between two human beings and talk when it estimates that its intervention could help to maximize the preferences of its user. We introduce a original reward function balancing the outcome of the conversation with the intrusiveness of the system. Our results obtained by simulation suggest that such an approach is suitable for computer-aided human-human dialogue. However, in order to implement this method, a model of the human/human conversation is required. We propose in a final contribution to learn this model with an algorithm based on multiplicity automata.
|
5 |
Une contribution à la résolution des processus décisionnels de Markov décentralisés avec contraintes temporellesBeynier, Aurélie 13 November 2006 (has links) (PDF)
Cette thèse porte sur la prise de décision distribuée dans des<br />systèmes multi-agents agissant sous incertitude (les colonies de<br />robots autonomes par exemple). Les processus décisionnels de Markov<br />Décentralisés décrivent un formalisme mathématique permettant de<br />modéliser et de résoudre de tels problèmes. Leur utilisation pour la<br />planification des tâches dans des applications réelles pose<br />toutefois quelques difficultés. Le modèle usuel des DEC-MDPs ne<br />permet par exemple pas la prise en compte de contraintes sur l'exécution des tâches. De plus,<br />la complexité de leur résolution est telle qu'il est difficile de déterminer une solution optimale excepté pour de <br />petits problèmes.<br /><br />Le travail que nous présentons dans cette thèse a pour premier objectif<br />d'adapter le modèle des DEC-MDPs afin de proposer une modélisation<br />adéquate du temps et des actions, et de permettre la représentation de<br />problèmes réels. Nous décrivons ainsi une nouvelle classe de<br />DEC-MDPs : les OC-DEC-MDPs (DEC-MDP avec Coût Occasionné). Dans un second temps,<br />nous nous intéressons à leur résolution. Nous proposons différents<br />algorithmes procédant à la planification des tâches de chaque agent<br />en vue d'une prise de décision décentralisée et autonome, en accord<br />avec les contraintes du problème. Afin de développer des algorithmes<br />efficaces et de traiter des problèmes de taille importante, nous recherchons une<br />approximation de la solution optimale. Nous procédons<br />également à un découpage du problème initial en un ensemble de MDPs,<br />et introduisons la notion de coût occasionné afin de tenir compte<br />des interactions entre les agents et de calculer des politiques<br />coopératives.
|
6 |
Decisional issues during human-robot joint action / Processus décisionnels lors d'action conjointe homme-robotDevin, Sandra 03 November 2017 (has links)
Les robots sont les futurs compagnons et équipiers de demain. Que ce soit pour aider les personnes âgées ou handicapées dans leurs vies de tous les jours ou pour réaliser des tâches répétitives ou dangereuses, les robots apparaîtront petit à petit dans notre environnement. Cependant, nous sommes encore loin d'un vrai robot autonome, qui agirait de manière naturelle, efficace et sécurisée avec l'homme. Afin de doter le robot de la capacité d'agir naturellement avec l'homme, il est important d'étudier dans un premier temps comment les hommes agissent entre eux. Cette thèse commence donc par un état de l'art sur l'action conjointe en psychologie et philosophie avant d'aborder la mise en application des principes tirés de cette étude à l'action conjointe homme-robot. Nous décrirons ensuite le module de supervision pour l'interaction homme-robot développé durant la thèse. Une partie des travaux présentés dans cette thèse porte sur la gestion de ce que l'on appelle un plan partagé. Ici un plan partagé est une séquence d'actions partiellement ordonnées à effectuer par l'homme et/ou le robot afin d'atteindre un but donné. Dans un premier temps, nous présenterons comment le robot estime l'état des connaissances des hommes avec qui il collabore concernant le plan partagé (appelées états mentaux) et les prend en compte pendant l'exécution du plan. Cela permet au robot de communiquer de manière pertinente sur les potentielles divergences entre ses croyances et celles des hommes. Puis, dans un second temps, nous présenterons l'abstraction de ces plan partagés et le report de certaines décisions. En effet, dans les précédents travaux, le robot prenait en avance toutes les décisions concernant le plan partagé (qui va effectuer quelle action, quels objets utiliser...) ce qui pouvait être contraignant et perçu comme non naturel par l'homme lors de l'exécution car cela pouvait lui imposer une solution par rapport à une autre. Ces travaux vise à permettre au robot d'identifier quelles décisions peuvent être reportées à l'exécution et de gérer leur résolutions suivant le comportement de l'homme afin d'obtenir un comportement du robot plus fluide et naturel. Le système complet de gestions des plan partagés à été évalué en simulation et en situation réelle lors d'une étude utilisateur. Par la suite, nous présenterons nos travaux portant sur la communication non-verbale nécessaire lors de de l'action conjointe homme-robot. Ces travaux sont ici focalisés sur l'usage de la tête du robot, cette dernière permettant de transmettre des informations concernant ce que fait le robot et ce qu'il comprend de ce que fait l'homme, ainsi que des signaux de coordination. Finalement, il sera présenté comment coupler planification et apprentissage afin de permettre au robot d'être plus efficace lors de sa prise de décision. L'idée, inspirée par des études de neurosciences, est de limiter l'utilisation de la planification (adaptée au contexte de l'interaction homme-robot mais coûteuse) en laissant la main au module d'apprentissage lorsque le robot se trouve en situation "connue". Les premiers résultats obtenus démontrent sur le principe l'efficacité de la solution proposée. / In the future, robots will become our companions and co-workers. They will gradually appear in our environment, to help elderly or disabled people or to perform repetitive or unsafe tasks. However, we are still far from a real autonomous robot, which would be able to act in a natural, efficient and secure manner with humans. To endow robots with the capacity to act naturally with human, it is important to study, first, how humans act together. Consequently, this manuscript starts with a state of the art on joint action in psychology and philosophy before presenting the implementation of the principles gained from this study to human-robot joint action. We will then describe the supervision module for human-robot interaction developed during the thesis. Part of the work presented in this manuscript concerns the management of what we call a shared plan. Here, a shared plan is a a partially ordered set of actions to be performed by humans and/or the robot for the purpose of achieving a given goal. First, we present how the robot estimates the beliefs of its humans partners concerning the shared plan (called mental states) and how it takes these mental states into account during shared plan execution. It allows it to be able to communicate in a clever way about the potential divergent beliefs between the robot and the humans knowledge. Second, we present the abstraction of the shared plans and the postponing of some decisions. Indeed, in previous works, the robot took all decisions at planning time (who should perform which action, which object to use…) which could be perceived as unnatural by the human during execution as it imposes a solution preferentially to any other. This work allows us to endow the robot with the capacity to identify which decisions can be postponed to execution time and to take the right decision according to the human behavior in order to get a fluent and natural robot behavior. The complete system of shared plans management has been evaluated in simulation and with real robots in the context of a user study. Thereafter, we present our work concerning the non-verbal communication needed for human-robot joint action. This work is here focused on how to manage the robot head, which allows to transmit information concerning what the robot's activity and what it understands of the human actions, as well as coordination signals. Finally, we present how to mix planning and learning in order to allow the robot to be more efficient during its decision process. The idea, inspired from neuroscience studies, is to limit the use of planning (which is adapted to the human-aware context but costly) by letting the learning module made the choices when the robot is in a "known" situation. The first obtained results demonstrate the potential interest of the proposed solution.
|
7 |
Sur les abstractions et les projections des processus décisionnels de Markov de grande taille / On the abstractions and projections of Large Markov Decision ProcessesTagorti, Manel 03 February 2015 (has links)
Les processus décisionnels de Markov (MDP) sont un formalisme mathématique des domaines de l'intelligence artificielle telle que la planification, l'apprentissage automatique, l'apprentissage par renforcement... Résoudre un MDP permet d'identifier la stratégie (politique) optimale d'un agent en interaction avec un environnement stochastique. Lorsque la taille de ce système est très grande il devient difficile de résoudre ces processus par les moyens classiques. Cette thèse porte sur la résolution des MDP de grande taille. Elle étudie certaines méthodes de résolutions: comme les abstractions et les méthodes dites de projection. Elle montre les limites de certaines abstractions et identifie certaines structures "les bisimulations" qui peuvent s'avérer intéressantes pour une résolution approchée du problème. Cette thèse s'est également intéressée à une méthode de projection l'algorithme Least square temporal difference LSTD(λ). Une estimation de la borne sur la vitesse de convergence de cet algorithme a été établie avec une mise en valeur du rôle joué par le paramètre [lambda]. Cette analyse a été étendue pour déduire une borne de performance pour l'algorithme Least square non stationary policy iteration LS(λ)NSPI en estimant la borne d'erreur entre la valeur calculée à une itération fixée et la valeur sous la politique optimale qu'on cherche à identifier / Markov Decision Processes (MDP) are a mathematical formalism of many domains of artifical intelligence such as planning, machine learning, reinforcement learning... Solving an MDP means finding the optimal strategy or policy of an agent interacting in a stochastic environment. When the size of this system becomes very large it becomes hard to solve this problem with classical methods. This thesis deals with the resolution of MDPs with large state space. It studies some resolution methods such as: abstractions and the projection methods. It shows the limits of some approachs and identifies some structures that may be interesting for the MDP resolution. This thesis focuses also on projection methods, the Least square temporal difference algorithm LSTD(λ). An estimate of the rate of the convergence of this algorithm has been derived with an emphasis on the role played by the parameter [lambda]. This analysis has then been generalized to the case of Least square non stationary policy iteration LS(λ)NSPI . We compute a performance bound for LS([lambda])NSPI by bounding the error between the value computed given a fixed iteration and the value computed under the optimal policy, that we aim to determine
|
8 |
Le choix d'un roman sur le point de vente : influence des variables situationnelles et des caractéristiques du consommateur sur le processus décisionnel utiliséBaillet, Caroline 30 November 2009 (has links) (PDF)
Cette thèse analyse un phénomène précis et teste l'influence des caractéristiques du consommateur et de la situation sur le processus décisionnel utilisé lors du choix d'un roman sur le point de vente. Pour répondre à notre problématique, nous proposons une typologie des processus décisionnels utilisables lors du choix d'un roman qui renvoient à différents phénomènes de consommation : procrastination, fidélité, inertie, butinage, recherches préachats, mécanismes mentaux de prise de décision, influence du packaging. Nous déterminons les variables susceptibles d'influer sur ces derniers grâce à une étude empirique, reposant sur des analyses bivariées et multivariées. Notre thèse apporte des éléments d'analyse du secteur éditorial et enrichit les recherches sur les facteurs situationnels par l'intégration de l'ensemble des variables situationnelles identifiées par Russell Belk.
|
9 |
La responsabilité de participation aux processus décisionnels en matière de technologies génétiques : étude de sa représentation chez des acteurs sociaux du QuébecLafrenière, Darquise January 2007 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
10 |
Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur planLaurent, Guillaume 18 December 2002 (has links) (PDF)
En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste.
|
Page generated in 0.0559 seconds