Spelling suggestions: "subject:"apprentissage para enforcement"" "subject:"dapprentissage para enforcement""
41 |
Modélisation stochastique pour le raisonnement médical et ses applications à la télémédecine / Stochastic models for medical reasonning and their application to telemedicineRose, Cédric 27 May 2011 (has links)
La télémédecine est une approche nouvelle de la pratique médicale qui est particulièrement porteuse d'espoir face à l'enjeu sociétal posé par l'incidence croissante des maladies chroniques. Le développement de la télésurveillance médicale réalisée grâce au recueil de données physiologiques ou biologiques au domicile du patient implique de développer nos capacités à analyser un volume important de données. Le problème auquel s'intéresse cette thèse est d'établir ou d'apprendre automatiquement la fonction qui lie les données fournies par les capteurs à l'état de santé du patient. La difficulté principale tient à ce qu'il est difficile d'établir de manière sûre l'état de santé d'un patient, la seule référence disponible étant alors celle que peut donner le médecin traitant. Nous montrons dans cette thèse que la modélisation stochastique et plus particulièrement le formalisme graphique bayésien permet d'aborder cette question sous trois angles complémentaires. Le premier est celui de la représentation explicite de l'expertise médicale. Cette approche est adaptée aux situations dans lesquelles les données ne sont pas accessibles et où il est donc nécessaire de modéliser directement la démarche du médecin. La seconde approche envisagée est celle de l'apprentissage automatique des paramètres du modèles lorsque suffisamment de données sur les sorties attendues sont disponibles. Nous nous intéressons enfin à la possibilité d'apprendre les actions pertinentes par renforcement sous les contraintes de la problématique médicale à savoir d'après l'observation de l'expert dans sa pratique normale / Telemedicine is a new approach of medical practice that is expected to be one of the answers for facing the challenge of chronic diseases management. Development of remote medical surveillance at home relies on our capacity to interpret a growing amount of collected data. In this thesis, we are interested in defining the function that connects the state of the patient to the data given by the different sensors. The main difficulty comes from the uncertainty when assessing the state of the patient. The only reference available is the one that can be given by the medical doctor. We show in this thesis that stochastic modelling and more specifically graphical bayesian formalism allows to treat this question in three ways. The first one consists in representing explicitly the medical expertise. This approach is adapted to the cases in which data is not accessible, and as a consequence, where it is necessary to model directly the diagnosis rules. The second approach that we study is the automatic learning of model parameters that can be performed when enough information is available concerning the expected outputs of the system. Finally, we propose the use of reinforcement for learning medical actions from the observation of the human expert in its everyday practice. Considering the specificity of the medical domain, we study the likelihood criterion for learning an efficient representation of the state space
|
42 |
Learning the Parameters of Reinforcement Learning from Data for Adaptive Spoken Dialogue Systems / Apprentissage automatique des paramètres de l'apprentissage par renforcement pour les systèmes de dialogues adaptatifsAsri, Layla El 21 January 2016 (has links)
Cette thèse s’inscrit dans le cadre de la recherche sur les systèmes de dialogue. Ce document propose d’apprendre le comportement d’un système à partir d’un ensemble de dialogues annotés. Le système apprend un comportement optimal via l’apprentissage par renforcement. Nous montrons qu’il n’est pas nécessaire de définir une représentation de l’espace d’état ni une fonction de récompense. En effet, ces deux paramètres peuvent être appris à partir du corpus de dialogues annotés. Nous montrons qu’il est possible pour un développeur de systèmes de dialogue d’optimiser la gestion du dialogue en définissant seulement la logique du dialogue ainsi qu’un critère à maximiser (par exemple, la satisfaction utilisateur). La première étape de la méthodologie que nous proposons consiste à prendre en compte un certain nombre de paramètres de dialogue afin de construire une représentation de l’espace d’état permettant d’optimiser le critère spécifié par le développeur. Par exemple, si le critère choisi est la satisfaction utilisateur, il est alors important d’inclure dans la représentation des paramètres tels que la durée du dialogue et le score de confiance de la reconnaissance vocale. L’espace d’état est modélisé par une mémoire sparse distribuée. Notre modèle, Genetic Sparse Distributed Memory for Reinforcement Learning (GSDMRL), permet de prendre en compte de nombreux paramètres de dialogue et de sélectionner ceux qui sont importants pour l’apprentissage par évolution génétique. L’espace d’état résultant ainsi que le comportement appris par le système sont aisément interprétables. Dans un second temps, les dialogues annotés servent à apprendre une fonction de récompense qui apprend au système à optimiser le critère donné par le développeur. A cet effet, nous proposons deux algorithmes, reward shaping et distance minimisation. Ces deux méthodes interprètent le critère à optimiser comme étant la récompense globale pour chaque dialogue. Nous comparons ces deux fonctions sur un ensemble de dialogues simulés et nous montrons que l’apprentissage est plus rapide avec ces fonctions qu’en utilisant directement le critère comme récompense finale. Nous avons développé un système de dialogue dédié à la prise de rendez-vous et nous avons collecté un corpus de dialogues annotés avec ce système. Ce corpus permet d’illustrer la capacité de mise à l’échelle de la représentation de l’espace d’état GSDMRL et constitue un bon exemple de système industriel sur lequel la méthodologie que nous proposons pourrait être appliquée / This document proposes to learn the behaviour of the dialogue manager of a spoken dialogue system from a set of rated dialogues. This learning is performed through reinforcement learning. Our method does not require the definition of a representation of the state space nor a reward function. These two high-level parameters are learnt from the corpus of rated dialogues. It is shown that the spoken dialogue designer can optimise dialogue management by simply defining the dialogue logic and a criterion to maximise (e.g user satisfaction). The methodology suggested in this thesis first considers the dialogue parameters that are necessary to compute a representation of the state space relevant for the criterion to be maximized. For instance, if the chosen criterion is user satisfaction then it is important to account for parameters such as dialogue duration and the average speech recognition confidence score. The state space is represented as a sparse distributed memory. The Genetic Sparse Distributed Memory for Reinforcement Learning (GSDMRL) accommodates many dialogue parameters and selects the parameters which are the most important for learning through genetic evolution. The resulting state space and the policy learnt on it are easily interpretable by the system designer. Secondly, the rated dialogues are used to learn a reward function which teaches the system to optimise the criterion. Two algorithms, reward shaping and distance minimisation are proposed to learn the reward function. These two algorithms consider the criterion to be the return for the entire dialogue. These functions are discussed and compared on simulated dialogues and it is shown that the resulting functions enable faster learning than using the criterion directly as the final reward. A spoken dialogue system for appointment scheduling was designed during this thesis, based on previous systems, and a corpus of rated dialogues with this system were collected. This corpus illustrates the scaling capability of the state space representation and is a good example of an industrial spoken dialogue system upon which the methodology could be applied
|
43 |
Modulation pharmacologique du raisonnement et de la prise de décision : apports pour la psychiatrie / Pharmacological challenge of cognition and decision-making : implications for psychiatrySalvador, Alexandre 25 April 2017 (has links)
L’innovation thérapeutique est limitée en psychiatrie. De nombreux médicaments sélectionnés sur la base de résultats encourageants dans les essais chez l’animal se révèlent décevants lors des essais cliniques. La validité limitée des modèles animaux, et leur utilisation pour tenter de mimer des pathologies définies de façon catégorielle sur la base de regroupement de symptômes de surface sans lien clair avec les processus cérébraux, les mécanismes biologiques ou la génétique, participent à ces difficultés. Une branche des neurosciences cognitives, l’étude de l’apprentissage par renforcement, associée à l’utilisation d’interventions pharmacologiques ciblées chez le sujet malade ou le sujet sain, représente une opportunité de mieux caractériser les processus cérébraux sous-tendant certaines dimensions cardinales des pathologies psychiatriques. Nous illustrons l’utilisation de l’étude de l’apprentissage par renforcement avec intervention pharmacologique dans deux études expérimentales. La première cherche à caractériser l’effet de l’aripiprazole, un antipsychotique atypique, chez des patients atteints du syndrome Gilles de la Tourette, en utilisant une tâche d’apprentissage contrefactuel, évaluant la capacité à apprendre non seulement des conséquences de ses actions, mais également des conséquences hypothétiques d’actions alternatives possibles. La seconde étude, randomisée contrôlée et en double aveugle, étudie l’effet de deux classes différentes d’antidépresseurs, l’escitalopram et l’agomélatine, chez le sujet sain. L’effet de leur administration est évalué à court terme (3 jours) et à long terme (8 semaines) dans deux tâches probabilistes de sélection de stimulus, l’une simple, l’autre avec renversements occasionnels. L’utilisation de cette approche pourrait participer à la définition d’endophénotypes et, en collaboration avec la recherche préclinique, aider à la création de nouveaux modèles animaux pour en améliorer la valeur prédictive. / Successful new drug development has declined in psychiatry in the last decades. This is in part the resut of a high failure rate in translating positive preclinical efficacy results to positive clinical trials. Limitations in the validity of animal models and shortcomings in the usefullnes of the current categorical diagnostic system. Cognitive neurosciences and particularly reinforcement learning and its computational analysis might provide biomarkers required to develop new ways of classifying mental disorders on the basis of both observable behaviour and neurobiological measues. Used in conjunction with pharmacological challenges, it may bring new insights into the physiopahtology and brain mechanisms underlying psychiatric disorders. It may also help design new animal models with imporved predictive validity for the develoment of medications relying on innovative mechanisms of action. We illustrate the use of reinforcement learning and pharmacological challenge in two experimental studies. In the first experiment, we administered a reinforcement learning task that involves both direct learning from obtained outcomes and indirect learning from forgone outcomes to two groups of Gilles de la Tourette patients, one receiving aripiprazole, one unmedicated and to a group of healty subjects. In the second experiment, we administered two probabilistic stimulus selection learning tasks (one simple, one with occasional reversals) to healthy subjects randomly and blindly allocated to either escitalopram, a typical serotonin reuptake inhibitor, agomelatine, an antidepressant with a different mechanism of action, or placebo. The experiment compard the effect of these two classes of antidepressants to placebo after both short term (3 days) and long term (8 weeks) treatment. These experiments bring insights into the understanding of the clinical condition studied, and the effects of the drugs tested. Implications of this approach for the translational approach to drug development is discussed.
|
44 |
Une approche pour la composition autonome de services de communication orientés QoS. Application aux protocoles de transport configurablesVan Wambeke, Nicolas 08 September 2009 (has links) (PDF)
Les dernières évolutions de l'Internet se sont traduites par l'émergence de nouvelles applications distribuées et par la multiplication des technologies réseaux (sans fils, mobiles. . . ) ainsi que des services offerts par les opérateurs sur de nouveaux types de terminaux (portable, PDA. . . ). L'enjeu socio économique majeur de ces avancées est le futur Internet ambiant, à la fois ubiquitaire et intelligent, au travers duquel l'utilisateur pourra, quelle que soit sa localisation et son point d'accès, bénéficier d'une qualité de service (QdS) maximale compatible avec l'environnement applicatif et réseau courant, hétérogène et dynamique. Dans cet horizon, la thèse présente une architecture ainsi que des modèles et algorithmes permettant de réaliser une composition dynamique et auto-adaptative des services fournis par les multiples mécanismes de QdS existants. L'approche proposée repose sur l'adaptabilité dynamique et coordonnée, à la fois du comportement et de l'architecture des protocoles composant la pile de communication. La démarche suivie se base sur la théorie de l'intelligence artificielle et l'apprentissage et propose la spécification, l'implémentation et l'évaluation d'un système de communication adaptatif en fonction à la fois, des exigences applicatives liées aux flux manipulés, et des contraintes de l'environnement de communication. Enfin, l'évaluation faite des modèles dedécision et d'apprentissage illustre comment le système permet de répondre à son objectif et valide ainsi les concepts qui sont proposés dans cette thèse.
|
45 |
Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteurCoulom, Rémi 19 June 2002 (has links) (PDF)
Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indiquent clairement le potentiel des réseaux de neurones feedforward pour estimer des fonctions valeur en dimension élevée. Les approximateurs de fonctions linéaires sont souvent préférés dans l'apprentissage par renforcement, mais l'estimation de fonctions valeur dans les travaux précédents se limite à des systèmes mécaniques avec très peu de degrés de liberté. La méthode présentée dans cette thèse a été appliquée avec succès sur une tâche originale d'apprentissage de la natation par un robot articulé simulé, avec 4 variables de commande et 12 variables d'état indépendantes, ce qui est sensiblement plus complexe que les problèmes qui ont été résolus avec des approximateurs de fonction linéaires.
|
46 |
Apprentissage par renforcement hiérarchique et factoriséKozlova, Olga 07 June 2010 (has links) (PDF)
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.
|
47 |
Pilotage adaptatif et réactif pour un système de production à flux continu: application à un système de production pétrochimiqueAissani, Nassima 02 December 2010 (has links) (PDF)
Les marchés actuels sont caractérisés par une grande compétitivité. Cette compétitivité a mis les entreprises, notamment celles d'envergure internationale, dans une situation de recherche de compromis entre des objectifs et des contraintes de plus en plus forts et contradictoires. Cet environnement nous a conduit à développer un système de pilotage et de contrôle de production qui ne soit pas seulement capable de réagir efficacement mais qui soit également en évolution permanente pour améliorer ses performances et la qualité des solutions qu'il propose en terme d'ordonnancement. Ce système doit pouvoir exploiter au mieux les ressources de production. Pour ce faire, ces ressources subissent régulièrement des entretiens préventifs ou des corrections suite aux pannes, ce qui les rend indisponibles à ces moments. Les systèmes de pilotage de production doivent prendre en considération ces indisponibilités afin de mieux contrôler et commander le système de production. Par conséquent, production et maintenance doivent être gérées conjointement au sein du système de pilotage. Dans ce cadre, l'objectif de cette thèse est de proposer un système de pilotage qui soit réactif et capable d'améliorer en permanence ses performances. Dans cet objectif, un système basé sur l'approche multi-agent et l'apprentissage par renforcement multi-objectifs a été développé, ces techniques permettent au système d'être réactif et adaptatif à son environnement. Le système développé a été testé sur un cas réel qui est une unité de fabrication des huiles finies. Les expérimentations ont donné des résultats satisfaisants ouvrant la porte à de nouvelles perspectives.
|
48 |
Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée)Dutech, Alain 02 December 2010 (has links) (PDF)
Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour des tâches non-Markoviennes qui est une problématique commune aux différents travaux de recherche que j'ai menés au cours des treize dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale difficulté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes de ``l'ancrage des symboles'', du ``frame problem'' et du fait ``d'être en situation'' et qu'on ne pourra y apporter des réponses que dans le cadre de l'embodiment. C'est à partir de ce constat que, dans une dernière partie, j'aborde les axes et les approches que je vais suivre pour poursuivre mes travaux en développant des techniques d'apprentissage robotique qui soient incrémentales, holistiques et motivationnelles.
|
49 |
Contributions to Batch Mode Reinforcement LearningFonteneau, Raphaël 24 February 2011 (has links)
This dissertation presents various research contributions published during these four years of PhD in the field of batch mode reinforcement learning, which studies optimal control problems for which the only information available on the system dynamics and the reward function is gathered in a set of trajectories. We first focus on deterministic problems in continuous spaces. In such a context, and under some assumptions related to the smoothness of the environment, we propose a new approach for inferring bounds on the performance of control policies. We also derive from these bounds a new inference algorithm for generalizing the information contained in the batch collection of trajectories in a cautious manner. This inference algorithm as itself lead us to propose a min max generalization framework. When working on batch mode reinforcement learning problems, one has also often to consider the problem of generating informative trajectories. This dissertation proposes two different approaches for addressing this problem. The first approach uses the bounds mentioned above to generate data tightening these bounds. The second approach proposes to generate data that are predicted to generate a change in the inferred optimal control policy. While the above mentioned contributions consider a deterministic framework, we also report on two research contributions which consider a stochastic setting. The first one addresses the problem of evaluating the expected return of control policies in the presence of disturbances. The second one proposes a technique for selecting relevant variables in a batch mode reinforcement learning context, in order to compute simplified control policies that are based on smaller sets of state variables.
|
50 |
Des agents intelligents dans un environnement de communication multimédia : Vers la conception de services adaptatifsCHARTON, Romaric 02 December 2003 (has links) (PDF)
Cette thèse présente nos travaux sur les stratégies d'interaction dans les systèmes multi-agents hétérogènes (hSMA), où l'humain est placé dans le système, et leur application pour fournir des services de communication multimédia. Pour pallier l'hétérogénéité des agents, notre solution consiste à introduire un médiateur et à définir une modélisation où les agents endossent des rôles permettant de construire des classes de service. Un service résulte alors d'une collaboration donnant satisfaction à un sous-ensemble d'agents. Pour définir le comportement des agents, nous avons envisagé divers types de planification, puis l'apprentissage par renforcement dans les Processus de Décision Markoviens (MDP). Nous avons également étudié la modélisation des utilisateurs et le suivi de l'interaction pour l'adaptation aux autres agents et aux aléas d'exécution. La thèse décrit la spécification d'un médiateur capable d'aider un utilisateur dans sa recherche d'informations. Elle présente également une architecture à quatre niveaux d'abstraction et une bibliothèque logicielle utilisés pour concevoir et exécuter des services adaptatifs.
|
Page generated in 0.1447 seconds