Global ETD Search

101	Learning the Parameters of Reinforcement Learning from Data for Adaptive Spoken Dialogue Systems / Apprentissage automatique des paramètres de l'apprentissage par renforcement pour les systèmes de dialogues adaptatifs Asri, Layla El 21 January 2016 (has links) Cette thèse s’inscrit dans le cadre de la recherche sur les systèmes de dialogue. Ce document propose d’apprendre le comportement d’un système à partir d’un ensemble de dialogues annotés. Le système apprend un comportement optimal via l’apprentissage par renforcement. Nous montrons qu’il n’est pas nécessaire de définir une représentation de l’espace d’état ni une fonction de récompense. En effet, ces deux paramètres peuvent être appris à partir du corpus de dialogues annotés. Nous montrons qu’il est possible pour un développeur de systèmes de dialogue d’optimiser la gestion du dialogue en définissant seulement la logique du dialogue ainsi qu’un critère à maximiser (par exemple, la satisfaction utilisateur). La première étape de la méthodologie que nous proposons consiste à prendre en compte un certain nombre de paramètres de dialogue afin de construire une représentation de l’espace d’état permettant d’optimiser le critère spécifié par le développeur. Par exemple, si le critère choisi est la satisfaction utilisateur, il est alors important d’inclure dans la représentation des paramètres tels que la durée du dialogue et le score de confiance de la reconnaissance vocale. L’espace d’état est modélisé par une mémoire sparse distribuée. Notre modèle, Genetic Sparse Distributed Memory for Reinforcement Learning (GSDMRL), permet de prendre en compte de nombreux paramètres de dialogue et de sélectionner ceux qui sont importants pour l’apprentissage par évolution génétique. L’espace d’état résultant ainsi que le comportement appris par le système sont aisément interprétables. Dans un second temps, les dialogues annotés servent à apprendre une fonction de récompense qui apprend au système à optimiser le critère donné par le développeur. A cet effet, nous proposons deux algorithmes, reward shaping et distance minimisation. Ces deux méthodes interprètent le critère à optimiser comme étant la récompense globale pour chaque dialogue. Nous comparons ces deux fonctions sur un ensemble de dialogues simulés et nous montrons que l’apprentissage est plus rapide avec ces fonctions qu’en utilisant directement le critère comme récompense finale. Nous avons développé un système de dialogue dédié à la prise de rendez-vous et nous avons collecté un corpus de dialogues annotés avec ce système. Ce corpus permet d’illustrer la capacité de mise à l’échelle de la représentation de l’espace d’état GSDMRL et constitue un bon exemple de système industriel sur lequel la méthodologie que nous proposons pourrait être appliquée / This document proposes to learn the behaviour of the dialogue manager of a spoken dialogue system from a set of rated dialogues. This learning is performed through reinforcement learning. Our method does not require the definition of a representation of the state space nor a reward function. These two high-level parameters are learnt from the corpus of rated dialogues. It is shown that the spoken dialogue designer can optimise dialogue management by simply defining the dialogue logic and a criterion to maximise (e.g user satisfaction). The methodology suggested in this thesis first considers the dialogue parameters that are necessary to compute a representation of the state space relevant for the criterion to be maximized. For instance, if the chosen criterion is user satisfaction then it is important to account for parameters such as dialogue duration and the average speech recognition confidence score. The state space is represented as a sparse distributed memory. The Genetic Sparse Distributed Memory for Reinforcement Learning (GSDMRL) accommodates many dialogue parameters and selects the parameters which are the most important for learning through genetic evolution. The resulting state space and the policy learnt on it are easily interpretable by the system designer. Secondly, the rated dialogues are used to learn a reward function which teaches the system to optimise the criterion. Two algorithms, reward shaping and distance minimisation are proposed to learn the reward function. These two algorithms consider the criterion to be the return for the entire dialogue. These functions are discussed and compared on simulated dialogues and it is shown that the resulting functions enable faster learning than using the criterion directly as the final reward. A spoken dialogue system for appointment scheduling was designed during this thesis, based on previous systems, and a corpus of rated dialogues with this system were collected. This corpus illustrates the scaling capability of the state space representation and is a good example of an industrial spoken dialogue system upon which the methodology could be applied Systèmes de dialogue Apprentissage par renforcement Évaluation Fonctions de récompense Spoken dialogue systems Reinforcement learning Evaluation Reward functions 006.31
102	Modulation pharmacologique du raisonnement et de la prise de décision : apports pour la psychiatrie / Pharmacological challenge of cognition and decision-making : implications for psychiatry Salvador, Alexandre 25 April 2017 (has links) L’innovation thérapeutique est limitée en psychiatrie. De nombreux médicaments sélectionnés sur la base de résultats encourageants dans les essais chez l’animal se révèlent décevants lors des essais cliniques. La validité limitée des modèles animaux, et leur utilisation pour tenter de mimer des pathologies définies de façon catégorielle sur la base de regroupement de symptômes de surface sans lien clair avec les processus cérébraux, les mécanismes biologiques ou la génétique, participent à ces difficultés. Une branche des neurosciences cognitives, l’étude de l’apprentissage par renforcement, associée à l’utilisation d’interventions pharmacologiques ciblées chez le sujet malade ou le sujet sain, représente une opportunité de mieux caractériser les processus cérébraux sous-tendant certaines dimensions cardinales des pathologies psychiatriques. Nous illustrons l’utilisation de l’étude de l’apprentissage par renforcement avec intervention pharmacologique dans deux études expérimentales. La première cherche à caractériser l’effet de l’aripiprazole, un antipsychotique atypique, chez des patients atteints du syndrome Gilles de la Tourette, en utilisant une tâche d’apprentissage contrefactuel, évaluant la capacité à apprendre non seulement des conséquences de ses actions, mais également des conséquences hypothétiques d’actions alternatives possibles. La seconde étude, randomisée contrôlée et en double aveugle, étudie l’effet de deux classes différentes d’antidépresseurs, l’escitalopram et l’agomélatine, chez le sujet sain. L’effet de leur administration est évalué à court terme (3 jours) et à long terme (8 semaines) dans deux tâches probabilistes de sélection de stimulus, l’une simple, l’autre avec renversements occasionnels. L’utilisation de cette approche pourrait participer à la définition d’endophénotypes et, en collaboration avec la recherche préclinique, aider à la création de nouveaux modèles animaux pour en améliorer la valeur prédictive. / Successful new drug development has declined in psychiatry in the last decades. This is in part the resut of a high failure rate in translating positive preclinical efficacy results to positive clinical trials. Limitations in the validity of animal models and shortcomings in the usefullnes of the current categorical diagnostic system. Cognitive neurosciences and particularly reinforcement learning and its computational analysis might provide biomarkers required to develop new ways of classifying mental disorders on the basis of both observable behaviour and neurobiological measues. Used in conjunction with pharmacological challenges, it may bring new insights into the physiopahtology and brain mechanisms underlying psychiatric disorders. It may also help design new animal models with imporved predictive validity for the develoment of medications relying on innovative mechanisms of action. We illustrate the use of reinforcement learning and pharmacological challenge in two experimental studies. In the first experiment, we administered a reinforcement learning task that involves both direct learning from obtained outcomes and indirect learning from forgone outcomes to two groups of Gilles de la Tourette patients, one receiving aripiprazole, one unmedicated and to a group of healty subjects. In the second experiment, we administered two probabilistic stimulus selection learning tasks (one simple, one with occasional reversals) to healthy subjects randomly and blindly allocated to either escitalopram, a typical serotonin reuptake inhibitor, agomelatine, an antidepressant with a different mechanism of action, or placebo. The experiment compard the effect of these two classes of antidepressants to placebo after both short term (3 days) and long term (8 weeks) treatment. These experiments bring insights into the understanding of the clinical condition studied, and the effects of the drugs tested. Implications of this approach for the translational approach to drug development is discussed. Psychiatie Psychopharmacologie Neurosciences cognitives Apprentissage par renforcement Modèles animaux Psychiatry Psychopharmacology Cognitive neuroscience Reinforcement learning Animal models 616.8918
103	Une approche pour la composition autonome de services de communication orientés QoS. Application aux protocoles de transport configurables Van Wambeke, Nicolas 08 September 2009 (has links) (PDF) Les dernières évolutions de l'Internet se sont traduites par l'émergence de nouvelles applications distribuées et par la multiplication des technologies réseaux (sans fils, mobiles. . . ) ainsi que des services offerts par les opérateurs sur de nouveaux types de terminaux (portable, PDA. . . ). L'enjeu socio économique majeur de ces avancées est le futur Internet ambiant, à la fois ubiquitaire et intelligent, au travers duquel l'utilisateur pourra, quelle que soit sa localisation et son point d'accès, bénéficier d'une qualité de service (QdS) maximale compatible avec l'environnement applicatif et réseau courant, hétérogène et dynamique. Dans cet horizon, la thèse présente une architecture ainsi que des modèles et algorithmes permettant de réaliser une composition dynamique et auto-adaptative des services fournis par les multiples mécanismes de QdS existants. L'approche proposée repose sur l'adaptabilité dynamique et coordonnée, à la fois du comportement et de l'architecture des protocoles composant la pile de communication. La démarche suivie se base sur la théorie de l'intelligence artificielle et l'apprentissage et propose la spécification, l'implémentation et l'évaluation d'un système de communication adaptatif en fonction à la fois, des exigences applicatives liées aux flux manipulés, et des contraintes de l'environnement de communication. Enfin, l'évaluation faite des modèles dedécision et d'apprentissage illustre comment le système permet de répondre à son objectif et valide ainsi les concepts qui sont proposés dans cette thèse. [INFO] Computer Science Système de communication Intelligence Artificielle Adaptabilité Architecture Protocole de transport Réseaux Informatiques
104	FILTRAGE ADAPTATIF ET DIFFUSION ANISOTROPE POUR L'AIDE A L'INTERPRETATION DES DONNEES SISMIQUES Dargent, Régis 17 July 2006 (has links) (PDF) Ce mémoire traite du rehaussement d'images sismiques tridimensionnelles, constituées d'un empilement de couches géologiques, elles-mêmes interrompues par des failles sismiques. L'objectif, en apparence contradictoire, est de lisser les couches géologiques, tout en préservant certaines discontinuités : les failles. Les méthodes de filtrage adaptatif – couramment employées dans le domaine de l'imagerie sismique – ainsi que la diffusion anisotrope sont bien adaptés à cette problématique car elles permettent une prise en compte de l'orientation des couches, ainsi que de critères indiquant la possible présence de failles. Reprenant les points clefs des approches précédentes, nous proposons une équation d'évolution fondée sur la définition de trois zones de comportement différentié à l'intérieur du voisinage de chaque point. La première contient les points appartenant à la même couche géologique que le point central, la deuxième ceux correspondant aux couches voisines et la troisième les points incertains. La définition de ces zones est réalisée en chaque point à l'aide de l'orientation estimée des couches géologiques. Une évolution de cette méthode consiste à sélectionner, dans le voisinage défini précédemment, la sous-partie qui présente le moins de chances d'être traversée par une faille. Cette nouvelle approche permet non seulement de lisser l'image, mais également de renforcer la visibilité des failles. Les performances des méthodes proposées sont comparées à celles des approches classiques à l'aide d'un estimateur objectif de gain de qualité, employé sur des images de synthèse. Une comparaison visuelle de résultats obtenus sur des données réelles est également réalisée. Filtrage adaptatif Diffusion anisotrope Orientation Filtrage sectoriel Images sismiques Renforcement des failles
105	Caractérisation optique et étude de la stabilité d'un procédé de fibrage du verre Lenoble, Anne 19 March 2004 (has links) (PDF) Dans ce travail de thèse différents outils théoriques, numériques et expérimentaux, ont été développés afin d´étudier les conditions de stabilité d'un procédé de fibrage du verre-E. Un interféromètre phase Doppler et un diffractomètre haute résolution ont été mis au point pour mesurer, en temps réel, l'évolution du diamètre d'une fibre (D = 5−42µm) en sortie de filière (vitesses : Vf = 5 − 65ms-1). L'interféromètre permet également de mesurer la tension de fibrage. Les résolutions obtenues avec ces systèmes (respectivement de 0.35µm et 0.02µm) l'ont été grâce au développement d'un modèle rigoureux de diffusion de la lumière par une cylindre multicouche et en prenant en compte des effets optiques propres à ce procédé : biréfringence uni-axe induite par la tension de fibrage, dépendance de l'indice de réfraction avec les conditions de refroidissement, fibres creuses... Le procédé de fibrage a été modélisé par l'étirage d'un jet visqueux à haute température, 1D et axisymétrique. Ce modèle hydrodynamique, physique, permet notamment de prédire l'évolution du profil axiale de température du jet, son profil de contraction... pour des régimes stationnaires et non stationnaires. Les travaux expérimentaux réalisés sur une filière mono téton ont montré que la stabilité du procédé est maximale pour des températures de fibrage de T0 = 1145− 1175°C et des fibres dont le diamètre est inférieur à D ≈ 15µm. Cependant, même dans ces conditions, le diamètre de la fibre produite fluctue périodiquement avec une amplitude moyenne de l'ordre de σD/D ≈ 1.8%. La fréquence de ces oscillations croît avec la température de fibrage : νosc = 0.5 → 0.9Hz pour T0 = 1145 → 1250˚C. Le taux moyen des fluctuations du diamètre est de l'ordre de dσD/dt ≈ 1.9µms-1 et dσD/dL ≈ 0.07µm-1 (pour Vf = 20m/s). [PHYS] Physics Fibres de renforcement fibrage hydrodynamique instabilités déchets verriers tension granulométrie interférométrie diffractométrie théorie de Lorenz-Mie cylindre multicouche biréfringence uniaxe
106	Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur Coulom, Rémi 19 June 2002 (has links) (PDF) Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indiquent clairement le potentiel des réseaux de neurones feedforward pour estimer des fonctions valeur en dimension élevée. Les approximateurs de fonctions linéaires sont souvent préférés dans l'apprentissage par renforcement, mais l'estimation de fonctions valeur dans les travaux précédents se limite à des systèmes mécaniques avec très peu de degrés de liberté. La méthode présentée dans cette thèse a été appliquée avec succès sur une tâche originale d'apprentissage de la natation par un robot articulé simulé, avec 4 variables de commande et 12 variables d'état indépendantes, ce qui est sensiblement plus complexe que les problèmes qui ont été résolus avec des approximateurs de fonction linéaires. Apprentissage par renforcement Réseaux de neurones Contrôle moteur Commande optimale
107	Apprentissage par renforcement hiérarchique et factorisé Kozlova, Olga 07 June 2010 (has links) (PDF) Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle. [INFO:INFO_OH] Computer Science/Other apprentissage par renforcement options decomposition hiérarchique programmation dynamique structurée états impossibles
108	Pilotage adaptatif et réactif pour un système de production à flux continu: application à un système de production pétrochimique Aissani, Nassima 02 December 2010 (has links) (PDF) Les marchés actuels sont caractérisés par une grande compétitivité. Cette compétitivité a mis les entreprises, notamment celles d'envergure internationale, dans une situation de recherche de compromis entre des objectifs et des contraintes de plus en plus forts et contradictoires. Cet environnement nous a conduit à développer un système de pilotage et de contrôle de production qui ne soit pas seulement capable de réagir efficacement mais qui soit également en évolution permanente pour améliorer ses performances et la qualité des solutions qu'il propose en terme d'ordonnancement. Ce système doit pouvoir exploiter au mieux les ressources de production. Pour ce faire, ces ressources subissent régulièrement des entretiens préventifs ou des corrections suite aux pannes, ce qui les rend indisponibles à ces moments. Les systèmes de pilotage de production doivent prendre en considération ces indisponibilités afin de mieux contrôler et commander le système de production. Par conséquent, production et maintenance doivent être gérées conjointement au sein du système de pilotage. Dans ce cadre, l'objectif de cette thèse est de proposer un système de pilotage qui soit réactif et capable d'améliorer en permanence ses performances. Dans cet objectif, un système basé sur l'approche multi-agent et l'apprentissage par renforcement multi-objectifs a été développé, ces techniques permettent au système d'être réactif et adaptatif à son environnement. Le système développé a été testé sur un cas réel qui est une unité de fabrication des huiles finies. Les expérimentations ont donné des résultats satisfaisants ouvrant la porte à de nouvelles perspectives. Pilotage adaptatif ordonnancement réactif Systéme multi-agents apprentissage par renforcement système a flux continu
109	Apprentissage par Renforcement : Au delà des Processus Décisionnels de Markov (Vers la cognition incarnée) Dutech, Alain 02 December 2010 (has links) (PDF) Ce document présente mon ``projet de recherche'' sur le thème de l'embodiment (``cognition incarnée'') au croisement des sciences cognitives, de l'intelligence artificielle et de la robotique. Plus précisément, je montre comment je compte explorer la façon dont un agent, artificiel ou biologique, élabore des représentations utiles et pertinentes de son environnement. Dans un premier temps, je positionne mes travaux en explicitant notamment les concepts de l'embodiment et de l'apprentissage par renforcement. Je m'attarde notamment sur la problématique de l'apprentissage par renforcement pour des tâches non-Markoviennes qui est une problématique commune aux différents travaux de recherche que j'ai menés au cours des treize dernières années dans des contextes mono et multi-agents, mais aussi robotique. L'analyse de ces travaux et de l'état de l'art du domaine me conforte dans l'idée que la principale difficulté pour l'agent est bien celle de trouver des représentations adaptées, utiles et pertinentes. J'argumente que l'on se retrouve face à une problématique fondamentale de la cognition, intimement liée aux problèmes de ``l'ancrage des symboles'', du ``frame problem'' et du fait ``d'être en situation'' et qu'on ne pourra y apporter des réponses que dans le cadre de l'embodiment. C'est à partir de ce constat que, dans une dernière partie, j'aborde les axes et les approches que je vais suivre pour poursuivre mes travaux en développant des techniques d'apprentissage robotique qui soient incrémentales, holistiques et motivationnelles. [INFO:INFO_OH] Computer Science/Other Sciences Cognitives Intelligence Artificielle Robotique Apprentissage par Renforcement Représentations Environnements non-Markoviens POMDP
110	Adhésion des polymères semi-cristallins entre leur température de transition vitreuse et leur température de fusion Jarrousse, Gauthier 13 December 2004 (has links) (PDF) Nous avons étudié l'auto-adhésion de polymères semi-cristallins de taux de cristallinité variable, par un test de fracture des interfaces formées entre leur température de fusion, Tf, et leur température de transition vitreuse, Tg, dans le but de définir le rôle de la cristallinité sur l'adhésion. Nous avons utilisé des copolymères de polybutylène(téréphthalate-co-isophthalate). Pour les polymères pré-cristallisés, l'énergie de fracture, Gc, diminue fortement avec la température de contact (pour Tcontact [CHIM] Chemical Sciences [SPI] Engineering Sciences [PHYS] Physics Adhésion Renforcement Polymères semi-cristallins Cristallinité aux interfaces Auto-adhésion Pbt Pbi

Search results