• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 174
  • 125
  • 14
  • Tagged with
  • 321
  • 186
  • 167
  • 145
  • 111
  • 79
  • 67
  • 67
  • 59
  • 48
  • 46
  • 39
  • 35
  • 34
  • 34
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
261

Neuroscience of decision making : from goal-directed actions to habits / Neuroscience de la prise de décision : des actions dirigées vers un but aux habitudes

Topalidou, Meropi 10 October 2016 (has links)
Les processus de type “action-conséquence” (orienté vers un but) et stimulus-réponse sont deux composants importants du comportement. Le premier évalue le bénéfice d’une action pour choisir la meilleure parmi celles disponibles (sélection d’action) alors que le deuxième est responsable du comportement automatique, suscitant une réponse dès qu’un stimulus connu est présent. De telles habitudes sont généralement associées (et surtout opposées) aux actions orientées vers un but qui nécessitent un processus délibératif pour évaluer la meilleure option à prendre pour atteindre un objectif donné. En utilisant un modèle computationnel, nous avons étudié l’hypothèse classique de la formation et de l’expression des habitudes au niveau des ganglions de la base et nous avons formulé une nouvelle hypothèse quant aux rôles respectifs des ganglions de la base et du cortex. Inspiré par les travaux théoriques et expérimentaux de Leblois et al. (2006) et Guthrie et al. (2013), nous avons conçu un modèle computationnel des ganglions de la base, du thalamus et du cortex qui utilise des boucles distinctes (moteur, cognitif et associatif) ce qui nous a permis de poser l’hypothèse selon laquelle les ganglions de la base ne sont nécessaires que pour l’acquisition d’habitudes alors que l’expression de telles habitudes peut être faite par le cortex seul. En outre, ce modèle a permis de prédire l’existence d’un apprentissage latent dans les ganglions de la base lorsque leurs sorties (GPi) sont inhibées. En utilisant une tâche de bandit manchot à 2 choix, cette hypothèse a été expérimentalement testée et confirmée chez le singe; suggérant au final de rejeter l’idée classique selon laquelle l’automatisme est un trait subcortical. / Action-outcome and stimulus-response processes are two important components of behavior. The former evaluates the benefit of an action in order to choose the best action among those available (action selection) while the latter is responsible for automatic behavior, eliciting a response as soon as a known stimulus is present. Such habits are generally associated (and mostly opposed) to goal-directed actions that require a deliberative process to evaluate the best option to take in order to reach a given goal. Using a computational model, we investigated the classic hypothesis of habits formation and expression in the basal ganglia and proposed a new hypothesis concerning the respective role for both the basal ganglia and the cortex. Inspired by previous theoretical and experimental works (Leblois et al., 2006; Guthrie et al., 2013), we designed a computational model of the basal ganglia-thalamus-cortex that uses segregated loops (motor, cognitive and associative) and makes the hypothesis that basal ganglia are only necessary for the acquisition of habits while the expression of such habits can be mediated through the cortex. Furthermore, this model predicts the existence of covert learning within the basal ganglia ganglia when their output is inhibited. Using a two-armed bandit task, this hypothesis has been experimentally tested and confirmed in monkey. Finally, this works suggest to revise the classical idea that automatism is a subcortical feature.
262

Hybridization of dynamic optimization methodologies / L'hybridation de méthodes d'optimisation dynamique

Decock, Jérémie 28 November 2014 (has links)
Dans ce manuscrit de thèse, mes travaux portent sur la combinaison de méthodes pour la prise de décision séquentielle (plusieurs étapes de décision corrélées) dans des environnements complexes et incertains. Les méthodes mises au point sont essentiellement appliquées à des problèmes de gestion et de production d'électricité tels que l'optimisation de la gestion des stocks d'énergie dans un parc de production pour anticiper au mieux la fluctuation de la consommation des clients.Le manuscrit comporte 7 chapitres regroupés en 4 parties : Partie I, « Introduction générale », Partie II, « État de l'art », Partie III, « Contributions » et Partie IV, « Conclusion générale ».Le premier chapitre (Partie I) introduit le contexte et les motivations de mes travaux, à savoir la résolution de problèmes d' « Unit commitment », c'est à dire l'optimisation des stratégies de gestion de stocks d'énergie dans les parcs de production d'énergie. Les particularités et les difficultés sous-jacentes à ces problèmes sont décrites ainsi que le cadre de travail et les notations utilisées dans la suite du manuscrit.Le second chapitre (Partie II) dresse un état de l'art des méthodes les plus classiques utilisées pour la résolution de problèmes de prise de décision séquentielle dans des environnements incertains. Ce chapitre introduit des concepts nécessaires à la bonne compréhension des chapitres suivants (notamment le chapitre 4). Les méthodes de programmation dynamique classiques et les méthodes de recherche de politique directe y sont présentées.Le 3e chapitre (Partie II) prolonge le précédent en dressant un état de l'art des principales méthodes d’optimisation spécifiquement adaptées à la gestion des parcs de production d'énergie et à leurs subtilités. Ce chapitre présente entre autre les méthodes MPC (Model Predictive Control), SDP (Stochastic Dynamic Programming) et SDDP (Stochastic Dual Dynamic Programming) avec pour chacune leurs particularités, leurs avantages et leurs limites. Ce chapitre complète le précédent en introduisant d'autres concepts nécessaires à la bonne compréhension de la suite du manuscrit.Le 4e chapitre (Partie III) contient la principale contribution de ma thèse : un nouvel algorithme appelé « Direct Value Search » (DVS) créé pour résoudre des problèmes de prise de décision séquentielle de grande échelle en milieu incertain avec une application directe aux problèmes d' « Unit commitment ». Ce chapitre décrit en quoi ce nouvel algorithme dépasse les méthodes classiques présentées dans le 3e chapitre. Cet algorithme innove notamment par sa capacité à traiter des grands espaces d'actions contraints dans un cadre non-linéaire, avec un grand nombre de variables d'état et sans hypothèse particulière quant aux aléas du système optimisé (c'est à dire applicable sur des problèmes où les aléas ne sont pas nécessairement Markovien).Le 5e chapitre (Partie III) est consacré à un concept clé de DVS : l'optimisation bruitée. Ce chapitre expose une nouvelle borne théorique sur la vitesse de convergence des algorithmes d'optimisation appliqués à des problèmes bruités vérifiant certaines hypothèses données. Des méthodes de réduction de variance sont également étudiées et appliquées à DVS pour accélérer sensiblement sa vitesse de convergence.Le 6e chapitre (Partie III) décrit un résultat mathématique sur la vitesse de convergence linéaire d’un algorithme évolutionnaire appliqué à une famille de fonctions non quasi-convexes. Dans ce chapitres, il est prouvé que sous certaines hypothèses peu restrictives sur la famille de fonctions considérée, l'algorithme présenté atteint une vitesse de convergence linéaire.Le 7e chapitre (Partie IV) conclut ce manuscrit en résumant mes contributions et en dressant quelques pistes de recherche intéressantes à explorer. / This thesis is dedicated to sequential decision making (also known as multistage optimization) in uncertain complex environments. Studied algorithms are essentially applied to electricity production ("Unit Commitment" problems) and energy stock management (hydropower), in front of stochastic demand and water inflows. The manuscript is divided in 7 chapters and 4 parts: Part I, "General Introduction", Part II, "Background Review", Part III, "Contributions" and Part IV, "General Conclusion". This first chapter (Part I) introduces the context and motivation of our work, namely energy stock management. "Unit Commitment" (UC) problems are a classical example of "Sequential Decision Making" problem (SDM) applied to energy stock management. They are the central application of our work and in this chapter we explain main challenges arising with them (e.g. stochasticity, constraints, curse of dimensionality, ...). Classical frameworks for SDM problems are also introduced and common mistakes arising with them are be discussed. We also emphasize the consequences of these - too often neglected - mistakes and the importance of not underestimating their effects. Along this chapter, fundamental definitions commonly used with SDM problems are described. An overview of our main contributions concludes this first chapter. The second chapter (Part II) is a background review of the most classical algorithms used to solve SDM problems. Since the applications we try to solve are stochastic, we there focus on resolution methods for stochastic problems. We begin our study with classical Dynamic Programming methods to solve "Markov Decision Processes" (a special kind of SDM problems with Markovian random processes). We then introduce "Direct Policy Search", a widely used method in the Reinforcement Learning community. A distinction is be made between "Value Based" and "Policy Based" exploration methods. The third chapter (Part II) extends the previous one by covering the most classical algorithms used to solve UC's subtleties. It contains a state of the art of algorithms commonly used for energy stock management, mainly "Model Predictive Control", "Stochastic Dynamic Programming" and "Stochastic Dual Dynamic Programming". We briefly overview distinctive features and limitations of these methods. The fourth chapter (Part III) presents our main contribution: a new algorithm named "Direct Value Search" (DVS), designed to solve large scale unit commitment problems. We describe how it outperforms classical methods presented in the third chapter. We show that DVS is an "anytime" algorithm (users immediately get approximate results) which can handle large state spaces and large action spaces with non convexity constraints, and without assumption on the random process. Moreover, we explain how DVS can reduce modelling errors and can tackle challenges described in the first chapter, working on the "real" detailed problem without "cast" into a simplified model. Noisy optimisation is a key component of DVS algorithm; the fifth chapter (Part III) is dedicated to it. In this chapter, some theoretical convergence rate are studied and new convergence bounds are proved - under some assumptions and for given families of objective functions. Some variance reduction techniques aimed at improving the convergence rate of graybox noisy optimization problems are studied too in the last part of this chapter. Chapter sixth (Part III) is devoted to non-quasi-convex optimization. We prove that a variant of evolution strategy can reach a log-linear convergence rate with non-quasi-convex objective functions. Finally, the seventh chapter (Part IV) concludes and suggests some directions for future work.
263

Radio Access Technology Selection in Heterogeneous Wireless Networks / Sélection de technologie d’accès radio dans les réseaux sans-fil hétérogènes

El Helou, Melhem 28 November 2014 (has links)
Pour faire face à la croissance rapide du trafic mobile, différentes technologies d'accès radio (par exemple, HSPA, LTE, WiFi, et WiMAX) sont intégrées et gérées conjointement. Dans ce contexte, la sélection de TAR est une fonction clé pour améliorer les performances du réseau et l'expérience de l'utilisateur. Elle consiste à décider quelle TAR est la plus appropriée aux mobiles. Quand l'intelligence est poussée à la périphérie du réseau, les mobiles décident de manière autonome de leur meilleur TAR. Ils cherchent à maximiser égoïstement leur utilité. Toutefois, puisque les mobiles ne disposent d'aucune information sur les conditions de charge du réseau, leurs décisions peuvent conduire à une inefficacité de la performance. En outre, déléguer les décisions au réseau optimise la performance globale, mais au prix d'une augmentation de la complexité du réseau, des charges de signalisation et de traitement. Dans cette thèse, au lieu de favoriser une de ces deux approches décisionnelles, nous proposons un cadre de décision hybride: le réseau fournit des informations pour les mobiles pour mieux décider de leur TAR. Plus précisément, les utilisateurs mobiles choisissent leur TAR en fonction de leurs besoins et préférences individuelles, ainsi que des paramètres de coût monétaire et de QoS signalés par le réseau. En ajustant convenablement les informations du réseau, les décisions des utilisateurs répondent globalement aux objectifs de l'opérateur. Nous introduisons d'abord notre cadre de décision hybride. Afin de maximiser l'expérience de l'utilisateur, nous présentons une méthode de décision multicritère (MDMC) basée sur la satisfaction. Outre leurs conditions radio, les utilisateurs mobiles tiennent compte des paramètres de coût et de QoS, signalées par le réseau, pour évaluer les TAR disponibles. En comparaison avec les solutions existantes, notre algorithme répond aux besoins de l'utilisateur (par exemple, les demandes en débit, la tolérance de coût, la classe de trafic), et évite les décisions inadéquates. Une attention particulière est ensuite portée au réseau pour s'assurer qu'il diffuse des informations décisionnelles appropriées, afin de mieux exploiter ses ressources radio alors que les mobiles maximisent leur propre utilité. Nous présentons deux méthodes heuristiques pour dériver dynamiquement quoi signaler aux mobiles. Puisque les paramètres de QoS sont modulées en fonction des conditions de charge, l'exploitation des ressources radio s'est avérée efficace. Aussi, nous nous concentrons sur l'optimisation de l'information du réseau. La dérivation des paramètres de QoS est formulée comme un processus de décision semi-markovien, et les stratégies optimales sont calculées en utilisant l'algorithme de Policy Iteration. En outre, et puisque les paramètres du réseau ne peuvent pas être facilement obtenues, une approche par apprentissage par renforcement est introduite pour dériver quoi signaler aux mobiles. / To cope with the rapid growth of mobile broadband traffic, various radio access technologies (e.g., HSPA, LTE, WiFi, and WiMAX) are being integrated and jointly managed. Radio Access Technology (RAT) selection, devoted to decide to what RAT mobiles should connect, is a key functionality to improve network performance and user experience. When intelligence is pushed to the network edge, mobiles make autonomous decisions regarding selection of their most appropriate RAT. They aim to selfishly maximize their utility. However, because mobiles have no information on network load conditions, their decisions may lead to performance inefficiency. Moreover, delegating decisions to the network optimizes overall performance, but at the cost of increased network complexity, signaling, and processing load. In this thesis, instead of favoring either of these decision-making approaches, we propose a hybrid decision framework: the network provides information for the mobiles to make robust RAT selections. More precisely, mobile users select their RAT depending on their individual needs and preferences, as well as on the monetary cost and QoS parameters signaled by the network. By appropriately tuning network information, user decisions are globally expected to meet operator objectives, avoiding undesirable network states. We first introduce our hybrid decision framework. Decision makings, on the network and user sides, are investigated. To maximize user experience, we present a satisfaction-based Multi-Criteria Decision-Making (MCDM) method. In addition to their radio conditions, mobile users consider the cost and QoS parameters, signaled by the network, to evaluate serving RATs. In comparison with existing MCDM solutions, our algorithm meets user needs (e.g., traffic class, throughput demand, cost tolerance), avoiding inadequate decisions. A particular attention is then addressed to the network to make sure it broadcasts suitable decisional information, so as to better exploit its radio resources while mobiles maximize their own utility. We present two heuristic methods to dynamically derive what to signal to mobiles. While QoS parameters are modulated as a function of the load conditions, radio resources are shown to be efficiently exploited. Moreover, we focus on optimizing network information. Deriving QoS parameters is formulated as a semi-Markov decision process, and optimal policies are computed using the Policy Iteration algorithm. Also, and since network parameters may not be easily obtained, a reinforcement learning approach is introduced to derive what to signal to mobiles. The performances of optimal, learning-based, and heuristic policies are analyzed. When thresholds are pertinently set, our heuristic method provides performance very close to the optimal solution. Moreover, although lower performances are observed, our learning-based algorithm has the crucial advantage of requiring no prior parameterization.
264

Une approche pour le routage adaptatif avec économie d’énergie et optimisation du délai dans les réseaux de capteurs sans fil / An approach for the adaptive routing with energy saving and optimization of extension in the networks of wireless sensors

Ouferhat, Nesrine 09 December 2009 (has links)
Grâce aux avancées conjointes des systèmes microélectroniques, des technologies sans fil et de la microélectronique embarquée, les réseaux de capteurs sans fil (RCsF) ont récemment pu voir le jour. Très sophistiqués et en interaction directe avec leur environnement, ces systèmes informatiques et électroniques communiquent principalement à travers des réseaux radio qui en font des objets communicants autonomes. Ils offrent l'opportunité de prendre en compte les évolutions temporelles et spatiales du monde physique environnant. Les RCsF se retrouvent donc au cœur de nombreuses applications couvrant des domaines aussi variés que la santé, la domotique, l'intelligence ambiante, les transports, la sécurité, l'agronomie et l'environnement. Ils connaissent un véritable essor et ce dans divers domaines des STIC : hardware, système d'exploitation, conception d'antenne, système d'information, protocoles réseaux, théorie des graphes, algorithmique distribuée, sécurité, etc. L’intérêt des communautés issues de la recherche et de l’industrie pour ces RCsF s’est accru par la potentielle fiabilité, précision, flexibilité, faible coût ainsi que la facilité de déploiement de ces systèmes. La spontanéité, l’adaptabilité du réseau et la dynamicité de sa topologie dans le déploiement des RCsF soulèvent néanmoins de nombreuses questions encore ouvertes. Dans le cadre de cette thèse, nous nous sommes intéressés aux aspects liés à la problématique du routage dans un RCsF, l’objectif étant de proposer des approches algorithmiques permettant de faire du routage adaptatif multi critères dans un RCsF. Nous nous sommes concentrés sur deux critères principaux : la consommation d’énergie dans les capteurs et le délai d’acheminement des informations collectées par les capteurs. Nous avons proposé ainsi un nouveau protocole de routage, appelé EDEAR (Energy and Delay Efficient Adaptive Routing), qui se base sur un mécanisme d’apprentissage continu et distribué permettant de prendre en compte la dynamicité du réseau. Celui-ci utilise deux types d’agents explorateurs chargés de la collecte de l’information pour la mise à jour des tables de routage. Afin de réduire la consommation d’énergie et la surcharge du réseau, nous proposons également un processus d’exploration des routes basé sur une diffusion optimisée des messages de contrôle. Le protocole EDEAR calcule les routes qui minimisent simultanément l’énergie consommée et le délai d’acheminement des informations de bout en bout permettant ainsi de maximiser la durée de vie du réseau. L’apprentissage se faisant de manière continue, le routage se fait donc de façon évolutive et permet ainsi une réactivité aux différents évènements qui peuvent intervenir sur le réseau. Le protocole proposé est validé et comparé aux approches traditionnelles, son efficacité au niveau du routage adaptatif est mise particulièrement en évidence aussi bien dans le cas de capteurs fixes que de capteurs mobiles. En effet, celui-ci permet une meilleure prise en compte de l'état du réseau contrairement aux approches classiques / Through the joint advanced microelectronic systems, wireless technologies and embedded microelectronics, wireless sensor networks have recently been possible. Given the convergence of communications and the emergence of ubiquitous networks, sensor networks can be used in several applications and have a great impact on our everyday life. There is currently a real interest of research in wireless sensor networks; however, most of the existing routing protocols propose an optimization of energy consumption without taking into account other metrics of quality of service. In this thesis, we propose an adaptive routing protocol called "EDEAR" which takes into account both necessary criteria to the context of communications in sensor networks, which are energy and delay of data delivery. We are looking the routes for optimizing a nodes’ lifetime in the network, these paths are based on joint optimization of energy consumption and delay through a multi criteria cost function. The proposed algorithm is based on the use of the dynamic state-dependent policies which is implemented with a bio-inspired approach based on iterative trial/error paradigm. Our proposal is considered as a hybrid protocol: it combines on demand searching routes concept and proactive exploration concept. It uses also a multipoint relay mechanism for energy consumption in order to reduce the overhead generated by the exploration packets. Numerical results obtained with NS simulator for different static and mobility scenario show the efficiency of the adaptive approaches compared to traditional approaches and proves that such adaptive algorithms are very useful in tracking a phenomenon that evolves over time
265

Finite elements modelling and analysis of the effect of vegetation on forested slopes stability / Modélisation et analyse par éléments finis de l'effet de la végétation sur la stabilité des pentes en zones forestières

Ji, Jinnan 16 December 2011 (has links)
L'ingénierie écologique, qui est décrite comme «la gestion de la nature», a d'abord été proposée par Odum en 1971. Dans les dernières décennies, l'ingénierie écologique a été largement consacrée à lutter contre l'érosion des sols et les mouvements de masse, tout en permettant d'assurer la durabilité des écosystèmes. L'objectif de cette thèse est d'évaluer l'impact de peuplements forestiers sur la stabilité de pentes de dimension finie, en considérant à la fois les effets mécaniques et hydrologiques des racines peu profondes contre les glissements de terrain. Deux sites forestiers monospécifiques et équiennes, plantés respectivement de Robinia pseudoacacia et Platycladus orientalis, ont été sélectionnés sur le Plateau du Loess en Chine et utilisés comme sites d'étude. Le Facteur de Sécurité (FoS) de ces pentes ont été calculées en utilisant un modèle éléments finis 2D qui prend en compte la distribution des racines dans les couches superficielles du sol.Des mesures de terrain et des tests de laboratoire ont été effectués afin d'estimer les principaux paramètres du modèle, à savoir la distribution des surfaces relatives de racines dans le sol (Root Area Ratio), la résistance à la traction des racines, ainsi que les propriétés mécaniques et hydrologiques du sol nu. La contribution des racines à la résistance au cisaillement du sol a été considérée par l'intermédiaire d'une « cohésion additionnelle » calculée à l'aide de modèles fournis par la littérature. Six modèles existants ont été testés. Cette thèse est composée de deux chapitres principaux portant sur: (1) l'effet mécanique de l'hétérogénéité spatiale de la distribution des racines à l'échelle de pente; (2) l'influence de la distribution des racines sur le couplage entre la diffusion de l'eau interstitiel et les contraintes mécaniques dans le sol et son impact sur la stabilité des pentes.Les simulations amènent aux conclusions principales suivantes: (1) les pentes en terrasse sont en théorie 20% plus stables que les pentes rectilignes, sans tenir compte des effets hydrologiques; (2) le FoS atteint une valeur asymptotique lorsque l'on augmente la cohésion des racines; (3) les variations de la cohésion des racines observées sur le terrain ont peu d'effet sur la stabilité des pentes. Toutefois le renforcement de la partie basse des pentes, où les racines ont un plus grand impact positif sur le FOS, peut permettre de diminuer le risque de glissement; (4) l'effet des fortes précipitations sur la stabilité de la pente pourrait probablement être atténué par la présence de racines, mais cet effet dépend des caractéristiques des racines et de leur influence sur le débit d'eau dans le sol. / Ecological engineering, which is described as ‘the management of nature', was first proposed by Odum in 1971. In the past few decades, ecological engineering has been largely devoted to combat soil erosion and mass movement all over the world, because of its benefit on sustainable ecosystems. The objective of this thesis is to evaluate the impact of forest stands on the stability of finite slopes, considering both the mechanical and hydrological effects of roots against shallow landslides. Two monospecific and even-aged forest sites planted with Robinia pseudoacacia and Platycladus orientalis respectively were selected on the Loess Plateau of China and used as study sites. Slope Factors of Safety were calculated using a 2D finite element model that takes into account the distribution of roots in the shallow layers of soil.Field site experiments and laboratory tests were performed in order to estimate the main parameters of the model, i.e. distribution of root area ratio within the soil, root tensile strength, as well as bare soil mechanical and hydrological properties. The contribution of roots to soil shear strength was considered through an additional cohesion calculated with models provided by the literature. Six existing models were tested. This thesis is composed of two main chapters that make the focus on : (1) the mechanical effect of the spatial heterogeneity of root distribution at the slope scale; (2) the influence of root distribution on the coupling between pore fluid diffusion and mechanical stress and its impact on slope stability. This study brings to the following main conclusions: (1) terraced slopes were 20% more stable than rectilinear slopes, disregarding the differences in hydrological regimes between the two sites; (2) FoS could reach an asymptotic value when increasing root additional cohesion; (3) variations of the actual root cohesion do not affect much slope stability. However more attention should be given to the reinforcement of the bottom part of the actual slopes, where roots have a larger positive impact on the FoS; (4) the effect of heavy precipitations on slope stability could probably be overcome or at least mitigated by root system network, but this depends on root characteristics and their resulting effect on soil water flow.
266

Méta-enseignement : génération active d’exemples par apprentissage par renforcement

Larocque, Stéphanie 05 1900 (has links)
Le problème d’intérêt est un problème d’optimisation discrète dont on tente d’approximer les solutions des instances particulières à l’aide de réseaux de neurones. Un obstacle à résoudre ce problème par apprentissage automatique réside dans le coût d’étiquettage élevé (et variable) des différentes instances, rendant coûteuse et difficile la génération d’un ensemble de données étiquettées. On propose une architecture d’apprentissage actif, qu’on nomme architecture de méta-enseignement, dans le but de pallier à ce problème. On montre comment on combine plusieurs modèles afin de résoudre ce problème d’apprentissage actif, formulé comme un problème de méta-apprentissage, en utilisant un agent d’apprentissage par renforcement pour la génération active d’exemples. Ainsi, on utilise des concepts de plusieurs domaines de l’apprentissage automatique dont des notions d’apprentissage supervisé, d’apprentissage actif, d’apprentissage par renforcement, ainsi que des réseaux récurrents. Dans ce travail exploratoire, on évalue notre méthodologie sur un problème simple, soit celui de classifier des mains de poker en 10 classes pré-établies. On teste notre architecture sur ce problème jouet dans le but de simplifier l’analyse. Malheureusement, l’avantage d’utiliser l’architecture de génération active n’est pas significatif. On expose ensuite plusieurs pistes de réflexion sur certaines observations à approfondir dans de futurs travaux, comme la définition de la fonction de récompense. Dans de futurs projets, il serait également intéressant d’utiliser un problème plus similaire au problème d’optimisation initial qui comporterait, entre autres, des coûts d’étiquettage variables. / The motivating application behind this architecture is a discrete optimisation problem whose solution we aim to predict using neural networks. A main challenge of solving this problem by machine learning lies in the high (and variable) labelling cost associated to the various instances, which leads to an expensive and difficult dataset generation. We propose an active learning architecture, called meta-teaching, to address this problem. We show how we combine several models to solve the active learning problem, formulated as a metalearning problem, by using a reinforcement learning agent to actively generate new instances. Therefore, we use concepts from various areas of machine learning, including supervised learning, active learning, reinforcement learning and recurrent networks. In this exploratory work, we evaluate our method on a simpler problem, which is to classify poker hands in 10 predefined classes. We test our architecture on this toy dataset in order to simplify the analysis. Unfortunately, we do not achieve a significant advantage using our active generation architecture on this dataset. We outline avenues for further reflections, including the definition of the reward function. In future projects, using a more similar problem to our problem of interest having, among others, a variable labelling cost, would be interesting.
267

Representation learning for dialogue systems

Serban, Iulian Vlad 05 1900 (has links)
Cette thèse présente une série de mesures prises pour étudier l’apprentissage de représentations (par exemple, l’apprentissage profond) afin de mettre en place des systèmes de dialogue et des agents de conversation virtuels. La thèse est divisée en deux parties générales. La première partie de la thèse examine l’apprentissage des représentations pour les modèles de dialogue génératifs. Conditionnés sur une séquence de tours à partir d’un dialogue textuel, ces modèles ont la tâche de générer la prochaine réponse appropriée dans le dialogue. Cette partie de la thèse porte sur les modèles séquence-à-séquence, qui est une classe de réseaux de neurones profonds génératifs. Premièrement, nous proposons un modèle d’encodeur-décodeur récurrent hiérarchique ("Hierarchical Recurrent Encoder-Decoder"), qui est une extension du modèle séquence-à-séquence traditionnel incorporant la structure des tours de dialogue. Deuxièmement, nous proposons un modèle de réseau de neurones récurrents multi-résolution ("Multiresolution Recurrent Neural Network"), qui est un modèle empilé séquence-à-séquence avec une représentation stochastique intermédiaire (une "représentation grossière") capturant le contenu sémantique abstrait communiqué entre les locuteurs. Troisièmement, nous proposons le modèle d’encodeur-décodeur récurrent avec variables latentes ("Latent Variable Recurrent Encoder-Decoder"), qui suivent une distribution normale. Les variables latentes sont destinées à la modélisation de l’ambiguïté et l’incertitude qui apparaissent naturellement dans la communication humaine. Les trois modèles sont évalués et comparés sur deux tâches de génération de réponse de dialogue: une tâche de génération de réponses sur la plateforme Twitter et une tâche de génération de réponses de l’assistance technique ("Ubuntu technical response generation task"). La deuxième partie de la thèse étudie l’apprentissage de représentations pour un système de dialogue utilisant l’apprentissage par renforcement dans un contexte réel. Cette partie porte plus particulièrement sur le système "Milabot" construit par l’Institut québécois d’intelligence artificielle (Mila) pour le concours "Amazon Alexa Prize 2017". Le Milabot est un système capable de bavarder avec des humains sur des sujets populaires à la fois par la parole et par le texte. Le système consiste d’un ensemble de modèles de récupération et de génération en langage naturel, comprenant des modèles basés sur des références, des modèles de sac de mots et des variantes des modèles décrits ci-dessus. Cette partie de la thèse se concentre sur la tâche de sélection de réponse. À partir d’une séquence de tours de dialogues et d’un ensemble des réponses possibles, le système doit sélectionner une réponse appropriée à fournir à l’utilisateur. Une approche d’apprentissage par renforcement basée sur un modèle appelée "Bottleneck Simulator" est proposée pour sélectionner le candidat approprié pour la réponse. Le "Bottleneck Simulator" apprend un modèle approximatif de l’environnement en se basant sur les trajectoires de dialogue observées et le "crowdsourcing", tout en utilisant un état abstrait représentant la sémantique du discours. Le modèle d’environnement est ensuite utilisé pour apprendre une stratégie d’apprentissage du renforcement par le biais de simulations. La stratégie apprise a été évaluée et comparée à des approches concurrentes via des tests A / B avec des utilisateurs réel, où elle démontre d’excellente performance. / This thesis presents a series of steps taken towards investigating representation learning (e.g. deep learning) for building dialogue systems and conversational agents. The thesis is split into two general parts. The first part of the thesis investigates representation learning for generative dialogue models. Conditioned on a sequence of turns from a text-based dialogue, these models are tasked with generating the next, appropriate response in the dialogue. This part of the thesis focuses on sequence-to-sequence models, a class of generative deep neural networks. First, we propose the Hierarchical Recurrent Encoder-Decoder model, which is an extension of the vanilla sequence-to sequence model incorporating the turn-taking structure of dialogues. Second, we propose the Multiresolution Recurrent Neural Network model, which is a stacked sequence-to-sequence model with an intermediate, stochastic representation (a "coarse representation") capturing the abstract semantic content communicated between the dialogue speakers. Third, we propose the Latent Variable Recurrent Encoder-Decoder model, which is a variant of the Hierarchical Recurrent Encoder-Decoder model with latent, stochastic normally-distributed variables. The latent, stochastic variables are intended for modelling the ambiguity and uncertainty occurring naturally in human language communication. The three models are evaluated and compared on two dialogue response generation tasks: a Twitter response generation task and the Ubuntu technical response generation task. The second part of the thesis investigates representation learning for a real-world reinforcement learning dialogue system. Specifically, this part focuses on the Milabot system built by the Quebec Artificial Intelligence Institute (Mila) for the Amazon Alexa Prize 2017 competition. Milabot is a system capable of conversing with humans on popular small talk topics through both speech and text. The system consists of an ensemble of natural language retrieval and generation models, including template-based models, bag-of-words models, and variants of the models discussed in the first part of the thesis. This part of the thesis focuses on the response selection task. Given a sequence of turns from a dialogue and a set of candidate responses, the system must select an appropriate response to give the user. A model-based reinforcement learning approach, called the Bottleneck Simulator, is proposed for selecting the appropriate candidate response. The Bottleneck Simulator learns an approximate model of the environment based on observed dialogue trajectories and human crowdsourcing, while utilizing an abstract (bottleneck) state representing high-level discourse semantics. The learned environment model is then employed to learn a reinforcement learning policy through rollout simulations. The learned policy has been evaluated and compared to competing approaches through A/B testing with real-world users, where it was found to yield excellent performance.
268

Contrôle, agentivité et apprentissage par renforcement / Control, agency and reinforcement learning in human decision-making

Théro, Héloïse 26 September 2018 (has links)
Le sentiment d’agentivité est défini comme le sentiment de contrôler nos actions, et à travers elles, les évènements du monde extérieur. Cet ensemble phénoménologique dépend de notre capacité d’apprendre les contingences entre nos actions et leurs résultats, et un algorithme classique pour modéliser cela vient du domaine de l’apprentissage par renforcement. Dans cette thèse, nous avons utilisé l’approche de modélisation cognitive pour étudier l’interaction entre agentivité et apprentissage par renforcement. Tout d’abord, les participants réalisant une tâche d’apprentissage par renforcement tendent à avoir plus d’agentivité. Cet effet est logique, étant donné que l’apprentissage par renforcement consiste à associer une action volontaire et sa conséquence. Mais nous avons aussi découvert que l’agentivité influence l’apprentissage de deux manières. Le mode par défaut pour apprendre des contingences action-conséquence est que nos actions ont toujours un pouvoir causal. De plus, simplement choisir une action change l’apprentissage de sa conséquence. En conclusion, l’agentivité et l’apprentissage par renforcement, deux piliers de la psychologie humaine, sont fortement liés. Contrairement à des ordinateurs, les humains veulent être en contrôle, et faire les bons choix, ce qui biaise notre aquisition d’information. / Sense of agency or subjective control can be defined by the feeling that we control our actions, and through them effects in the outside world. This cluster of experiences depend on the ability to learn action-outcome contingencies and a more classical algorithm to model this originates in the field of human reinforcementlearning. In this PhD thesis, we used the cognitive modeling approach to investigate further the interaction between perceived control and reinforcement learning. First, we saw that participants undergoing a reinforcement-learning task experienced higher agency; this influence of reinforcement learning on agency comes as no surprise, because reinforcement learning relies on linking a voluntary action and its outcome. But our results also suggest that agency influences reinforcement learning in two ways. We found that people learn actionoutcome contingencies based on a default assumption: their actions make a difference to the world. Finally, we also found that the mere fact of choosing freely shapes the learning processes following that decision. Our general conclusion is that agency and reinforcement learning, two fundamental fields of human psychology, are deeply intertwined. Contrary to machines, humans do care about being in control, or about making the right choice, and this results in integrating information in a one-sided way.
269

A homeostatic reinforcement learning theory, and its implications in cocaine addiction / Une théorie de l'apprentissage associative-homéostatique, et ses implications pour la dépendance à la cocaïne

Keramati, Mohammadmahdi 17 October 2013 (has links)
Cette thèse est composée de deux parties. Dans la première partie, nous proposons une théorie pour l'interaction entre l'apprentissage par renforcement et les processus de régulation homéostatique. En fait, la régulation efficace de l'homéostasie interne et la défendre contre les perturbations a besoin des stratégies comportementales complexes pour obtenir des ressources physiologiquement épuisés. À cet égard, il est essentiel que les processus cérébraux de régulation homéostatique et les processus d'apprentissage associatifs travaillent de concert. Nous proposons une théorie computationnelle normative pour régulation homéostatique par l'apprentissage associatif, où la stabilité physiologique et l'acquisition de récompense s'avèrent les mêmes objectifs, réalisables simultanément. En théorie, le cadre résout la question de longue date de la façon dont le comportement manifeste est modulée par l'état interne, et comment les animaux apprennent à agir de manière prédictive pour empêcher des défis homéostasie potentiels (répondre par anticipation). Il fournit en outre une explication normative pour choix intertemporel, aversion au risque, la concurrence entre les systèmes de motivation, et le manque de motivation pour l'injection intraveineuse de produits alimentaires. Neurobiologiquement, la théorie suggère une explication pour le rôle de l'interaction par orexine entre les circuits hypothalamiques et les noyaux dopaminergiques du mésencéphale, comme une interface entre les états internes et les comportements motivés. Dans la deuxième partie de la thèse, nous utilisons le modèle présenté dans la première partie, comme base du développement d'une théorie de la dépendance à la cocaïne. Nous soutenons que la dépendance à la cocaïne provient du système de régulation homéostatique être détourné par les effets pharmacologiques de la cocaïne sur le cerveau. Nous démontrons que le modèle réussit à expliquer une variété des aspects comportementaux et neurobiologiques de la dépendance à la cocaïne , à savoir la grandissant de l’administration de cocaine sous les conditions de long accès a cocaïne, fonction dose-réponse pour la cocaïne , rechute à l'addiction à la cocaïne provoquée par amorçage, et l'interaction entre la disponibilité du récepteur de la dopamine D2 et dépendance à la cocaïne. / This thesis is composed of two parts. In the first part, we propose a theory for interaction between reinforcement learning and homeostatic regulation processes. In fact, efficient regulation of internal homeostasis and defending it against perturbations requires complex behavioral strategies to obtain physiologically-depleted resources. In this respect, it is essential that brains homeostatic regulation and associative learning processes work in concert. We propose a normative computational theory for homeostatically-regulated reinforcement learning (HRL), where physiological stability and reward acquisition prove to be identical objectives achievable simultaneously. Theoretically, the framework resolves the long-standing question of how overt behavior is modulated by internal state, and how animals learn to predictively act to preclude prospective homeostatic challenges (anticipatory responding). It further provides a normative explanation for temporal discounting of reward, and accounts for risk-aversive behavior, competition between motivational systems, taste-induced overeating, and lack of motivation for intravenous injection of food. Neurobiologically, the theory suggests a computational explanation for the role of orexin-based interaction between the hypothalamic circuitry and the midbrain dopaminergic nuclei, as an interface between internal states and motivated behaviors. In the second part of the thesis, we use the HRL model presented in the first part, as the cornerstone for developing an Allostatic Reinforcement Learning (ARL) theory of cocaine addiction. We argue that cocaine addiction arises from the HRL system being hijacked by the pharmacological effects of cocaine on the brain. We demonstrate that the model can successfully capture a wide range of behavioral and neurobiological aspects of cocaine addiction, namely escalation of cocaine self-administration under long- but not short-access conditions, U-shaped dose-response function for cocaine, priming-induced reinstatement of cocaine seeking, and interaction between dopamine D2 receptor availability and cocaine seeking.
270

Deep learning and reinforcement learning methods for grounded goal-oriented dialogue

de Vries, Harm 03 1900 (has links)
Les systèmes de dialogues sont à même de révolutionner l'interaction entre l'homme et la machine. Pour autant, les efforts pour concevoir des agents conversationnels se sont souvent révélés infructueux, et ceux, malgré les dernières avancées en apprentissage profond et par renforcement. Les systèmes de dialogue palissent de devoir opérer sur de nombreux domaines d'application mais pour lesquels aucune mesure d'évaluation claire n'a été définie. Aussi, cette thèse s'attache à étudier les dialogues débouchant sur un objectif clair (goal-oriented dialogue) permettant de guider l'entrainement, et ceci, dans des environnements multimodaux. Plusieurs raisons expliquent ce choix : (i) cela contraint le périmètre de la conversation, (ii) cela introduit une méthode d'évaluation claire, (iii) enfin, l'aspect multimodal enrichie la représentation linguistique en reliant l'apprentissage du langage avec des expériences sensorielles. En particulier, nous avons développé GuessWhat?! (Qu-est-ce donc?!), un jeu imagé coopératif où deux joueurs tentent de retrouver un objet en posant une série de questions. Afin d’apprendre aux agents de répondre aux questions sur les images, nous avons développés une méthode dites de normalisation conditionnée des données (Conditional Batch Nornalization). Ainsi, cette méthode permet d'adapter simplement mais efficacement des noyaux de convolutions visuels en fonction de la question en cours. Enfin, nous avons étudié les tâches de navigation guidée par dialogue, et introduit la tâche Talk the Walk (Raconte-moi le Chemin) à cet effet. Dans ce jeu, deux agents, un touriste et un guide, s'accordent afin d'aider le touriste à traverser une reconstruction virtuelle des rues de New-York et atteindre une position prédéfinie. / While dialogue systems have the potential to fundamentally change human-machine interaction, developing general chatbots with deep learning and reinforce-ment learning techniques has proven difficult. One challenging aspect is that these systems are expected to operate in broad application domains for which there is not a clear measure of evaluation. This thesis investigates goal-oriented dialogue tasks in multi-modal environments because it (i) constrains the scope of the conversa-tion, (ii) comes with a better-defined objective, and (iii) enables enriching language representations by grounding them to perceptual experiences. More specifically, we develop GuessWhat, an image-based guessing game in which two agents cooper-ate to locate an unknown object through asking a sequence of questions. For the subtask of visual question answering, we propose Conditional Batch Normalization layers as a simple but effective conditioning method that adapts the convolutional activations to the specific question at hand. Finally, we investigate the difficulty of dialogue-based navigation by introducing Talk The Walk, a new task where two agents (a “tourist” and a “guide”) collaborate to have the tourist navigate to target locations in the virtual streets of New York City.

Page generated in 0.0776 seconds