Spelling suggestions: "subject:"apprentissage para enforcement"" "subject:"dapprentissage para enforcement""
161 |
Large state spaces and self-supervision in reinforcement learningTouati, Ahmed 08 1900 (has links)
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme approximateur de fonction, l'apprentissage par renforcement profond (Deep RL) nous a permis récemment de nous attaquer à des tâches très complexes et de permettre à des agents artificiels de maîtriser des jeux classiques comme le Go, de jouer à des jeux vidéo à partir de pixels et de résoudre des tâches de contrôle robotique.
Toutefois, un examen plus approfondi de ces remarquables succès empiriques révèle certaines limites fondamentales. Tout d'abord, il a été difficile de combiner les caractéristiques souhaitables des algorithmes RL, telles que l'apprentissage hors politique et en plusieurs étapes, et l'approximation de fonctions, de manière à obtenir des algorithmes stables et efficaces dans de grands espaces d'états. De plus, les algorithmes RL profonds ont tendance à être très inefficaces en raison des stratégies d'exploration-exploitation rudimentaires que ces approches emploient. Enfin, ils nécessitent une énorme quantité de données supervisées et finissent par produire un agent étroit capable de résoudre uniquement la tâche sur laquelle il est entrainé. Dans cette thèse, nous proposons de nouvelles solutions aux problèmes de l'apprentissage hors politique et du dilemme exploration-exploitation dans les grands espaces d'états, ainsi que de l'auto-supervision dans la RL.
En ce qui concerne l'apprentissage hors politique, nous apportons deux contributions. Tout d'abord, pour le problème de l'évaluation des politiques, nous montrons que la combinaison des méthodes populaires d'apprentissage hors politique et à plusieurs étapes avec une paramétrisation linéaire de la fonction de valeur pourrait conduire à une instabilité indésirable, et nous dérivons une variante de ces méthodes dont la convergence est prouvée. Deuxièmement, pour l'optimisation des politiques, nous proposons de stabiliser l'étape d'amélioration des politiques par une régularisation de divergence hors politique qui contraint les distributions stationnaires d'états induites par des politiques consécutives à être proches les unes des autres.
Ensuite, nous étudions l'apprentissage en ligne dans de grands espaces d'états et nous nous concentrons sur deux hypothèses structurelles pour rendre le problème traitable : les environnements lisses et linéaires. Pour les environnements lisses, nous proposons un algorithme en ligne efficace qui apprend activement
un partitionnement adaptatif de l'espace commun en zoomant sur les régions les plus prometteuses et fréquemment visitées. Pour les environnements linéaires, nous étudions un cadre plus réaliste, où l'environnement peut maintenant évoluer dynamiquement et même de façon antagoniste au fil du temps, mais le changement total est toujours limité. Pour traiter ce cadre, nous proposons un algorithme en ligne efficace basé sur l'itération de valeur des moindres carrés pondérés. Il utilise des poids exponentiels pour oublier doucement les données qui sont loin dans le passé, ce qui pousse l'agent à continuer à explorer pour découvrir les changements.
Enfin, au-delà du cadre classique du RL, nous considérons un agent qui interagit avec son environnement sans signal de récompense. Nous proposons d'apprendre une paire de représentations qui mettent en correspondance les paires état-action avec un certain espace latent. Pendant la phase non supervisée, ces représentations sont entraînées en utilisant des interactions sans récompense pour encoder les relations à longue portée entre les états et les actions, via une carte d'occupation prédictive. Au moment du test, lorsqu'une fonction de récompense est révélée, nous montrons que la politique optimale pour cette récompense est directement obtenue à partir de ces représentations, sans aucune planification. Il s'agit d'une étape vers la construction d'agents entièrement contrôlables.
Un thème commun de la thèse est la conception d'algorithmes RL prouvables et généralisables. Dans la première et la deuxième partie, nous traitons de la généralisation dans les grands espaces d'états, soit par approximation de fonctions linéaires, soit par agrégation d'états. Dans la dernière partie, nous nous concentrons sur la généralisation sur les fonctions de récompense et nous proposons un cadre d'apprentissage non-supervisé de représentation qui est capable d'optimiser toutes les fonctions de récompense. / Reinforcement Learning (RL) is an agent-oriented learning paradigm concerned with learning by interacting with an uncertain environment. Combined with deep neural networks as function approximators, deep reinforcement learning (Deep RL) allowed recently to tackle highly complex tasks and enable artificial agents to master classic games like Go, play video games from pixels, and solve robotic control tasks.
However, a closer look at these remarkable empirical successes reveals some fundamental limitations. First, it has been challenging to combine desirable features of RL algorithms, such as off-policy and multi-step learning with function approximation in a way that leads to both stable and efficient algorithms in large state spaces. Moreover, Deep RL algorithms
tend to be very sample inefficient due to the rudimentary exploration-exploitation strategies these approaches employ. Finally, they require an enormous amount of supervised data and end up producing a narrow agent able to solve only the task that it was trained on. In this thesis, we propose novel solutions to the problems of off-policy learning and exploration-exploitation dilemma in large state spaces, as well as self-supervision in RL.
On the topic of off-policy learning, we provide two contributions. First, for the problem of policy evaluation, we show that combining popular off-policy and multi-step learning methods with linear value function parameterization could lead to undesirable instability, and we derive a provably convergent variant of these methods. Second, for policy optimization, we propose to stabilize the policy improvement step through an off-policy divergence regularization that constrains the discounted state-action visitation induced by consecutive policies to be close to one another.
Next, we study online learning in large state spaces and we focus on two structural assumptions to make the problem tractable: smooth and linear environments. For smooth environments, we propose an efficient online algorithm that actively learns an adaptive partitioning of the joint space by zooming in on more promising and frequently visited regions. For linear environments, we study a more realistic setting, where the environment is now allowed to evolve dynamically and even adversarially over time, but the total change is still bounded. To address this setting, we propose an efficient online algorithm based on weighted least squares value iteration. It uses exponential weights to smoothly forget data that are far in the past, which drives the agent to keep exploring to discover changes.
Finally, beyond the classical RL setting, we consider an agent interacting with its environments without a reward signal. We propose to learn a pair of representations that map state-action pairs to some latent space. During the unsupervised phase, these representations are trained using reward-free interactions to encode long-range relationships between states and actions, via a predictive occupancy map. At test time, once a reward function is revealed, we show that the optimal policy for that reward is directly obtained from these representations, with no planning. This is a step towards building fully controllable agents.
A common theme in the thesis is the design of provable RL algorithms that generalize. In the first and the second part, we deal with generalization in large state spaces either by linear function approximation or state aggregation. In the last part, we focus on generalization over reward functions and we propose a task-agnostic representation learning framework that is provably able to solve all reward functions.
|
162 |
Virtual reality therapy for Alzheimer’s disease with speech instruction and real-time neurofeedback systemAi, Yan 05 1900 (has links)
La maladie d'Alzheimer (MA) est une maladie cérébrale dégénérative qui entraîne une perte progressive de la mémoire, un déclin cognitif et une détérioration graduelle de la capacité d'une personne à faire face à la complexité et à l'exigence des tâches quotidiennes nécessaires pour vivre en autonomie dans notre société actuelle. Les traitements pharmacologiques actuels peuvent ralentir le processus de dégradation attribué à la maladie, mais ces traitements peuvent également provoquer certains effets secondaires indésirables. L'un des traitements non pharmacologiques qui peut soulager efficacement les symptômes est la thérapie assistée par l'animal (T.A.A.). Mais en raison de certaines limitations telles que le prix des animaux et des problèmes d'hygiène, des animaux virtuels sont utilisés dans ce domaine. Cependant, les animaux virtuels animés, la qualité d'image approximative et le mode d'interaction unidirectionnel des animaux qui attendent passivement les instructions de l’utilisateur, peuvent difficilement stimuler le retour émotionnel entre l'utilisateur et les animaux virtuels, ce qui affaiblit considérablement l'effet thérapeutique.
Cette étude vise à explorer l'efficacité de l'utilisation d'animaux virtuels à la place d’animaux vivants et leur impact sur la réduction des émotions négatives chez le patient. Cet objectif a été gardé à l'esprit lors de la conception du projet Zoo Therapy, qui présente un environnement immersif d'animaux virtuels en 3D, où l'impact sur l'émotion du patient est mesuré en temps réel par électroencéphalographie (EEG). Les objets statiques et les animaux virtuels de Zoo Therapy sont tous présentés à l'aide de modèles 3D réels. Les mouvements des animaux, les sons et les systèmes de repérage spécialement développés prennent en charge le comportement interactif simulé des animaux virtuels. De plus, pour que l'expérience d'interaction de l'utilisateur soit plus réelle, Zoo Therapy propose un mécanisme de communication novateur qui met en œuvre une interaction bidirectionnelle homme-machine soutenue par 3 méthodes d'interaction : le menu sur les panneaux, les instructions vocales et le Neurofeedback.
La manière la plus directe d'interagir avec l'environnement de réalité virtuelle (RV) est le menu sur les panneaux, c'est-à-dire une interaction en cliquant sur les boutons des panneaux par le contrôleur de RV. Cependant, il était difficile pour certains utilisateurs ayant la MA d'utiliser le contrôleur de RV. Pour accommoder ceux qui ne sont pas bien adaptés ou compatibles avec le contrôleur de RV, un système d'instructions vocales peut être utilisé comme interface. Ce système a été reçu positivement par les 5 participants qui l'ont essayé.
Même si l'utilisateur choisit de ne pas interagir activement avec l'animal virtuel dans les deux méthodes ci-dessus, le système de Neurofeedback guidera l'animal pour qu'il interagisse activement avec l'utilisateur en fonction des émotions de ce dernier.
Le système de Neurofeedback classique utilise un système de règles pour donner des instructions. Les limites de cette méthode sont la rigidité et l'impossibilité de prendre en compte la relation entre les différentes émotions du participant. Pour résoudre ces problèmes, ce mémoire présente une méthode basée sur l'apprentissage par renforcement (AR) qui donne des instructions à différentes personnes en fonction des différentes émotions. Dans l'expérience de simulation des données émotionnelles synthétiques de la MD, la méthode basée sur l’AR est plus sensible aux changements émotionnels que la méthode basée sur les règles et peut apprendre automatiquement des règles potentielles pour maximiser les émotions positives de l'utilisateur.
En raison de l'épidémie de Covid-19, nous n'avons pas été en mesure de mener des expériences à grande échelle. Cependant, un projet de suivi a combiné la thérapie de RV Zoo avec la reconnaissance des gestes et a prouvé son efficacité en évaluant les valeurs d'émotion EEG des participants. / Alzheimer’s disease (AD) is a degenerative brain disease that causes progressive memory loss, cognitive decline, and gradually impairs one’s ability to cope with the complexity and requirement of the daily routine tasks necessary to live in autonomy in our current society. Actual pharmacological treatments can slow down the degradation process attributed to the disease, but such treatments may also cause some undesirable side effects. One of the non-pharmacological treatments that can effectively relieve symptoms is animal-assisted treatment (AAT). But due to some limitations such as animal cost and hygiene issues, virtual animals are used in this field. However, the animated virtual animals, the rough picture quality presentation, and the one-direction interaction mode of animals passively waiting for the user's instructions can hardly stimulate the emotional feedback background between the user and the virtual animals, which greatly weakens the therapeutic effect.
This study aims to explore the effectiveness of using virtual animals in place of their living counterpart and their impact on the reduction of negative emotions in the patient. This approach has been implemented in the Zoo Therapy project, which presents an immersive 3D virtual reality animal environment, where the impact on the patient’s emotion is measured in real-time by using electroencephalography (EEG). The static objects and virtual animals in Zoo Therapy are all presented using real 3D models. The specially developed animal movements, sounds, and pathfinding systems support the simulated interactive behavior of virtual animals. In addition, for the user's interaction experience to be more real, the innovation of this approach is also in its communication mechanism as it implements a bidirectional human-computer interaction supported by 3 interaction methods: Menu panel, Speech instruction, and Neurofeedback.
The most straightforward way to interact with the VR environment is through Menu panel, i.e., interaction by clicking buttons on panels by the VR controller. However, it was difficult for some AD users to use the VR controller. To accommodate those who are not well suited or compatible with VR controllers, a speech instruction system can be used as an interface, which was received positively by the 5 participants who tried it.
Even if the user chooses not to actively interact with the virtual animal in the above two methods, the Neurofeedback system will guide the animal to actively interact with the user according to the user's emotions.
The mainstream Neurofeedback system has been using artificial rules to give instructions. The limitation of this method is inflexibility and cannot take into account the relationship between the various emotions of the participant. To solve these problems, this thesis presents a reinforcement learning (RL)-based method that gives instructions to different people based on multiple emotions accordingly. In the synthetic AD emotional data simulation experiment, the RL-based method is more sensitive to emotional changes than the rule-based method and can automatically learn potential rules to maximize the user's positive emotions.
Due to the Covid-19 epidemic, we were unable to conduct large-scale experiments. However, a follow-up project combined VR Zoo Therapy with gesture recognition and proved the effectiveness by evaluating participant's EEG emotion values.
|
163 |
Accelerated algorithms for temporal difference learning methodsRankawat, Anushree 12 1900 (has links)
L'idée centrale de cette thèse est de comprendre la notion d'accélération dans les algorithmes d'approximation stochastique. Plus précisément, nous tentons de répondre à la question suivante : Comment l'accélération apparaît-elle naturellement dans les algorithmes d'approximation stochastique ? Nous adoptons une approche de systèmes dynamiques et proposons de nouvelles méthodes accélérées pour l'apprentissage par différence temporelle (TD) avec approximation de fonction linéaire : Polyak TD(0) et Nesterov TD(0).
Contrairement aux travaux antérieurs, nos méthodes ne reposent pas sur une conception des méthodes de TD comme des méthodes de descente de gradient. Nous étudions l'interaction entre l'accélération, la stabilité et la convergence des méthodes accélérées proposées en temps continu. Pour établir la convergence du système dynamique sous-jacent, nous analysons les modèles en temps continu des méthodes d'approximation stochastique accélérées proposées en dérivant la loi de conservation dans un système de coordonnées dilaté. Nous montrons que le système dynamique sous-jacent des algorithmes proposés converge à un rythme accéléré. Ce cadre nous fournit également des recommandations pour le choix des paramètres d'amortissement afin d'obtenir ce comportement convergent. Enfin, nous discrétisons ces ODE convergentes en utilisant deux schémas de discrétisation différents, Euler explicite et Euler symplectique, et nous analysons leurs performances sur de petites tâches de prédiction linéaire. / The central idea of this thesis is to understand the notion of acceleration in stochastic approximation algorithms. Specifically, we attempt to answer the question: How does acceleration naturally show up in SA algorithms? We adopt a dynamical systems approach and propose new accelerated methods for temporal difference (TD) learning with linear function approximation: Polyak TD(0) and Nesterov TD(0).
In contrast to earlier works, our methods do not rely on viewing TD methods as gradient descent methods. We study the interplay between acceleration, stability, and convergence of the proposed accelerated methods in continuous time. To establish the convergence of the underlying dynamical system, we analyze continuous-time models of the proposed accelerated stochastic approximation methods by deriving the conservation law in a dilated coordinate system. We show that the underlying dynamical system of our proposed algorithms converges at an accelerated rate. This framework also provides us recommendations for the choice of the damping parameters to obtain this convergent behavior. Finally, we discretize these convergent ODEs using two different discretization schemes, explicit Euler, and symplectic Euler, and analyze their performance on small, linear prediction tasks.
|
164 |
Apprentissage de stratégies de calcul adaptatives pour les réseaux neuronaux profondsKamanda, Aton 07 1900 (has links)
La théorie du processus dual stipule que la cognition humaine fonctionne selon deux modes distincts : l’un pour le traitement rapide, habituel et associatif, appelé communément "système 1" et le second, ayant un traitement plus lent, délibéré et contrôlé, que l’on nomme "système 2". Cette distinction indique une caractéristique sous-jacente importante de la cognition humaine : la possibilité de passer de manière adaptative à différentes stratégies de calcul selon la situation. Cette capacité est étudiée depuis longtemps dans différents domaines et de nombreux bénéfices hypothétiques semblent y être liés. Cependant, les réseaux neuronaux profonds sont souvent construits sans cette capacité à gérer leurs ressources calculatoires de manière optimale. Cette limitation des modèles actuels est d’autant plus préoccupante que de plus en plus de travaux récents semblent montrer une relation linéaire entre la capacité de calcul utilisé et les performances du modèle lors de la phase d’évaluation. Pour résoudre ce problème, ce mémoire propose différentes approches et étudie leurs impacts sur les modèles, tout d’abord, nous étudions un agent d’apprentissage par renforcement profond qui est capable d’allouer plus de calcul aux situations plus difficiles. Notre approche permet à l’agent d’adapter ses ressources computationnelles en fonction des exigences de la situation dans laquelle il se trouve, ce qui permet en plus d’améliorer le temps de calcul, améliore le transfert entre des tâches connexes et la capacité de généralisation. L’idée centrale commune à toutes nos approches est basée sur les théories du coût de l’effort venant de la littérature sur le contrôle cognitif qui stipule qu’en rendant l’utilisation de ressource cognitive couteuse pour l’agent et en lui laissant la possibilité de les allouer lors de ses décisions il va lui-même apprendre à déployer sa capacité de calcul de façon optimale. Ensuite, nous étudions des variations de la méthode sur une tâche référence d’apprentissage profond afin d’analyser précisément le comportement du modèle et quels sont précisément les bénéfices d’adopter une telle approche. Nous créons aussi notre propre tâche "Stroop MNIST" inspiré par le test de Stroop utilisé en psychologie afin de valider certaines hypothèses sur le comportement des réseaux neuronaux employant notre méthode. Nous finissons par mettre en lumière les liens forts qui existent entre apprentissage dual et les méthodes de distillation des connaissances. Notre approche a la particularité d’économiser des ressources computationnelles lors de la phase d’inférence. Enfin, dans la partie finale, nous concluons en mettant en lumière les contributions du mémoire, nous détaillons aussi des travaux futurs, nous approchons le problème avec les modèles basés sur l’énergie, en apprenant un paysage d’énergie lors de l’entrainement, le modèle peut ensuite lors de l’inférence employer une capacité de calcul dépendant de la difficulté de l’exemple auquel il fait face plutôt qu’une simple propagation avant fixe ayant systématiquement le même coût calculatoire. Bien qu’ayant eu des résultats expérimentaux infructueux, nous analysons les promesses que peuvent tenir une telle approche et nous émettons des hypothèses sur les améliorations potentielles à effectuer. Nous espérons, avec nos contributions, ouvrir la voie vers des algorithmes faisant un meilleur usage de leurs ressources computationnelles et devenant par conséquent plus efficace en termes de coût et de performance, ainsi que permettre une compréhension plus intime des liens qui existent entre certaines méthodes en apprentissage machine et la théorie du processus dual. / The dual-process theory states that human cognition operates in two distinct modes: one for rapid, habitual and associative processing, commonly referred to as "system 1", and the second, with slower, deliberate and controlled processing, which we call "system 2". This distinction points to an important underlying feature of human cognition: the ability to switch adaptively to different computational strategies depending on the situation. This ability has long been studied in various fields, and many hypothetical benefits seem to be linked to it. However, deep neural networks are often built without this ability to optimally manage their computational resources. This limitation of current models is all the more worrying as more and more recent work seems to show a linear relationship between the computational capacity used and model performance during the evaluation phase. To solve this problem, this thesis proposes different approaches and studies their impact on models. First, we study a deep reinforcement learning agent that is able to allocate more computation to more difficult situations. Our approach allows the agent to adapt its computational resources according to the demands of the situation in which it finds itself, which in addition to improving computation time, enhances transfer between related tasks and generalization capacity. The central idea common to all our approaches is based on cost-of-effort theories from the cognitive control literature, which stipulate that by making the use of cognitive resources costly for the agent, and allowing it to allocate them when making decisions, it will itself learn to deploy its computational capacity optimally. We then study variations of the method on a reference deep learning task, to analyze precisely how the model behaves and what the benefits of adopting such an approach are. We also create our own task "Stroop MNIST" inspired by the Stroop test used in psychology to validate certain hypotheses about the behavior of neural networks employing our method. We end by highlighting the strong links between dual learning and knowledge distillation methods. Finally, we approach the problem with energy-based models, by learning an energy landscape during training, the model can then during inference employ a computational capacity dependent on the difficulty of the example it is dealing with rather than a simple fixed forward propagation having systematically the same computational cost. Despite unsuccessful experimental results, we analyze the promise of such an approach and speculate on potential improvements. With our contributions, we hope to pave the way for algorithms that make better use of their computational resources, and thus become more efficient in terms of cost and performance, as well as providing a more intimate understanding of the links that exist between certain machine learning methods and dual process theory.
|
165 |
On choice models in the context of MDPsMohammadpour, Sobhan 10 1900 (has links)
Cette thèse se penche sur les modèles de choix, des distributions sur des ensembles d'alternatives. Les modèles de choix sur les processus décisionnels de Markov (MDP) peuvent décomposer de très grands espaces alternatifs en procédures étape par étape conçues pour non seulement combattre la malédiction de la dimensionnalité mais aussi pour mieux refléter la dynamique sous-jacente.
La première partie est consacrée à l'estimation du temps de trajet dans le cadre de la modélisation du choix de chemin. Les modèles de choix de chemin sont des modèles de choix sur l'ensemble des chemins utilisés pour modéliser le flux de circulation. Intuitivement, le temps de trajet est l'une des caractéristiques les plus importantes lors du choix des chemins, mais les temps de trajet ne sont pas toujours connus. En revanche, le cadre classique suppose que ces deux étapes sont séquentielles, car les temps de trajet des arcs font partie de l'entrée du processus d'estimation du choix de chemin. Pourtant, les interdépendances complexes signifient que ce modèle de choix de chemin peut complémenter toute observation lors de l'estimation des temps de trajet. Nous construisons un modèle statistique pour l'estimation du temps de trajet et proposons de marginaliser les caractéristiques non observées. En utilisant ces idées, nous montrons que nous sommes capables d'apprendre des modèles de choix de chemin sans observer de chemins réels et à différentes granularités.
La deuxième partie se concentre sur les échecs des MDP régularisés et comment la régularisation peut avoir des effets secondaires inattendus, tels que la divergence dans les chemins stochastiques les plus courts ou des fonctions de valeur déraisonnablement grandes. Les MDP régularisés ne sont rien d'autre qu'une application des modèles de choix aux MDP. Ils sont utilisés dans l'apprentissage par renforcement (RL) pour obtenir, entre autres choses, un modèle de choix sur les trajectoires possibles pour l'apprentissage par renforcement inverse, transférer des connaissances préalables au modèle, ou obtenir des politiques qui exploitent tous les objectifs dans l'environnement. Ces effets secondaires sont exacerbés dans les espaces d'action dépendants de l'état. Comme mesure d'atténuation, nous introduisons deux transformations potentielles, et nous évaluons leur performance sur un problème de conception de médicaments. / This thesis delves on choice models, distributions on sets of alternatives. Choice models on Markov decision processes (MDPs) can break down very large alternative spaces into step-by-step procedures designed to not only tackle the curse of dimensionality but also to reflect the underlying dynamics better.
The first part is devoted to travel time estimation as part of path choice modeling. Path choice models are choice models on the set of paths used to model traffic flow. Intuitively, travel time is one of the more important features when choosing paths, yet travel times are not always known. In contrast, the classical setting assumes that these two steps are sequential, as arc travel times are part of the input of the path choice estimation process. Yet the intricate interdependences mean that that path choice model can complement any observation when estimating travel times. We build a statistical model for travel time estimation and propose marginalizing the unobserved features. Using these ideas, we show that we are able to learn path choice models without observing actual paths and at different granularity.
The second part focuses on the failings of regularized MDPs and how regularization may have unexpected side effects, such as divergence in stochastic shortest paths or unreasonably large value functions. Regularized MDPs are nothing but an application of choice models to MDPs. They are used in reinforcement learning (RL) to get, among other things, a choice model on possible trajectories for inverse reinforcement learning, transfer prior knowledge to the model, or to get policies that exploit all goals in the environment. These side effects are exacerbated in state-dependent action spaces. As a mitigation, we introduce two potential transformations, and we benchmark their performance on a drug design problem.
|
166 |
Metaheuristics for vehicle routing problems : new methods and performance analysisGuillen Reyes, Fernando Obed 02 1900 (has links)
Cette thèse s’intéresse au problème classique de tournées de véhicules avec contraintes
de capacité (CVRP pour Capacitated Vehicle Routing Problem) ainsi qu’une variante
beaucoup plus complexe, soit le problème de tournées de véhicules dépendant du temps
avec fenêtres de temps et points de transfert défini sur un réseau routier (TDVRPTWTP-RN
pour Time-Dependent Vehicle Routing Problem with Time Windows and Transfer Points
on a Road Network). Dans le premier article, le TDVRPTWTP-RN est résolu en adaptant
une métaheuristique qui représente l’état de l’art pour le CVRP, appelé Slack Induction
for String Removals (SISR). Cette métaheuristique fait appel au principe “détruire et
reconstruire” en retirant des séquences de clients consécutifs dans les routes de la solution
courante et en réinsérant ensuite ces clients de façon à créer une nouvelle solution. Le
problème est défini sur un réseau routier où différents chemins alternatifs peuvent être
utilisés pour se déplacer d’un client à l’autre. De plus, le temps de parcours sur chacun des
arcs du réseau n’est pas fixe, mais dépend du moment où le véhicule quitte le sommet origine.
S’inspirant de problèmes rencontrés en logistique urbaine, nous considérons également deux
types de véhicules, de petite et grande capacité, où les grands véhicules sont interdits de
passage au centre-ville. Ainsi, les clients du centre-ville ne peuvent être servis que suite
au transfert de leur demande d’un grand à un petit véhicule à un point de transfert.
Comme un point de transfert n’a pas de capacité, une problématique de synchronisation
apparaît quand un grand véhicule doit y rencontrer un ou plusieurs petits véhicules pour
leur transférer une partie de son contenu. Contrairement aux problèmes stricts de tournées
de véhicules à deux échelons, les grands véhicules peuvent aussi servir des clients localisés
à l’extérieur du centre-ville. Comme le problème abordé est beaucoup plus complexe que
le CVRP, des modifications importantes ont dû être apportées à la métaheuristique SISR
originale. Pour évaluer la performance de notre algorithme, un ensemble d’instances tests
a été généré à partir d’instances existantes pour le TDVRPTW-RN. Les réseaux omt été
divisés en trois régions : centre-ville, frontière et extérieur. Le centre-ville et l’extérieur
sont respectivemnt les royaumes des petits et grands véhicules, tandis que la frontière (où
l’on retrouve les points de transfert) peut être visité par les deux types de véhicules. Les
résultats numériques montrent que la métaheuristique proposée exploite les opportunités
d’optimiser une solution en déplaçant autant que possible les clients neutres, soit ceux qui
peuvent être servis indifféremment par un petit ou un grand véhicule, des routes des petits
véhicules vers les routes des grands véhicules, réduisant ainsi les coûteuses visites aux points
de transfert.
Les deuxième et troisième article s’intéressent à des concepts plus fondamentaux et
font appel au problème plus simple du CVRP pour les évaluer. Dans le second article, un
étude expérimentale est conçue afin d’examiner l’impact de données (distances) imprécises
sur la performance de différents types d’heuristiques, ainsi qu’une méthode exacte, pour le
CVRP. À cette fin, différents niveaux d’imprécision ont été introduits dans des instances
tests classiques pour le CVRP avec 100 à 1 000 clients. Nous avons observé que les
meilleures métaheuristiques demeurent les meilleures, même en présence de hauts niveaux
d’imprécision, et qu’elles ne sont pas affectées autant par les imprécisions qu’une heuristique
simple. Des expériences avec des instances réelles ont mené aux mêmes conclusions.
Le troisième article s’intéresse à l’intégration de l’apprentissage automatique dans
la métaheuristique SISR qui représente l’état de l’art pour le CVRP. Dans ce travail,
le principe “détruire et reconstruire” au coeur de SISR est hybridé avec une méthode
d’apprentissage par renforcement qui s’inspire des systèmes de colonies de fourmis. L’ap-
prentissage automatique a pour but d’identifier les arêtes les plus intéressantes, soit celles
qui se retrouvent le plus fréquemment dans les solutions de grande qualité précédemment
rencontrées au cours de la recherche. L’inclusion de telles arêtes est alors favorisé lors de la
réinsertion des clients ayant été retirés de la solution par le mécanisme de destruction. Les
instances utilisées pour tester notre approche hybride sont les mêmes que celles du second
article. Nous avons observé que notre algorithme ne peut produire que des solutions lé-
gèrement meilleures que la métaheuristique SISR originale, celle-ci étant déjà quasi-optimale. / This thesis is concerned both with the classical Capacitated Vehicle Routing Problem
(CVRP) and a much more complex variant called the Time-Dependent Vehicle Routing
Problem with Time Windows and Transfer Points on a Road Network (TDVRPTWTP-RN ).
In the first paper, the TDVRPTWTP RN is solved by adapting a state-of-the-art metaheuris-
tic for the CVRP, called Slack Induction for String Removals (SISR). This metaheuristic
is based on the ruin and recreate principle and removes strings of consecutive customers
in the routes of the current solution and then reinserts the removed customers to create a
new solution. The problem is formulated in a full road network where different alternative
paths can be used to go from one customer to the next. Also, the travel time on each arc
of the road network is not fixed, but depends on the departure time from the origin node.
Motivated from city logistics applications, we also consider two types of vehicles, large
and small, with large vehicles being forbidden from the downtown area. Thus, downtown
customers can only be served through a transfer of their goods from large to small vehicles
at designated transfer points. Since transfer points have no capacity, synchronization issues
arise when a large vehicle must meet one or more small vehicles to transfer goods. As
opposed to strict two-echelon VRPs, large vehicles can also directly serve customers that
are outside of the downtown area. Given that the TDVRPTWTP-RN is much more complex
than the CVRP, important modifications to the original SISR metaheuristic were required.
To evaluate the performance of our algorithm, we generated a set of test instances by
extending existing instances of the TDVRPTW-RN . The road networks are divided into
three regions: downtown, boundary and outside. The downtown and outside areas are
the realm of small and large vehicles, respectively, while the boundary area that contains
the transfer points can be visited by both small and large vehicles. The results show
that the proposed metaheuristic exploits optimization opportunities by moving as much as
possible neutral customers (which can be served by either small or large vehicles) from the
routes of small vehicles to those of large vehicles, thus avoiding costly visits to transfer points.
The second and third papers examine more fundamental issues, using the classical
CVRP as a testbed. In the second paper, an experimental study is designed to examine the
impact of inaccurate data (distances) on the performance of different types of heuristics,
as well as one exact method, for the CVRP. For this purpose, different levels of distance
inaccuracies were introduced into well-known benchmark instances for the CVRP with 100
to 1,000 customers. We observed that the best state-of-the-art metaheuristics remain the
best, even in the presence of high inaccuracy levels, and that they are not as much affected
by inaccuracies when compared to a simple heuristic. Some experiments performed on
real-world instances led to the same conclusions.
The third paper focuses on the integration of learning into the state-of-the-art SISR for
the CVRP. In this work, the ruin and recreate mechanism at the core of SISR is enhanced
by a reinforcement learning technique inspired from ant colony systems. The learning
component is aimed at identifying promising edges, namely those that are often found in
previously encountered high-quality solutions. The inclusion of these promising edges is
then favored during the reinsertion of removed customers. The benchmark instances of
the second paper were also used here to test the new hybrid algorithm. We observed that
the latter can produce only slightly better solutions than the original SISR, due to the
quasi-optimality of the original solutions.
|
167 |
Parameter, experience, and compute efficient deep reinforcement learningNikishin, Evgenii 08 1900 (has links)
Cette thèse présente trois contributions qui améliorent des axes distincts de l’efficacité des algorithmes d’apprentissage par renforcement profond (RL).
Notre première contribution commence par la prémisse selon laquelle les algorithmes RL basés sur un modèle standard minimisent généralement l’erreur de prédiction de l’état suivant pour la formation d’un modèle mondial. Bien qu’il s’agisse d’une approche naturelle, cette erreur pénalise également les erreurs de prédiction des composants de l’espace d’état qui sont pertinents pour la prise de décision et ceux qui ne le sont pas. Pour surmonter cette limitation, nous proposons une manière alternative d’entraîner un modèle en différenciant directement les rendements attendus, l’objectif qu’un agent cherche finalement à optimiser. Notre algorithme surpasse l’approche standard lorsque la capacité du réseau alimentant le modèle est limitée, conduisant à un agent plus efficace en termes de paramètres.
La deuxième contribution se concentre sur l’efficacité avec laquelle les algorithmes RL profonds utilisent l’expérience. Nous identifions le phénomène de biais de primauté dans le RL profond, une tendance à apprendre excessivement des premières interactions qu’un agent a avec un environnement. Les conséquences négatives de cette tendance se propagent au reste de la formation, altérant la capacité à apprendre efficacement des interactions ultérieures. Comme remède simple au biais de primauté, nous proposons de réinitialiser périodiquement les paramètres réseau de l’agent tout en préservant le tampon d’expériences. L’application de cette technique améliore systématiquement les rendements entre les algorithmes et les domaines.
Enfin, nous apportons une contribution qui améliore l’efficacité informatique de la formation RL approfondie. De nombreux articles antérieurs ont observé que les réseaux neuronaux utilisés dans la RL profonde perdent progressivement leur plasticité et leur capacité à apprendre de nouvelles expériences. Une stratégie immédiate pour atténuer ce problème consiste à utiliser un réseau plus vaste et doté de plus de plasticité au départ ; cependant, cela augmente le coût informatique de la formation. Nous proposons une intervention appelée injection de plasticité qui agrandit progressivement le réseau. Les agents qui partent d’un réseau plus petit et utilisent l’injection de plasticité pendant la formation enregistrent les calculs pendant la formation sans compromettre les retours finaux. / This thesis presents three contributions that improve separate axes of the efficiency of deep reinforcement learning (RL) algorithms.
Our first contribution begins with the premise that standard model-based RL algorithms typically minimize the next state prediction error for training a world model. Despite being a natural approach, this error equally penalizes for mispredictions of the components of the state space that are relevant for decision making and that are not. To overcome the limitation, we propose an alternative way to train a model by directly differentiating expected returns, the objective that an agent ultimately seeks to optimize. Our algorithm outperforms the standard approach when the capacity of the network powering the model is limited, leading to a more parameter efficient agent.
The second contribution focuses on how efficiently deep RL algorithms utilize the experience. We identify the primacy bias phenomenon in deep RL, a tendency to learn excessively from the first interactions an agent has with an environment. The negative consequences of the tendency propagate to the rest of the training, impairing the ability to learn efficiently from subsequent interactions. As a simple remedy to the primacy bias, we propose to periodically re-initialize the agent’s network parameters while preserving the buffer with experiences. Applying this technique consistently improves the returns across algorithms and domains.
Lastly, we make a contribution that improves the computational efficiency of deep RL training. Numerous prior papers observed that neural networks employed in deep RL gradually lose plasticity, the ability to learn from new experiences. An immediate strategy for mitigating this issue is to employ a larger network that has more plasticity to begin with; however, it increases the computational cost of training. We propose an intervention called plasticity injection that gradually grows the network. Agents that start from a smaller network and use plasticity injection during training save the computations during training without compromising the final returns.
|
168 |
Neural approaches to dialog modelingSankar, Chinnadhurai 08 1900 (has links)
Cette thèse par article se compose de quatre articles qui contribuent au domaine de l’apprentissage profond, en particulier dans la compréhension et l’apprentissage des ap- proches neuronales des systèmes de dialogue. Le premier article fait un pas vers la compréhension si les architectures de dialogue neuronal couramment utilisées capturent efficacement les informations présentes dans l’historique des conversations. Grâce à une série d’expériences de perturbation sur des ensembles de données de dialogue populaires, nous constatons que les architectures de dialogue neuronal couramment utilisées comme les modèles seq2seq récurrents et basés sur des transformateurs sont rarement sensibles à la plupart des perturbations du contexte d’entrée telles que les énoncés manquants ou réorganisés, les mots mélangés, etc.
Le deuxième article propose d’améliorer la qualité de génération de réponse dans les systèmes de dialogue de domaine ouvert en modélisant conjointement les énoncés avec les attributs de dialogue de chaque énoncé. Les attributs de dialogue d’un énoncé se réfèrent à des caractéristiques ou des aspects discrets associés à un énoncé comme les actes de dialogue, le sentiment, l’émotion, l’identité du locuteur, la personnalité du locuteur, etc.
Le troisième article présente un moyen simple et économique de collecter des ensembles de données à grande échelle pour modéliser des systèmes de dialogue orientés tâche. Cette approche évite l’exigence d’un schéma d’annotation d’arguments complexes. La version initiale de l’ensemble de données comprend 13 215 dialogues basés sur des tâches comprenant six domaines et environ 8 000 entités nommées uniques, presque 8 fois plus que l’ensemble de données MultiWOZ populaire. / This thesis by article consists of four articles which contribute to the field of deep learning, specifically in understanding and learning neural approaches to dialog systems. The first article takes a step towards understanding if commonly used neural dialog architectures effectively capture the information present in the conversation history. Through a series of perturbation experiments on popular dialog datasets, wefindthatcommonly used neural dialog architectures like recurrent and transformer-based seq2seq models are rarely sensitive to most input context perturbations such as missing or reordering utterances, shuffling words, etc.
The second article introduces a simple and cost-effective way to collect large scale datasets for modeling task-oriented dialog systems. This approach avoids the requirement of a com-plex argument annotation schema. The initial release of the dataset includes 13,215 task-based dialogs comprising six domains and around 8k unique named entities, almost 8 times more than the popular MultiWOZ dataset.
The third article proposes to improve response generation quality in open domain dialog systems by jointly modeling the utterances with the dialog attributes of each utterance. Dialog attributes of an utterance refer to discrete features or aspects associated with an utterance like dialog-acts, sentiment, emotion, speaker identity, speaker personality, etc.
The final article introduces an embedding-free method to compute word representations on-the-fly. This approach significantly reduces the memory footprint which facilitates de-ployment in on-device (memory constraints) devices. Apart from being independent of the vocabulary size, we find this approach to be inherently resilient to common misspellings.
|
Page generated in 0.1043 seconds