Spelling suggestions: "subject:"colicy learning"" "subject:"bpolicy learning""
31 |
美國「失依兒童家庭救助」計畫之研究:政策變遷的觀點范宜芳, Fan, Yi-Fang Unknown Date (has links)
人們依觀念或基本原則的共識所建構之政策,隨著時間的移轉而呈現不同的面貌,這樣的一個政策變遷的過程,究竟是國家主體外的因素扮演重要的角色,國家僅是被動的回應,或者國家本身對於公共政策有相當大的自主性?而且這樣的改變僅是某些政策的調整,抑或是完全改變整個政策的形構?又,這些改變對於原來觀念中的秩序會產生什麼影響?本文嘗試以「政策學習」觀點為基底的「政策變遷」途徑,來解釋這個政策不斷變遷的現象,作為傳統以衝突觀點來詮釋的另一途徑,並建立出分析的架構,據以詳細檢視美國「失依兒童家庭救助」計畫在1935-1996年這段期間各階段為何改變、如何改變,以及改變的層次與幅度,以證實過去政策的經驗與結果會影響未來政策的走向。
本文計分七部分,第一章說明研究主旨,以及本研究所採行相關概念的釐清;第二章則檢視學者們對「政策學習」方面的研究,並建立出政策變遷的學習模式;第三章至第六章是對美國「失依兒童家庭救助」計畫的個案檢視部分,本文將之區分成一九六0年代以前,一九六0至一九八0年代前,一九八0年代,以及一九九0年代「失依兒童家庭救助」計畫的終結與「貧困家庭暫時救助」計畫的制定四個階段作討論,並列表與學習模式的命題作對照;第七章則提出個案檢視後的研究發現,並針對以「學習」觀點詮釋「政策變遷」現象之恰當性作一討論。
檢視美國「失依兒童家庭救助」計畫的歷史演變後,本研究發現,政策典範發生移轉,是問題的結構本質,或原先所認定的問題情境發生了變化所致,這是由社會的演進、經濟的發展,以及人口結構的改變等因素所造成,政策遺產應該只是風向球的作用。在政策變遷的驅動力與政策變遷幅度之間的對應性方面,筆者只能確定,要發生政策典範的移轉,一定要有社會力量與國家力量的結合,但是這兩者力量的結合,未必就一定會發生政策典範的移轉,有可能僅是呈現較低層次的變動。此外,變動的方向以及解決策略上的調整,除了受觀念改變影響外,還受到這個國家對貧窮、對國家的角色,以及對工作德行的看法等因素所影響。最後,本研究認為「政策學習」觀點認為「先前政策執行的經驗會影響到後續政策的修正」(或「政策修正是對先前的政策有意義的回應」)是正確的觀察,至少在本個案中是一再地出現,因此政策的改變未必皆是權力的競逐、衝突的妥協,其也可能是理性、有意識地學習效果是可以肯定的。
|
32 |
Large state spaces and self-supervision in reinforcement learningTouati, Ahmed 08 1900 (has links)
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme approximateur de fonction, l'apprentissage par renforcement profond (Deep RL) nous a permis récemment de nous attaquer à des tâches très complexes et de permettre à des agents artificiels de maîtriser des jeux classiques comme le Go, de jouer à des jeux vidéo à partir de pixels et de résoudre des tâches de contrôle robotique.
Toutefois, un examen plus approfondi de ces remarquables succès empiriques révèle certaines limites fondamentales. Tout d'abord, il a été difficile de combiner les caractéristiques souhaitables des algorithmes RL, telles que l'apprentissage hors politique et en plusieurs étapes, et l'approximation de fonctions, de manière à obtenir des algorithmes stables et efficaces dans de grands espaces d'états. De plus, les algorithmes RL profonds ont tendance à être très inefficaces en raison des stratégies d'exploration-exploitation rudimentaires que ces approches emploient. Enfin, ils nécessitent une énorme quantité de données supervisées et finissent par produire un agent étroit capable de résoudre uniquement la tâche sur laquelle il est entrainé. Dans cette thèse, nous proposons de nouvelles solutions aux problèmes de l'apprentissage hors politique et du dilemme exploration-exploitation dans les grands espaces d'états, ainsi que de l'auto-supervision dans la RL.
En ce qui concerne l'apprentissage hors politique, nous apportons deux contributions. Tout d'abord, pour le problème de l'évaluation des politiques, nous montrons que la combinaison des méthodes populaires d'apprentissage hors politique et à plusieurs étapes avec une paramétrisation linéaire de la fonction de valeur pourrait conduire à une instabilité indésirable, et nous dérivons une variante de ces méthodes dont la convergence est prouvée. Deuxièmement, pour l'optimisation des politiques, nous proposons de stabiliser l'étape d'amélioration des politiques par une régularisation de divergence hors politique qui contraint les distributions stationnaires d'états induites par des politiques consécutives à être proches les unes des autres.
Ensuite, nous étudions l'apprentissage en ligne dans de grands espaces d'états et nous nous concentrons sur deux hypothèses structurelles pour rendre le problème traitable : les environnements lisses et linéaires. Pour les environnements lisses, nous proposons un algorithme en ligne efficace qui apprend activement
un partitionnement adaptatif de l'espace commun en zoomant sur les régions les plus prometteuses et fréquemment visitées. Pour les environnements linéaires, nous étudions un cadre plus réaliste, où l'environnement peut maintenant évoluer dynamiquement et même de façon antagoniste au fil du temps, mais le changement total est toujours limité. Pour traiter ce cadre, nous proposons un algorithme en ligne efficace basé sur l'itération de valeur des moindres carrés pondérés. Il utilise des poids exponentiels pour oublier doucement les données qui sont loin dans le passé, ce qui pousse l'agent à continuer à explorer pour découvrir les changements.
Enfin, au-delà du cadre classique du RL, nous considérons un agent qui interagit avec son environnement sans signal de récompense. Nous proposons d'apprendre une paire de représentations qui mettent en correspondance les paires état-action avec un certain espace latent. Pendant la phase non supervisée, ces représentations sont entraînées en utilisant des interactions sans récompense pour encoder les relations à longue portée entre les états et les actions, via une carte d'occupation prédictive. Au moment du test, lorsqu'une fonction de récompense est révélée, nous montrons que la politique optimale pour cette récompense est directement obtenue à partir de ces représentations, sans aucune planification. Il s'agit d'une étape vers la construction d'agents entièrement contrôlables.
Un thème commun de la thèse est la conception d'algorithmes RL prouvables et généralisables. Dans la première et la deuxième partie, nous traitons de la généralisation dans les grands espaces d'états, soit par approximation de fonctions linéaires, soit par agrégation d'états. Dans la dernière partie, nous nous concentrons sur la généralisation sur les fonctions de récompense et nous proposons un cadre d'apprentissage non-supervisé de représentation qui est capable d'optimiser toutes les fonctions de récompense. / Reinforcement Learning (RL) is an agent-oriented learning paradigm concerned with learning by interacting with an uncertain environment. Combined with deep neural networks as function approximators, deep reinforcement learning (Deep RL) allowed recently to tackle highly complex tasks and enable artificial agents to master classic games like Go, play video games from pixels, and solve robotic control tasks.
However, a closer look at these remarkable empirical successes reveals some fundamental limitations. First, it has been challenging to combine desirable features of RL algorithms, such as off-policy and multi-step learning with function approximation in a way that leads to both stable and efficient algorithms in large state spaces. Moreover, Deep RL algorithms
tend to be very sample inefficient due to the rudimentary exploration-exploitation strategies these approaches employ. Finally, they require an enormous amount of supervised data and end up producing a narrow agent able to solve only the task that it was trained on. In this thesis, we propose novel solutions to the problems of off-policy learning and exploration-exploitation dilemma in large state spaces, as well as self-supervision in RL.
On the topic of off-policy learning, we provide two contributions. First, for the problem of policy evaluation, we show that combining popular off-policy and multi-step learning methods with linear value function parameterization could lead to undesirable instability, and we derive a provably convergent variant of these methods. Second, for policy optimization, we propose to stabilize the policy improvement step through an off-policy divergence regularization that constrains the discounted state-action visitation induced by consecutive policies to be close to one another.
Next, we study online learning in large state spaces and we focus on two structural assumptions to make the problem tractable: smooth and linear environments. For smooth environments, we propose an efficient online algorithm that actively learns an adaptive partitioning of the joint space by zooming in on more promising and frequently visited regions. For linear environments, we study a more realistic setting, where the environment is now allowed to evolve dynamically and even adversarially over time, but the total change is still bounded. To address this setting, we propose an efficient online algorithm based on weighted least squares value iteration. It uses exponential weights to smoothly forget data that are far in the past, which drives the agent to keep exploring to discover changes.
Finally, beyond the classical RL setting, we consider an agent interacting with its environments without a reward signal. We propose to learn a pair of representations that map state-action pairs to some latent space. During the unsupervised phase, these representations are trained using reward-free interactions to encode long-range relationships between states and actions, via a predictive occupancy map. At test time, once a reward function is revealed, we show that the optimal policy for that reward is directly obtained from these representations, with no planning. This is a step towards building fully controllable agents.
A common theme in the thesis is the design of provable RL algorithms that generalize. In the first and the second part, we deal with generalization in large state spaces either by linear function approximation or state aggregation. In the last part, we focus on generalization over reward functions and we propose a task-agnostic representation learning framework that is provably able to solve all reward functions.
|
33 |
Venezuela's Medical Revolution: Can the Cuban Medical Model be Applied in Other Countries?Walker, Christopher 03 December 2013 (has links)
This thesis analyzes the Cuban medical adaptation in Venezuela called Misión Barrio Adentro (MBA) and seeks to answer the question of whether MBA shows promise as a health system that improves medical accessibility for impoverished and marginalized populations. In many cases MBA succeeds by: utilizing a free universal health care system; locating health centres in previously underserved areas; providing medical education scholarships to populations from non-traditional backgrounds; creating a catchment system based on medical accessibility; scaling up the medical workforce to 60,000 community doctors by 2019; and broadening the very praxis of what health means in a Latin American social medicine approach. However, some challenges remain including issues of corruption, fragmentation, and polarization. Issues regarding internal and external migration of Misión Sucre-trained physicians remain to be comprehensively evaluated. However, the capacitation of non-traditional medical personnel, imbued with conciencia, is significant and could well become an important example for other countries.
|
Page generated in 0.0677 seconds