Spelling suggestions: "subject:"différenciation implicit"" "subject:"ifférenciation implicit""
1 |
Parameter, experience, and compute efficient deep reinforcement learningNikishin, Evgenii 08 1900 (has links)
Cette thèse présente trois contributions qui améliorent des axes distincts de l’efficacité des algorithmes d’apprentissage par renforcement profond (RL).
Notre première contribution commence par la prémisse selon laquelle les algorithmes RL basés sur un modèle standard minimisent généralement l’erreur de prédiction de l’état suivant pour la formation d’un modèle mondial. Bien qu’il s’agisse d’une approche naturelle, cette erreur pénalise également les erreurs de prédiction des composants de l’espace d’état qui sont pertinents pour la prise de décision et ceux qui ne le sont pas. Pour surmonter cette limitation, nous proposons une manière alternative d’entraîner un modèle en différenciant directement les rendements attendus, l’objectif qu’un agent cherche finalement à optimiser. Notre algorithme surpasse l’approche standard lorsque la capacité du réseau alimentant le modèle est limitée, conduisant à un agent plus efficace en termes de paramètres.
La deuxième contribution se concentre sur l’efficacité avec laquelle les algorithmes RL profonds utilisent l’expérience. Nous identifions le phénomène de biais de primauté dans le RL profond, une tendance à apprendre excessivement des premières interactions qu’un agent a avec un environnement. Les conséquences négatives de cette tendance se propagent au reste de la formation, altérant la capacité à apprendre efficacement des interactions ultérieures. Comme remède simple au biais de primauté, nous proposons de réinitialiser périodiquement les paramètres réseau de l’agent tout en préservant le tampon d’expériences. L’application de cette technique améliore systématiquement les rendements entre les algorithmes et les domaines.
Enfin, nous apportons une contribution qui améliore l’efficacité informatique de la formation RL approfondie. De nombreux articles antérieurs ont observé que les réseaux neuronaux utilisés dans la RL profonde perdent progressivement leur plasticité et leur capacité à apprendre de nouvelles expériences. Une stratégie immédiate pour atténuer ce problème consiste à utiliser un réseau plus vaste et doté de plus de plasticité au départ ; cependant, cela augmente le coût informatique de la formation. Nous proposons une intervention appelée injection de plasticité qui agrandit progressivement le réseau. Les agents qui partent d’un réseau plus petit et utilisent l’injection de plasticité pendant la formation enregistrent les calculs pendant la formation sans compromettre les retours finaux. / This thesis presents three contributions that improve separate axes of the efficiency of deep reinforcement learning (RL) algorithms.
Our first contribution begins with the premise that standard model-based RL algorithms typically minimize the next state prediction error for training a world model. Despite being a natural approach, this error equally penalizes for mispredictions of the components of the state space that are relevant for decision making and that are not. To overcome the limitation, we propose an alternative way to train a model by directly differentiating expected returns, the objective that an agent ultimately seeks to optimize. Our algorithm outperforms the standard approach when the capacity of the network powering the model is limited, leading to a more parameter efficient agent.
The second contribution focuses on how efficiently deep RL algorithms utilize the experience. We identify the primacy bias phenomenon in deep RL, a tendency to learn excessively from the first interactions an agent has with an environment. The negative consequences of the tendency propagate to the rest of the training, impairing the ability to learn efficiently from subsequent interactions. As a simple remedy to the primacy bias, we propose to periodically re-initialize the agent’s network parameters while preserving the buffer with experiences. Applying this technique consistently improves the returns across algorithms and domains.
Lastly, we make a contribution that improves the computational efficiency of deep RL training. Numerous prior papers observed that neural networks employed in deep RL gradually lose plasticity, the ability to learn from new experiences. An immediate strategy for mitigating this issue is to employ a larger network that has more plasticity to begin with; however, it increases the computational cost of training. We propose an intervention called plasticity injection that gradually grows the network. Agents that start from a smaller network and use plasticity injection during training save the computations during training without compromising the final returns.
|
Page generated in 0.1162 seconds