Return to search

Approches par bandit : inférence statistique et partage d'information

Titre de l'écran-titre (visionné le 6 septembre 2023) / Ce mémoire aborde l'utilisation de stratégies d'allocation typiquement optimales pour des bandits contextuels, Lin-TS et Lin-RUCB, pour résoudre un problème d'inférence statistique sur des données collectées adaptativement par ces stratégies. L'inférence statistique est une étape très importante qui permet de tirer des conclusions par rapport aux données étudiées. Faire de l'inférence statistique sur des données collectées sur un environnement de bandit contextuel pose un défi technique parce qu'on cherche à tester une fonction. Ces stratégies apportent un biais dans les données collectées. Nous introduisons à cet effet des notions permettant de définir le concept d'inférence statistique sur des fonctions d'espérances. L'outil proposé est utilisé pour évaluer la qualité de l'inférence statistique conduite sur des données collectées par les stratégies d'allocation typiques optimales pour des bandits contextuels. Il est commun dans certains problèmes d'inférence statistique de séparer les données en groupe lorsque l'hypothèse sur les actions est qu'elles auront des fonctions de récompense différentes dans les différents groupes. Cependant, en pratique, il arrive que cette hypothèse soit fausse. Dans cette situation, il pourrait être bénéfique de partager les données recueillies sur cette action à travers les différents groupes, d'une part pour accélérer l'apprentissage et d'autre part pour améliorer la qualité de l'inférence statistique. Nous abordons donc ce nouvel environnement pour étudier les bénéfices du partage d'information entre des agents apprenant sur des problèmes de bandits contextuels. Une approche y est présentée pour étendre facilement les stratégies d'allocation existantes de manière à permettre un partage de données pour des actions spécifiques. À cet effet, nous introduisons Lin-TS-AC et Lin-RUCB-AC. Nous explorons ensuite l'application des stratégies proposées à des données simulées provenant d'une ancienne étude randomisée. En effet, nous montrons comment simuler un problème à partir de vraies données, ce qui nous permet d'évaluer les approches proposées sur un environnement plus proche de la réalité. / This thesis discusses the use of typically optimal allocation strategies for contextual bandits, Lin-TS and Lin-RUCB, to solve a statistical inference problem on data collected adaptively by these strategies. Statistical inference is a very important step in drawing conclusions about the data under study. Doing statistical inference on data collected on a contextual bandit environment is technically challenging because we are trying to test a function. These strategies bring a bias in the collected data. To this end, we introduce notions to define the concept of statistical inference on expectation functions. The proposed tool is used to evaluate the quality of statistical inference conducted on data collected by typical optimal allocation strategies for contextual bandits. It is common in some statistical inference problems to separate the data into groups when the assumption about the actions is that they will have different reward functions in the different groups. However, in practice, sometimes this assumption is wrong. In this situation, it might be beneficial to share the data collected on this action across the different groups, both to speed up learning and to improve the quality of statistical inference. We therefore approach this new environment to study the benefits of information sharing between agents learning on contextual bandit problems. An approach is presented to easily extend existing allocation strategies to allow data sharing for specific actions. To this end, we introduce Lin-TS-AC and Lin-RUCB-AC. We then explore the application of the proposed strategies to simulated data from an old randomized study. Indeed, we show how to simulate a problem from real data, which allows us to evaluate the proposed approaches on an environment closer to reality.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/124324
Date25 March 2024
CreatorsGariépy, Antoine
ContributorsDurand, Audrey
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (x, 65 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.002 seconds