Spelling suggestions: "subject:"dubbelt djup dcnätverk"" "subject:"dubbelt djup denätverk""
1 |
Offline Reinforcement Learning for Optimization of Therapy Towards a Clinical Endpoint / Offline förstärkningsinlärning för optimering av terapi mot ett kliniskt slutmålJenner, Simon January 2022 (has links)
The improvement of data acquisition and computer heavy methods in recentyears has paved the way for completely digital healthcare solutions. Digitaltherapeutics (DTx) are such solutions and are often provided as mobileapplications that must undergo clinical trials. A common method for suchapplications is to utilize cognitive behavioral-therapy (CBT), in order toprovide their patients with tools for self-improvement. The Swedish-basedcompany Alex Therapeutics is such a provider. They develop state-of-theartapplications that utilize CBT to help patients. Among their applications,they have one that aims to help users quit smoking. From this app, they havecollected user data with the goal of continuously improving their servicesthrough machine learning (ML). In their current application, they utilizemultiple ML methods to personalize the care, but have opened up possibilitiesfor the usage of reinforcement learning (RL). Often the wanted behavior isknown, such as to quitting smoking, but the optimal path, within the app, forhow to reach such a goal is not. By formalizing the problem as a Markovdecision process, where the transition probabilities have to be inferred fromuser data, such an optimal policy can be found. Standard methods of RL arereliant on direct access of an environment for sampling of data, whereas theuser data sampled from the application are to be treated as such. This thesisthus explores the possibilities of using RL on a static dataset in order to inferan optimal policy. A double deep Q-network (DDQN) was chosen as the reinforcement learningagent. The agent was trained on two different datasets and showed goodconvergence for both, using a custom metric for the task. Using SHAPvaluesthe strategy of the agent is visualized and discussed, together with themethodological challenges. Lastly, future work for the proposed methods arediscussed. / Förbättringar av datainsamling och datortunga metoder har på senare år banatväg för helt digitala vårdlösningar. Digitala terapier (DTx) är sådana lösningaroch tillhandahålls ofta som mobila applikationer. Till skillnad från andrahälsoappar måste DTx-applikationer genomgå klinisk prövning. En vanligmetod för sådana applikationer är att använda kognitiv beteendeterapi (KBT)för att ge patienter verktyg för självförbättring. Det svenskbaserade företagetAlex Therapeutics är en sådan leverantör. De utvecklar moderna applikationersom använder KBT för att hjälpa patienter. Bland deras appar har de förrökavvänjning. Från denna har de samlat in användardata med målet attkontinuerligt förbättra tjänsten via maskininlärning (ML). I sina nuvarandetillämpning använder de flera ML metoder för att personifiera vården, menhar öppnat möjligheter för användningen av Reinforcement learning (RL)(förstärkningsinlärning). Ofta är det önskade beteendet känt, t.ex att slutaröka, men den optimala vägen, inom appen, för hur man når ett sådant mål ärinte känt. Genom att formalisera problemet som en Markovsk beslutsprocess(Markov decision process), där övergångssannolikheterna måste härledas frånanvändardata, kan en sådan optimal väg hittas. Standardmetoder för RLär beroende av direktåtkomst till en miljö för att samla data. Dock skulleanvändardatan som samlats in från appen kunna behandlas på samma sätt.Detta examensarbete undersöker möjligheten att använda RL på statisk dataför att dra slutsatser om en optimal policy. Ett double deep Q-network (DDQN) (dubbelt djupt Q-nätverk) valdes somagent. Agenten tränades på 2 olika datasets och visar bra konvergens förbåda, med hjälp av ett anpassat mått för evaluering. SHAP-värden beräknadesför att visualisera agentens strategi. Detta diskuteas tillsammans med demetodologiska utmaningarna. Till sist behandlas framtida arbete för de föreslagnametoderna.
|
Page generated in 0.0415 seconds