Return to search

Model-based Reinforcement Learning for Protein Backbone Design / Modellbaserad förstärkningsinlärning för design av proteinbackbones

The application of Reinforcement Learning (RL) in the field of protein design presents a novel approach to generating protein backbones that fit within an icosahedral structure, while also optimizing five critical structural scores of proteins. Central to this approach are developed two distinct Markov Decision Processes (MDPs), each employing a unique reward mechanism: one operates on a system of thresholds, while the other utilizes sigmoid functions. The study conducts a thorough comparison of these reward mechanisms to determine their effectiveness in guiding RL algorithms for protein design. The findings indicate that the threshold-based reward system outperforms the sigmoid-based system, leading to more desirable protein structures as per the defined scores. Significantly, the thesis examines the performance of AlphaZero agents in this context, comparing them to baseline Monte Carlo Tree Search agents. Results demonstrate that AlphaZero agents consistently achieve at least double the performance of Monte-Carlo Tree Search (MCTS) agents, showcasing their superior capability in top-down protein design task. Moreover, the research extends to evaluate AlphaZero agents optimized for side objectives, revealing promising outcomes. This exploration into multi-objective optimization using AlphaZero agents highlights their potential in more complex and nuanced aspects of protein engineering. This work not only underscores the effectiveness of RL in protein backbone generation but also opens up new possibilities for advanced RL applications in protein engineering, particularly in multi-faceted optimization scenarios. / Tillämpningen av RL inom proteindesignområdet presenterar en ny metod för att generera proteinbackbones som passar in i en ikosaederstruktur, samtidigt som man optimerar fem kritiska strukturella poäng för proteiner. Centralt för denna metod är utvecklingen av två distinkta MDPs, som var och en använder en unik belöningsmekanism: en fungerar på ett system av tröskelvärden, medan den andra använder sigmoidfunktioner. I studien görs en grundlig jämförelse av dessa belöningsmekanismer för att fastställa deras effektivitet när det gäller att vägleda RL-algoritmer för proteindesign. Resultaten visar att det tröskelbaserade belöningssystemet överträffar det sigmoidbaserade systemet, vilket leder till mer önskvärda proteinstrukturer enligt de definierade poängen. Avhandlingen undersöker AlphaZero-agenternas prestanda i detta sammanhang och jämför dem med grundläggande Monte Carlo Tree Search-agenter. Resultaten visar att AlphaZero-agenter konsekvent uppnår minst dubbelt så hög prestanda som MCTS-agenter, vilket visar deras överlägsna förmåga i top-down-proteindesignuppgiften. Dessutom utvidgas forskningen till att utvärdera AlphaZero-agenter optimerade för sidomål, vilket avslöjar lovande resultat. Denna utforskning av flermålsoptimering med hjälp av AlphaZero-agenter belyser deras potential i mer komplexa och nyanserade aspekter av proteinteknik. Detta arbete understryker inte bara effektiviteten hos RL vid generering av proteinbackbones, utan öppnar också upp för nya möjligheter att utveckla

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345803
Date January 2024
CreatorsRenard, Frédéric
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2024:47

Page generated in 0.0025 seconds