Techniken des computergestützten Wirkstoffdesigns spielen eine wichtige Rolle bei der Entwicklung neuer Wirkstoffe. Die vorliegende Arbeit befasst sich sowohl mit der Entwicklung als auch mit der praktischen Anwendung von Methoden des strukturbasierten Wirkstoffdesigns. Die Arbeit glieder sich daher in zwei Teile.
Der erste Teil beschäftigt sich mit der Entwicklung von empirischen Scoring-Funktionen, die eine Schlüsselrolle im strukturbasierten computergestützen Wirkstoffdesign einnehmen. Grundlage dieser Arbeiten sind die empirischen Deskriptoren und Scoring-Funktionen aus dem SFCscore-Programmpaket.
Dabei wurde zunächst untersucht, wie sich die Zusammensetzung der Trainingsdaten auf die Vorhersagen von empirischen Scoring-Funktionen auswirkt. Durch die gezielte Zusammenstellung eines neuen Trainingsdatensatzes wurde versucht, die Spannweite der Vorhersagen zu vergrößern, um so vor allem eine bessere Erkennung von hoch- und niedrig-affinen Komplexen zu erreichen. Die resultierende Funktion erzielte vor allem im niedrig-affinen Bereich verbesserte Vorhersagen.
Der zweite Themenkomplex beschäftigt sich ebenfalls mit der verbesserten Separierung von aktiven und inaktiven Verbindungen. Durch den Einsatz der Machine Learning-Methode RandomForest wurden dazu Klassifizierungsmodelle abgeleitet, die im Unterschied zu den klassischen Scoring-Funktionen keinen genauen Score liefern, sondern die Verbindungen nach ihrer potentiellen Aktivität klassifizieren.
Am Beispiel des mykobakteriellen Enzyms InhA konnte gezeigt werden, dass derartige Modelle den klassischen Scoring-Funktionen im Bezug auf die Erkennung von aktiven Verbindungen deutlich überlegen sind.
Der RandomForest-Algorithmus wurde im nächsten Schritt auch verwendet, um eine neue Scoring-Funktion zur Vorhersage von Bindungsaffinitäten abzuleiten. Diese Funktion wurde unter dem Namen SFCscoreRF in das SFCscore-Programmpaket implementiert. Die Funktion unterschiedet sich in einigen wesentlichen Punkten von den ursprünglichen SFCscore-Funktionen.
Zum einen handelt es sich beim RF-Algorithmus um eine nicht-lineare Methode, die im Unterschied zu den klassischen Methoden, die zur Ableitung von Scoring-Funktionen eingesetzt werden, nicht von der Additivität der einzelnen Deskriptoren ausgeht. Der Algorithmus erlaubt außerdem die Verwendung aller verfügbaren SFCscore-Deskriptoren, was eine deutlich umfassendere Repräsentation von Protein-Ligand-Komplexen als Grundlage des Scorings ermöglicht. Für die Ableitung von SFCscoreRF wurden insgesamt 1005 Komplexe im Trainingsdatensatz verwendet. Dieser Datensatz ist somit einer der größten, die bisher für die Ableitung einer empirischen Scoring-Funktion verwendet wurden.
Die Evaluierung gegen zwei Benchmark-Datensätze ergab deutlich bessere Vorhersagen von SFCscoreRF im Vergleich zu den ursprünglichen SFCscore-Funktionen. Auch im internationalen Vergleich mit anderen Scoring-Funktion konnten für beide Datensätze Spitzenwerte erreicht werden.
Weitere ausgiebige Testungen im Rahmen einer Leave-Cluster-Out-Validierung und die Teilnahme am CSAR 2012 Benchmark Exercise ergaben, dass auch SFCscoreRF Performanceschwankungen bei der Anwendung an proteinspezifischen Datensätzen zeigt - ein Phänomen, dass bei Scoring-Funktionen immer beobachtet wird. Die Analyse der CSAR 2012-Datensätze ergab darüber hinaus wichtige Erkenntnisse im Bezug auf Vorhersage von gedockten Posen sowie über die statistische Signifikanz bei der Evaluierung von Scoring-Funktionen.
Die Tatsache, dass empirische Scoring-Funktionen innerhalb eines bestimmten chemischen Raums trainiert wurden, ist ein wichtiger Faktor für die protein-abhängigen Leistungsschwankungen, die in dieser Arbeit beobachtet wurden. Verlässliche Vorhersagen sind nur innerhalb des kalibrierten chemischen Raums möglich. In dieser Arbeit wurden verschiedene Ansätze untersucht, mit denen sich diese ``Applicability Domain'' für die SFCscore-Funktionen definieren lässt. Mit Hilfe von PCA-Analysen ist es gelungen die ``Applicability Domain'' einzelner Funktionen zu visualisieren. Zusätzlich wurden eine Reihe numerischer Deskriptoren getestet, mit den die Vorhersageverlässlichkeit basierend auf der ``Applicability Domain'' abgeschätzt werden könnte. Die RF-Proximity hat sich hier als vielversprechender Ausgangspunkt für weitere Entwicklungen erwiesen.
Der zweite Teil der Arbeit beschäftigt sich mit der Entwicklung neuer Inhibitoren für das Chaperon Hsp70, welches eine vielversprechende Zielstruktur für die Therapie des multiplen Myeloms darstellt.
Grundlage dieser Arbeiten war eine Leitstruktur, die in einer vorhergehenden Arbeit entdeckt wurde und die vermutlich an einer neuartigen Bindestelle in der Interface-Region zwischen den beiden großen Domänen von Hsp70 angreift.
Die Weiterentwicklung und Optimierung dieser Leitstruktur, eines Tetrahydroisochinolinon-Derivats, stand zunächst im Vordergrund. Anhand detaillierter Docking-Analysen wurde der potentielle Bindemodus der Leitstruktur in der Interfaceregion von Hsp70 untersucht. Basierend auf diesen Ergebnissen wurde eine Substanzbibliothek erstellt, die von Kooperationspartnern innerhalb der KFO 216 synthetisiert und biologisch getestet wurde. Die Struktur-Wirkungsbeziehungen, die sich aus diesen experimentellen Daten ableiten lassen, konnten teilweise gut mit den erstellten Docking-Modellen korreliert werden. Andere Effekte konnten anhand der Docking-Posen jedoch nicht erklärt werden. Für die Entwicklung neuer Derivate ist deswegen eine umfassendere experimentelle Charakterisierung und darauf aufbauend eine Verfeinerung der Bindungsmodelle notwendig.
Strukturell handelt es sich bei Hsp70 um ein Zwei-Domänen-System, dass verschiedene allostere Zustände einnehmen kann. Um die Auswirkungen der daraus folgenden Flexibilität auf die Stabilität der Struktur und die Bindung von Inhibitoren zu untersuchen, wurden molekulardynamische Simulationen für das Protein durchgeführt.
Diese zeigen, dass das Protein tatsächlich eine überdurchschnittlich hohe Flexibilität aufweist, die vor allem durch die relative Bewegung der beiden großen Domänen zueinander dominiert wird. Die Proteinkonformation die in der Kristallstruktur hscaz beobachtet wird, bleibt jedoch in ihrer Grundstruktur in allen vier durchgeführten Simulationen erhalten. Es konnten hingegen keine Hinweise dafür gefunden werden, dass die Mutationen, welche die für die strukturbasierten Arbeiten verwendete Kristallstruktur im Vergleich zum Wildtyp aufweist, einen kritischen Einfluss auf die Gesamtstabilität des Systems haben.
Obwohl die Interface-Region zwischen NBD und SBD also in allen Simulationen erhalten bleibt, wird die Konformation in diesem Bereich doch wesentlich durch die Domänenbewegung beeinflusst und variiert. Da dieser Proteinbereich den wahrscheinlichsten Angriffspunkt der Tetrahydroisochinolinone darstellt, wurde der Konformationsraum detailliert untersucht. Wie erwartet weist die Region eine nicht unerhebliche Flexibilität auf, welche zudem, im Sinne eines ``Induced-Fit''-Mechanismus, durch die Gegenwart eines Liganden (Apoptozol) stark beeinflusst wird. Es ist daher als sehr wahrscheinlich anzusehen, dass die Dynamik der Interface-Region auch einen wesentlichen Einfluss auf die Bindung der Tetrahydroisochinolinone hat. Molekuardynamische Berechnungen werden deswegen auch in zukünftige Arbeiten auf diesem Gebiet eine wichtige Rolle spielen.
Die Analysen zeigen zudem, dass die Konformation der Interface-Region eng mit der Konformation des gesamten Proteins - vor allem im Bezug auf die relative Stellung von SBD und NBD zueinander - verknüpft ist. Das untermauert die Hypothese, dass die Interface-Bindetasche einen Angriffspunkt für die Inhibtion des Proteins darstellt. / Methods of computational drug design play a crucial role in the development of new pharmaceutical drugs. The work presented here comprises the methodological development and the practical application of structure-based techniques in computational drug design.
The first part of this dissertation focuses on the development of empirical scoring functions, which play an essential part in structure-based computer-aided drug design. The basis for this work are the empirical descriptors and scoring functions of the SFCscore software package.
First, the influence of the training data composition on the prediction of empirical scoring functions was analyzed. A new training data set was created to spread the prediction range of the function and thus achieve a better separation of high and low affinity binders. The resulting function indeed yielded better predictions in the low affinity area compared to the original functions.
In another approach, which also addresses the issue of discriminating active and inactive compounds, the Machine Learning method RandomForest (RF) was used to derive a classification model. Different to classical empirical scoring functions, this model no longer predicts a precise value but classifies the compounds according to their potential affinity as 'active' or 'inactive'.
The example of the mycobacterial enzyme InhA showed that such models are clearly superior to different classical scoring function in terms of separating active and inactive compounds.
The RandomForest algorithm was also used to derive a new scoring function for the prediction of binding affinities. This new function was implemented into the SFCscore software package under the name SFCscoreRF. This new function differs from the original SFCscore functions in several essentials points. On the one hand, the RF-algorithm is a non-linear method, which - in contrast to classical methods used for the derivation of empirical scoring functions - does not assume the additivity of the single descriptors. On the other hand, the algorithm allowes for using the whole set of available SFCscore descriptors and is therefore able to utilize a more comprehensive representation of a protein ligand complex as the basis for the prediction. Additionally, the training data set used to derive SFCscoreRF comprised 1005 complexes. This training set is one of the largest data sets used to train an empirical scoring function.
The evaluation against two widely-used benchmark sets confirmed that SFCscoreRF yields superior predicitons as compared to the original functions. The comparison with other functions tested for these benchmarks shows that SFCscoreRF also achieves top results on an international level.
Further analyses using a leave-cluster-out validation scheme and the participation in the CSAR 2012 Benchmark Exercise revealed that - similar to other scoring functions - SFCscoreRF shows varying performances when applied to protein-specific data sets. Additionally, by analysing the results of the CSAR 2012 data sets, valuable insight were gained regarding the prediction of docking poses and the statistical significance for the evaluation and comparison of scoring functions.
The fact that empirical scoring functions are trained within a certain chemical space, is an important reason for the target-dependent performance observed in this work. Reliable predictions can only be expected within the calibrated area. Different approaches for the definition of this ``applicability domain'' are presented in this work. PCA analyses have been used to create a two dimensional representation of the ``applicability domain''. Additionally, different numerical descriptors have been tested to estimate the reliability of SFCscore predicitons. The RF-proximity has been found to be a promising starting point for future research.
The development of new inhibitors for the molecular chaperone Hsp70 - a promising target in the therapy of multiple myeloma - comprises the second part of this dissertation.
The basis for this work was a lead structure that was found in a previous work and attacks a novel binding pocket in the interface between the two domains of the Hsp70 protein.
The optimization and development of that lead structure - a tetrahydroisochinolinone - was the primary focus of the present work. Potential binding poses in the interface were elucidated by detailed docking analyses. Based on that information, a compound library was compiled, which was synthezised and biologically analyzed by cooperation partners within the CRU 216. The resulting structure activity relationships can partially be explained on the basis of the corresponding docking poses. However, some of the effects remain unexplained. For the further development of new derivatives a comprehensive experimental characterization of the current compounds is needed. This information can be used as a basis for the refinement of the existing binding models.
Hsp70 is a two-domain system, which can visit different allosteric states. To further investigate the effects of the resulting flexibility on the stability of the structure and on inhibitor binding, molecular dynamics simulations were conducted.
These simulations show an above-average felxibility of the protein, which is primarily dominated by the movement of the two domains NBD and SBD relatively to each other. However, the basic conformation that is observed in the crystal structure hscaz, which was used in this work, remains stable in all simulations. Furthermore, the trajectories showed no evidence that the mutations, in which hscaz differs from the wild type protein, have a significant effect on the overall protein conformation.
Although, the overall conformation of the interface between NDB and SBD remains stable, the exact conformation in this area is signficantly influenced by the domain movement. As this region includes the binding pocket of the tetrahydroisochinolinones, the conformational space of this area was analyzed in detail.
The analyses expectedly reveal a high flexibility in the interface area that is dominated by the SBD-NBD movement. Furthermore, it could be shown that the conformation and dynamics can be influenced by a bound ligand (apoptozole), in terms of an induced fit mechanism. It is highly probable that the binding of the tetrahydroisochinolinones trigger similar effects, influencing the binding mechanism of this compound class. Thus, molecular dynamics simulations should play a crucial role in the future development of new compounds.
The analyses also show that the dynamics of the interface region have large effects on the overall structure of the protein and vice versa. Especially, the relative orientation of NBD and SBD has a large impact on the binding pocket. This underlines the hypothesis that the interface region constitutes a promising target area for the inhibition of Hsp70.
Identifer | oai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:10505 |
Date | January 2014 |
Creators | Zilian, David |
Source Sets | University of Würzburg |
Language | deu |
Detected Language | German |
Type | doctoralthesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | https://creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de, info:eu-repo/semantics/openAccess |
Page generated in 0.003 seconds