• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 68
  • 15
  • 9
  • Tagged with
  • 91
  • 78
  • 59
  • 45
  • 44
  • 44
  • 21
  • 18
  • 14
  • 13
  • 12
  • 12
  • 11
  • 11
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Development of cheminformatics-based methods for computational prediction of off-target activities

Banerjee, Priyanka 17 May 2017 (has links)
DieMenschheit ist vielfältigen chemischenWirkstoffen ausgesetzt – zum Beispiel durch Kosmetika und Pharmazeutika sowie durch viele andere chemische Quellen. Es wird angenommen, dass diese stetige Exposition mit Chemikalien gesundheitliche Beeinträchtigungen bei Menschen hervorruft. Zudem haben Regulierungsbehörden aus Europa und den USA festgestellt, dass es ein Risiko gibt, welches mit der kombinierten Exposition durch mehrere Chemikalien im Zusammenhang steht. Mögliche Kombinationen von Tausenden Wirkstoffen zu testen, ist sehr zeitaufwendig und nicht praktikabel. Das Hauptanliegen dieser Arbeit ist es, die Probleme von Off-target-Effekten chemischer Strukturen zu benennen – mit den Mitteln der Chemieinformatik, der strukturellen Bioinformatik sowie unter Berücksichtigung von computerbasierten, systembiologischen Ansätzen. Diese Dissertation ist in vier Hauptprojekte eingeteilt. ImProjekt I (Kapitel 3)wurde ein neuartiger Ensemble-Ansatz basierend auf der strukturellen Ähnlichkeit von chemischenWirkstoffen und Bestimmungen von toxischen Fragmenten implementiert,um die orale Toxizität bei Nagetieren vorherzusagen. Im Projekt II (Kapitel 4) wurden – auf der Grundlage von Daten des Tox21 Wettbewerbs – unterschiedliche Machine-Learning Modelle entwickelt und verglichen, um die Komponenten vorherzusagen, die in den toxikologischen Stoffwechselwegen mit Zielmolekülen interagieren von target-spezifischenWirkstoffen vorherzusagen. In Projekt III (Kapitel 5) wird ein neuartiger Ansatz beschrieben, welcher das dreigliedrige Konzept aus computerbasierter Systembiologie, Chemieinformatik und der strukturellen-Bioinformatik nutzt, um Medikamente zu bestimmen, welche das metabolische Syndrom hervorrufen. In Projekt IV (Kapitel 6) wurde in silico ein Screening Protokoll entwickelt, welches die strukturelle Ähnlichkeit, die pharmakophorischen Eigenschaften und die Überprüfung von computerbasierten Docking Studien berücksichtigt. / Exposure to various chemicals agents through cosmetics, medications, preserved food, environments and many other sources have resulted in serious health issues in humans. Additionally, regulatory authorities from Europe and United States of America have recognized the risk associated with combined exposure to multiple chemicals. Testing all possible combinations of these thousands of compounds is impractical and time consuming. The main aim of the thesis is to address the problem of off-targets effects of chemical structures by applying and developing cheminformatics, structural bioinformatics and computational systems biology approaches. This dissertation is divided into four main projects representing four different computational methods to aid different level of toxicological investigations. In project I (chapter 3) a novel ensemble approach based on the structural similarity of the chemical compounds and identifications of toxic fragments was implemented to predict rodent oral toxicity. In project II (chapter 4) different machine learning models were developed and compared using Tox 21 challenge 2014 data, to predict the outcomes of the compounds that have the potential to interact with the targets active in toxicological pathways. In project III (chapter 5) a novel approach integrating the trio concept of ’computational system biology, cheminformatics and structural bioinformatics’ to predict drugs induced metabolic syndrome have been described. In project IV (chapter 6) a in silico screening protocol was established taking into the structurally similarity, pharmacophoric features and validation using computational docking studies. This approach led to the identification of novel binding site for acyclovir in the peptide binding groove of the human leukocyte antigen (HLA) specific allele.
62

Detecting and quantifying causality from time series of complex systems

Runge, Jakob 18 August 2014 (has links)
Der technologische Fortschritt hat in jüngster Zeit zu einer großen Zahl von Zeitreihenmessdaten über komplexe dynamische Systeme wie das Klimasystem, das Gehirn oder das globale ökonomische System geführt. Beispielsweise treten im Klimasystem Prozesse wie El Nino-Southern Oscillation (ENSO) mit dem indischen Monsun auf komplexe Art und Weise durch Telekonnektionen und Rückkopplungen in Wechselwirkung miteinander. Die Analyse der Messdaten zur Rekonstruktion der diesen Wechselwirkungen zugrunde liegenden kausalen Mechanismen ist eine Möglichkeit komplexe Systeme zu verstehen, insbesondere angesichts der unendlich-dimensionalen Komplexität der physikalischen Prozesse. Diese Dissertation verfolgt zwei Hauptfragen: (i) Wie können, ausgehend von multivariaten Zeitreihen, kausale Wechselwirkungen praktisch detektiert werden? (ii) Wie kann die Stärke kausaler Wechselwirkungen zwischen mehreren Prozessen in klar interpretierbarer Weise quantifiziert werden? Im ersten Teil der Arbeit werden die Theorie zur Detektion und Quantifikation nichtlinearer kausaler Wechselwirkungen (weiter-)entwickelt und wichtige Aspekte der Schätztheorie untersucht. Zur Quantifikation kausaler Wechselwirkungen wird ein physikalisch motivierter, informationstheoretischer Ansatz vorgeschlagen, umfangreich numerisch untersucht und durch analytische Resultate untermauert. Im zweiten Teil der Arbeit werden die entwickelten Methoden angewandt, um Hypothesen über kausale Wechselwirkungen in Klimadaten der vergangenen hundert Jahre zu testen und zu generieren. In einem zweiten, eher explorativen Schritt wird ein globaler Luftdruck-Datensatz analysiert, um wichtige treibende Prozesse in der Atmosphäre zu identifizieren. Abschließend wird aufgezeigt, wie die Quantifizierung von Wechselwirkungen Aufschluss über mögliche qualitative Veränderungen in der Klimadynamik (Kipppunkte) geben kann und wie kausal treibende Prozesse zur optimalen Vorhersage von Zeitreihen genutzt werden können. / Today''s scientific world produces a vastly growing and technology-driven abundance of time series data of such complex dynamical systems as the Earth''s climate, the brain, or the global economy. In the climate system multiple processes (e.g., El Nino-Southern Oscillation (ENSO) or the Indian Monsoon) interact in a complex, intertwined way involving teleconnections and feedback loops. Using the data to reconstruct the causal mechanisms underlying these interactions is one way to better understand such complex systems, especially given the infinite-dimensional complexity of the underlying physical equations. In this thesis, two main research questions are addressed: (i) How can general causal interactions be practically detected from multivariate time series? (ii) How can the strength of causal interactions between multiple processes be quantified in a well-interpretable way? In the first part of this thesis, the theory of detecting and quantifying general (linear and nonlinear) causal interactions is developed alongside with the important practical issues of estimation. To quantify causal interactions, a physically motivated, information-theoretic formalism is introduced. The formalism is extensively tested numerically and substantiated by rigorous mathematical results. In the second part of this thesis, the novel methods are applied to test and generate hypotheses on causal interactions in climate time series covering the 20th century up to the present. The results yield insights on an understanding of the Walker circulation and teleconnections of the ENSO system, for example with the Indian Monsoon. Further, in an exploratory way, a global surface pressure dataset is analyzed to identify key processes that drive and govern interactions in the global atmosphere. Finally, it is shown how quantifying interactions can be used to determine possible structural changes, termed tipping points, and as optimal predictors, here applied to the prediction of ENSO.
63

Entwicklung von rechnergestützten Ansätzen für strukturelle Klassifikation, Analyse und Vorhersage von molekularen Erkennungsregionen in Proteinen / Development of computational approaches for structural classification, analysis and prediction of molecular recognition regions in proteins

Teyra i Canaleta, Joan 18 November 2010 (has links) (PDF)
The vast and growing volume of 3D protein structural data stored in the PDB contains abundant information about macromolecular complexes, and hence, data about protein interfaces. Non-covalent contacts between amino acids are the basis of protein interactions, and they are responsible for binding afinity and specificity in biological processes. In addition, water networks in protein interfaces can also complement direct interactions contributing significantly to molecular recognition, although their exact role is still not well understood. It is estimated that protein complexes in the PDB are substantially underrepresented due to their crystallization dificulties. Methods for automatic classifification and description of the protein complexes are essential to study protein interfaces, and to propose putative binding regions. Due to this strong need, several protein-protein interaction databases have been developed. However, most of them do not take into account either protein-peptide complexes, solvent information or a proper classification of the binding regions, which are fundamental components to provide an accurate description of protein interfaces. In the firest stage of my thesis, I developed the SCOWLP platform, a database and web application that structurally classifies protein binding regions at family level and defines accurately protein interfaces at atomic detail. The analysis of the results showed that protein-peptide complexes are substantially represented in the PDB, and are the only source of interacting information for several families. By clustering the family binding regions, I could identify 9,334 binding regions and 79,803 protein interfaces in the PDB. Interestingly, I observed that 65% of protein families interact to other molecules through more than one region and in 22% of the cases the same region recognizes different protein families. The database and web application are open to the research community (www.scowlp.org) and can tremendously facilitate high-throughput comparative analysis of protein binding regions, as well as, individual analysis of protein interfaces. SCOWLP and the other databases collect and classify the protein binding regions at family level, where sequence and structure homology exist. Interestingly, it has been observed that many protein families also present structural resemblances within each other, mostly across folds. Likewise, structurally similar interacting motifs (binding regions) have been identified among proteins with different folds and functions. For these reasons, I decided to explore the possibility to infer protein binding regions independently of their fold classification. Thus, I performed the firest systematic analysis of binding region conservation within all protein families that are structurally similar, calculated using non-sequential structural alignment methods. My results indicate there is a substantial molecular recognition information that could be potentially inferred among proteins beyond family level. I obtained a 6 to 8 fold enrichment of binding regions, and identified putative binding regions for 728 protein families that lack binding information. Within the results, I found out protein complexes from different folds that present similar interfaces, confirming the predictive usage of the methodology. The data obtained with my approach may complement the SCOWLP family binding regions suggesting alternative binding regions, and can be used to assist protein-protein docking experiments and facilitate rational ligand design. In the last part of my thesis, I used the interacting information contained in the SCOWLP database to help understand the role that water plays in protein interactions in terms of affinity and specificity. I carried out one of the firest high-throughput analysis of solvent in protein interfaces for a curated dataset of transient and obligate protein complexes. Surprisingly, the results highlight the abundance of water-bridged residues in protein interfaces (40.1% of the interfacial residues) that reinforces the importance of including solvent in protein interaction studies (14.5% extra residues interacting only water- mediated). Interestingly, I also observed that obligate and transient interfaces present a comparable amount of solvent, which contrasts the old thoughts saying that obligate protein complexes are expected to exhibit similarities to protein cores having a dry and hydrophobic interfaces. I characterized novel features of water-bridged residues in terms of secondary structure, temperature factors, residue composition, and pairing preferences that differed from direct residue-residue interactions. The results also showed relevant aspects in the mobility and energetics of water-bridged interfacial residues. Collectively, my doctoral thesis work can be summarized in the following points: 1. I developed SCOWLP, an improved framework that identiffies protein interfaces and classifies protein binding regions at family level. 2. I developed a novel methodology to predict alternative binding regions among structurally similar protein families independently of the fold they belong to. 3. I performed a high-throughput analysis of water-bridged interactions contained in SCOWLP to study the role of solvent in protein interfaces. These three components of my thesis represent novel methods for exploiting existing structural information to gain insights into protein- protein interactions, key mechanisms to understand biological processes.
64

Nächste-Nachbar basierte Methoden in der nichtlinearen Zeitreihenanalyse / Nearest-neighbor based methods for nonlinear time-series analysis

Merkwirth, Christian 02 November 2000 (has links)
No description available.
65

Semiparametric Structure Guided by Prior Knowledge with Applications in Economics / Durch Vorwissen gesteuerte semiparametrische Struktur mit wirtschaftswissenschaftlichen Anwendungen

Scholz, Michael 08 April 2011 (has links)
No description available.
66

Probabilistic Estimation of Unobserved Process Events

Rogge-Solti, Andreas January 2014 (has links)
Organizations try to gain competitive advantages, and to increase customer satisfaction. To ensure the quality and efficiency of their business processes, they perform business process management. An important part of process management that happens on the daily operational level is process controlling. A prerequisite of controlling is process monitoring, i.e., keeping track of the performed activities in running process instances. Only by process monitoring can business analysts detect delays and react to deviations from the expected or guaranteed performance of a process instance. To enable monitoring, process events need to be collected from the process environment. When a business process is orchestrated by a process execution engine, monitoring is available for all orchestrated process activities. Many business processes, however, do not lend themselves to automatic orchestration, e.g., because of required freedom of action. This situation is often encountered in hospitals, where most business processes are manually enacted. Hence, in practice it is often inefficient or infeasible to document and monitor every process activity. Additionally, manual process execution and documentation is prone to errors, e.g., documentation of activities can be forgotten. Thus, organizations face the challenge of process events that occur, but are not observed by the monitoring environment. These unobserved process events can serve as basis for operational process decisions, even without exact knowledge of when they happened or when they will happen. An exemplary decision is whether to invest more resources to manage timely completion of a case, anticipating that the process end event will occur too late. This thesis offers means to reason about unobserved process events in a probabilistic way. We address decisive questions of process managers (e.g., "when will the case be finished?", or "when did we perform the activity that we forgot to document?") in this thesis. As main contribution, we introduce an advanced probabilistic model to business process management that is based on a stochastic variant of Petri nets. We present a holistic approach to use the model effectively along the business process lifecycle. Therefore, we provide techniques to discover such models from historical observations, to predict the termination time of processes, and to ensure quality by missing data management. We propose mechanisms to optimize configuration for monitoring and prediction, i.e., to offer guidance in selecting important activities to monitor. An implementation is provided as a proof of concept. For evaluation, we compare the accuracy of the approach with that of state-of-the-art approaches using real process data of a hospital. Additionally, we show its more general applicability in other domains by applying the approach on process data from logistics and finance. / Unternehmen versuchen Wettbewerbsvorteile zu gewinnen und die Kundenzufriedenheit zu erhöhen. Um die Qualität und die Effizienz ihrer Prozesse zu gewährleisten, wenden Unternehmen Geschäftsprozessmanagement an. Hierbei spielt die Prozesskontrolle im täglichen Betrieb eine wichtige Rolle. Prozesskontrolle wird durch Prozessmonitoring ermöglicht, d.h. durch die Überwachung des Prozessfortschritts laufender Prozessinstanzen. So können Verzögerungen entdeckt und es kann entsprechend reagiert werden, um Prozesse wie erwartet und termingerecht beenden zu können. Um Prozessmonitoring zu ermöglichen, müssen prozessrelevante Ereignisse aus der Prozessumgebung gesammelt und ausgewertet werden. Sofern eine Prozessausführungsengine die Orchestrierung von Geschäftsprozessen übernimmt, kann jede Prozessaktivität überwacht werden. Aber viele Geschäftsprozesse eignen sich nicht für automatisierte Orchestrierung, da sie z.B. besonders viel Handlungsfreiheit erfordern. Dies ist in Krankenhäusern der Fall, in denen Geschäftsprozesse oft manuell durchgeführt werden. Daher ist es meist umständlich oder unmöglich, jeden Prozessfortschritt zu erfassen. Zudem ist händische Prozessausführung und -dokumentation fehleranfällig, so wird z.B. manchmal vergessen zu dokumentieren. Eine Herausforderung für Unternehmen ist, dass manche Prozessereignisse nicht im Prozessmonitoring erfasst werden. Solch unbeobachtete Prozessereignisse können jedoch als Entscheidungsgrundlage dienen, selbst wenn kein exaktes Wissen über den Zeitpunkt ihres Auftretens vorliegt. Zum Beispiel ist bei der Prozesskontrolle zu entscheiden, ob zusätzliche Ressourcen eingesetzt werden sollen, wenn eine Verspätung angenommen wird. Diese Arbeit stellt einen probabilistischen Ansatz für den Umgang mit unbeobachteten Prozessereignissen vor. Dabei werden entscheidende Fragen von Prozessmanagern beantwortet (z.B. "Wann werden wir den Fall beenden?", oder "Wann wurde die Aktivität ausgeführt, die nicht dokumentiert wurde?"). Der Hauptbeitrag der Arbeit ist die Einführung eines erweiterten probabilistischen Modells ins Geschäftsprozessmanagement, das auf stochastischen Petri Netzen basiert. Dabei wird ein ganzheitlicher Ansatz zur Unterstützung der einzelnen Phasen des Geschäftsprozesslebenszyklus verfolgt. Es werden Techniken zum Lernen des probabilistischen Modells, zum Vorhersagen des Zeitpunkts des Prozessendes, zum Qualitätsmanagement von Dokumentationen durch Erkennung fehlender Einträge, und zur Optimierung von Monitoringkonfigurationen bereitgestellt. Letztere dient zur Auswahl von relevanten Stellen im Prozess, die beobachtet werden sollten. Diese Techniken wurden in einer quelloffenen prototypischen Anwendung implementiert. Zur Evaluierung wird der Ansatz mit existierenden Alternativen an echten Prozessdaten eines Krankenhauses gemessen. Die generelle Anwendbarkeit in weiteren Domänen wird examplarisch an Prozessdaten aus der Logistik und dem Finanzwesen gezeigt.
67

A Bridge between Short-Range and Seasonal Forecasts: Data-Based First Passage Time Prediction in Temperatures

Wulffen, Anja von 18 February 2013 (has links) (PDF)
Current conventional weather forecasts are based on high-dimensional numerical models. They are usually only skillful up to a maximum lead time of around 7 days due to the chaotic nature of the climate dynamics and the related exponential growth of model and data initialisation errors. Even the fully detailed medium-range predictions made for instance at the European Centre for Medium-Range Weather Forecasts do not exceed lead times of 14 days, while even longer-range predictions are limited to time-averaged forecast outputs only. Many sectors would profit significantly from accurate forecasts on seasonal time scales without needing the wealth of details a full dynamical model can deliver. In this thesis, we aim to study the potential of a much cheaper data-based statistical approach to provide predictions of comparable or even better skill up to seasonal lead times, using as an examplary forecast target the time until the next occurrence of frost. To this end, we first analyse the properties of the temperature anomaly time series obtained from measured data by subtracting a sinusoidal seasonal cycle, as well as the distribution properties of the first passage times to frost. The possibility of generating additional temperature anomaly data with the same properties by using very simple autoregressive model processes to potentially reduce the statistical fluctuations in our analysis is investigated and ultimately rejected. In a next step, we study the potential for predictability using only conditional first passage time distributions derived from the temperature anomaly time series and confirm a significant dependence of the distributions on the initial conditions. After this preliminary analysis, we issue data-based out-of-sample forecasts for three different prediction targets: The specific date of first frost, the probability of observing frost before summer for forecasts issued in spring, and the full probability distribution of the first passage times to frost. We then study the possibility of improving the forecast quality first by enhancing the stationarity of the temperature anomaly time series and then by adding as an additional input variable the state of the North Atlantic Oscillation on the date the predictions are issued. We are able to obtain significant forecast skill up to seasonal lead times when comparing our results to an unskilled reference forecast. A first comparison between the data-based forecasts and corresponding predictions gathered from a dynamical weather model, necessarily using a lead time of only up to 15 days, shows that our simple statistical schemes are only outperformed (and then only slightly) if further statistical post-processing is applied to the model output. / Aktuelle Wetterprognosen werden mit Hilfe von hochdimensionalen, numerischen Modellen generiert. Durch die dem Klima zugrunde liegende chaotische Dynamik wachsen Modellfehler und Ungenauigkeiten in der Modellinitialisierung exponentiell an, sodass Vorhersagen mit signifikanter Güte üblicherweise nur für eine Vorlaufzeit von maximal sieben Tagen möglich sind. Selbst die detaillierten Prognosen des Europäischen Zentrums für mittelfristige Wettervorhersagen gehen nicht über eine Vorlaufzeit von 14 Tagen hinaus, während noch längerfristigere Vorhersagen auf zeitgemittelte Größen beschränkt sind. Viele Branchen würden signifikant von akkuraten Vorhersagen auf saisonalen Zeitskalen pro-fitieren, ohne das ganze Ausmaß an Details zu benötigen, das von einem vollständigen dynamischen Modell geliefert werden kann. In dieser Dissertation beabsichtigen wir, am Beispiel einer Vorhersage der Zeitdauer bis zum nächsten Eintreten von Frost zu untersuchen, inwieweit deutlich kostengünstigere, datenbasierte statistische Verfahren Prognosen von gleicher oder sogar besserer Güte auf bis zu saisonalen Zeitskalen liefern können. Dazu analysieren wir zunächst die Eigenschaften der Zeitreihe der Temperaturanomalien, die aus den Messdaten durch das Subtrahieren eines sinusförmigen Jahresganges erhalten werden, sowie die Charakteristiken der Wahrscheinlichkeitsverteilungen der Zeitdauer bis zum nächsten Eintreten von Frost. Die Möglichkeit, durch einen einfachen autoregressiven Modellprozess zusätzliche Datenpunkte gleicher statistischer Eigenschaften wie der Temperaturanomalien zu generieren, um die statistischen Fluktuationen in der Analyse zu reduzieren, wird untersucht und letztendlich verworfen. Im nächsten Schritt analysieren wir das Vorhersagepotential, wenn ausschließlich aus den Temperaturanomalien gewonnene bedingte Wahrscheinlichkeitsverteilungen der Wartezeit bis zum nächsten Frost verwendet werden, und können eine signifikante Abhängigkeit der Verteilungen von den Anfangsbedingungen nachweisen. Nach dieser einleitenden Untersuchung erstellen wir datenbasierte Prognosen für drei verschiedene Vorhersagegrößen: Das konkrete Datum, an dem es das nächste Mal Frost geben wird; die Wahrscheinlichkeit, noch vor dem Sommer Frost zu beobachten, wenn die Vorhersagen im Frühjahr ausgegeben werden; und die volle Wahrscheinlichkeitsverteilung der Zeitdauer bis zum nächsten Eintreten von Frost. Anschließend untersuchen wir die Möglichkeit, die Vorhersagegüte weiter zu erhöhen - zunächst durch eine Verbesserung der Stationarität der Temperaturanomalien und dann durch die zusätzliche Berücksichtigung der Nordatlantischen Oszillation als einer zweiten, den Anfangszustand charakterisierenden Variablen im Vorhersageschema. Wir sind in der Lage, im Vergleich mit einem naiven Referenzvorhersageschema eine signifikante Verbesserung der Vorhersagegüte auch auf saisonalen Zeitskalen zu erreichen. Ein erster Vergleich zwischen den datenbasierten Vorhersagen und entsprechenden, aus den dynamischen Wettermodellen gewonnenen Prognosen, der sich notwendigerweise auf eine Vorlaufzeit der Vorhersagen von lediglich 15 Tagen beschränkt, zeigt, dass letztere unsere simplen statistischen Vorhersageschemata nur schlagen (und zwar knapp), wenn der Modelloutput noch einer statistischen Nachbearbeitung unterzogen wird.
68

Forecasting in Database Systems

Fischer, Ulrike 07 February 2014 (has links) (PDF)
Time series forecasting is a fundamental prerequisite for decision-making processes and crucial in a number of domains such as production planning and energy load balancing. In the past, forecasting was often performed by statistical experts in dedicated software environments outside of current database systems. However, forecasts are increasingly required by non-expert users or have to be computed fully automatically without any human intervention. Furthermore, we can observe an ever increasing data volume and the need for accurate and timely forecasts over large multi-dimensional data sets. As most data subject to analysis is stored in database management systems, a rising trend addresses the integration of forecasting inside a DBMS. Yet, many existing approaches follow a black-box style and try to keep changes to the database system as minimal as possible. While such approaches are more general and easier to realize, they miss significant opportunities for improved performance and usability. In this thesis, we introduce a novel approach that seamlessly integrates time series forecasting into a traditional database management system. In contrast to flash-back queries that allow a view on the data in the past, we have developed a Flash-Forward Database System (F2DB) that provides a view on the data in the future. It supports a new query type - a forecast query - that enables forecasting of time series data and is automatically and transparently processed by the core engine of an existing DBMS. We discuss necessary extensions to the parser, optimizer, and executor of a traditional DBMS. We furthermore introduce various optimization techniques for three different types of forecast queries: ad-hoc queries, recurring queries, and continuous queries. First, we ease the expensive model creation step of ad-hoc forecast queries by reducing the amount of processed data with traditional sampling techniques. Second, we decrease the runtime of recurring forecast queries by materializing models in a specialized index structure. However, a large number of time series as well as high model creation and maintenance costs require a careful selection of such models. Therefore, we propose a model configuration advisor that determines a set of forecast models for a given query workload and multi-dimensional data set. Finally, we extend forecast queries with continuous aspects allowing an application to register a query once at our system. As new time series values arrive, we send notifications to the application based on predefined time and accuracy constraints. All of our optimization approaches intend to increase the efficiency of forecast queries while ensuring high forecast accuracy.
69

Multipose Binding in Molecular Docking

Atkovska, Kalina, Samsonov, Sergey A., Paszkowski-Rogacz, Maciej, Pisabarro, M. Teresa 09 July 2014 (has links)
Molecular docking has been extensively applied in virtual screening of small molecule libraries for lead identification and optimization. A necessary prerequisite for successful differentiation between active and non-active ligands is the accurate prediction of their binding affinities in the complex by use of docking scoring functions. However, many studies have shown rather poor correlations between docking scores and experimental binding affinities. Our work aimed to improve this correlation by implementing a multipose binding concept in the docking scoring scheme. Multipose binding, i.e., the property of certain protein-ligand complexes to exhibit different ligand binding modes, has been shown to occur in nature for a variety of molecules. We conducted a high-throughput docking study and implemented multipose binding in the scoring procedure by considering multiple docking solutions in binding affinity prediction. In general, improvement of the agreement between docking scores and experimental data was observed, and this was most pronounced in complexes with large and flexible ligands and high binding affinities. Further developments of the selection criteria for docking solutions for each individual complex are still necessary for a general utilization of the multipose binding concept for accurate binding affinity prediction by molecular docking.
70

Predictive Resource Management for Scientific Workflows

Witt, Carl Philipp 21 July 2020 (has links)
Um Erkenntnisse aus großen Mengen wissenschaftlicher Rohdaten zu gewinnen, sind komplexe Datenanalysen erforderlich. Scientific Workflows sind ein Ansatz zur Umsetzung solcher Datenanalysen. Um Skalierbarkeit zu erreichen, setzen die meisten Workflow-Management-Systeme auf bereits existierende Lösungen zur Verwaltung verteilter Ressourcen, etwa Batch-Scheduling-Systeme. Die Abschätzung der Ressourcen, die zur Ausführung einzelner Arbeitsschritte benötigt werden, wird dabei immer noch an die Nutzer:innen delegiert. Dies schränkt die Leistung und Benutzerfreundlichkeit von Workflow-Management-Systemen ein, da den Nutzer:innen oft die Zeit, das Fachwissen oder die Anreize fehlen, den Ressourcenverbrauch genau abzuschätzen. Diese Arbeit untersucht, wie die Ressourcennutzung während der Ausführung von Workflows automatisch erlernt werden kann. Im Gegensatz zu früheren Arbeiten werden Scheduling und Vorhersage von Ressourcenverbrauch in einem engeren Zusammenhang betrachtet. Dies bringt verschiedene Herausforderungen mit sich, wie die Quantifizierung der Auswirkungen von Vorhersagefehlern auf die Systemleistung. Die wichtigsten Beiträge dieser Arbeit sind: 1. Eine Literaturübersicht aktueller Ansätze zur Vorhersage von Spitzenspeicherverbrauch mittels maschinellen Lernens im Kontext von Batch-Scheduling-Systemen. 2. Ein Scheduling-Verfahren, das statistische Methoden verwendet, um vorherzusagen, welche Scheduling-Entscheidungen verbessert werden können. 3. Ein Ansatz zur Nutzung von zur Laufzeit gemessenem Spitzenspeicherverbrauch in Vorhersagemodellen, die die fortwährende Optimierung der Ressourcenallokation erlauben. Umfangreiche Simulationsexperimente geben Einblicke in Schlüsseleigenschaften von Scheduling-Heuristiken und Vorhersagemodellen. 4. Ein Vorhersagemodell, das die asymmetrischen Kosten überschätzten und unterschätzten Speicherverbrauchs berücksichtigt, sowie die Folgekosten von Vorhersagefehlern einbezieht. / Scientific experiments produce data at unprecedented volumes and resolutions. For the extraction of insights from large sets of raw data, complex analysis workflows are necessary. Scientific workflows enable such data analyses at scale. To achieve scalability, most workflow management systems are designed as an additional layer on top of distributed resource managers, such as batch schedulers or distributed data processing frameworks. However, like distributed resource managers, they do not automatically determine the amount of resources required for executing individual tasks in a workflow. The status quo is that workflow management systems delegate the challenge of estimating resource usage to the user. This limits the performance and ease-of-use of scientific workflow management systems, as users often lack the time, expertise, or incentives to estimate resource usage accurately. This thesis is an investigation of how to learn and predict resource usage during workflow execution. In contrast to prior work, an integrated perspective on prediction and scheduling is taken, which introduces various challenges, such as quantifying the effects of prediction errors on system performance. The main contributions are: 1. A survey of peak memory usage prediction in batch processing environments. It provides an overview of prior machine learning approaches, commonly used features, evaluation metrics, and data sets. 2. A static workflow scheduling method that uses statistical methods to predict which scheduling decisions can be improved. 3. A feedback-based approach to scheduling and predictive resource allocation, which is extensively evaluated using simulation. The results provide insights into the desirable characteristics of scheduling heuristics and prediction models. 4. A prediction model that reduces memory wastage. The design takes into account the asymmetric costs of overestimation and underestimation, as well as follow up costs of prediction errors.

Page generated in 0.055 seconds