1 |
Classification of complex networks in spatial, topological and information theoretic domainsWiedermann, Marc 23 February 2018 (has links)
Die Netzwerktheorie ist eine wirksame Methode, um die Struktur realer Systeme, z.B. des Klimasystems, zu beschreiben und zu klassifizieren. Der erste Teil dieser Arbeit nutzt diese Diskriminanzfähigkeit um die Ost- und Zentralpazifischen Phasen von El Niño und La Niña mittels eines Index basierend auf der Evaluation zeitlich entwickelnder Klimanetzwerke zu unterscheiden. Nach dem Studium der klimatischen Einflüsse dieser unterschiedenen Phasen verlegt die Arbeit ihren Schwerpunkt von der Klassifikation einzelner klimatischer Schichten auf den generelleren Fall interagierender Netzwerke. Hier repräsentieren die Teilnetzwerke entsprechende Variabilitäten in Ozean und Atmosphäre. Es zeigt sich, dass die Ozean-Atmosphären-Wechselwirkung einer hierarchischen Struktur folgt wobei makroskopische Netzwerkmaße einzelne Atmosphärenschichten bezüglich ihrer Wechselwirkung mit dem Ozean unterscheiden. Der zweite Teil dieser Arbeit untersucht den Einfluss der räumlichen Einbettung von Knoten auf topologische Netzwerkeigenschaften. Hierzu werden Nullmodelle eingeführt, welche zufällige Surrogate eines gegebenen Netzwerks erzeugen, sodass globale und lokale räumliche Eigenschaften erhalten bleiben. Diese Modelle erfassen die makroskopischen Eigenschaften der studierten Netzwerke besser als bisherige Standardmodelle zur Erzeugung von Zufallsnetzwerken. Abhängig von der Performanz der vorgeschlagenen Modelle können gegebene Netzwerke schlussendlich in verschiedene Klassen eingeteilt werden. Die Arbeit schließt mit einer Erweiterung der bisherigen Netzwerkklassifikatoren um eine zweidimensionale Metrik, welche Netzwerke auf Basis ihrer Komplexität unterscheidet. Es wird gezeigt, dass Netzwerke des gleichen Typs dazu neigen in individuellen Bereichen der resultierenden Komplexitäts-Entropie-Ebene zu liegen. Die eingeführte Methode ermöglicht auch die objektive Konstruktion von Klimanetzwerken indem Schwellwerte gewählt werden, die die statistische Komplexität maximieren. / Complex network theory provides a powerful tool to quantify and classify the structure of many real-world complex systems, including the climate system. In its first part, this work demonstrates the discriminative power of complex network theory to objectively classify Eastern and Central Pacific phases of El Niño and La Niña by proposing an index based on evolving climate networks. After an investigation of the climatic impacts of these discriminated flavors, this work moves from the classification of sets of single-layer networks to the more general study of interacting networks. Here, subnetworks represent oceanic and atmospheric variability. It is revealed that the ocean-to-atmosphere interaction in the Northern hemisphere follows a hierarchical structure and macroscopic network characteristics discriminate well different parts of the atmosphere with respect to their interaction with the ocean. The second part of this work assesses the effect of the nodes’ spatial embedding on the networks’ topological characteristics. A hierarchy of null models is proposed which generate random surrogates from a given network such that global and local statistics associated with the spatial embedding are preserved. The proposed models capture macroscopic properties of the studied spatial networks much better than standard random network models. Depending on the models’ actual performance networks can ultimately be categorized into different classes. This thesis closes with extending the zoo of network classifiers by a two-fold metric to discriminate different classes of networks based on assessing their complexity. Within this framework networks of the same category tend to cluster in distinct areas of the complexity-entropy plane. The proposed framework further allows to objectively construct climate networks such that the statistical network complexity is maximized.
|
2 |
Segmentation and Tracking of Cells and Nuclei Using Deep LearningHirsch, Peter Johannes 27 September 2023 (has links)
Die Analyse von großen Datensätzen von Mikroskopiebilddaten, insbesondere Segmentierung und Tracking, ist ein sehr wichtiger Aspekt vieler biologischer Studien. Für die leistungsfähige und verlässliche Nutzung ist der derzeitige Stand der Wissenschaft dennoch noch nicht ausreichend. Die vorhandenen Methoden sind oft schwer zu benutzen für ungeübte Nutzer, die Leistung auf anderen Datensätzen ist häufig verbesserungswürdig und sehr große Mengen an Trainingsdaten werden benötigt. Ich ging dieses Problem aus verschiedenen Richtungen an: (i) Ich präsentiere klare Richtlinien wie Artefakte beim Arbeiten mit sehr großen Bilddaten verhindert werden können. (ii) Ich präsentiere eine Erweiterung für eine Reihe von grundlegenden Methoden zur Instanzsegmentierung von Zellkernen. Durch Verwendung einer unterstützenden Hilfsaufgabe ermöglicht die Erweiterung auf einfache und unkomplizierte Art und Weise Leistung auf dem aktuellen Stand der Wissenschaft. Dabei zeige ich zudem, dass schwache Label ausreichend sind, um eine effiziente Objekterkennung auf 3d Zellkerndaten zu ermöglichen. (iii) Ich stelle eine neue Methode zur Instanzsegmentierung vor, die auf eine große Auswahl von Objekten anwendbar ist, von einfachen Formen bis hin zu Überlagerungen und komplexen Baumstrukturen, die das gesamte Bild umfassen. (iv) Auf den vorherigen Arbeiten aufbauend präsentiere ich eine neue Trackingmethode, die auch mit sehr großen Bilddaten zurecht kommt, aber nur schwache und dünnbesetzte Labels benötigt und trotzdem besser als die bisherigen besten Methoden funktioniert. Die Anpassungsfähigkeit an neue Datensätze wird durch eine automatisierte Parametersuche gewährleistet. (v) Für Nutzer, die das Tracking von Objekten in ihrer Arbeit verwenden möchten, präsentiere ich zusätzlich einen detaillierten Leitfaden, der es ihnen ermöglicht fundierte Entscheidungen zu treffen, welche Methode am besten zu ihrem Projekt passt. / Image analysis of large datasets of microscopy data, in particular segmentation and tracking, is an important aspect of many biological studies. Yet, the current state of research is still not adequate enough for copious and reliable everyday use. Existing methods are often hard to use, perform subpar on new datasets and require vast amounts of training data. I approached this problem from multiple angles: (i) I present clear guidelines on how to operate artifact-free on huge images. (ii) I present an extension for existing methods for instance segmentation of nuclei. By using an auxiliary task, it enables state-of-the-art performance in a simple and straightforward way. In the process I show that weak labels are sufficient for efficient object detection for 3d nuclei data. (iii) I present an innovative method for instance segmentation that performs extremely well on a wide range of objects, from simple shapes to complex image-spanning tree structures and objects with overlaps. (iv) Building upon the above, I present a novel tracking method that operates on huge images but only requires weak and sparse labels. Yet, it outperforms previous state-of-the-art methods. An automated weight search method enables adaptability to new datasets. (v) For practitioners seeking to employ cell tracking, I provide a comprehensive guideline on how to make an informed decision about what methods to use for their project.
|
3 |
Stability of dynamical processes on complex networksMitra, Chiranjit 13 April 2018 (has links)
Die vorliegende Arbeit umfasst die Entwicklung eines Rahmens zur Bewertung der Stabilität von (multistabilen) komplexen (vernetzten) dynamischen Systemen. Als ersten Beitrag schlagen wir die multiple-node basin stability (MNBS) vor, um die Stabilität vernetzter dynamischer Systeme als Reaktion auf nicht-infinitesimale Störungen zu messen, die gleichzeitig mehrere Knoten des Systems beeinflussen. Weiterhin beziehen wir uns auf das Konzept der Resilienz zur Charakterisierung von Multistabilität. Inspiriert vom Konzept der ökologischen Resilienz schlussfolgern wir, dass die Stabilität der verschiedenen Attraktoren eines multistabilen Systems von der Gesamtstruktur ihrer jeweiligen Einzugsgebiet bestimmt wird. Insbesondere identifizieren wir sowohl die lokale Dynamik des Systems im Zustandsraum als auch die relative Position des Attraktors im Einzugsgebiet zusätzlich zum dessen Volumen als entscheidende Aspekte, welche die Gesamtstabilität eines Attraktors charakterisieren. Die genannten Aspekte werden im Maß der integral stability (IS) für die ganzheitliche Quantifizierung von Multistabilität zusammengeführt. Komplementär lässt sich auch das Konzept der technischen Resilienz betrachten, welches sich auf die Rückkehrgeschwindigkeit eines Systems zu seinem Gleichgewicht, in Folge einer Störung, bezieht. Im spezifischen Kontext von vernetzten dynamischen Systemen definieren wir die single-node recovery time (SNRT). Diese stellt ein neues Maß zur Schätzung der relativen Zeitskalen dar, die der transienten Knotendynamik eines Netzwerks zugrunde liegen, welches nach einer nicht-infinitesimalen Störung an einem Knoten in seinen gewünschten Betriebszustand zurückkehrt. Schliesslich befassen wir uns mit der Untersuchung der Synchronisationsstabilität in speziellen komplexen Netzwerken, welche entweder die Kleine-Welt-Eigenschaft aufweisen oder eine Kombination aus skalenfreier Knotengradverteilung und hierarchischer Organisation zeigen. / The present endeavour comprises the development of a framework for the assessment of the stability of (multistable) complex (networked) dynamical systems. As a first contribution, we propose the framework of multiple-node basin stability (MNBS) for gauging the stability of networked dynamical systems in response to non-infinitesimal perturbations simultaneously affecting multiple nodes of the system. We then turn to the theoretical framework of resilience in identifying the different aspects characterizing multistability. Inspired by the concept of ecological resilience, we assert that the stability of the different attractors of a multistable system is determined by the overall structure of their respective basins of attraction. In particular, we identify the local dynamics of the system in the state space and the relative position of the attractor within the basin, in addition to the volume of the basin of attraction as crucial aspects determining overall stability of an attractor. We combine the aforementioned aspects in proposing the measure of integral stability (IS) for holistically quantifying multistability. We also draw inspiration from the concept of engineering resilience, which relates to the speed of return of the system to its equilibrium, following a perturbation. In the specific context of networked dynamical systems, we propose the framework of single-node recovery time (SNRT) for obtaining an estimate of the relative time scales underlying the transient dynamics of the nodes of a network returning to its desired operational state, following a non-infinitesimal perturbation to any specific node. Finally, we delve into the explicit investigation of the stability of synchronization on complex dynamical networks exhibiting small-world properties and of those, simultaneously displaying scale-free behaviour and hierarchical organization.
|
4 |
Temporal and spatial aspects of correlation networks and dynamical network modelsTupikina, Liubov 30 March 2017 (has links)
In der vorliegenden Arbeit untersuchte ich die komplexen Strukturen von Netzwerken, deren zeitliche Entwicklung, die Interpretationen von verschieden Netzwerk-Massen und die Klassen der Prozesse darauf. Als Erstes leitete ich Masse für die Charakterisierung der zeitlichen Entwicklung der Netzwerke her, um räumlich Veränderungsmuster zu erkennen. Als Nächstes führe ich eine neue Methode zur Konstruktion komplexer Netzwerke von Flussfeldern ein, bei welcher man das Set-up auch rein unter Berufung Berufung auf das Geschwindigkeitsfeld ändern kann. Diese Verfahren wurden für die Korrelationen skalarer Grössen, z. B. Temperatur, entwickelt, welche eine Advektions-Diffusions-Dynamik in der Gegenwart von Zwingen und Dissipation. Die Flussnetzwerk-Methode zur Zeitreihenanalyse konstruiert die Korrelationsmatrizen und komplexen Netzwerke. Dies ermöglicht die Charakterisierung von Transport in Flüssigkeiten, die Identifikation verschiedene Misch-Regimes in dem Fluss und die Anwendung auf die Advektions-DiffusionsDynamik, Klimadaten und anderen Systemen, in denen Teilchentransport eine entscheidende Rolle spielen. Als Letztes, entwickelte ich ein neuartiges Heterogener Opinion Status Modell (HOpS) und Analysetechnik basiert auf Random Walks und Netzwerktopologie Theorien, um dynamischen Prozesse in Netzwerken zu studieren, wie die Verbreitung von Meinungen in sozialen Netzwerken oder Krankheiten in der Gesellschaft. Ein neues Modell heterogener Verbreitung auf einem Netzwerk wird als Beispielssystem für HOpS verwendent, um die vergleichsweise Einfachheit zu nutzen. Die Analyse eines diskreten Phasenraums des HOPS-Modells hat überraschende Eigenschaften, welches sensibel auf die Netzwerktopologie reagieren. Sie können verallgemeinert werden, um verschiedene Klassen von komplexen Netzwerken zu quantifizieren, Transportphänomene zu charakterisieren und verschiedene Zeitreihen zu analysieren. / In the thesis I studied the complex architectures of networks, the network evolution in time, the interpretation of the networks measures and a particular class of processes taking place on complex networks. Firstly, I derived the measures to characterize temporal networks evolution in order to detect spatial variability patterns in evolving systems. Secondly, I introduced a novel flow-network method to construct networks from flows, that also allows to modify the set-up from purely relying on the velocity field. The flow-network method is developed for correlations of a scalar quantity (temperature, for example), which satisfies advection-diffusion dynamics in the presence of forcing and dissipation. This allows to characterize transport in the fluids, to identify various mixing regimes in the flow and to apply this method to advection-diffusion dynamics, data from climate and other systems, where particles transport plays a crucial role. Thirdly, I developed a novel Heterogeneous Opinion-Status model (HOpS) and analytical technique to study dynamical processes on networks. All in all, methods, derived in the thesis, allow to quantify evolution of various classes of complex systems, to get insight into physical meaning of correlation networks and analytically to analyze processes, taking place on networks.
|
5 |
Entwicklung und Evaluation eines Expertensystemszur Prognoseabschätzung bei Kindern mitHirnstammgliomenSchnabel, Kai Philipp 14 January 2000 (has links)
Es wurde ein Expertensystem zur Prognoseabschätzung entwickelt und evaluiert, welches eine neue Art der Regelbewertung anwendet. Als Krankheitsbild wurden exemplarisch Hirnstammgliome im Kindesalter gewählt. HISTAGLI besteht aus einer Informationskomponente, die einen inhaltlichen Überblick über das Krankheitsbild gibt, einer Datenbank, in der sämtliche Patienteneingaben sowohl als Text, als auch graphisch einsehbar ist und einer Prognoseerstellungskomponente, in der eine Prognose in sechs verschiedenen Kategorien unter Berücksichtigung verschiedener Therapieschemata für einen neu eingegebenen Patienten erstellt und der Weg zur Prognoseerstellung erläutert wird. Die der Prognoseerstellungskomponete zugrundeliegende Wissensbasis wurden aufgrund der klinischen und histopathologischen Daten von 23 Kindern, die an einem Hirnstammgliom erkrankt waren, halbautomatisch von einem Experten bewertet. Es fand sich dabei eine hohe Korrelation von 78,26% (bzw. 86,96% bei einer Kategorie Toleranz) Übereinstimmung mit den tatsächlichen Prognosen der Patienten. Dieses Ergebnis ist nur mit Einschränkungen auf neue Patienten übertragbar, da die Fallzahl zu gering für statistische Aussagen ist. Bei entsprechender Pflege des Systems ist mit wachsenden Fallzahlen mit einer immer höher werdenden Genauigkeit zu rechnen. / An expert system for the estimation of a prognosis was developed and evaluated which uses a new kind of valuation. Brainstem gliomas in the childhood were chosen as an example of a disease. HISTAGLI consists of an information component which gives an overview about the disease, a database in which all patient data is presented as text and graphics, and a prognosis creation component which creates a prognosis for newly inserted patients in six categories under consideration of different therapy pattern and explains the way towards the estimation of the prognosis. The knowledge base of the prognosis creation component was made out of the clinical and histopathological data of 23 children with brainstem gliomas halfautomaticly valued by an expert. There was a high correlation of 78,26% (with one category toleranz 86,96% ) accordance with the real prognosis of the patients. This result is only restricted transferable to new patients because of the number of cases which is too small for statistical evidence. Higher precision is expected with appropriate maintenance and an increasing number of cases.
|
6 |
Distance-based methods for the analysis of Next-Generation sequencing dataOtto, Raik 14 September 2021 (has links)
Die Analyse von NGS Daten ist ein zentraler Aspekt der modernen genomischen Forschung. Bei der Extraktion von Daten aus den beiden am häufigsten verwendeten Quellorganismen bestehen jedoch vielfältige Problemstellungen.
Im ersten Kapitel wird ein neuartiger Ansatz vorgestellt welcher einen Abstand zwischen Krebszellinienkulturen auf Grundlage ihrer kleinen genomischen Varianten bestimmt um die Kulturen zu identifizieren. Eine Voll-Exom sequenzierte Kultur wird durch paarweise Vergleiche zu Referenzdatensätzen identifiziert so ein gemessener Abstand geringer ist als dies bei nicht verwandten Kulturen zu erwarten wäre. Die Wirksamkeit der Methode wurde verifiziert, jedoch verbleiben Einschränkung da nur das Sequenzierformat des Voll-Exoms unterstützt wird.
Daher wird im zweiten Kapitel eine publizierte Modifikation des Ansatzes vorgestellt welcher die Unterstützung der weitläufig genutzten Bulk RNA sowie der Panel-Sequenzierung ermöglicht. Die Ausweitung der Technologiebasis führt jedoch zu einer Verstärkung von Störeffekten welche zu Verletzungen der mathematischen Konditionen einer Abstandsmetrik führen. Daher werden die entstandenen Verletzungen durch statistische Verfahren zuerst quantifiziert und danach durch dynamische Schwellwertanpassungen erfolgreich kompensiert.
Das dritte Kapitel stellt eine neuartige Daten-Aufwertungsmethode (Data-Augmentation) vor welche das Trainieren von maschinellen Lernmodellen in Abwesenheit von neoplastischen Trainingsdaten ermöglicht. Ein abstraktes Abstandsmaß wird zwischen neoplastischen Entitäten sowie Entitäten gesundem Ursprungs mittels einer transkriptomischen Dekonvolution hergestellt. Die Ausgabe der Dekonvolution erlaubt dann das effektive Vorhersagen von klinischen Eigenschaften von seltenen jedoch biologisch vielfältigen Krebsarten wobei die prädiktive Kraft des Verfahrens der des etablierten Goldstandard ebenbürtig ist. / The analysis of NGS data is a central aspect of modern Molecular Genetics and Oncology.
The first scientific contribution is the development of a method which identifies Whole-exome-sequenced CCL via the quantification of a distance between their sets of small genomic variants. A distinguishing aspect of the method is that it was designed for the computer-based identification of NGS-sequenced CCL. An identification of an unknown CCL occurs when its abstract distance to a known CCL is smaller than is expected due to chance. The method performed favorably during benchmarks but only supported the Whole-exome-sequencing technology.
The second contribution therefore extended the identification method by additionally supporting the Bulk mRNA-sequencing technology and Panel-sequencing format. However, the technological extension incurred predictive biases which detrimentally affected the quantification of abstract distances. Hence, statistical methods were introduced to quantify and compensate for confounding factors. The method revealed a heterogeneity-robust benchmark performance at the trade-off of a slightly reduced sensitivity compared to the Whole-exome-sequencing method.
The third contribution is a method which trains Machine-Learning models for rare and diverse cancer types. Machine-Learning models are subsequently trained on these distances to predict clinically relevant characteristics. The performance of such-trained models was comparable to that of models trained on both the substituted neoplastic data and the gold-standard biomarker Ki-67. No proliferation rate-indicative features were utilized to predict clinical characteristics which is why the method can complement the proliferation rate-oriented pathological assessment of biopsies.
The thesis revealed that the quantification of an abstract distance can address sources of erroneous NGS data analysis.
|
7 |
Secure Computation Protocols for Privacy-Preserving Machine LearningSchoppmann, Phillipp 08 October 2021 (has links)
Machine Learning (ML) profitiert erheblich von der Verfügbarkeit großer Mengen an Trainingsdaten, sowohl im Bezug auf die Anzahl an Datenpunkten, als auch auf die Anzahl an Features pro Datenpunkt. Es ist allerdings oft weder möglich, noch gewollt, mehr Daten unter zentraler Kontrolle zu aggregieren. Multi-Party-Computation (MPC)-Protokolle stellen eine Lösung dieses Dilemmas in Aussicht, indem sie es mehreren Parteien erlauben, ML-Modelle auf der Gesamtheit ihrer Daten zu trainieren, ohne die Eingabedaten preiszugeben. Generische MPC-Ansätze bringen allerdings erheblichen Mehraufwand in der Kommunikations- und Laufzeitkomplexität mit sich, wodurch sie sich nur beschränkt für den Einsatz in der Praxis eignen.
Das Ziel dieser Arbeit ist es, Privatsphäreerhaltendes Machine Learning mittels MPC praxistauglich zu machen. Zuerst fokussieren wir uns auf zwei Anwendungen, lineare Regression und Klassifikation von Dokumenten. Hier zeigen wir, dass sich der Kommunikations- und Rechenaufwand erheblich reduzieren lässt, indem die aufwändigsten Teile der Berechnung durch Sub-Protokolle ersetzt werden, welche auf die Zusammensetzung der Parteien, die Verteilung der Daten, und die Zahlendarstellung zugeschnitten sind. Insbesondere das Ausnutzen dünnbesetzter Datenrepräsentationen kann die Effizienz der Protokolle deutlich verbessern. Diese Beobachtung verallgemeinern wir anschließend durch die Entwicklung einer Datenstruktur für solch dünnbesetzte Daten, sowie dazugehöriger Zugriffsprotokolle. Aufbauend auf dieser Datenstruktur implementieren wir verschiedene Operationen der Linearen Algebra, welche in einer Vielzahl von Anwendungen genutzt werden.
Insgesamt zeigt die vorliegende Arbeit, dass MPC ein vielversprechendes Werkzeug auf dem Weg zu Privatsphäre-erhaltendem Machine Learning ist, und die von uns entwickelten Protokolle stellen einen wesentlichen Schritt in diese Richtung dar. / Machine learning (ML) greatly benefits from the availability of large amounts of training data, both in terms of the number of samples, and the number of features per sample. However, aggregating more data under centralized control is not always possible, nor desirable, due to security and privacy concerns, regulation, or competition. Secure multi-party computation (MPC) protocols promise a solution to this dilemma, allowing multiple parties to train ML models on their joint datasets while provably preserving the confidentiality of the inputs. However, generic approaches to MPC result in large computation and communication overheads, which limits the applicability in practice.
The goal of this thesis is to make privacy-preserving machine learning with secure computation practical. First, we focus on two high-level applications, linear regression and document classification. We show that communication and computation overhead can be greatly reduced by identifying the costliest parts of the computation, and replacing them with sub-protocols that are tailored to the number and arrangement of parties, the data distribution, and the number representation used. One of our main findings is that exploiting sparsity in the data representation enables considerable efficiency improvements. We go on to generalize this observation, and implement a low-level data structure for sparse data, with corresponding secure access protocols. On top of this data structure, we develop several linear algebra algorithms that can be used in a wide range of applications. Finally, we turn to improving a cryptographic primitive named vector-OLE, for which we propose a novel protocol that helps speed up a wide range of secure computation tasks, within private machine learning and beyond.
Overall, our work shows that MPC indeed offers a promising avenue towards practical privacy-preserving machine learning, and the protocols we developed constitute a substantial step in that direction.
|
8 |
Using machine learning to predict pathogenicity of genomic variants throughout the human genomeRentzsch, Philipp 14 April 2023 (has links)
Geschätzt mehr als 6.000 Erkrankungen werden durch Veränderungen im Genom verursacht. Ursachen gibt es viele: Eine genomische Variante kann die Translation eines Proteins stoppen, die Genregulation stören oder das Spleißen der mRNA in eine andere Isoform begünstigen. All diese Prozesse müssen überprüft werden, um die zum beschriebenen Phänotyp passende Variante zu ermitteln. Eine Automatisierung dieses Prozesses sind Varianteneffektmodelle. Mittels maschinellem Lernen und Annotationen aus verschiedenen Quellen bewerten diese Modelle genomische Varianten hinsichtlich ihrer Pathogenität.
Die Entwicklung eines Varianteneffektmodells erfordert eine Reihe von Schritten: Annotation der Trainingsdaten, Auswahl von Features, Training verschiedener Modelle und Selektion eines Modells. Hier präsentiere ich ein allgemeines Workflow dieses Prozesses. Dieses ermöglicht es den Prozess zu konfigurieren, Modellmerkmale zu bearbeiten, und verschiedene Annotationen zu testen. Der Workflow umfasst außerdem die Optimierung von Hyperparametern, Validierung und letztlich die Anwendung des Modells durch genomweites Berechnen von Varianten-Scores.
Der Workflow wird in der Entwicklung von Combined Annotation Dependent Depletion (CADD), einem Varianteneffektmodell zur genomweiten Bewertung von SNVs und InDels, verwendet. Durch Etablierung des ersten Varianteneffektmodells für das humane Referenzgenome GRCh38 demonstriere ich die gewonnenen Möglichkeiten Annotationen aufzugreifen und neue Modelle zu trainieren. Außerdem zeige ich, wie Deep-Learning-Scores als Feature in einem CADD-Modell die Vorhersage von RNA-Spleißing verbessern. Außerdem werden Varianteneffektmodelle aufgrund eines neuen, auf Allelhäufigkeit basierten, Trainingsdatensatz entwickelt.
Diese Ergebnisse zeigen, dass der entwickelte Workflow eine skalierbare und flexible Möglichkeit ist, um Varianteneffektmodelle zu entwickeln. Alle entstandenen Scores sind unter cadd.gs.washington.edu und cadd.bihealth.org frei verfügbar. / More than 6,000 diseases are estimated to be caused by genomic variants. This can happen in many possible ways: a variant may stop the translation of a protein, interfere with gene regulation, or alter splicing of the transcribed mRNA into an unwanted isoform. It is necessary to investigate all of these processes in order to evaluate which variant may be causal for the deleterious phenotype. A great help in this regard are variant effect scores. Implemented as machine learning classifiers, they integrate annotations from different resources to rank genomic variants in terms of pathogenicity.
Developing a variant effect score requires multiple steps: annotation of the training data, feature selection, model training, benchmarking, and finally deployment for the model's application. Here, I present a generalized workflow of this process. It makes it simple to configure how information is converted into model features, enabling the rapid exploration of different annotations. The workflow further implements hyperparameter optimization, model validation and ultimately deployment of a selected model via genome-wide scoring of genomic variants.
The workflow is applied to train Combined Annotation Dependent Depletion (CADD), a variant effect model that is scoring SNVs and InDels genome-wide. I show that the workflow can be quickly adapted to novel annotations by porting CADD to the genome reference GRCh38. Further, I demonstrate the integration of deep-neural network scores as features into a new CADD model, improving the annotation of RNA splicing events. Finally, I apply the workflow to train multiple variant effect models from training data that is based on variants selected by allele frequency.
In conclusion, the developed workflow presents a flexible and scalable method to train variant effect scores. All software and developed scores are freely available from cadd.gs.washington.edu and cadd.bihealth.org.
|
9 |
Machine learning for fast and accurate assessment of earthquake source parameters / Implications for rupture predictability and early warningMünchmeyer, Jannes 07 November 2022 (has links)
Erdbeben gehören zu den zerstörerischsten Naturgefahren auf diesem Planeten. Obwohl Erdbeben seit Jahrtausenden dokumentiert sing, bleiben viele Fragen zu Erdbeben unbeantwortet. Eine Frage ist die Vorhersagbarkeit von Brüchen: Inwieweit ist es möglich, die endgültige Größe eines Bebens zu bestimmen, bevor der zugrundeliegende Bruchprozess endet? Diese Frage ist zentral für Frühwarnsysteme. Die bisherigen Forschungsergebnisse zur Vorhersagbarkeit von Brüchen sind widersprüchlich.
Die Menge an verfügbaren Daten für Erdbebenforschung wächst exponentiell und hat den Tera- bis Petabyte-Bereich erreicht. Während viele klassische Methoden, basierend auf manuellen Datenauswertungen, hier ihre Grenzen erreichen, ermöglichen diese Datenmengen den Einsatz hochparametrischer Modelle und datengetriebener Analysen. Insbesondere ermöglichen sie den Einsatz von maschinellem Lernen und deep learning.
Diese Doktorarbeit befasst sich mit der Entwicklung von Methoden des maschinellen Lernens zur Untersuchung zur Erbebenanalyse. Wir untersuchen zuerst die Kalibrierung einer hochpräzisen Magnitudenskala in einem post hoc Scenario. Nachfolgend befassen wir uns mit Echtzeitanalyse von Erdbeben mittels deep learning. Wir präsentieren TEAM, eine Methode zur Frühwarnung. Auf TEAM aufbauend entwickeln wir TEAM-LM zur Echtzeitschätzung von Lokation und Magnitude eines Erdbebens. Im letzten Schritt untersuchen wir die Vorhersagbarkeit von Brüchen mittels TEAM-LM anhand eines Datensatzes von teleseismischen P-Wellen-Ankünften. Dieser Analyse stellen wir eine Untersuchung von Quellfunktionen großer Erdbeben gegenüber. Unsere Untersuchung zeigt, dass die Brüche großer Beben erst vorhersagbar sind, nachdem die Hälfte des Bebens vergangen ist. Selbst dann können weitere Subbrüche nicht vorhergesagt werden. Nichtsdestotrotz zeigen die hier entwickelten Methoden, dass deep learning die Echtzeitanalyse von Erdbeben wesentlich verbessert. / Earthquakes are among the largest and most destructive natural hazards known to humankind. While records of earthquakes date back millennia, many questions about their nature remain open. One question is termed rupture predictability: to what extent is it possible to foresee the final size of an earthquake while it is still ongoing? This question is integral to earthquake early warning systems. Still, research on this question so far has reached contradictory conclusions.
The amount of data available for earthquake research has grown exponentially during the last decades reaching now tera- to petabyte scale. This wealth of data, while making manual inspection infeasible, allows for data-driven analysis and complex models with high numbers of parameters, including machine and deep learning techniques. In seismology, deep learning already led to considerable improvements upon previous methods for many analysis tasks, but the application is still in its infancy.
In this thesis, we develop machine learning methods for the study of rupture predictability and earthquake early warning. We first study the calibration of a high-confidence magnitude scale in a post hoc scenario. Subsequently, we focus on real-time estimation models based on deep learning and build the TEAM model for early warning. Based on TEAM, we develop TEAM-LM, a model for real-time location and magnitude estimation. In the last step, we use TEAM-LM to study rupture predictability. We complement this analysis with results obtained from a deep learning model based on moment rate functions. Our analysis shows that earthquake ruptures are not predictable early on, but only after their peak moment release, after approximately half of their duration. Even then, potential further asperities can not be foreseen. While this thesis finds no rupture predictability, the methods developed within this work demonstrate how deep learning methods make a high-quality real-time assessment of earthquakes practically feasible.
|
10 |
Computer vision approaches for quantitative analysis of microscopy imagesBahry, Ella 23 November 2021 (has links)
Mikroskopaufnahmen kompletter Organismen und ihrer Entwicklung ermöglichen die Erforschung ganzer Organismen oder Systeme und erzeugen Datensätze im Terabyte-Bereich. Solche großen Datensätze erfordern die Entwicklung von Computer-Vision-Tools, um Aufgaben wie Erkennung, Segmentierung, Klassifizierung und Registrierung durchzuführen. Es ist wünschenswert, Computer-Vision-Tools zu entwickeln, die nur eine minimale Menge an manuell annotierten Trainingsdaten benötigen. Ich demonstriere derartige Anwendungen in drei Projekte.
Zunächst stelle ich ein Tool zur automatischen Registrierung von Drosophila-Flügeln (verschiedener Spezies) unter Verwendung von Landmarkenerkennung vor, das für die Untersuchung der Funktionsweise von Enhancern eingesetzt wird. Ich vergleiche die Leistung eines Shape-Model-Ansatzes mit der eines kleinen neuronalen Netz bei der Verfügbarkeit von nur 20 Trainingsbeispiele. Beide Methoden schneiden gut ab und ermöglichen eine präzise Registrierung von Tausenden von Flügeln.
Das zweite Projekt ist ein hochauflösendes Zellkernmodell des C. elegans, das aus einem nanometeraufgelösten Elektronenmikroskopiedatensatz einer ganzen Dauerlarve erstellt wird. Diese Arbeit ist der erste Atlas der Dauerdiapause von C. elegans, der jemals erstellt wurde, und enthüllt die Anzahl der Zellkerne in diesem Stadium.
Schließlich stelle ich eine Bildanalysepipeline vor, an der ich zusammen mit Laura Breimann und anderen gearbeitet habe. Die Pipeline umfasst die Punkterkennung von Einzelmolekül-Fluoreszenz-In-situ-Hybridisierung (smFISH), die Segmentierung von Objekten und die Vorhersage des Embryonalstadiums.
Mit diesen drei Beispielen demonstriere ich sowohl generische Ansätze zur computergestützten Modellierung von Modellorganismen als auch maßgeschneiderte Lösungen für spezifische Probleme und die Verschiebung des Feldes in Richtung Deep-Learning. / Microscopy images of entire organisms and their development allows research in whole organisms or systems, producing terabyte scale datasets. Such big datasets require the development of computer vision tools to perform tasks such as detection, segmentation, classification, and registration. It is desirable to develop computer vision tools that require minimal manually annotated training data. I demonstrate such applications in three projects.
First, I present a tool for automatic Drosophila wing (of various species) registration using landmark detection, for its application in studying enhancer function. I compare the performance of a shape model technique to a small CNN requiring only 20 training examples. Both methods perform well, and enable precise registration of thousands of wings.
The second project is a high resolution nucleus model of the C. elegans, constructed from a nanometer-resolved electron microscopy dataset of an entire dauer larva. The nucleus model is constructed using a classical dynamic programing approach as well as a CNN approach. The resulting model is accessible via a web-based (CATMAID) open source and open access resource for the community. I also developed a CATMAID plugin for the annotation of segmentation objects (here, nucleus identity). This work is the first atlas of the C. elegans dauer diapause ever created and unveils the number of nuclei at that stage.
Lastly, I detail an image analysis pipeline I collaborated on with Laura Breimann and others. The pipeline involves single molecule fluorescence in situ hybridization (smFISH) spot detection, object segmentation, and embryo stage prediction. The pipeline is used to study the dynamics of X specific transcriptional repression by condensin in the C. elegans embryo.
With these three examples, I demonstrate both generic approaches to computational modeling of model organisms, as well as bespoke solutions to specific problems, and the shift in the field towards deep learning.
|
Page generated in 0.0305 seconds