1 |
Unraveling the interactome of chromatin regulators that block reprogrammingBaytek, Gülkiz 01 February 2022 (has links)
Die Untersuchung von Proteininteraktionen ist unerlässlich um die komplexen Mechanismen der epigenetischen Kontrolle von Zugänglichkeit zum Chromatin und dessen Struktur zu verstehen. Zellspezifizierung während der Entwicklung von Organismen kann nur durch strikte Regulation von Chromatin gewährleistet werden, was auch für den Schutz von Zellenidentitäten im späteren Lebensverlauf wichtig ist.
Die Modifizierung von Histon-Proteinen, welche integrale Komponenten des Chromatins sind, fördert entweder positive oder negative Genregulation. Eine Vielzahl von Chromatin regulierenden Proteinen hat jedoch keine enzymatische Aktivität für Histon- Modifikationen, so dass sie nur such Interaktionen mit anderen Proteinen regulatorisch einwirken können. Der Nematode Caenorhabditis elegans eignet sich als ein in vivo System, um die Schutzmechanismen der Zellen basierend auf Chromatinfaktoren zu untersuchen, indem systematisch Protein-Interaktionsnetzwerke bestimmt werden.
Diese Dissertation beschriebt zunächst die Etablierung eines optimierten Verfahrens für die quantitative Analyse ohne Markierung von Proteinen in C. elegans, die mittels CRISPR mit einem Epitop fusioniert wurden. Mit Hilfe dieses Verfahrens wurden fünf Chromatin regulierende Proteine, die eine wichtige Rolle beim Schutz von Zellidentitäten spielen, charakterisiert. Es wurden in vivo Proteininteraktions-Netzwerke erstellt und dabei neue funktionsrelevante Interaktionspartner identifiziert. Darüber hinaus wurde eine vertiefende Analyse der Interaktionen des Chromatinfaktors MRG- 1 durchgeführt, das homolog zum humanen MRG15 ist. MRG-1 besitzt eine sogenannte Chromodomäne, um an methylierte Histone zu binden.
Diese Studie zeigt, dass die Untersuchung der Proteininteraktionen von epigenetischen Faktoren in einem in vivo System ein bedeutendes Verfahren ist, um wichtige biologische Mechanismen der Schutzfunktion von Zellen zu entschlüsseln. / Elucidating protein-protein interactions has been instrumental to understand the complex mechanisms underlying epigenetic regulations to control chromatin accessibility and structure. Proper development and cell fate specification are established under strict chromatin regulation to safeguard cellular identities throughout an organism's life.
Modifications of histone proteins as an integral component of chromatin can promote either positive or negative gene regulation. However, many chromatin-regulation proteins lack enzymatic activity and depend on protein-protein interaction to cooperate with other factors to regulate chromatin through histone modifications. The nematode Caenorhabditis elegans can be used as an in vivo system to study chromatin regulators that safeguard cell identity and offers an attractive model system for mapping in vivo protein interactions. The presented thesis includes establishment of an optimized protocol for a quantitative approach based on label-free interaction proteomics to accurately identify interactions of chromatin-regulating proteins, which were epitope-tagged using CRISPR in C. elegans. This protocol was utilized to reveal the interaction partners of five bait proteins involved in essential chromatin regulation mechanisms during cell fate maintenance. The present study generated an in vivo protein interaction network identifying new interactions of high functional relevance. Moreover, in-depth protein-protein interaction analysis of the chromodomain protein MRG-1, homolog of human MRG15, detected a strong association with the Small Ubiquitin-like Modifier (SUMO), besides previously described and novel interactions with other proteins. In summary, in vivo interactome mapping of epigenetic regulators is a powerful approach that can reveal crucial biological insights into how cell fate decisions are regulated.
|
2 |
Estimating Gene Regulatory Activity using Mathematical OptimizationTrescher, Saskia 28 September 2020 (has links)
Die Regulation der Genexpression ist einer der wichtigsten zellulären Prozesse und steht in Zusammenhang mit der Entstehung diverser Krankheiten. Regulationsmechanismen können mit einer Vielzahl von Methoden experimentell untersucht werden, zugleich erfordert die Integration der Datensätze in umfassende Modelle stringente rechnergestützte Methoden. Ein Teil dieser Methoden modelliert die genomweite Genexpression als (lineares) Gleichungssystem über die Aktivität und Beziehungen von Transkriptionsfaktoren (TF), Genen und anderen Faktoren und optimiert die Parameter, sodass die gemessenen Expressionsintensitäten möglichst genau wiedergegeben werden. Trotz ihrer gemeinsamen Wurzeln in der mathematischen Optimierung unterscheiden sich die Methoden stark in der Art der integrierten Daten, im für ihre Anwendung notwendigen Hintergrundwissen, der Granularität des Regulationsmodells, des konkreten Paradigmas zur Lösung des Optimierungsproblems, und der zur Evaluation verwendeten Datensätze.
In dieser Arbeit betrachten wir fünf solcher Methoden und stellen einen qualitativen und quantitativen Vergleich auf. Unsere Ergebnisse zeigen, dass die Überschneidungen der Ergebnisse sehr gering sind, was nicht auf die Stichprobengröße oder das regulatorische Netzwerk zurückgeführt werden kann. Ein Grund für die genannten Defizite könnten die vereinfachten Modelle zellulärer Prozesse sein, da diese vorhandene Rückkopplungsschleifen ignorieren. Wir schlagen eine neue Methode (Florae) mit Schwerpunkt auf die Berücksichtigung von Rückkopplungsschleifen vor und beurteilen deren Ergebnisse. Mit Floræ können wir die Identifizierung von Knockout- und Knockdown-TF in synthetischen Datensätzen verbessern. Unsere Ergebnisse und die vorgeschlagene Methode erweitern das Wissen über genregulatorische Aktivität können die Identifizierung von Ursachen und Mechanismen regulatorischer (Dys-)Funktionen und die Entwicklung von medizinischen Biomarkern und Therapien unterstützen. / Gene regulation is one of the most important cellular processes and closely interlinked pathogenesis. The elucidation of regulatory mechanisms can be approached by many experimental methods, yet integration of the resulting heterogeneous, large, and noisy data sets into comprehensive models requires rigorous computational methods. A prominent class of methods models genome-wide gene expression as sets of (linear) equations over the activity and relationships of transcription factors (TFs), genes and other factors and optimizes parameters to fit the measured expression intensities. Despite their common root in mathematical optimization, they vastly differ in the types of experimental data being integrated, the background knowledge necessary for their application, the granularity of their regulatory model, the concrete paradigm used for solving the optimization problem and the data sets used for evaluation.
We review five recent methods of this class and compare them qualitatively and quantitatively in a unified framework. Our results show that the result overlaps are very low, though sometimes statistically significant. This poor overall performance cannot be attributed to the sample size or to the specific regulatory network provided as background knowledge. We suggest that a reason for this deficiency might be the simplistic model of cellular processes in the presented methods, where TF self-regulation and feedback loops were not represented. We propose a new method for estimating transcriptional activity, named Florae, with a particular focus on the consideration of feedback loops and evaluate its results. Using Floræ, we are able to improve the identification of knockout and knockdown TFs in synthetic data sets. Our results and the proposed method extend the knowledge about gene regulatory activity and are a step towards the identification of causes and mechanisms of regulatory (dys)functions, supporting the development of medical biomarkers and therapies.
|
3 |
Computational lipidologyHübner, Katrin 30 September 2008 (has links)
Wichtige Marker in der klinischen Routine für die Risikoabschätzung von kardiovaskulären Erkrankungen (CVD) sind Blutcholesterinwerte auf Basis von Lipoproteinklassen wie ''schlechtes'' LDL oder ''gutes'' HDL. Dies vernachlässigt, dass jede Lipoproteinklasse eine nicht-homogene Population von Lipoproteinpartikeln unterschiedlicher Zusammensetzung aus Lipiden und Proteinen bildet. Studien zeigen zudem, dass solche Sub-populationen von Lipoproteinen im Stoffwechsel als auch im Beitrag zu CVD unterschiedlich sind. Mehrwert und routinemäßiger Einsatz einer detaillierteren Auftrennung von Lipoproteinen sind jedoch umstritten, da die experimentelle Fraktionierung und Analyse aufwendig, zeit- und kostenintensiv sind. Die vorliegende Arbeit ''Computational Lipidology'' präsentiert einen neuartigen Modellierungsansatz für die Berechnung von Lipoproteinverteilungen (Lipoproteinprofil) im Blutplasma, wobei erstmals individuelle Lipoproteinpartikel anstelle von Lipoproteinklassen betrachtet werden. Das Modell berücksichtigt elementare Bestandteile (Lipide, Proteine) und Prozesse des Stoffwechsel von Lipoproteinen. Stochastische wie deterministische Simulationen errechnen auf Basis aller Lipoproteinpartikel im System deren Dichteverteilung. Die Modellberechnungen reproduzieren erfolgreich klinisch gemessene Lipoproteinprofile von gesunden Patienten und zeigen Hauptmerkmale von pathologischen Situationen, die durch Störung eines der zugrundeliegenden molekularen Prozesse verursacht werden. Hochaufgelöste Lipoproteinprofile zeigen die Verteilung von sogenannten ''high-resolution density sub-fractions'' (hrDS) innerhalb von Hauptlipoproteinklassen. Die Ergebnisse stimmen mit klinischen Beobachtungen sehr gut überein, was die Arbeit als einen signifikanten Schritt in Richtung Analyse von individuellen Unterschieden, patienten-orientierte Diagnose von Fettstoffwechselstörungen und Identifikation neuer Sub-populationen von potentiell klinischer Relevanz qualifiziert. / Monitoring the major lipoprotein classes, particularly low-density lipoproteins (''bad'' LDL) and high-density lipoproteins (''good'' HDL) for characterizing risk of cardiovascular disease (CVD) is well-accepted and routine in clinical practice. However, it is only one-half of the truth as lipoprotein classes comprise non-homogeneous populations of lipoprotein particles varying significantly in their composition of lipids and apolipoproteins. Various studies have shown differing metabolic behavior and contribution to CVD of individual lipoprotein sub-populations. Nevertheless, the superiority of more detailed lipoprotein fractionation is still a matter of debate because experimental separation and analysis is an elaborate, time-consuming and expensive venture and not yet worthwhile for routine measurements. The present work ''Computational Lipidology'' aims at establishing a novel modeling approach to calculate the distribution of lipoproteins (lipoprotein profile) in blood plasma being the first that settles on individual lipoprotein complexes instead of common lipoprotein classes. Essential lipoprotein constituents and processes involved in the lipoprotein metabolism are taken into account. Stochastic as well as deterministic simulations yield the distribution of lipoproteins over density based on the set of individual lipoprotein complexes in the system. The model calculations successfully reproduce lipoprotein profiles measured in healthy subjects and show main characteristics of pathological situations elicited by disorder in one of the underlying molecular processes. Moreover, the model reveals the distribution of high-resolution lipoprotein sub-fractions (hrDS) within major density classes. The results show satisfactory agreement with clinical observations which qualifies the work as a significant step towards analyzing inter-individual variability, patient-oriented diagnosis of lipid disorders and identifying new sub-fractions of potential clinical relevance.
|
4 |
Promoter and Enhancer Chromatin Dynamics during Direct Cell Fate ProgrammingIbrahim, Mahmoud 09 August 2017 (has links)
Die Beschreibung genregulatorischer Ereignisse ist entscheidend um Zelldifferenzierung und -entwicklung zu verstehen. Dynamische Vernderungen der Chromatinstruktur, Histonmodifikationen und das Binden von Transkriptionsfaktoren an Enhancer und Promotoren, koennen mit Hilfe von genomweiten Hochdurchsatz-Sequenziertechniken wie ChIP-Seq, DNase-Seq, ATACSeqund RNA-Seq untersucht werden.
In dieser Arbeit entwickele ich mehrere probabilistische Modelle fuer die Analyse von genomweiten Sequenzierungsdaten. Diese umfassen 1. einen Peak-Finder fuer ChIP-/DNase-/ATAC-Seq-Daten, der sich Replikate zunutze macht und praezise Peak-Weiten berechnet, 2. eine Pipeline um das Genom in hoher Aufloesung in eindeutige Klassen von Kombinationen von Histonmodifikationen zu segmentieren, 3. ein Bayes-Netzwerk-Modell welches multiple zeitlich aufgelste Histonmodifikations-ChIP-seq-Daten kombinatorisch clustert Klassen von regulatorischen Elementen zu identifizieren.
Mit Hilfe dieser Modelle untersuchen wir die Promotorumgeben und zeigen einen Zusammenhang zwischen Chromatinstruktur und Promotordirektionalitaet. Darueber hinaus verwenden wir ein Modell zur direkten Reprogrammierung von Stammzellen in Motorneuronen durch die gezielte Expression von Transkriptionsfaktoren und analysieren die dadurch induzierten zeitlichen Vernderungen der Chromatinstruktur und Transkriptionsfaktorbindedynamik.
Wir beobachten, dass Promotoren verschiedenen Chromatin-Dynamiken zur Aktivierung und Repression folgen, die mit den Chromatin-Dynamiken von Enhancer-Elementen korrelieren. Enhancer hingegen werden durch kooperatives Verhalten direkt induzierter Transkriptionsfaktoren und anderen Faktoren, die in den Stammzellen zu Beginn vorhanden waren oder im Verlaufe der Differenzierung aktiviert wurden, kontrolliert. Diese Arbeit zeigt wie wichtig Chromatin-Dynamik und ihre Beziehung zur Logik von Transkriptionsfaktoren ist, um die Veraenderungen der Genexpression zu verstehen. / Delineating transcription regulatory events is crucial to understand cell differentiation and development. Dynamic changes of chromatin structure, histone modifications and transcription factor binding to enhancers and promotors can be investigated with the aid of genome-wide high-throughput sequencing technologies such as ChIP-Seq, DNase-Seq, ATAC Seq and RNA Seq.
In this thesis, I develop several probabilistic models for the analysis of genome-wide sequencing data. These include: 1. a peak finder for ChIP-Seq, DNase-Seq and ATAC Seq data, which exploits biological replicates and accurately demarcates peak widths, 2. a pipeline for high-resolution genome segmentation into unique classes of combinations of histone modifications and 3. a Bayesian network model that can co-cluster multiple time-course histone modification ChIP-Seq data sets into distinct classes of regulatory elements.
With the aid of these models we investigate the promoter chromatin environment and show a link between chromatin state and transcription initiation directionality. In addition, we use a system for direct reprogramming of stem cells in motor neurons by the targeted expression of transcription factors to analyse changes in chromatin state and transcription factor dynamics during differentiation. We observe that promoters follow different chromatin dynamics for activation and repression that correlate with the chromatin dynamics of enhancer elements. Enhancers are controlled by cooperative behavior of directly induced transcription factors and other factors present in the stem cells initially, or activated in the course of differentiation.
Overall, this work demonstrates the importance of understanding chromatin dynamics and their relationship to transcription factors logic in order to better explain changes in gene expression.
|
5 |
Detecting and quantifying the translated transcriptome with Ribo-seq dataCalviello, Lorenzo 26 March 2018 (has links)
Die Untersuchung der posttranskriptionellen Genregulation erfordert eine eingehende Kenntnis vieler molekularer Prozesse, die auf RNA wirken, von der Prozessierung im Nukleus bis zur Translation und der Degradation im Zytoplasma. Mit dem Aufkommen von RNA-seq-Technologien können wir nun jeden dieser Schritte mit hohem Durchsatz und Auflösung verfolgen.
Ribosome Profiling (Ribo-seq) ist eine RNA-seq-Technik, die darauf abzielt, die präzise Position von Millionen translatierender Ribosomen zu detektieren, was sich als ein wesentliches Instrument für die Untersuchung der Genregulation erweist. Allerdings ist die Interpretation von Ribo-seq-Profilen über das Transkriptom aufgrund der verrauschten Daten und unserer unvollständigen Kenntnis des translatierten Transkriptoms eine Herausforderung.
In dieser Arbeit präsentiere ich eine Methode, um translatierte Regionen in Ribo-seq-Daten zu erkennen, wobei ein Spektralanalyse verwendet wird, die darauf abzielt, die ribosomale Translokation über die übersetzten Regionen zu erkennen. Die hohe Sensibilität und Spezifität unseres Ansatzes ermöglichten es uns, eine umfassende Darstellung der Translation über das menschlichen und pflanzlichen (Arabidopsis thaliana) Transkriptom zu zeichnen und die Anwesenheit bekannter und neu-identifizierter translatierter Regionen aufzudecken. Evolutionäre Konservierungsanalysen zusammen mit Hinweisen auf Proteinebene lieferten Einblicke in ihre Funktionen, von der Synthese von bisher unbekannter Proteinen einerseits, zu möglichen regulatorischen Rollen andererseits. Darüber hinaus zeigte die Quantifizierung des Ribo-seq-Signals über annotierte Genemodelle die Translation mehrerer Transkripte pro Gen, was die Verbindung zwischen Translations- und RNA-Überwachungsmechanismen offenbarte. Zusammen mit einem Vergleich verschiedener Ribo-seq-Datensätze in menschlichen und planzlichen Zellen umfasst diese Arbeit eine Reihe von Analysestrategien für Ribo-seq-Daten als Fenster in die vielfältigen Funktionen des exprimierten Transkriptoms. / The study of post-transcriptional gene regulation requires in-depth knowledge of multiple molecular processes acting on RNA, from its nuclear processing to translation and decay in the cytoplasm. With the advent of RNA-seq technologies we can now follow each of these steps with high throughput and resolution.
Ribosome profiling (Ribo-seq) is a popular RNA-seq technique, which aims at monitoring the precise positions of millions of translating ribosomes, proving to be an essential tool in studying gene regulation. However, the interpretation of Ribo-seq profiles over the transcriptome is challenging, due to noisy data and to our incomplete knowledge of the translated transcriptome.
In this Thesis, I present a strategy to detect translated regions from Ribo-seq data, using a spectral analysis approach aimed at detecting ribosomal translocation over the translated regions. The high sensitivity and specificity of our approach enabled us to draw a comprehensive map of translation over the human and Arabidopsis thaliana transcriptomes, uncovering the presence of known and novel translated regions. Evolutionary conservation analysis, together with large-scale proteomics evidence, provided insights on their functions, between the synthesis of previously unknown proteins to other possible regulatory roles. Moreover, quantification of Ribo-seq signal over annotated transcript structures exposed translation of multiple transcripts per gene, revealing the link between translation and RNA-surveillance mechanisms. Together with a comparison of different Ribo-seq datasets in human cells and in Arabidopsis thaliana, this work comprises a set of analysis strategies for Ribo-seq data, as a window into the manifold functions of the expressed transcriptome.
|
6 |
CuneiformBrandt, Jörgen 29 January 2021 (has links)
In der Bioinformatik und der Next-Generation Sequenzierung benötigen wir oft große und komplexe Verarbeitungsabläufe um Daten zu analysieren. Die Werkzeuge und Bibliotheken, die hierin die Verarbeitungsschritte bilden, stammen aus unterschiedlichen Quellen und exponieren unterschiedliche Schnittstellen, was ihre Integration in Datenanalyseplattformen erschwert. Hinzu kommt, dass diese Verarbeitungsabläufe meist große Datenmengen prozessieren weshalb Forscher erwarten, dass unabhängige Verarbeitungsschritte parallel laufen. Der Stand der Technik im Feld der wissenschaftlichen Datenverarbeitung für Bioinformatik und Next-Generation Sequenzierung sind wissenschaftliche Workflowsysteme. Ein wissenschaftliches Workflowsystem erlaubt es Forschern Verarbeitungsabläufe als Workflow auszudrücken. Solch ein Workflow erfasst die Datenabhängigkeiten in einem Verarbeitungsablauf, integriert externe Software und erlaubt es unabhängige Verarbeitungsschritte zu erkennen, um sie parallel auszuführen.
In dieser Arbeit präsentieren wir Cuneiform, eine Workflowsprache, und ihre verteilte Ausführungsumgebung. Für Cuneiform's Design nehmen wir die Perspektive der Programmiersprachentheorie ein. Wir lassen Methoden der funktionalen Programmierung einfließen um Komposition und Datenabhängigkeiten auszudrücken. Wir nutzen operationelle Semantiken um zu definieren, wann ein Workflow wohlgeformt und konsistent ist und um Reduktion zu erklären. Für das Design der verteilten Ausführungsumgebung nehmen wir die Perspektive der verteilten Systeme ein. Wir nutzen Petri Netze um die Kommunikationsstruktur der im System beteiligten Agenten zu erklären. / Bioinformatics and next-generation sequencing data analyses often form large and complex pipelines. The tools and libraries making up the processing steps in these pipelines come from different sources and have different interfaces which hampers integrating them into data analysis frameworks. Also, these pipelines process large data sets. Thus, users need to parallelize independent processing steps. The state of the art in large-scale scientific data analysis for bioinformatics and next-generation sequencing are scientific workflow systems. A scientific workflow system allows researchers to describe a data analysis pipeline as a scientific workflow which integrates external software, defines the data dependencies forming a data analysis pipeline, and parallelizes independent processing steps. Scientific workflow systems consist of a workflow language providing a user interface, and an execution environment. The workflow language determines how users express workflows, reuse and compose workflow fragments, integrate external software, how the scientific workflow system identifies independent processing steps, and how we derive optimizations from a workflow's structure. The execution environment schedules and runs data processing operations.
In this thesis we present Cuneiform, a workflow language, and its distributed execution environment. For Cuneiform's design we take the perspective of programming languages. We adopt methods from functional programming towards composition and expressing data dependencies. We apply operational semantics and type systems to define well-formedness, consistency, and reduction of Cuneiform workflows. For the design of the distributed execution environment we take the perspective of distributed systems. We apply Petri nets to define the communication patterns among the distributed execution environment's agents.
|
7 |
Analysis of cellular drivers of zebrafish heart regeneration by single-cell RNA sequencing and high-throughput lineage tracingHu, Bo 22 September 2021 (has links)
Das Herz eines Zebrafishs ist bemerkenswert, da es sich nach einer Verletzung vollständig regenerieren kann. Der Regenerationsprozess wird von Fibrose begleitet - der Bildung von überschüssigem Gewebe der extrazellulären Matrix (ECM). Anders als bei Säugetieren ist die Fibrose im Zebrafish nur transient. Viele Signalwege wurden identifiziert, die an der Herzregeneration beteiligt sind. Allerdings sind die Zelltypen, insbesondere Nicht-Kardiomyozyten, die für die Regulation des Regenerationsprozesses verantwortlich sind, weitgehend unbekannt. In dieser Arbeit haben wir systematisch alle Zelltypen des gesunden und des verletzten Zebrafischherzens mithilfe einer auf Mikrofluidik basierenden Hoch-Durchsatz- Einzelzell-RNA-Sequenzierung bestimmt. Wir fanden eine große Heterogenität von ECM-produzierenden Zellen, einschließlich einer Reihe neuer Fibroblasten, die nach einer Verletzung mit unterschiedlicher Dynamik auftreten. Wir konnten aktivierte Fibroblasten beschreiben und Fibroblasten-Subtypen mit einer pro-regenerativen Funktion identifizieren.
Darüber hinaus haben wir eine Methode entwickelt, um die Transkriptomanalyse und die Rekonstruktion von Zell-Verwandtschaften auf Einzelzellebene zu kombinieren. Unter Verwendung der CRISPR-Cas9-Technologie führten wir zufällige Mutationen in bekannte und ubiquitär transkribierte DNA-Loci während der Embryonalentwicklung von Zebrafischen ein. Diese Mutationen dienten als zellspezifische, permanente und vererbbare “Barcodes”, die zu einem späteren Zeitpunkt erfasst werden konnten. Mit maßgeschneiderten Analysealgorithmen konnten wir dann Stammbäume der sequenzierten Einzelzellen erstellen. Mit dieser neuen Methode haben wir gezeigt, dass im sich regenerierenden Zebrafischherz ECM-produzierende Zellpopulationen entweder mit dem Epi- oder mit dem Endokardium verwandt sind. Zusätzlich entdeckten wir, dass vom Endokardium abgeleitete Zelltypen vom Wnt-Signalweg abhängig sind. / The zebrafish heart has the remarkable capacity to fully regenerate after injury. The regeneration process is accompanied by fibrosis - the formation of excess extracellular matrix (ECM) tissue, at the injury site. Unlike in mammals, the fibrosis of the zebrafish heart is only transient. While many pathways involved in heart regeneration have been identified, the cell types, especially non-myocytes, responsible for the regulation of the regenerative process have largely remained elusive. Here, we systematically determined all different cell types of both the healthy and cryo-injured zebrafish heart in its regeneration process using microfluidics based high-throughput single-cell RNA sequencing. We found a considerable heterogeneity of ECM producing cells, including a number of novel fibroblast cell types which appear with different dynamics after injury. We could describe activated fibroblasts that extensively switch on gene modules for ECM production and identify fibroblast sub- types with a pro-regenerative function.
Furthermore, we developed a method that is capable of combining transcriptome analysis with lineage tracing on the single-cell level. Using CRISPR-Cas9 technology, we introduced random mutations into known and ubiquitously transcribed DNA loci during the zebrafish embryonic development. These mutations served as cell-unique, permanent, and heritable barcodes that could be captured at a later stage simultaneously with the transcriptome by high-throughput single-cell RNA sequencing. With custom tailored analysis algorithms, we were then able to build a developmental lineage tree of the sequenced single cells. Using this new method, we revealed that in the regenerating zebrafish heart, ECM contributing cell populations derive either from the epi- or the endocardium. Additionally, we discovered in a functional experiment that endocardial derived cell types are Wnt signaling dependent.
|
8 |
Expression and possible functions of circular RNAsGlazar, Petar 08 June 2020 (has links)
Circular RNAs (circRNAs) sind eine große Klasse endogener RNAs, die in Organismen vorkommen, die RNA-Transkripte durch Spleißen prozessieren. Sie sind Produkte des „backsplicing“ – einer Art des alternativen Spleißens, bei der das 3‘-Ende eines Exons mit einer vorgelagerten 5‘-„splice site“ verbunden wird. Trotz ihrer Abundanz und spezifischen Expressionsmustern sind in vivo-Funktionen von circRNAs größtenteils unbekannt.
Wir haben den existierenden Kenntnisstand systematisiert und diesen in Form von circBase frei zugänglich gemacht. circBase ist eine Online-Datenbank, in der circRNA-Datensätze abgerufen und im genomischen Kontext durchsucht und visualisiert werden können. Für die Arbeit mit Hochdurchsatz-circRNA-Daten haben wir des Weiteren die Software ciRcus entwickelt. Um mehr bezüglich circRNA-Expression und möglicher Funktionen zu lernen, haben wir die Expressionsmuster im Säugetiergehirn umfassend erforscht. Mithilfe von eigenen und öffentlich zugänglichen RNA-Sequenzierungsdaten haben wir Tausende von neuralen circRNAs in Mensch und Maus entdeckt. circRNAs waren während der neuronalen Differenzierung und Reifung insgesamt hochreguliert, stark angereichert in Synapsen, und oft differentiell exprimiert im Vergleich zu ihren mRNA-Isoformen. Außerdem haben wir gezeigt, dass viele circRNAs zwischen Mensch und Maus konserviert sind. Schließlich haben wir in vivo-Funktionen von Cdr1as erforscht - einer konservierten und im Gehirn hoch exprimierten circRNA, die stark von microRNA (miRNA)-Effektor-Komplexen gebunden ist und zahlreiche miR-7-Bindestellen sowie eine Bindestelle für miR-671 aufweist. „Knockout“-Tiere, bei denen der Cdr1as-Lokus deletiert wurde, zeigten ein gestörtes sensomotorisches „gating“ und dysfunktionale synaptische Übertragung. Die Expression von miR-7 und miR-671 war in verschiedenen Hirnregionen der Tiere dereguliert. Die Expression von „immediate early“-Genen, von denen einige miR-7-Zielgene sind, war erhöht. / circular RNAs (circRNAs) are a large class of endogenous RNAs present in organisms that process RNA transcripts by splicing. They are products of backsplicing - alternative splicing reactions where the 3’ end of an exon is spliced to an upstream 5’ splice site. Despite their abundance and tissue- and developmental-stage-specific expression patterns, their in vivo functions are largely unknown.
We systematized the existing knowledge on circRNAs and made it freely available by developing circBase - an online database where circRNA datasets can be accessed, downloaded and browsed within the genomic context. Another technical challenge was addressed by developing ciRcus - a software package for working with high-throughput circRNA data, which allowed us to routinely handle, explore, annotate, quantify and integrate circRNA data with the external sources of biological data. To learn more about circRNA expression and potential functions, we have explored the expression patterns of circRNAs in the mammalian brain. Using own and public RNA-seq data, we discovered thousands of neural circRNAs in human and mouse. circRNAs were upregulated during neuronal differentiation and maturation, enriched in synapses, and often differentially expressed compared to their host mRNAs. Many circRNAs were conserved between human and mouse. Finally, we explored in vivo functions of Cdr1as - a conserved circRNA known to be highly expressed in the brain, heavily bound by microRNA (miRNA) effector complexes, and harbouring many binding sites for miR-7, as well as a single binding site for miR-671. Upon deleting the Cdr1as locus, knockout animals displayed impaired sensorimotor gating and dysfunctional synaptic transmission. Expression of miR-7 and miR-671 was deregulated in different brain regions of Cdr1as knockout animals. Expression of immediate early genes, some of which are miR-7 targets, was increased, providing a possible molecular link to the behavioral phenotype.
|
9 |
Using machine learning to predict pathogenicity of genomic variants throughout the human genomeRentzsch, Philipp 14 April 2023 (has links)
Geschätzt mehr als 6.000 Erkrankungen werden durch Veränderungen im Genom verursacht. Ursachen gibt es viele: Eine genomische Variante kann die Translation eines Proteins stoppen, die Genregulation stören oder das Spleißen der mRNA in eine andere Isoform begünstigen. All diese Prozesse müssen überprüft werden, um die zum beschriebenen Phänotyp passende Variante zu ermitteln. Eine Automatisierung dieses Prozesses sind Varianteneffektmodelle. Mittels maschinellem Lernen und Annotationen aus verschiedenen Quellen bewerten diese Modelle genomische Varianten hinsichtlich ihrer Pathogenität.
Die Entwicklung eines Varianteneffektmodells erfordert eine Reihe von Schritten: Annotation der Trainingsdaten, Auswahl von Features, Training verschiedener Modelle und Selektion eines Modells. Hier präsentiere ich ein allgemeines Workflow dieses Prozesses. Dieses ermöglicht es den Prozess zu konfigurieren, Modellmerkmale zu bearbeiten, und verschiedene Annotationen zu testen. Der Workflow umfasst außerdem die Optimierung von Hyperparametern, Validierung und letztlich die Anwendung des Modells durch genomweites Berechnen von Varianten-Scores.
Der Workflow wird in der Entwicklung von Combined Annotation Dependent Depletion (CADD), einem Varianteneffektmodell zur genomweiten Bewertung von SNVs und InDels, verwendet. Durch Etablierung des ersten Varianteneffektmodells für das humane Referenzgenome GRCh38 demonstriere ich die gewonnenen Möglichkeiten Annotationen aufzugreifen und neue Modelle zu trainieren. Außerdem zeige ich, wie Deep-Learning-Scores als Feature in einem CADD-Modell die Vorhersage von RNA-Spleißing verbessern. Außerdem werden Varianteneffektmodelle aufgrund eines neuen, auf Allelhäufigkeit basierten, Trainingsdatensatz entwickelt.
Diese Ergebnisse zeigen, dass der entwickelte Workflow eine skalierbare und flexible Möglichkeit ist, um Varianteneffektmodelle zu entwickeln. Alle entstandenen Scores sind unter cadd.gs.washington.edu und cadd.bihealth.org frei verfügbar. / More than 6,000 diseases are estimated to be caused by genomic variants. This can happen in many possible ways: a variant may stop the translation of a protein, interfere with gene regulation, or alter splicing of the transcribed mRNA into an unwanted isoform. It is necessary to investigate all of these processes in order to evaluate which variant may be causal for the deleterious phenotype. A great help in this regard are variant effect scores. Implemented as machine learning classifiers, they integrate annotations from different resources to rank genomic variants in terms of pathogenicity.
Developing a variant effect score requires multiple steps: annotation of the training data, feature selection, model training, benchmarking, and finally deployment for the model's application. Here, I present a generalized workflow of this process. It makes it simple to configure how information is converted into model features, enabling the rapid exploration of different annotations. The workflow further implements hyperparameter optimization, model validation and ultimately deployment of a selected model via genome-wide scoring of genomic variants.
The workflow is applied to train Combined Annotation Dependent Depletion (CADD), a variant effect model that is scoring SNVs and InDels genome-wide. I show that the workflow can be quickly adapted to novel annotations by porting CADD to the genome reference GRCh38. Further, I demonstrate the integration of deep-neural network scores as features into a new CADD model, improving the annotation of RNA splicing events. Finally, I apply the workflow to train multiple variant effect models from training data that is based on variants selected by allele frequency.
In conclusion, the developed workflow presents a flexible and scalable method to train variant effect scores. All software and developed scores are freely available from cadd.gs.washington.edu and cadd.bihealth.org.
|
10 |
Robust relationship extraction in the biomedical domainThomas, Philippe 25 November 2015 (has links)
Seit Jahrhunderten wird menschliches Wissen in Form von natürlicher Sprache ausgetauscht und in Dokumenten schriftlich aufgezeichnet. In den letzten Jahren konnte man auf dem Gebiet der Lebenswissenschaften eine exponentielle Zunahme wissenschaftlicher Publikationen beobachten. Diese Dissertation untersucht die automatische Extraktion von Beziehungen zwischen Eigennamen. Innerhalb dieses Gebietes beschäftigt sich die Arbeit mit der Steigerung der Robustheit für die Relationsextraktion. Zunächst wird der Einsatz von Ensemble-Methoden anhand von Daten aus der "Drug-drug-interaction challenge 2013" evaluiert. Ensemble-Methoden erhöhen die Robustheit durch Aggregation unterschiedlicher Klassifikationssysteme zu einem Modell. Weiterhin wird in dieser Arbeit das Problem der Relationsextraktion auf Dokumenten mit unbekannten Texteigenschaften beschrieben. Es wird gezeigt, dass die Verwendung des halb-überwachten Lernverfahrens self training in solchen Fällen eine höhere Robustheit erzielt als die Nutzung eines Klassifikators, der lediglich auf einem manuell annotierten Korpus trainiert wurde. Zur Ermittlung der Robustheit wird das Verfahren des cross-learnings verwendet. Zuletzt wird die Verwendung von distant-supervision untersucht. Korpora, welche mit der distant-supervision-Methode erzeugt wurden, weisen ein inhärentes Rauschen auf und profitieren daher von robusten Relationsextraktionsverfahren. Es werden zwei verschiedene Methoden untersucht, die auf solchen Korpora trainiert werden. Beide Ansätze zeigen eine vergleichbare Leistung wie vollständig überwachte Klassifikatoren, welche mit dem cross-learning-Verfahren evaluiert wurden. Um die Nutzung von Ergebnissen der Informationsextraktion zu erleichtern, wurde die semantische Suchmaschine GeneView entwickelt. Anforderungen an die Rechenkapazität beim Erstellen von GeneView werden diskutiert und Anwendungen auf den von verschiedenen Text-Mining-Komponenten extrahierten Daten präsentiert. / For several centuries, a great wealth of human knowledge has been communicated by natural language, often recorded in written documents. In the life sciences, an exponential increase of scientific articles has been observed, hindering the effective and fast reconciliation of previous finding into current research projects. This thesis studies the automatic extraction of relationships between named entities. Within this topic, it focuses on increasing robustness for relationship extraction. First, we evaluate the use of ensemble methods to improve performance using data provided by the drug-drug-interaction challenge 2013. Ensemble methods aggregate several classifiers into one model, increasing robustness by reducing the risk of choosing an inappropriate single classifier. Second, this work discusses the problem of applying relationship extraction to documents with unknown text characteristics. Robustness of a text mining component is assessed by cross-learning, where a model is evaluated on a corpus different from the training corpus. We apply self-training, a semi-supervised learning technique, in order to increase cross-learning performance and show that it is more robust in comparison to a classifier trained on manually annotated text only. Third, we investigate the use of distant supervision to overcome the need of manually annotated training instances. Corpora derived by distant supervision are inherently noisy, thus benefiting from robust relationship extraction methods. We compare two different methods and show that both approaches achieve similar performance as fully supervised classifiers, evaluated in the cross-learning scenario. To facilitate the usage of information extraction results, including those developed within this thesis, we develop the semantic search engine GeneView. We discuss computational requirements to build this resource and present some applications utilizing the data extracted by different text-mining components.
|
Page generated in 0.0682 seconds