• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 22
  • Tagged with
  • 22
  • 22
  • 22
  • 14
  • 14
  • 9
  • 8
  • 7
  • 7
  • 6
  • 5
  • 5
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Computational models to investigate binding mechanisms of regulatory proteins

Munteanu, Alina 07 May 2018 (has links)
Es gibt tausende regulatorische Proteine in Eukaryoten, die spezifische cis-regulatorischen Elemente von Genen und/oder RNA-Transkripten binden und die Genexpession koordinieren. Auf DNA-Ebene modulieren Transkriptionsfaktoren (TFs) die Initiation der Transkription, während auf RNA-Ebene RNA-bindende Proteine (RBPs) viele Aspekte des RNA-Metabolismus und der RNA-Funktion regulieren. Für hunderte dieser regulatorischer Proteine wurden die gebundenen Gene beziehungsweise RNA-Transkripte, sowie deren etwaige Sequenzbindepräferenzen mittels in vivo oder in vitro Hochdurchsatz-Experimente bestimmt. Zu diesen Methoden zählen unter anderem Chromatin-Immunpräzipitation (ChIP) gefolgt von Sequenzierung (ChIP-seq) und Protein Binding Microarrays (PBMs) für TFs, sowie Cross-Linking und Immunpräzipitation (CLIP)-Techniken und RNAcompete für RBPs. In vielen Fällen kann die zum Teil hohe Bindespezifität für ein zumeist sehr kurzes Sequenzmotiv regulatorischer Proteine nicht allein durch die gebundene Primärsequenz erklärt werden. Um besser zu verstehen, wie verschiedene Proteine ihre regulatorische Spezifität erreichen, haben wir zwei Computerprogramme entwickelt, die zusätzliche Informationen in die Analyse von experimentell bestimmten Bindestellen einbeziehen und somit differenziertere Bindevorhersagen ermöglichen. Für Protein-DNA-Interaktionen untersuchen wir die Bindungsspezifität paraloger TFs (d.h. Mitglieder der gleichen TF-Familie). Mit dem Fokus auf der Unterscheidung von genomischen Regionen, die in vivo von Paaren eng miteinander verwandter TFs gebunden sind, haben wir ein Klassifikationsframework entwickelt, das potenzielle Co-Faktoren identifiziert, die zur Spezifität paraloger TFs beitragen. Für Protein-RNA-Interaktionen untersuchen wir die Rolle von RNA-Sekundärstruktur und ihre Auswirkung auf die Auswahl von Bindestellen. Wir haben einen Motif-Finding-Algorithmus entwickelt, der Sekundärstruktur und Primärsequenz integriert, um Bindungspräferenzen der RBPs besser zu bestimmen. / There are thousands of eukaryotic regulatory proteins that bind to specific cis regulatory regions of genes and/or RNA transcripts and coordinate gene expression. At the DNA level, transcription factors (TFs) modulate the initiation of transcription, while at the RNA level, RNA-binding proteins (RBPs) regulate every aspect of RNA metabolism and function. The DNA or RNA targets and/or the sequence preferences of hundreds of eukaryotic regulatory proteins have been determined thus far using high-throughput in vivo and in vitro experiments, such as chromatin immunoprecipitation (ChIP) followed by sequencing (ChIP-seq) and protein binding microarrays (PBMs) for TFs, or cross-linking and immunoprecipitation (CLIP) techniques and RNAcompete for RBPs. However, the derived short sequence motifs do not fully explain the highly specific binding of these regulatory proteins. In order to improve our understanding of how different proteins achieve their regulatory specificity, we developed two computational tools that incorporate additional information in the analysis of experimentally determined binding sites. For protein-DNA interactions, we investigate the binding specificity of paralogous TFs (i.e. members of the same TF family). Focusing on distinguishing between genomic regions bound in vivo by pairs of closely-related TFs, we developed a classification framework that identifies putative co-factors that provide specificity to paralogous TFs. For protein-RNA interactions, we investigate the role of RNA secondary structure and its impact on binding-site recognition. We developed a motif finding algorithm that integrates secondary structure together with primary sequence in order to better identify binding preferences of RBPs.
12

Bioinformatic analyses for T helper cell subtypes discrimination and gene regulatory network reconstruction

Kröger, Stefan 02 August 2017 (has links)
Die Etablierung von Hochdurchsatz-Technologien zur Durchführung von Genexpressionsmessungen führte in den letzten 20 Jahren zu einer stetig wachsende Menge an verfügbaren Daten. Sie ermöglichen durch Kombination einzelner Experimente neue Vergleichsstudien zu kombinieren oder Experimente aus verschiedenen Studien zu großen Datensätzen zu vereinen. Dieses Vorgehen wird als Meta-Analyse bezeichnet und in dieser Arbeit verwendet, um einen großen Genexpressionsdatensatz aus öffentlich zugänglichen T-Zell Experimenten zu erstellen. T-Zellen sind Immunzellen, die eine Vielzahl von unterschiedlichen Funktionen des Immunsystems inititiieren und steuern. Sie können in verschiedene Subtypen mit unterschiedlichen Funktionen differenzieren. Der mittels Meta-Analyse erstellte Datensatz beinhaltet nur Experimente zu einem T-Zell-Subtyp, den regulatorischen T-Zellen (Treg) bzw. der beiden Untergruppen, natürliche Treg (nTreg) und induzierte Treg (iTreg) Zellen. Eine bisher unbeantwortete Frage lautet, welche subtyp-spezifischen gen-regulatorische Mechanismen die T-Zell Differenzierung steuern. Dazu werden in dieser Arbeit zwei spezifische Herausforderungen der Treg Forschung behandelt: (i) die Identifikation von Zelloberflächenmarkern zur Unterscheidung und Charakterisierung der Subtypen, sowie (ii) die Rekonstruktion von Treg-Zell-spezifischen gen-regulatorischen Netzwerken (GRN), die die Differenzierungsmechanismen beschreiben. Die implementierte Meta-Analyse kombiniert mehr als 150 Microarray-Experimente aus über 30 Studien in einem Datensatz. Dieser wird benutzt, um mittels Machine Learning Zell-spezifische Oberflächenmarker an Hand ihres Expressionsprofils zu identifizieren. Mit der in dieser Arbeit entwickelten Methode wurden 41 Genen extrahiert, von denen sechs Oberflächenmarker sind. Zusätzliche Validierungsexperimente zeigten, dass diese sechs Gene die Experimenten beider T-Zell Subtypen sicher unterscheiden können. Zur Rekonstruktion von GRNs vergleichen wir unter Verwendung des erstellten Datensatzes 11 verschiedene Algorithmen und evaluieren die Ergebnisse mit Informationen aus Interaktionsdatenbanken. Die Evaluierung zeigt, dass die derzeit verfügbaren Methoden nicht in der Lage sind den Wissensstand Treg-spezifischer, regulatorsicher Mechanismen zu erweitern. Abschließend präsentieren wir eine Datenintegrationstrategie zur Rekonstruktion von GRN am Beispiel von Th2 Zellen. Aus Hochdurchsatzexperimenten wird ein Th2-spezifisches GRN bestehend aus 100 Genen rekonstruiert. Während 89 dieser Gene im Kontext der Th2-Zelldifferenzierung bekannt sind, wurden 11 neue Kandidatengene ohne bisherige Assoziation zur Th2-Differenzierung ermittelt. Die Ergebnisse zeigen, dass Datenintegration prinzipiell die GRN Rekonstruktion ermöglicht. Mit der Verfügbarkeit von mehr Daten mit besserer Qualität ist zu erwarten, dass Methoden zur Rekonstruktion maßgeblich zum besseren Verstehen der zellulären Differenzierung im Immunsystem und darüber hinaus beitragen können und so letztlich die Ursachenforschung von Dysfunktionen und Krankheiten des Immunsystems ermöglichen werden. / Within the last two decades high-throughput gene expression screening technologies have led to a rapid accumulation of experimental data. The amounts of information available have enabled researchers to contrast and combine multiple experiments by synthesis, one of such approaches is called meta-analysis. In this thesis, we build a large gene expression data set based on publicly available studies for further research on T cell subtype discrimination and the reconstruction of T cell specific gene regulatory events. T cells are immune cells which have the ability to differentiate into subtypes with distinct functions, initiating and contributing to a variety of immune processes. To date, an unsolved problem in understanding the immune system is how T cells obtain a specific subtype differentiation program, which relates to subtype-specific gene regulatory mechanisms. We present an assembled expression data set which describes a specific T cell subset, regulatory T (Treg) cells, which can be further categorized into natural Treg (nTreg) and induced Treg (iTreg) cells. In our analysis we have addressed specific challenges in regulatory T cell research: (i) discriminating between different Treg cell subtypes for characterization and functional analysis, and (ii) reconstructing T cell subtype specific gene regulatory mechanisms which determine the differences in subtype-specific roles for the immune system. Our meta-analysis strategy combines more than one hundred microarray experiments. This data set is applied to a machine learning based strategy of extracting surface protein markers to enable Treg cell subtype discrimination. We identified a set of 41 genes which distinguish between nTregs and iTregs based on gene expression profile only. Evaluation of six of these genes confirmed their discriminative power which indicates that our approach is suitable to extract candidates for robust discrimination between experiment classes. Next, we identify gene regulatory interactions using existing reconstruction algorithms aiming to extend the number of known gene-gene interactions for Treg cells. We applied eleven GRN reconstruction tools based on expression data only and compared their performance. Taken together, our results suggest that the available methods are not yet sufficient to extend the current knowledge by inferring so far unreported Treg specific interactions. Finally, we present an approach of integrating multiple data sets based on different high-throughput technologies to reconstruct a subtype-specific GRN. We constructed a Th2 cell specific gene regulatory network of 100 genes. While 89 of these are known to be related to Th2 cell differentiation, we were able to attribute 11 new candidate genes with a function in Th2 cell differentiation. We show that our approach to data integration does, in principle, allow for the reconstruction of a complex network. Future availability of more and more consistent data may enable the use of the concept of GRN reconstruction to improve understanding causes and mechanisms of cellular differentiation in the immune system and beyond and, ultimately, their dysfunctions and diseases.
13

Bridging network reconstruction and mathematical modelling - rxncon a framework to reconstruct, visualise and model signal-transduction networks

Thieme, Sebastian 17 October 2017 (has links)
Lebende Organismen sind komplexe Systeme von miteinander interagierenden Komponen- ten. Ein entscheidender Schritt zum besseren Verständnis solcher biologischen Systeme ist die Erstellung biologischer Netzwerke, welche unser bisheriges Verständnis dieser Systeme widerspiegelt. Verschiedene Ansätze zur Netzwerk-Rekonstruktion unterscheiden sich zwar in ihrem Zweck und ihrer Komplexität, allerding haben sie ein gemeinsames Ziel: die Übersetzung des biologischen Wissens in ein mathematisches Modell zur Aufdeckung von Inkonsistenzen und Wissenslücken innerhalb der Rekonstruktionen durch computerbasierte Analysen. Während es für metabolische Netzwerke bereits gut entwickelte Rekonstruktionsansätze gibt, existieren derzeit nur wenige Ansätze für Signal-Transduktionsnetzwerke. In dieser Arbeit stelle ich eine Methode zur systematischen und komprimierten Rekonstruk- tion von Signal-Transduktionsnetzwerken vor – rxncon. Diese Methode hat zwei grundlegende Aspekte: Einerseits haben wir eine Sprache zur Rekonstruktion biologischer Netzwerke entwickelt, die die Probleme kombinatorischer Komplexität durch die Kombination von Zuständen während des Rekonstruktionsprozesses angeht. Diese kombinatorische Komplexität wird durch die Verwendung kontextfreier Grammatik und der Beschreibung der Daten auf derselben Ebene wie experimentelle Erkenntnisse umgangen. Andererseits haben wir eine computerbasierte Struktur zur Interpretation und zum Export entwickelt, welche es ermöglicht das rekonstruierte Wissen in mathematische Modelle und unterschiedliche Visualisierungsformate zu übersetzen. Dadurch sind wir in der Lage, erstens Signal-Transduktionsnetzwerke detailliert zu rekon- struieren, zweitens diese Netzwerke in ausführbare Boolesche Modelle zur Verbesserung, Evaluation und Validierung dieser Netzwerke zu übersetzen und drittens diese Netzwerke als Regelbasierte Modelle zu exportieren. Daher ermöglicht rxncon die Rekonstruktion, Validierung und Simulation von umfangreichen Signal-Transduktionsnetzwerken und verbindet dadurch den Rekonstruktionsprozess mit klassischen mathematischen Modellierungsansätzen. / Living organisms are complex systems of interacting components. A crucial step to understand those complex biological systems is the construction of biological networks that re ect our current knowledge of the system. The scope and coverage of different network reconstructions can differ, but they have one aim in common – to convert the knowledge into a mathematical model enabling computational analysis to nd possible inconsistencies and gaps. While reconstruction methods for metabolic networks are well established, only a few methods exist for reconstructing cellular signal- transduction networks. In this thesis, I present a method – rxncon – enabling a systematised and condensed reconstruction of signal-transduction networks. This method has two aspects. On the one hand, we developed a language for reconstructing biological networks. The language addresses the issue, that states are combined in signal-transduction networks, which create a large number of speci c states, generating highly complex structures. Due to the context-free grammar in the language and the description of the data on the same level of detail as biological ndings we can largely avoid the combinatorial complexity. On the other hand, we developed a framework for interpreting and exporting this knowledge into different mathematical models and visualisation formats, enabling a work ow to: 1) reconstruct mechanistic detailed signal-transduction network, 2) convert them into an executable Boolean model for evaluation, validation and improvement of the network and 3) export the reconstructed model into a rule-based model. Hence, rxncon has the potential to reconstruct, validate and simulate large-scale signalling networks – bridging large scale network reconstruction and classical mathematical modelling approaches.
14

Computer vision approaches for quantitative analysis of microscopy images

Bahry, Ella 23 November 2021 (has links)
Mikroskopaufnahmen kompletter Organismen und ihrer Entwicklung ermöglichen die Erforschung ganzer Organismen oder Systeme und erzeugen Datensätze im Terabyte-Bereich. Solche großen Datensätze erfordern die Entwicklung von Computer-Vision-Tools, um Aufgaben wie Erkennung, Segmentierung, Klassifizierung und Registrierung durchzuführen. Es ist wünschenswert, Computer-Vision-Tools zu entwickeln, die nur eine minimale Menge an manuell annotierten Trainingsdaten benötigen. Ich demonstriere derartige Anwendungen in drei Projekte. Zunächst stelle ich ein Tool zur automatischen Registrierung von Drosophila-Flügeln (verschiedener Spezies) unter Verwendung von Landmarkenerkennung vor, das für die Untersuchung der Funktionsweise von Enhancern eingesetzt wird. Ich vergleiche die Leistung eines Shape-Model-Ansatzes mit der eines kleinen neuronalen Netz bei der Verfügbarkeit von nur 20 Trainingsbeispiele. Beide Methoden schneiden gut ab und ermöglichen eine präzise Registrierung von Tausenden von Flügeln. Das zweite Projekt ist ein hochauflösendes Zellkernmodell des C. elegans, das aus einem nanometeraufgelösten Elektronenmikroskopiedatensatz einer ganzen Dauerlarve erstellt wird. Diese Arbeit ist der erste Atlas der Dauerdiapause von C. elegans, der jemals erstellt wurde, und enthüllt die Anzahl der Zellkerne in diesem Stadium. Schließlich stelle ich eine Bildanalysepipeline vor, an der ich zusammen mit Laura Breimann und anderen gearbeitet habe. Die Pipeline umfasst die Punkterkennung von Einzelmolekül-Fluoreszenz-In-situ-Hybridisierung (smFISH), die Segmentierung von Objekten und die Vorhersage des Embryonalstadiums. Mit diesen drei Beispielen demonstriere ich sowohl generische Ansätze zur computergestützten Modellierung von Modellorganismen als auch maßgeschneiderte Lösungen für spezifische Probleme und die Verschiebung des Feldes in Richtung Deep-Learning. / Microscopy images of entire organisms and their development allows research in whole organisms or systems, producing terabyte scale datasets. Such big datasets require the development of computer vision tools to perform tasks such as detection, segmentation, classification, and registration. It is desirable to develop computer vision tools that require minimal manually annotated training data. I demonstrate such applications in three projects. First, I present a tool for automatic Drosophila wing (of various species) registration using landmark detection, for its application in studying enhancer function. I compare the performance of a shape model technique to a small CNN requiring only 20 training examples. Both methods perform well, and enable precise registration of thousands of wings. The second project is a high resolution nucleus model of the C. elegans, constructed from a nanometer-resolved electron microscopy dataset of an entire dauer larva. The nucleus model is constructed using a classical dynamic programing approach as well as a CNN approach. The resulting model is accessible via a web-based (CATMAID) open source and open access resource for the community. I also developed a CATMAID plugin for the annotation of segmentation objects (here, nucleus identity). This work is the first atlas of the C. elegans dauer diapause ever created and unveils the number of nuclei at that stage. Lastly, I detail an image analysis pipeline I collaborated on with Laura Breimann and others. The pipeline involves single molecule fluorescence in situ hybridization (smFISH) spot detection, object segmentation, and embryo stage prediction. The pipeline is used to study the dynamics of X specific transcriptional repression by condensin in the C. elegans embryo. With these three examples, I demonstrate both generic approaches to computational modeling of model organisms, as well as bespoke solutions to specific problems, and the shift in the field towards deep learning.
15

Towards accurate and efficient live cell imaging data analysis

Han, Hongqing 29 January 2021 (has links)
Dynamische zelluläre Prozesse wie Zellzyklus, Signaltransduktion oder Transkription zu analysieren wird Live-cell-imaging mittels Zeitraffermikroskopie verwendet. Um nun aber Zellabstammungsbäume aus einem Zeitraffervideo zu extrahieren, müssen die Zellen segmentiert und verfolgt werden können. Besonders hier, wo lebende Zellen über einen langen Zeitraum betrachtet werden, sind Fehler in der Analyse fatal: Selbst eine extrem niedrige Fehlerrate kann sich amplifizieren, wenn viele Zeitpunkte aufgenommen werden, und damit den gesamten Datensatz unbrauchbar machen. In dieser Arbeit verwenden wir einen einfachen aber praktischen Ansatz, der die Vorzüge der manuellen und automatischen Ansätze kombiniert. Das von uns entwickelte Live-cell-Imaging Datenanalysetool ‘eDetect’ ergänzt die automatische Zellsegmentierung und -verfolgung durch Nachbearbeitung. Das Besondere an dieser Arbeit ist, dass sie mehrere interaktive Datenvisualisierungsmodule verwendet, um den Benutzer zu führen und zu unterstützen. Dies erlaubt den gesamten manuellen Eingriffsprozess zu rational und effizient zu gestalten. Insbesondere werden zwei Streudiagramme und eine Heatmap verwendet, um die Merkmale einzelner Zellen interaktiv zu visualisieren. Die Streudiagramme positionieren ähnliche Objekte in unmittelbarer Nähe. So kann eine große Gruppe ähnlicher Fehler mit wenigen Mausklicks erkannt und korrigiert werden, und damit die manuellen Eingriffe auf ein Minimum reduziert werden. Die Heatmap ist darauf ausgerichtet, alle übersehenen Fehler aufzudecken und den Benutzern dabei zu helfen, bei der Zellabstammungsrekonstruktion schrittweise die perfekte Genauigkeit zu erreichen. Die quantitative Auswertung zeigt, dass eDetect die Genauigkeit der Nachverfolgung innerhalb eines akzeptablen Zeitfensters erheblich verbessern kann. Beurteilt nach biologisch relevanten Metriken, übertrifft die Leistung von eDetect die derer Tools, die den Wettbewerb ‘Cell Tracking Challenge’ gewonnen haben. / Live cell imaging based on time-lapse microscopy has been used to study dynamic cellular behaviors, such as cell cycle, cell signaling and transcription. Extracting cell lineage trees out of a time-lapse video requires cell segmentation and cell tracking. For long term live cell imaging, data analysis errors are particularly fatal. Even an extremely low error rate could potentially be amplified by the large number of sampled time points and render the entire video useless. In this work, we adopt a straightforward but practical design that combines the merits of manual and automatic approaches. We present a live cell imaging data analysis tool `eDetect', which uses post-editing to complement automatic segmentation and tracking. What makes this work special is that eDetect employs multiple interactive data visualization modules to guide and assist users, making the error detection and correction procedure rational and efficient. Specifically, two scatter plots and a heat map are used to interactively visualize single cells' visual features. The scatter plots position similar results in close vicinity, making it easy to spot and correct a large group of similar errors with a few mouse clicks, minimizing repetitive human interventions. The heat map is aimed at exposing all overlooked errors and helping users progressively approach perfect accuracy in cell lineage reconstruction. Quantitative evaluation proves that eDetect is able to largely improve accuracy within an acceptable time frame, and its performance surpasses the winners of most tasks in the `Cell Tracking Challenge', as measured by biologically relevant metrics.
16

Integrative analysis of data from multiple experiments

Ronen, Jonathan 22 July 2020 (has links)
Auf die Entwicklung der Hochdurchsatz-Sequenzierung (HTS) folgte eine Reihe von speziellen Erweiterungen, die erlauben verschiedene zellbiologischer Aspekte wie Genexpression, DNA-Methylierung, etc. zu messen. Die Analyse dieser Daten erfordert die Entwicklung von Algorithmen, die einzelne Experimenteberücksichtigen oder mehrere Datenquellen gleichzeitig in betracht nehmen. Der letztere Ansatz bietet besondere Vorteile bei Analyse von einzelligen RNA-Sequenzierung (scRNA-seq) Experimenten welche von besonders hohem technischen Rauschen, etwa durch den Verlust an Molekülen durch die Behandlung geringer Ausgangsmengen, gekennzeichnet sind. Um diese experimentellen Defizite auszugleichen, habe ich eine Methode namens netSmooth entwickelt, welche die scRNA-seq-Daten entrascht und fehlende Werte mittels Netzwerkdiffusion über ein Gennetzwerk imputiert. Das Gennetzwerk reflektiert dabei erwartete Koexpressionsmuster von Genen. Unter Verwendung eines Gennetzwerks, das aus Protein-Protein-Interaktionen aufgebaut ist, zeige ich, dass netSmooth anderen hochmodernen scRNA-Seq-Imputationsmethoden bei der Identifizierung von Blutzelltypen in der Hämatopoese, zur Aufklärung von Zeitreihendaten unter Verwendung eines embryonalen Entwicklungsdatensatzes und für die Identifizierung von Tumoren der Herkunft für scRNA-Seq von Glioblastomen überlegen ist. netSmooth hat einen freien Parameter, die Diffusionsdistanz, welche durch datengesteuerte Metriken optimiert werden kann. So kann netSmooth auch dann eingesetzt werden, wenn der optimale Diffusionsabstand nicht explizit mit Hilfe von externen Referenzdaten optimiert werden kann. Eine integrierte Analyse ist auch relevant wenn multi-omics Daten von mehrerer Omics-Protokolle auf den gleichen biologischen Proben erhoben wurden. Hierbei erklärt jeder einzelne dieser Datensätze nur einen Teil des zellulären Systems, während die gemeinsame Analyse ein vollständigeres Bild ergibt. Ich entwickelte eine Methode namens maui, um eine latente Faktordarstellungen von multiomics Daten zu finden. / The development of high throughput sequencing (HTS) was followed by a swarm of protocols utilizing HTS to measure different molecular aspects such as gene expression (transcriptome), DNA methylation (methylome) and more. This opened opportunities for developments of data analysis algorithms and procedures that consider data produced by different experiments. Considering data from seemingly unrelated experiments is particularly beneficial for Single cell RNA sequencing (scRNA-seq). scRNA-seq produces particularly noisy data, due to loss of nucleic acids when handling the small amounts in single cells, and various technical biases. To address these challenges, I developed a method called netSmooth, which de-noises and imputes scRNA-seq data by applying network diffusion over a gene network which encodes expectations of co-expression patterns. The gene network is constructed from other experimental data. Using a gene network constructed from protein-protein interactions, I show that netSmooth outperforms other state-of-the-art scRNA-seq imputation methods at the identification of blood cell types in hematopoiesis, as well as elucidation of time series data in an embryonic development dataset, and identification of tumor of origin for scRNA-seq of glioblastomas. netSmooth has a free parameter, the diffusion distance, which I show can be selected using data-driven metrics. Thus, netSmooth may be used even in cases when the diffusion distance cannot be optimized explicitly using ground-truth labels. Another task which requires in-tandem analysis of data from different experiments arises when different omics protocols are applied to the same biological samples. Analyzing such multiomics data in an integrated fashion, rather than each data type (RNA-seq, DNA-seq, etc.) on its own, is benefitial, as each omics experiment only elucidates part of an integrated cellular system. The simultaneous analysis may reveal a comprehensive view.
17

Identifying markers of cell identity from single-cell omics data

Vlot, Hendrika Cornelia 12 September 2023 (has links)
Einzelzell-Omics-Daten stehen derzeit im Fokus der Entwicklung computergestützter Methoden in der Molekularbiologie und Genetik. Einzelzellexperimenten lieferen dünnbesetzte, hochdimensionale Daten über zehntausende Gene oder hunderttausende regulatorische Regionen in zehntausenden Zellen. Diese Daten bieten den Forschenden die Möglichkeit, Gene und regulatorische Regionen zu identifizieren, welche die Bestimmung und Aufrechterhaltung der Zellidentität koordinieren. Die gängigste Strategie zur Identifizierung von Zellidentitätsmarkern besteht darin, die Zellen zu clustern und dann Merkmale zu finden, welche die Cluster unterscheiden, wobei davon ausgegangen wird, dass die Zellen innerhalb eines Clusters die gleiche Identität haben. Diese Annahme ist jedoch nicht immer zutreffend, insbesondere nicht für Entwicklungsdaten bei denen sich die Zellen in einem Kontinuum befinden und die Definition von Clustergrenzen biologisch gesehen potenziell willkürlich ist. Daher befasst sich diese Dissertation mit Clustering-unabhängigen Strategien zur Identifizierung von Markern aus Einzelzell-Omics-Daten. Der wichtigste Beitrag dieser Dissertation ist SEMITONES, eine auf linearer Regression basierende Methode zur Identifizierung von Markern. SEMITONES identifiziert (Gruppen von) Markern aus verschiedenen Arten von Einzelzell-Omics-Daten, identifiziert neue Marker und übertrifft bestehende Marker-Identifizierungsansätze. Außerdem ermöglicht die Identifizierung von regulatorischen Markerregionen durch SEMITONES neue Hypothesen über die Regulierung der Genexpression während dem Erwerb der Zellidentität. Schließlich beschreibt die Dissertation einen Ansatz zur Identifizierung neuer Markergene für sehr ähnliche, dennoch underschiedliche neurale Vorlauferzellen im zentralen Nervensystem von Drosphila melanogaster. Ingesamt zeigt die Dissertation, wie Cluster-unabhängige Ansätze zur Aufklärung bisher uncharakterisierter biologischer Phänome aus Einzelzell-Omics-Daten beitragen. / Single-cell omics approaches are the current frontier of computational method development in molecular biology and genetics. A single single-cell experiment provides sparse, high-dimensional data on tens of thousands of genes or hundreds of thousands of regulatory regions (i.e. features) in tens of thousands of cells (i.e. samples). This data provides researchers with an unprecedented opportunity to identify those genes and regulatory regions that determine and coordinate cell identity acquisition and maintenance. The most common strategy for identifying cell identity markers consists of clustering the cells and then identifying differential features between these clusters, assuming that cells within a cluster share the same identity. This assumption is, however, not guaranteed to hold, particularly for developmental data where cells lie along a continuum and inferring cluster boundaries becomes non-trivial and potentially biologically arbitrary. In response, this thesis presents clustering-independent strategies for marker feature identification from single-cell omics data. The primary contribution of this thesis is a linear regression-based method for marker feature identification from single-cell omics data called SEMITONES. SEMITONES can identify markers or marker sets from diverse single-cell omics data types, identifies novel markers, outperforms existing marker identification approaches. The thesis also describes how the identification of marker regulatory regions by SEMITONES enables the generation of novel hypotheses regarding gene regulation during cell identity acquisition. Lastly, the thesis describes the clustering-independent identification of novel marker genes for highly similar yet distinct neural progenitor cells in the Drosophila melanogaster central nervous system. Altogether, the thesis demonstrates how clustering-independent approaches aid the elucidation of yet uncharacterised biological patterns from single cell-omics data.
18

Analysis of diurnal gene regulation and metabolic diversity in Synechocystis sp. PCC 6803 and other phototrophic cyanobacteria

Beck, Johannes Christian 21 June 2018 (has links)
Cyanobakterien sind meist photoautotroph lebende Prokaryoten, welche nahezu alle Biotope der Welt besiedeln. Sie gehören zu den wichtigsten Produzenten der weltweiten Nahrungskette. Um sich auf den täglichen Wechsel von Tag und Nacht einzustellen, besitzen Cyanobakterien eine innere Uhr, bestehend aus den Proteinen KaiA, KaiB und KaiC, deren biochemische Interaktionen zu einem 24-stündigen Rhythmus von Phosphorylierung und Dephosphorylierung führen. Die circadiane Genexpression im Modellorganismus Synechocystis sp. PCC 6803 habe ich mittels drei verschiedener Zeitserienexperimente untersucht, wobei ich einen genauen Zeitplan der Genaktivierung in einer Tag-Nacht-Umgebung, aber keine selbsterhaltenden Rhythmen entdecken konnte. Allerdings beobachtete ich einen überaus starken Anstieg der ribosomalen RNA in der Dunkelheit. Aufgrund ihrer hohen Wachstumsraten und der geringen Anforderungen an die Umwelt bilden Cyanobakterien eine gute Grundlage für die nachhaltige Erzeugung von Biokraftstoffen, für einen industriellen Einsatz sind aber weitere Optimierung und ein verbessertes Verständnis des Metabolismus von Nöten. Hierfür habe ich die Orthologie von verschiedenen Cyanobakterien sowie die Konservierung von Genen und Stoffwechselwegen untersucht. Mit einer neu entwickelten Methode konnte ich gemeinsam vorkommende Gene identifizieren und zeigen, dass diese Gene häufig an einem gemeinsamen biologischen Prozess beteiligt sind, und damit bisher unbekannte Beziehungen aufdecken. Zusätzlich zu den diskutierten Modulen habe ich den SimilarityViewer entwickelt, ein grafisches Computerprogramm für die Identifizierung von gemeinsam vorkommenden Partnern für jedes beliebige Gen. Des Weiteren habe ich für alle Organismen automatische Rekonstruktionen des Stoffwechsels erstellt und konnte zeigen, dass diese die Synthese von gewünschten Stoffen gut vorhersagen, was hilfreich für zukünftige Forschung am Metabolismus von Cyanobakterien sein wird. / Cyanobacteria are photoautotrophic prokaryotes populating virtually all habitats on the surface of the earth. They are one of the prime producers for the global food chain. To cope with the daily alternation of light and darkness, cyanobacteria harbor a circadian clock consisting of the three proteins KaiA, KaiB, and KaiC, whose biochemical interactions result in a phosphorylation cycle with a period of approximately 24 hours. I conducted three time-series experiments in the model organism Synechocystis sp. PCC 6803, which revealed a tight diurnal schedule of gene activation. However, I could not identify any self-sustained oscillations. On the contrary, I observed strong diurnal accumulation of ribosomal RNAs during dark periods, which challenges common assumptions on the amount of ribosomal RNAs. Due to their high growth rates and low demand on their environment, cyanobacteria emerged as a viable option for sustainable production of biofuels. For an industrialized production, however, optimization of growth and comprehensive knowledge of the cyanobacterial metabolism is inevitable. To address this issue, I analyzed the orthology of multiple cyanobacteria and studied the conservation of genes and metabolic pathways. Systematic analysis of genes shared by similar subsets of organisms indicates high rates of functional relationship in such co-occurring genes. I designed a novel approach to identify modules of co-occurring genes, which exhibit a high degree of functional coherence and reveal unknown functional relationships between genes. Complementing the precomputed modules, I developed the SimilarityViewer, a graphical toolbox that facilitates further analysis of co-occurrence with respect to specific cyanobacterial genes of interest. Simulations of automatically generated metabolic reconstructions revealed the biosynthetic capacities of individual cyanobacterial strains, which will assist future research addressing metabolic engineering of cyanobacteria.
19

Development and application of new statistical methods for the analysis of multiple phenotypes to investigate genetic associations with cardiometabolic traits

Konigorski, Stefan 27 April 2018 (has links)
Die biotechnologischen Entwicklungen der letzten Jahre ermöglichen eine immer detailliertere Untersuchung von genetischen und molekularen Markern mit multiplen komplexen Traits. Allerdings liefern vorhandene statistische Methoden für diese komplexen Analysen oft keine valide Inferenz. Das erste Ziel der vorliegenden Arbeit ist, zwei neue statistische Methoden für Assoziationsstudien von genetischen Markern mit multiplen Phänotypen zu entwickeln, effizient und robust zu implementieren, und im Vergleich zu existierenden statistischen Methoden zu evaluieren. Der erste Ansatz, C-JAMP (Copula-based Joint Analysis of Multiple Phenotypes), ermöglicht die Assoziation von genetischen Varianten mit multiplen Traits in einem gemeinsamen Copula Modell zu untersuchen. Der zweite Ansatz, CIEE (Causal Inference using Estimating Equations), ermöglicht direkte genetische Effekte zu schätzen und testen. C-JAMP wird in dieser Arbeit für Assoziationsstudien von seltenen genetischen Varianten mit quantitativen Traits evaluiert, und CIEE für Assoziationsstudien von häufigen genetischen Varianten mit quantitativen Traits und Ereigniszeiten. Die Ergebnisse von umfangreichen Simulationsstudien zeigen, dass beide Methoden unverzerrte und effiziente Parameterschätzer liefern und die statistische Power von Assoziationstests im Vergleich zu existierenden Methoden erhöhen können - welche ihrerseits oft keine valide Inferenz liefern. Für das zweite Ziel dieser Arbeit, neue genetische und transkriptomische Marker für kardiometabolische Traits zu identifizieren, werden zwei Studien mit genom- und transkriptomweiten Daten mit C-JAMP und CIEE analysiert. In den Analysen werden mehrere neue Kandidatenmarker und -gene für Blutdruck und Adipositas identifiziert. Dies unterstreicht den Wert, neue statistische Methoden zu entwickeln, evaluieren, und implementieren. Für beide entwickelten Methoden sind R Pakete verfügbar, die ihre Anwendung in zukünftigen Studien ermöglichen. / In recent years, the biotechnological advancements have allowed to investigate associations of genetic and molecular markers with multiple complex phenotypes in much greater depth. However, for the analysis of such complex datasets, available statistical methods often don’t yield valid inference. The first aim of this thesis is to develop two novel statistical methods for association analyses of genetic markers with multiple phenotypes, to implement them in a computationally efficient and robust manner so that they can be used for large-scale analyses, and evaluate them in comparison to existing statistical approaches under realistic scenarios. The first approach, called the copula-based joint analysis of multiple phenotypes (C-JAMP) method, allows investigating genetic associations with multiple traits in a joint copula model and is evaluated for genetic association analyses of rare genetic variants with quantitative traits. The second approach, called the causal inference using estimating equations (CIEE) method, allows estimating and testing direct genetic effects in directed acyclic graphs, and is evaluated for association analyses of common genetic variants with quantitative and time-to-event traits. The results of extensive simulation studies show that both approaches yield unbiased and efficient parameter estimators and can improve the power of association tests in comparison to existing approaches, which yield invalid inference in many scenarios. For the second goal of this thesis, to identify novel genetic and transcriptomic markers associated with cardiometabolic traits, C-JAMP and CIEE are applied in two large-scale studies including genome- and transcriptome-wide data. In the analyses, several novel candidate markers and genes are identified, which highlights the merit of developing, evaluating, and implementing novel statistical approaches. R packages are available for both methods and enable their application in future studies.
20

Information processing in cellular signaling

Uschner, Friedemann 13 December 2016 (has links)
Information spielt in der Natur eine zentrale Rolle. Als intrinsischer Teil des genetischen Codes ist sie das Grundgerüst jeder Struktur und ihrer Entwicklung. Im Speziellen dient sie auch Organismen, ihre Umgebung wahrzunehmen und sich daran anzupassen. Die Grundvoraussetzung dafür ist, dass sie Information ihrer Umgebung sowohl messen als auch interpretieren können, wozu Zellen komplexe Signaltransduktionswege entwickelt haben. In dieser Arbeit konzentrieren wir uns auf Signalprozesse in S.cerevisiae die von osmotischem Stress (High Osmolarity Glycerol (HOG) Signalweg) und der Stimulation mit α-Faktor (Pheromon Signalweg) angesprochen werden. Wir wenden stochastische Modelle an, die das intrinsische Rauschen biologischer Prozesse darstellen können, um verstehen zu können wie Signalwege die ihnen zur Verfügung stehende Information umsetzen. Informationsübertragung wird dabei mit einem Ansatz aus Shannons Informationstheorie gemessen, indem wir sie als einen Kanal in diesem Sinne auffassen. Wir verwenden das Maß der Kanalkapazität, um die Genauigkeit des Phosphorelays einschränken zu können. In diesem Modell, simuliert mit dem Gillespie Algorithmus, können wir durch die Analyse des Signalverhaltens den Parameterraum zusätzlich stark einschränken. Eine weitere Herangehensweise der Signalverarbeitung beschäftigt sich mit dem “Crosstalk” zwischen HOG und Pheromon Signalweg. Wir zeigen, dass die Kontrolle der Signalspezifizität vor allem bei Scaffold-Proteinen liegt, die Komponenten der Signalkaskade binden. Diese konservierten Motive zellulärer Signaltransduktion besitzen eine geeignete Struktur, um Information getreu übertragen zu können. Im letzten Teil der Arbeit untersuchen wir potentielle Gründe für die evolutionäre Selektion von Scaffolds. Wir zeigen, dass ihnen bereits durch die Struktur des Mechanismus möglich ist, Informationsgenauigkeit zu verbessern und einer verteilten Informationsweiterleitung sowohl dadurch als auch durch ihre Robustheit überlegen sind. / Information plays a ubiquitous role in nature. It provides the basis for structure and development, as it is inherent part of the genetic code. It also enables organisms to make sense of their environments and react accordingly. For this, a cellular interpretation of information is needed. Cells have developed sophisticated signaling mechanisms to fulfill this task and integrate many different external cues with their help. Here we focus on signaling that senses osmotic stress (High Osmolarity Glycerol (HOG) pathway) as well as α-factor stimulation (pheromone pathway) in S.cerevisiae. We employ stochastic modeling to simulates the inherent noisy nature of biological processes to assess how systems process the information they receive. This information transmission is evaluated with an information theoretic approach by interpreting signal transduction as a transmission channel in the sense of Shannon. We use channel capacity to both constrain as well as quantify the fidelity in the phosphorelay system of the HOG pathway. In this model, simulated with the Gillespie Algorithm, the analysis of signaling behavior allows us to constrain the possible parameter sets for the system severely. A further approach to signal processing is concerned with the mechanisms that conduct crosstalk between the HOG and the pheromone pathway. We find that the control for signal specificity lies especially with the scaffold proteins that tether signaling components and facilitate signaling by trans-location to the membrane and shielding against miss-activation. As conserved motifs of cellular signal transmission, these scaffold proteins show a particularly well suited structure for accurate information transmission. In the last part of this thesis, we examine the potential reasons for an evolutionary selection of the scaffolding structure. We show that due to its structure, scaffolds are increasing information transmission fidelity and outperform a distributed signal in this regard.

Page generated in 0.0219 seconds