Next-generation sequencing (NGS) ermöglicht das molekulare Profiling von Zellen mit beispiellos hohem Durchsatz. Allerdings ist der Fokus oftmals auf proteinkodierende Proteine beschränkt, wodurch die vollständige Diversität des Transkriptoms übersehen wird. Nicht-kodierende RNA-Moleküle variieren stark in ihrer Biogenese, Struktur und Funktion, wodurch ihre unverzerrte Inklusion in die Analyse erschwert wird. Diese Promotion fokussiert sich auf das Verständnis nicht-kodierender RNA und navigiert durch drei aufeinander aufbauende Säulen in der Analyse, um Beobachtungen in Wissen zu verwandeln: Generierung von Daten, Quantifizierung und Interpretation. Diese drei Säulen werden in den drei Kapiteln der Dissertation aus der bioinformatischen Perspektive adressiert, indem Schlüsselherausforderungen beschrieben und neue Lösungen vorgestellt werden, um die Analyse des gesamten Transkriptoms mit NGS-Techniken zu verbessern. Zunächst wird ein vollautomatischer Algorithmus vorgestellt, welcher die verschiedenen Quellen von aus der Vorberei- tung von Bibliotheken resultierenden Artefakten mittels unüberwachtes Lernen erkennt, was anschließend zur Optimierung der Protokolle zur Vorbereitung von total-RNA-seq-Bibliotheken genutzt werden kann. Zudem werden die primären Herausforderungen der Quantifizierung von total-RNA-seq behandelt: die Prozessierung von Reads, die mehreren, möglicherweise überlappenden Loci zugeordnet werden können, wie auch die Tatsache, dass manche Loci mehrfach im Genom vorkommen und ein Read zu all diesen Loci passen kann. Diese beiden Fälle können auch gleichzeitig vorkommen, was die Analyse von nicht-kodierender RNA mit üblichen Methoden erschwert. Um diese Problematik anzugehen, wird eine neue Software namens Multi-Graph count (MGcount) vorgestellt. Diese ordnet hierarchisch Reads Transkripten zu, um unter anderem eine Diskrepanz zwischen der Loci-Länge von small und long RNA zu berücksichtigen. Wenn Reads konsistent mehrfach alignieren, fasst MGcount Loci in Communitys zusammen. Es wird gezeigt, dass die Beurteilung der Expression auf der Community-Ebene eine genauere Quantifizierung von biologisch bedeutsamen RNA-Einheiten (Einfachtranskript oder Locusfamilien) ermöglicht. Schließlich wird MGcount angewandt, um nicht-kodierende RNA während der Differenzierung von induzierten pluripotenten Stammzellen in die Keimblätter Mesoderm, Endoderm und Ektoderm zu analysieren. In dieser Dissertation wird eine Multi-Omics-Analyse erfolgreich angewandt, um sowohl die Expressionsverläufe von verschiedenen RNA-Biotypen während der Determination zu charakterisieren als auch einen Zusammenhang bezüglich Chromatin-Remodellierung (“chromatin remodeling“) und DNA-Methylierung an den jeweiligen Loci herzustellen. Schlussendlich dient diese Dissertation als Ratgeber für alle Forschenden, die neue Einsichten in das nicht-kodierende Transkriptom gewinnen wollen. / Next-generation sequencing (NGS) techniques enable the molecular profiling of cells with unprecedented high throughput. Yet, in transcriptome analysis, the focus is often restricted to protein-coding RNA, overlooking the transcriptome in its entire diversity. Non-coding RNA molecules largely vary in biogenesis, structure and function and this challenges their unbiased inclusion into the analyses. This doctoral research places non-coding RNA understanding at the focus spot and navigates through the three workflow pillars that must align effectively to turn observations into knowledge: data generation, quantification, and interpretation. Throughout three chapters, this Thesis addresses these pillars from a Bioinformatics perspective, by outlining key challenges and introducing novel solutions to improve whole-transcriptome analysis through NGS techniques. First, we introduce a fully automatic algorithm that identifies sources of library preparation artifacts in an unsupervised manner and we demonstrate its utility within the development and optimization of total-RNA-seq library preparation protocols. Secondly, we address a major challenge in total-RNA-seq quantification; processing reads that align to multiple loci that overlap within the same genomic region or/and multiple loci that are present in high copy numbers. Such ambiguous alignments commonly arise due to the inherent characteristics of non-coding RNA. To tackle this, we introduce a novel software, named Multi-Graph count (MGcount), that hierarchically assigns reads to transcripts to account for loci length disparity between small-RNA and long-RNA and subsequently collapses loci where reads consistently multi-map into communities defined in a data-driven fashion. We show that these cohesive communities allow the quantification of biologically meaningful RNA entities (single-transcripts or locus-families) and estimate their abundance more accurately. Finally, we apply the developed method to investigate non-coding RNA in early development, specifically during the differentiation of Induced Pluripotent Stem Cells into the three germ-layer lineages, namely, mesoderm, endoderm, and ectoderm. In this study, we leverage a multi-omics analysis to characterize the expression trajectories of diverse RNA biotypes along cell-commitment and the interplay with chromatin remodeling and DNA methylation patterns at the locus surroundings. Ultimately, this work is intended to serve as a guide for all those who want to gain new insights from the non-coding transcriptome.
Identifer | oai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/29711 |
Date | 09 July 2024 |
Creators | Hita Ardiaca, Andrea |
Contributors | Alemany, Anna, Poulet, Christophe, Ringrose, Leonie |
Publisher | Humboldt-Universität zu Berlin |
Source Sets | Humboldt University of Berlin |
Language | English |
Detected Language | English |
Type | doctoralThesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | (CC BY-NC-SA 4.0) Attribution-NonCommercial-ShareAlike 4.0 International, https://creativecommons.org/licenses/by-nc-sa/4.0/ |
Relation | 10.1186/s12859-021-04544-3 |
Page generated in 0.0023 seconds