Transcription describes the process of converting the information contained in DNA into RNA. Although, tremendous progress has been made in recent decades to uncover this complex mechanism, it is still not fully understood. Given the advances and reduction in cost of high-throughput sequencing experiments, more and more data have been generated to help elucidating this complex process. Importantly, these sequencing experiments produce massive amounts of data that are incomprehensible in their raw form for humans. Further, sequencing techniques are not always 100% accurate and are subject to a certain degree of variability and, in special cases, they might introduce technical artifacts. Thus, computational and statistical methods are indispensable to uncover the information buried in these datasets.
In this thesis, I worked with multiple high throughput datasets from herpes simplex virus 1 (HSV-1) and human cytomegalovirus (HCMV) infections. During the last decade, it has became clear that a gene might not have a single, but multiple sites at which transcription initiates. These multiple transcription start sites (TiSS) demonstrated to have regulatory effects on the gene itself depending on which TiSS is used. Specialized experimental approaches were developed to help identify TiSS (TiSS-profiling). In order to facilitate the identification of all potential TiSS that are used for cell type- and condition-specific transcription, I developed the tool iTiSS. By using a new general enrichment-based approach to predict TiSS, iTiSS proved to be applicable in integrated studies and made it less prone to false positives compared to other TiSS-calling tools. Another improvement in recent years was made in metabolic labeling experiments such as SLAM-seq. Here, they removed the time consuming and laborious step of physically separating new from old RNA in the samples. This was achieved by inducing specific nucleotide conversions in newly synthesized RNA that are later visible in the data. Consequently, the separation of new and old RNA is now done computationally and, hence, tools are needed that accurately quantify these fold-changes. My second tool that I developed, called GRAND-SLAM proved to be capable to accomplish this task and outperform competing programs. As both of my tools, iTiSS and GRAND-SLAM are not specifically tailored to my own goals, but could also facilitate the research of other groups in this field, I made them publicly available on GitHub.
I applied my tools to datasets generated in our lab as well as to publicly available data sets from HSV-1 and HCMV, respectively. For HSV-1, I was able to predict and validate TiSS with nucleotide precision using iTiSS. This has lead to the most comprehensive annotation for HSV-1 to date, which now serves as the fundamental basis of any future transcriptomic research on HSV-1. By combining both my tools, I was further able to uncover parts of the highly complex gene kinetics in HCMV and to resolve the limitations caused by the densely packed genome of HCMV.
With the ever-increasing advances in sequencing techniques and their decrease in cost, the amounts of data produced will continue to rise massively in the future. Additionally, more and more specialized omics approaches are appearing, calling for new tools to leverage their full information potential. Consequently, it has become apparent that specialized computational tools such as iTiSS and GRAND-SLAM are needed and will become an essential and indispensable part of the analysis. / Transkription beschreibt den Prozess des Umwandelns von DNA-Information in RNA- Information. Obwohl in den letzten Jahrzehnten enorme Fortschritte bei der Aufdeckung dieses komplexen Mechanismus erzielt wurden, ist dieser Prozess bis heute noch nicht vollends verstanden. Mit den Fortschritten und der Kostensenkung bei den Hochdurchsatzexperimenten wurden immer mehr Daten gewonnen, die zur Aufklärung dieses komplexen Prozesses beitragen. Diese Sequenzierungsexperimente erzeugen allerdings riesige Datenmengen, welche in ihrer Rohform für den Menschen unverständlich sind. Darüber hinaus sind Sequenzierungstechniken nicht immer zu 100% genau und unterliegen einer gewissen Variabilität. In besonderen Fällen können sie sogar technische Artefakte enthalten. Daher sind computergestützte und statistische Methoden unerlässlich, um die in diesen Datensätzen verborgenen Informationen aufzudecken.
In dieser Arbeit habe ich mit mehreren Hochdurchsatzdatensätzen von Herpes Simplex Virus 1 (HSV-1) und Humanem Cytomegalovirus (HCMV) gearbeitet. In den letzten Jahrzehnten wurde deutlich, dass ein Gen möglicherweise nicht nur eine einzige, sondern mehrere Transkriptionsstartpunkte (TiSS) besitzt. Diese multiplen TiSS haben nachweislich regulatorische Auswirkungen auf das Gen selbst, je nachdem, welche TiSS verwendet wird. Nachfolgend wurden demnach spezielle experimentelle Ans ̈atze entwickelt, um TiSS zu identifizieren (TiSS-Profiling). Um die Identifizierung aller potenziellen TiSS zu erleichtern, die für die zelltyp- und zustandsspezifische Transkription verwendet werden, habe ich das Programm iTiSS entwickelt. Durch die Verwendung eines neuen, auf allgemeiner Anreicherung basierenden Ansatzes zur Vorhersage von TiSS erwies sich iTiSS in integrier- ten Studien als anwendbar und war im Vergleich zu anderen TiSS-Erkennungsprogrammen weniger anfällig für falsch positive Ergebnisse. Eine weitere Verbesserung in jüngster Zeit wurde bei metabolischen Markierungsexperimenten wie SLAM-seq erzielt. Hier wurde der zeitaufwändige und mühsame Schritt der physischen Trennung von neuer und alter RNA in den Proben entfernt. Dies wurde erreicht, indem spezifische Nukleotidumwandlungen in neu synthetisierter RNA induziert wurden, die später in den Daten sichtbar sind. Da- her wird die Trennung von neuer und alter RNA jetzt per Computer vorgenommen. Dies benötigt daraufhin nun aber neue Programme, welche in der Lage sind diese Werte genau zu quantifizieren. Mein zweites von mir entwickeltes Tool namens GRAND-SLAM hat sich als fähig erwiesen, diese Aufgabe zu erfüllen und übertraf konkurrierende Programme. Da meine beiden Tools, iTiSS und GRAND-SLAM, nicht speziell auf meine eigenen Ziele zugeschnitten sind, sondern auch die Forschung anderer Gruppen in diesem Bereich erleichtern könnten, habe ich sie auf GitHub öffentlich zugänglich gemacht.
Ich habe meine Tools auf Datensätze angewandt, die in unserem Labor erzeugt wurden, sowie auf öffentlich verfügbare Datensätze von HSV-1 bzw. HCMV. Fu ̈r HSV-1 konnte ich mit iTiSS TiSS mit Nukleotidpräzision vorhersagen und validieren. Dies hat zu der bisher umfassendsten Annotation für HSV-1 geführt, die nun als grundlegende Basis für jede zukünftige transkriptomische Forschung zu HSV-1 dient. Durch die Kombination meiner beiden Programme konnte ich außerdem Teile der hochkomplexen Genkinetik von HCMV aufdecken und die durch das dicht gepackte Genom von HCMV verursachten Einschränkungen überwinden.
Mit den zunehmenden Fortschritten bei den Sequenzierungstechniken und den sinkenden Kosten wird die Menge der produzierten Daten in Zukunft weiter massiv ansteigen. Darüber hinaus gibt es immer mehr spezialisierte ”Omics”-Ansätze, die neue Programme erfordern, um ihr Informationspotenzial vollständig auszuschöpfen. Folglich ist es offensichtlich geworden, dass spezialisierte Computerprogramme wie iTiSS und GRAND-SLAM benötigt werden und zu einem wesentlichen und unverzichtbaren Teil der Analyse werden.
Identifer | oai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:27282 |
Date | January 2022 |
Creators | Jürges, Christopher Sebastian |
Source Sets | University of Würzburg |
Language | English |
Detected Language | German |
Type | doctoralthesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | https://opus.bibliothek.uni-wuerzburg.de/doku/lic_mit_pod.php, info:eu-repo/semantics/openAccess |
Page generated in 0.0031 seconds