Return to search

Development and application of computational tools for RNA-Seq based transcriptome annotations / Entwicklung und Anwendung bioinformatischer Werkzeuge für RNA-Seq-basierte Transkriptom-Annotationen

In order to understand the regulation of gene expression in organisms, precise genome annotation is essential. In recent years, RNA-Seq has become a potent method for generating and improving genome annotations. However, this Approach is time consuming and often inconsistently performed when done manually. In particular, the discovery of non-coding RNAs benefits strongly from the application of RNA-Seq data but requires significant amounts of expert knowledge and is labor-intensive. As a part of my doctoral study, I developed a modular tool called ANNOgesic that can detect numerous transcribed genomic features, including non-coding RNAs, based on RNA-Seq data in a precise and automatic fashion with a focus on bacterial and achaeal species. The software performs numerous analyses and generates several visualizations. It can generate annotations of high-Resolution that are hard to produce using traditional annotation tools that are based only on genome sequences. ANNOgesic can detect numerous novel genomic Features like UTR-derived small non-coding RNAs for which no other tool has been developed before. ANNOgesic is available under an open source license (ISCL) at https://github.com/Sung-Huan/ANNOgesic.
My doctoral work not only includes the development of ANNOgesic but also its application to annotate the transcriptome of Staphylococcus aureus HG003 - a strain which has been a insightful model in infection biology. Despite its potential as a model, a complete genome sequence and annotations have been lacking for HG003. In order to fill this gap, the annotations of this strain, including sRNAs and their functions, were generated using ANNOgesic by analyzing differential RNA-Seq data from 14 different samples (two media conditions with seven time points), as well as RNA-Seq data generated after transcript fragmentation. ANNOgesic was
also applied to annotate several bacterial and archaeal genomes, and as part of this its high performance was demonstrated. In summary, ANNOgesic is a powerful computational tool for RNA-Seq based annotations and has been successfully applied to several species. / Exakte Genomannotationen sind essentiell für das Verständnis Genexpressionsregulation in verschiedenen Organismen. In den letzten Jahren entwickelte sich RNA-Seq zu einer äußerst wirksamen Methode, um solche Genomannotationen zu erstellen und zu verbessern. Allerdings ist das Erstellen von Genomannotationen bei manueller Durchführung noch immer ein zeitaufwändiger und inkonsistenter Prozess. Die Verwendung von RNA-Seq-Daten begünstigt besonders die Identifizierung von nichtkodierenden RNAs, was allerdings arbeitsintensiv ist und fundiertes Expertenwissen erfordert. Ein Teil meiner Promotion bestand aus der Entwicklung eines modularen Tools namens ANNOgesic, das basierend auf RNA-Seq-Daten in der Lage ist, eine Vielzahl von Genombestandteilen, einschließlich nicht-kodierender RNAs, automatisch und präzise zu ermitteln. Das Hauptaugenmerk lag dabei auf der Anwendbarkeit für bakterielle und archaeale Genome. Die Software führt eine Vielzahl von Analysen durch und stellt die verschiedenen Ergebnisse grafisch dar. Sie generiert hochpräzise Annotationen, die nicht unter Verwendung herkömmlicher Annotations-Tools auf Basis von Genomsequenzen erzeugt werden könnten. Es kann eine Vielzahl neuer Genombestandteile, wie kleine nicht-kodierende RNAs in UTRs, ermitteln, welche von bisherigen Programme nicht vorhergesagt werden können. ANNOgesic ist unter einer Open-Source-Lizenz (ISCL) auf https://github.com/Sung-Huan/ANNOgesic verfügbar.
Meine Forschungsarbeit beinhaltet nicht nur die Entwicklung von ANNOgesic, sondern auch dessen Anwendung um das Transkriptom des Staphylococcus aureus-Stamms HG003 zu annotieren. Dieser ist einem Derivat von S. aureus NCTC8325 - ein Stamm, Dear ein bedeutendes Modell in der Infektionsbiologie darstellt. Zum Beispiel wurde er für die Untersuchung von Antibiotikaresistenzen genutzt, da er anfällig für alle bekannten Antibiotika ist. Der Elternstamm NCTC8325 besitzt zwei Mutationen im regulatorischen Genen (rsbU und tcaR), die Veränderungen der Virulenz zur Folge haben und die in Stamm HG003 auf die Wildtypsequenz zurückmutiert wurden. Dadurch besitzt S. aureus HG003 das vollständige, ursprüngliche Regulationsnetzwerk und stellt deshalb ein besseres Modell zur Untersuchung von sowohl Virulenz als auch Antibiotikaresistenz dar. Trotz seines Modellcharakters fehlten für HG003 bisher eine
vollständige Genomsequenz und deren Annotationen. Um diese Lücke zu schließen habe ich als Teil meiner Promotion mit Hilfe von ANNOgesic Annotationen für diesen Stamm, einschließlich sRNAs und ihrer Funktionen, generiert. Dafür habe ich Differential RNA-Seq-Daten von 14 verschiedenen Proben (zwei Mediumsbedingungen mit sieben Zeitpunkten) sowie RNA-Seq-Daten, die von fragmentierten Transkripten generiert wurden, analysiert. Neben S. aureus HG003 wurde ANNOgesic auf eine Vielzahl von Bakterien- und Archaeengenome angewendet und dabei wurde eine hohe
Performanz demonstriert. Zusammenfassend kann gesagt werden, dass ANNOgesic ein mächtiges bioinformatisches Werkzeug für die RNA-Seq-basierte Annotationen ist und für verschiedene Spezies erfolgreich angewandt wurde.

Identiferoai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:17646
Date January 2019
CreatorsYu, Sung-Huan
Source SetsUniversity of Würzburg
LanguageEnglish
Detected LanguageGerman
Typedoctoralthesis, doc-type:doctoralThesis
Formatapplication/pdf
Rightshttps://creativecommons.org/licenses/by/4.0/deed.de, info:eu-repo/semantics/openAccess

Page generated in 0.0039 seconds