Return to search

Tracing the evolution of long non-coding RNAs: Principles of comparative transcriptomics for splice site conservation and biological applications

Eukaryotic cells exhibit an extensive transcriptional diversity. Only about a quarter of the total
RNA in the human cell can be accounted for by messenger RNA (mRNA), which convey genetic
code for protein generation. The remaining part of the transcriptome consists of rather heterogenous
molecules. While some classes are well defined and have been shown to carry out distinct functions,
ranging from housekeeping to complex regulatory tasks, a big fraction of the transcriptional output is
categorized solely based on the lack of protein-coding capacity and transcript length. Several studies
have shown, that as a group, mRNA-like long non-coding RNAs (lncRNAs), are under stabilizing
selection, however at much weaker levels than mRNAs. The conservation at the level of primary
sequence is even lower, blurring the contrast between exonic and intronics parts, which impedes
traditional methods of genome-wide homology search. As a consequence their evolutionary history
is a fairly unexplored field and apart from a few experimentally studied cases, the vast majority
of them is reported to be poorly conserved. However, the pervasive transcription and the highly
spatio-temporal specific expression patterns of lncRNAs suggests their functional importance and
makes their evolutionary age and conservation patterns a topic of interest. By employing diverse
computational methods, recent studies shed light on the common conservation of lncRNA’s secondary
and gene structures, highlighting the significance of structural features on functionality. Splice sites,
in particular, are frequently retained over very large evolutionary time scales, as they maintain the
intron-exon-structure of the transcript.
Consequently, the conservation of splice sites can be utilized in a comparative genomics approach to
establish homology and predict evolutionarily well-conserved transcripts, regardless of their coding
capacity. Since splice site conservation cannot be directly inferred from experimental evidence, in
the course of this thesis a computational pipeline was established to generate comparative maps
of splice sites based on multiple sequence alignments together with transcriptomics data. Scoring
schemes for splice site motifs are employed to assess the conservation of orthologs. This resource
can then be used to systemically study the conservation patterns of RNAs and their gene structures.
This thesis will demonstrate the versatility of this method by showcasing biological applications of
three distinct studies.
First, a comprehensive annotation of the human transcriptome, from RefSeq, ESTs and GENCODE,
was used to trace the evolution of human lncRNAs. A large majority of human lncRNAs is found to
be conserved across Eutheria, and many hundreds originated before the divergence of marsupials and
placental mammals. However, they exhibit a rapid turnover of their transcript structures, indicating
that they are actual ancient components of the vertebrate genome with outstanding evolutionary
plasticity. Additionally, a public web server was setup, which allows the user to retrieve sets of
orthologous splice sites from pre-computed comparative splice site maps and inspect visualizations
of their conservation in the respective species.
Second, a more specific data set of non-colinearly spliced latimerian RNAs is studied to fathom the
origins of atypical transcripts. RNA-seq data from two coelacanth species are analyzed, yielding
thousands of circular and trans-spliced products, with a surprising exclusivity of the majority of
their splice junctions to atypically spliced forms, that is they are not used in linear isoforms. The
conservation analysis with comparative splice site maps yielded high conservation levels for both cir-
cularizing and trans-connecting splice sites. This fact in combination with their abundance strongly
suggests that atypical RNAs are evolutionarily old and of functional importance.
Lastly, comparative splice site maps are used to investigate the role of lncRNAs in the evolution of
the Alzheimer’s disease (AD). The human specificity of AD clearly points out a phylogenetic aspect
of the disease, which makes the evolutionary analysis a very promising field of research. Protein-
coding and non-protein-coding regions, that have been identified to be differentially expressed in AD
patients, are analyzed for conservation of their splice site and evolution of their exon-intron-structure.
Both non-coding and protein-coding AD-associated genes are shown to have evolved more rapidly
in their gene structure than the genome at large. This supports the view of AD as a consequence
of the recent rapid adaptive evolution of the human brain. This phylogenetic trait might have far
reaching consequences with respect to the appropriateness of animal models and the development
of disease-modifying strategies. / Eukaryotische Zellen legen eine umfangreiche transkriptionelle Vielfalt an den
Tag. Nur etwa ein Viertel der in der menschlichen Zelle enthaltenen RNA
ist messenger RNA (mRNA), welche den genetischen Code für die Proteingenerierung
übermittelt. Der verbleibende Anteil des Transkriptoms besteht aus eher heterogenen
Molekülen. Während einigen wohldefinierten Klassen spezifische Funktionen zugeordnet werden können, welche von Zellhaushalt bis zu komplexen regulatorischen Aufgaben reichen, wird ein großer Teil der transkriptionellen Produktion ausschließlich auf
Grundlage der fehlenden Kodierungskapazität und der Transkriptlänge kategorisiert.
Einige Studien zeigten, dass mRNA-ähnliche lange nicht-kodierende RNA (lncRNA)
als Gruppe unter stabilisierender Selektion stehen, wenn auch in einem weitaus geringeren Ausmaß als mRNAs. Die Konservierung auf Ebene der primären Sequenz
ist sogar noch niedriger, wodurch der Kontrast zwischen exonischen und intronischen
Elementen verschwimmt und Methoden der traditionellen Homologiesuche erschwert
werden. Infolgedessen ist die evolutionäre Geschichte der lncRNAs ein recht unerforschtes Gebiet und abgesehen von ein paar vereinzelten Fallstudien wird die große
Mehrheit als schwach konserviert vermeldet. Die tiefgreifende Transkription und die
in Raum und Zeit hochspezifischen Expressionsmuster von lncRNA deuten jedoch
auf deren funktionelle Bedeutung hin und machen ihr evolutionäres Alter und ihre
Konservierungsmuster zu einem Thema von Interesse. Durch die Verwendung von
computergestützten Methoden konnten jüngste Studien die verbreitete Konservierung von Sekundär- und Genstruktur von lncRNAs aufzeigen, was die Signifikanz
von strukturellen Merkmalen in Bezug auf deren Funktionalität unterstreicht. Spleißstellen im besonderen werden oft über lange evolutionäre Zeitspannen erhalten, da
sie die Intron-Exon-Struktur des Transkripts bewahren.
Folglich, kann die Konservierung von Spleißstellen durch einen Ansatz der vergleichenden Genomik benutzt werden, um Homologie herzuleiten und evolutionär
gut konservierte Transkripte unabhängig von deren Kodierungskapazität zu prognostizieren. Da es nicht möglich ist die Spleißstellenkonservierung direkt anhand von
experimentellen Indikatoren abzulesen, wurde im Zuge dieser These eine computergestützte Methode entwickelt, welche, basierend auf multiplen Sequenzalignments
und Transkriptomikdaten, “Vergleichskarten” von Spleißstellen erstellt. Ein Punktebewertungssystem für Spleißstellenmotive wird benutzt um die Konservierung der
Orthologen zu beurteilen. Diese Resource kann anschließend verwendet werden um
systematisch die Konservierungsmuster von RNAs und deren Genstrukturen zu untersuchen. Diese Arbeit wird die Vielseitigkeit dieser Methode demonstrieren, indem
die biologische Anwendung in drei verschiedenen Studien präsentiert wird.
Zuerst wird eine umfassende Annotation des menschlichen Transkriptoms, basierend auf RefSeq, EST und GENCODE, benutzt, um die Evolution von humanen lncRNAs nachzuvollziehen. Es konnte festgestellt werden, dass eine große Mehrheit der
menschlichen lncRNAs innerhalb der Eutheria konserviert ist und mehrere hundert
bereits vor der Auseinanderentwicklung von Beuteltieren und höheren Säugetieren
entstanden. Dennoch zeigen sie eine rasante Veränderung in ihren Transkriptstrukturen, welche darauf hindeutet, dass sie tatsächlich alte Bestandteile von Vertebratengenomen mit bemerkenswerter evolutionärer Formbarkeit sind. Zusätzlich wurde ein
öffentlicher Webserver aufgesetzt, der dem Nutzer ermöglicht Datensätze orthologer
Spleißstellen aus vorgenerierten Vergleichskarten zu extrahieren und Visualisierungen
der Konservierung in den jeweiligen Spezies zu betrachten.
Als zweites wird ein spezifischerer Datensatz von nicht-linear gespleißten Latimeria-RNA untersucht um die Ursprünge untypischer Transkripte zu ergründen. Die Analyse der RNA-seq Daten zweier Exemplare des Quastenflossers ergab tausende zirkulärer und Transspleiß-Produkte, wobei die Mehrheit der Spleißverbindungen eine
überraschende Exklusivität für untypisch gespleißte Formen aufzeigt, d.h. diese werden nicht für lineare Isoformen genutzt. Die Konservierungsanalyse mit Spleißstellen-Vergleichskarten ergibt hohe Konservierungsniveaus sowohl für zirkulärisierende als
auch für trans-verbindende Spleißstellen. Diese Tatsache in Kombination mit ihrem
häufigen Vorkommen, deutet stark darauf hin, dass untypische RNAs evolutionär alt
und von funktioneller Bedeutung sind.
Zuletzt werden Spleißstellen-Vergleichskarten benutzt um die Rolle von lncRNAs
in der Evolution der Alzheimer-Krankheit (AK) zu untersuchen. Die Spezifität der
AK auf den Menschen weist klar auf einen phylogenetischen Aspekt der Krankheit
hin, was deren evolutionäre Analyse zu einem vielversprechenden Forschungsgebiet
macht. Proteinkodierende und nicht-proteinkodierende Regionen, bei denen eine differentielle Expression in AK-Patienten erkannt wurde, werden auf die Konservierung
ihrer Spleißstellen und Evolution ihrer Exon-Intron-Strukturen hin analysiert. Es
kann nachgewiesen werden, dass sich die Genstruktur von sowohl nicht-kodierenden
als auch von proteinkodierenden AK-assoziierten Genen schneller entwickelt als das
Genom im Allgemeinen. Das unterstützt die Auffassung, dass AK die Folge einer
kürzlichen rasanten adaptiven Evolution des menschlichen Gehirns ist. Diese phylogenetische Eigenschaft könnte weitreichende Konsequenzen in Bezug auf die Angemessenheit von Tiermodellen und die Entwicklung von krankheitsmodifizierenden
Strategien haben.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:21150
Date25 April 2018
CreatorsNitsche, Anne
ContributorsUniversität Leipzig
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageEnglish, German
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/acceptedVersion, doc-type:doctoralThesis, info:eu-repo/semantics/doctoralThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds