1 |
Genomic selection in farm animals: accuracy of prediction and applications with imputed whole-genome sequencing data in chickenNi, Guiyan 10 February 2016 (has links)
Methoden zur genomischen Vorhersage basierend auf Genotypinformationen von Single Nucleotide Polymorphism (SNP)-Arrays mit unterschiedlicher Markeranzahl sind mittlerweile in vielen Zuchtprogrammen für Nutztiere fest implementiert. Mit der zunehmenden Verfügbarkeit von vollständigen Genomsequenzdaten, die auch kausale Mutationen enthalten, werden mehr und mehr Studien veröffentlicht, bei denen genomische Vorhersagen beruhend auf Sequenzdaten durchgeführt werden.
Das Hauptziel dieser Arbeit war zu untersuchen, inwieweit SNP-Array-Daten mit statistischen Verfahren bis zum Sequenzlevel ergänzt werden können (sogenanntes „Imputing“) (Kapitel 2) und ob die genomische Vorhersage mit imputeten Sequenzdaten und zusätzlicher Information über die genetische Architektur eines Merkmals verbessert werden kann (Kapitel 3). Um die Genauigkeit der genomischen Vorhersage besser verstehen und eine neue Methode zur Approximation dieser Genauigkeit ableiten zu können, wurde außerdem eine Simulationsstudie durchgeführt, die den Grad der Überschätzung der Genauigkeit der genomischen Vorhersage verschiedener bereits bekannter Ansätze überprüfte (Kapitel 4).
Der technische Fortschritt im letzten Jahrzehnt hat es ermöglicht, in relativ kurzer Zeit Millionen von DNA-Abschnitten zu sequenzieren. Mehrere auf unterschiedlichen Algorithmen basierende Software-Programme zur Auffindung von Sequenzvarianten (sogenanntes „Variant Calling“) haben sich etabliert und es möglich gemacht, SNPs in den vollständigen Genomsequenzdaten zu detektieren detektieren. Oft werden nur wenige Individuen einer Population vollständig sequenziert und die Genotypen der anderen Individuen, die mit einem SNP-Array an einer Teilmenge dieser SNPs typisiert wurden, imputet.
In Kapitel 2 wurden deshalb anhand von 50 vollständig sequenzierten Weiß- und Braunleger-Individuen die mit drei unterschiedlichen Variant-Calling-Programmen (GATK, freebayes and SAMtools) detektierten Genomvarianten verglichen und die Qualität der Genotypen überprüft. Auf den untersuchten Chromosomen 3,6 und 26 wurden 1.741.573 SNPs von allen drei Variant Callers detektiert was 71,6% (81,6%, 88,0%) der Anzahl der von GATK (SAMtools, freebayes) detektierten Varianten entspricht. Die Kenngröße der Konkordanz der Genotypen („genotype concordance“), die durch den Anteil der Individuen definiert ist, deren Array-basierte Genotypen mit den Sequenz-basierten Genotypen an allen auch auf dem Array vorhandenen SNPs übereinstimmt, betrug 0,98 mit GATK, 0,98 mit SAMtools und 0,97 mit freebayes (Werte gemittelt über SNPs auf den untersuchten Chromosomen). Des Weiteren wiesen bei Nutzung von GATK (SAMtools, freebayes) 90% (88 %, 75%) der Varianten hohe Werte (>0.9) anderer Qualitätsmaße (non-reference sensitivity, non-reference genotype concordance und precision) auf.
Die Leistung aller untersuchten Variant-Calling-Programme war im Allgemeinen sehr gut, besonders die von GATK und SAMtools. In dieser Studie wurde außerdem in einem Datensatz von ungefähr 1000 Individuen aus 6 Generationen die Güte des Imputings von einem hochdichten SNP-Array zum Sequenzlevel untersucht. Die Güte des Imputings wurde mit Hilfe der Korrelationen zwischen imputeten und wahren Genotypen pro SNP oder pro Individuum und der Anzahl an Mendelschen Konflikten bei Vater-Nachkommen-Paaren beschrieben. Drei unterschiedliche Imputing-Programme (Minimac, FImpute und IMPUTE2) wurden in unterschiedlichen Szenarien validiert.
Bei allen Imputing-Programmen betrug die Korrelation zwischen wahren und imputeten Genotypen bei 1000 Array-SNPs, die zufällig ausgewählt und deren Genotypen im Imputing-Prozess als unbekannt angenommen wurden, durchschnittlich mehr als 0.95 sowie mehr als 0.85 bei einer Leave-One-Out-Kreuzvalidierung, die mit den sequenzierten Individuen durchgeführt wurde. Hinsichtlich der Genotypenkorrelation zeigten Minimac und IMPUTE2 etwas bessere Ergebnisse als FImpute. Dies galt besonders für SNPs mit niedriger Frequenz des selteneren Allels. FImpute wies jedoch die kleinste Anzahl von Mendelschen Konflikten in verfügbaren Vater-Nachkommen-Paaren auf. Die Korrelation zwischen wahren und imputeten Genotypen blieb auf hohem Niveau, auch wenn die Individuen, deren Genotypen imputet wurden, einige Generationen jünger waren als die sequenzierten Individuen. Zusammenfassend zeigte in dieser Studie GATK die beste Leistung unter den getesteten Variant-Calling-Programmen, während Minimac sich unter den untersuchten Imputing-Programmen als das beste erwies.
Aufbauend auf den Ergebnissen aus Kapitel 2 wurden in Kapitel 3 Studien zur genomischen Vorhersage mit imputeten Sequenzdaten durchgeführt. Daten von 892 Individuen aus 6 Generationen einer kommerziellen Braunlegerlinie standen hierfür zur Verfügung. Diese Tiere waren alle mit einem hochdichten SNP-Array genotypisiert. Unter der Nutzung der Daten von 25 vollständig sequenzierten Individuen wurden jene Tiere ausgehend von den Array-Genotypen bis zum Sequenzlevel hin imputet. Das Imputing wurde mit Minimac3 durchgeführt, das bereits haplotypisierte Daten (in dieser Studie mit Beagle4 erzeugt) als Input benötigt.
Die Genauigkeit der genomischen Vorhersage wurde durch die Korrelation zwischen de-regressierten konventionellen Zuchtwerten und direkt genomischen Zuchtwerten für die Merkmale Bruchfestigkeit, Futteraufnahme und Legerate gemessen. Neben dem Vergleich der Genauigkeit der auf SNP-Array-Daten und Sequenzdaten basierenden genomischen Vorhersage wurde in dieser Studie auch untersucht, wie sich die Verwendung verschiedener genomischer Verwandtschaftsmatrizen, die die genetische Architektur berücksichtigen, auf die Vorhersagegenauigkeit auswirkt. Hierbei wurden neben dem Basisszenario mit gleichgewichteten SNPs auch Szenarien mit Gewichtungsfaktoren, nämlich den -(〖log〗_10 P)-Werten eines t-Tests basierend auf einer genomweiten Assoziationsstudie und den quadrierten geschätzten SNP-Effekten aus einem Random Regression-BLUP-Modell, sowie die Methode BLUP|GA („best linear unbiased prediction given genetic architecture“) überprüft. Das Szenario GBLUP mit gleichgewichteten SNPs wurde sowohl mit einer Verwandtschaftsmatrix aus allen verfügbaren SNPs oder nur derer in Genregionen, jeweils ausgehend von der Grundmenge aller imputeten SNPs in der Sequenz oder der Array-SNPs, getestet.
Gemittelt über alle untersuchten Merkmale war die Vorhersagegenauigkeit mit SNPs aus Genregionen, die aus den imputeten Sequenzdaten extrahiert wurden, mit 0,366 ± 0,075 am höchsten. Den zweithöchsten Wert erreichte die genomische Vorhersage mit SNPs aus Genregionen, die im SNP-Array erhalten sind (0,361 ± 0,072). Weder die Verwendung gewichteter genomischer Verwandtschaftsmatrizen noch die Anwendung von BLUP|GA führten im Vergleich zum normalen GBLUP-Ansatz zu höheren Vorhersagegenauigkeiten. Diese Beobachtung war unabhängig davon, ob SNP-Array- oder imputete Sequenzdaten verwendet wurden. Die Ergebnisse dieser Studie zeigten, dass kaum oder kein Zusatznutzen durch die Verwendung von imputeten Sequenzdaten generiert werden kann. Eine Erhöhung der Vorhersagegenauigkeit konnte jedoch erreicht werden, wenn die Verwandschaftsmatrix nur aus den SNPs in Genregionen gebildet wurde, die aus den Sequenzdaten extrahiert wurden.
Die Auswahl der Selektionskandidaten erfolgt in genomischen Selektionsprogrammen mit Hilfe der geschätzten genomischen Zuchtwerte (GBVs). Die Genauigkeit des GBV ist hierbei ein relevanter Parameter, weil sie die Stabilität der geschätzten Zuchtwerte beschreibt und zeigen kann, wie sich der GBV verändern kann, wenn mehr Informationen verfügbar werden. Des Weiteren ist sie einer der entscheidenden Faktoren beim erwarteten Zuchtfortschritt (auch als so genannte „Züchtergleichung“ beschrieben). Diese Genauigkeit der genomischen Vorhersage ist jedoch in realen Daten schwer zu quantifizieren, da die wahren Zuchtwerte (TBV) nicht verfügbar sind. In früheren Studien wurden mehrere Methoden vorgeschlagen, die es ermöglichen, die Genauigkeit von GBV durch Populations- und Merkmalsparameter (z.B. effektive Populationsgröße, Sicherheit der verwendeten Quasi-Phänotypen, Anzahl der unabhängigen Chromosomen-Segmente) zu approximieren. Weiterhin kann die Genauigkeit bei Verwendung von gemischten Modellen mit Hilfe der Varianz des Vorhersagefehlers abgeleitet werden.
In der Praxis wiesen die meisten dieser Ansätze eine Überschätzung der Genauigkeit der Vorhersage auf. Deshalb wurden in Kapitel 4 mehrere methodische Ansätze aus früheren Arbeiten in simulierten Daten mit unterschiedlichen Parametern, mit Hilfe derer verschiedene Tierzuchtprogramme (neben einem Basisszenario ein Rinder- und ein Schweinezuchtschema) abgebildet wurden, überprüft und die Höhe der Überschätzung gemessen. Außerdem wurde in diesem Kapitel eine neue und leicht rechenbare Methode zur Approximation der Genauigkeit vorgestellt Die Ergebnisse des Vergleichs der methodischen Ansätze in Kapitel 4 zeigten, dass die Genauigkeit der GBV durch den neuen Ansatz besser vorhergesagt werden kann. Der vorgestellte Ansatz besitzt immer noch einen unbekannten Parameter, für den jedoch eine Approximation möglich ist, wenn in einem geeigneten Datensatz Ergebnisse von Zuchtwertschätzungen zu zwei verschiedenen Zeitpunkten vorliegen. Zusammenfassend kann gesagt werden, dass diese neue Methode die Approximation der Genauigkeit des GBV in vielen Fällen verbessert.
|
2 |
Statistical Methods for Analyzing Rare Variant Complex Trait Associations via Sequence DataJanuary 2012 (has links)
There is solid evidence that complex human diseases can be caused by rare variants. Next generation sequencing technology has revolutionized the study of complex human diseases, and made possible detecting associations with rare variants. Traditional statistical methods can be inefficient for analyzing sequence data and underpowered. In addition, due to high cost of sequencing, it is also necessary to explore novel cost effective studies in order to maximize power and reduce sequencing cost. In this thesis, three important problems for analyzing sequence data and detecting associations with rare variants are presented. In the first chapter, we presented a new method for detecting rare variants/binary trait associations in the presence of gene interactions. In the second chapter, we explored cost effective study designs for replicating sequence based association studies, combining both sequencing and customized genotyping. In the third chapter, we present a method for analyzing multiple phenotypes in selected samples, such that phenotypes that are commonly measured in different studies can be jointly analyzed to improve power. The methods and study designs presented are important for dissecting complex trait etiologies using sequence data.
|
3 |
Molecular Characterization of Ductal Carcinoma In Situ: Pilot StudiesDesai, Neil Bipinchandra 28 September 2010 (has links)
Ductal carcinoma in situ (DCIS); is thought directly to precede invasive breast cancer (IBC). Screening mammography has driven the incidence of this key precursor lesion to >65,000 cases per year. However, little is known about the factors controlling the natural history or risk for recurrence following treatment of a particular patients DCIS. Though the heterogeneity of the disease is well established, no histologic or demographic criteria have been able to stratify DCIS for treatment. We hypothesize that at initial diagnosis there exist biologically distinct subsets of DCIS with associated prognoses that may be recognized by molecular markers. Molecular approaches have been limited by technical design issues related to the types of tissue available for analysis, namely degraded formalin-fixed paraffin embedded (FFPE) specimens and small core biopsy samples. However, new technologies promise to overcome these issues. In the first phase of our investigation, we aimed a) to pilot feasibility studies on the use of FFPE DCIS for molecular analyses including gene expression microarray and b) to pilot feasibility study of selective, high throughput sequencing through the use of "exon capture" on small input material that simulated expected DCIS core biopsy amounts. The results of this work offer specific technical guidelines for the molecular study of DCIS. Moreover, they have enabled the initiation of the second phase of this study, which aims to assess molecular profiles of DCIS recurrence and progression.
|
4 |
Towards Dynamic Programming on Generalized Data Structures: and Applications of Dynamic Programming in BioinformaticsBerkemer, Sarah Juliane 11 March 2020 (has links)
Dynamische Programmierung (DP) ist eine Methode um Optimisierungsprobleme zu
lösen. Hierbei wird das Problem in sich überlappende Teilprobleme unterteilt und eine
optimale Lösung zu jedem der Teilprobleme berechnet. Diese werden dann wiederrum zur
Gesamtlösung zusammengesetzt. Teillösungen werden in einer Tabelle gespeichert, sodass
jede Teillösung nur einmal berechnet werden muss. So kann ein Suchraum exponentieller
Größe in polynomieller Zeit durchsucht und eine optimale Lösung gefunden werden. Die
dynamische Programmierung wurde 1952 von Bellman entwickelt und eine der ersten
Anwendung war die Detektion von Tippfehlern beim Programmieren.
DP Algorithmen werden oft und sehr vielschichtig in der Bioinformatik angewendet
wie zum Beispiel beim Vergleich von Gensequenzen, Sequenzalignment genannt, oder der
Vorhersage von Molekülstrukturen. Die Menge an Daten und somit auch deren Analyse
steigt stetig an, weshalb neue und komplexere Datenstrukturen immer wichtiger werden.
Ein Ziel ist es deswegen, DP Algorithmen zu entwickeln, die auf komplexeren Daten-
strukturen als Strings angewendet werden können. Durch das Prinzip der algebraischen
dynamischen Programmierung (ADP) können DP Algorithmen in kleinere Bestandteile
zerlegt werden, die dann unabhängig voneinander weiterentwickelt und abgeändert werden
können.
Die Arbeit ist in zwei Teile gegliedert, wobei der erste Teil die theoretische Arbeit
zur Entwicklung von Algorithmen der dynamischen Programmierung beinhaltet. Hierbei
werden zuerst Prinzipien und Definitionen zur dynamischen Programmierung vorgestellt
(Kapitel 2), um ein besseres Verständnis der darauffolgenden Kapitel zu gewährleisten.
Der zweite Teil der Arbeit zeigt unterschiedliche bioinformatische Anwendungen von
DP Algorithmen auf biologische Daten. In einem ersten Kapitel (Kapitel 5) werden
Grundsätze biologischer Daten und Algorithmen vorgestellt, die dann in den weiteren
Kapiteln benutzt werden.
|
5 |
Cloning of a <i>CHLAMYDOMONAS REINHARDTII</i> Marker into a RNA Interference Construct to Test Whether the Photoreceptor Chlamyrhodopsin Is Involved in Circadian Clock ResettingMaddi, Shravya Reddy 01 December 2010 (has links)
Chlamydomonas reinhardtii, a unicellular eukaryotic green alga, serves as a model organism to study the circadian clock in plants and animals. Rhodopsins are blue/green-light photoreceptors also found in C. reinhardtii. Chlamyrhodopsin (COP), the most abundant eyespot protein, was reported to have no role in the phototactic and photophobic responses in C. reinhardtii. Its function is yet unknown. In the present study, we hypothesized that the function of COP is to mediate entrainment of the circadian clock by light. In order to test this hypothesis, a C. reinhardtii selection marker conferring resistance to the antibiotic paromomycin was cloned into a COP RNAi construct obtained from another lab. Firstly, the COP RNAi construct was restriction digested to linearize it. The linearized plasmid was then blunt ended with T4 DNA polymerase and dephosphorylated with phosphatase. The linearized fragment was ligated with the paromomycin resistance marker obtained by restriction digestion of the plasmid containing it and transformed into E.coli. The recombinant clones obtained were confirmed by restriction digests. Fusion regions and the orientation of the insert in the recombinant plasmid were confirmed by sequencing. An attempt was made to transform C. reinhardtii with the construct, but this was not successful. Future studies will be required to optimize the C. reinhardtii transformation method. Transformants with reduced COP amounts can then be tested for defects in resetting the clock after light pulses. This will determine whether chlamyrhodopsin is involved in the circadian input pathway or not. The results of the complete project are expected to contribute to our understanding of the circadian clock of many other organisms including humans.
|
6 |
Quantitative tool for in vivo analysis of DNA-binding proteins using High Resolution Sequencing DataFilatenkova, Milana S. January 2016 (has links)
DNA-binding proteins (DBPs) such as repair proteins, DNA polymerases, re- combinases, transcription factors, etc. manifest diverse stochastic behaviours dependent on physiological conditions inside the cell. Now that multiple independent in vitro studies have extensively characterised different aspects of the biochemistry of DBPs, computational and mathematical tools that would be able to integrate this information into a coherent framework are in huge demand, especially when attempting a transition to in vivo characterisation of these systems. ChIP-Seq is the method commonly used to study DBPs in vivo. This method generates high resolution sequencing data { population scale readout of the activity of DBPs on the DNA. The mathematical tools available for the analysis of this type of data are at the moment very restrictive in their ability to extract mechanistic and quantitative details on the activity of DBPs. The main trouble that researchers experience when analysing such population scale sequencing data is effectively disentangling complexity in these data, since the observed output often combines diverse outcomes of multiple unsynchronised processes reflecting biomolecular variability. Although being a static snapshot ChIP-Seq can be effectively utilised as a readout for the dynamics of DBPs in vivo. This thesis features a new approach to ChIP-Seq analysis { namely accessing the concealed details of the dynamic behaviour of DBPs on DNA using probabilistic modelling, statistical inference and numerical optimisation. In order to achieve this I propose to integrate previously acquired assumptions about the behaviour of DBPs into a Markov- Chain model which would allow to take into account their intrinsic stochasticity. By incorporating this model into a statistical model of data acquisition, the experimentally observed output can be simulated and then compared to in vivo data to reverse engineer the stochastic activity of DBPs on the DNA. Conventional tools normally employ simple empirical models where the parameters have no link with the mechanistic reality of the process under scrutiny. This thesis marks the transition from qualitative analysis to mechanistic modelling in an attempt to make the most of the high resolution sequencing data. It is also worth noting that from a computer science point of view DBPs are of great interest since they are able to perform stochastic computation on DNA by responding in a probabilistic manner to the patterns encoded in the DNA. The theoretical framework proposed here allows to quantitatively characterise complex responses of these molecular machines to the sequence features.
|
7 |
Piwi-dependent transcriptional silencing and Dicer-2-dependent post-transcriptional silencing limit transposon expression in adult heads of Drosophila Melanogaster / L'effet synergique de la répression transcriptionelle par piwi et post-transcriptionelle par Dicer-2 contrôle l'expression de transposon dans les têtes de Drosophila MelanogasterVan Den Beek, Marius 09 February 2015 (has links)
Les éléments transposables (ET) sont des constituants majeurs des génomes eucaryotes. Leur mobilisation joue un rôle important dans l'évolution et l'adaptation des organismes. Cependant, la transposition des ET peut conduire à des dommages irréversibles du génome et elle doit donc être étroitement contrôlé. Chez Drosophila melanogaster, la transposition des ET est contrôlée par les siRNA (small interfering RNAs) et les piRNA (Piwi-interacting RNAs) qui agissent en réprimant des cibles ARN de séquences complémentaires. Les siRNA et piRNA ont des modes distincts de biogenèse, de reconnaissance de cibles et d'activité repressive. Les piRNAs sont seulement présents en abondance dans les gonades, et transmis maternellement aux embryons. Par une approche de séquençage à haut débit, j'ai pu montrer que bien qu'ils induisent une répression transcriptionnelle des ET à ce stade du développement, ils sont pratiquement absents des têtes de drosophiles adultes. Cet état est cependant hérité et il est suffisant pour limiter l'expression des ET dans l'adulte, même en l'absence de siRNA. A l'inverse, si la répression transcriptionnelle précoce n'est pas établie, les siRNA agissent comme un système de sauvegarde en limitant l'expression des ET. En cas de perte conjointe des piRNA et siRNA, l'expression des ET augmente significativement et la durée de vie des mouches adultes se trouve réduite. Les analyses de sequences à grande échelle m'ont par ailleurs conduit à développer des outils logiciels intégrés dans Galaxy et à m'impliquer significativement dans la communauté qui développe ce système au niveau international. / Transposable elements are major components of eukaryotic genomes and have been proposed as important drivers of gene network evolution, as they can move or “transpose” in their host genome, creating gene duplications, gene inactivations or altogether altering gene function. Nevertheless, uncontrolled high-rate transposition leads to DNA damage and genomic instabilities, and therefore needs to be kept at a low level. In the fruitfly Drosophila melanogaster, transposition is counteracted by multiple mechanisms, amongst which the generation of small interfering RNAs (siRNAs) and Piwi-interacting RNAs (piRNAs). siRNAs and piRNAs belong to the category of small RNAs, and these are involved in negative regulation of complementary target RNAs abundance, but siRNAs and piRNAs have distinct mechanisms of biogenesis, target recognition and mechanisms of target regulation. Notably, piRNAs are only abundant in gonads and are transmitted to the embryo. By sequencing small RNAs and normal transcripts in adult heads, I conclude that, while piRNAs are likely absent in adult heads, they induce a repressive state on TEs. If this repressive state is lost, the siRNA pathway can compensate and limit Transposable element levels. If siRNAs are lost, the repressive state induced by piRNAs suffices to limit Transposable element levels. If both piRNAs and siRNAs are lost, the expression level of Transposable elements increases, and flies have a shorter life span. The requirement to analyse large-scale sequencing data led to the development of multiple tools for the reproducible research platform Galaxy.
|
8 |
Efficient analysis of complex, multimodal genomic dataAcharya, Chaitanya Ramanuj January 2016 (has links)
<p>Our primary goal is to better understand complex diseases using statistically disciplined approaches. As multi-modal data is streaming out of consortium projects like Genotype-Tissue Expression (GTEx) project, which aims at collecting samples from various tissue sites in order to understand tissue-specific gene regulation, new approaches are needed that can efficiently model groups of data with minimal loss of power. For example, GTEx project delivers RNA-Seq, Microarray gene expression and genotype data (SNP Arrays) from a vast number of tissues in a given individual subject. In order to analyze this type of multi-level (hierarchical) multi-modal data, we proposed a series of efficient-score based tests or score tests and leveraged groups of tissues or gene isoforms in order map genomic biomarkers. We model group-specific variability as a random effect within a mixed effects model framework. In one instance, we proposed a score-test based approach to map expression quantitative trait loci (eQTL) across multiple-tissues. In order to do that we jointly model all the tissues and make use of all the information available to maximize the power of eQTL mapping and investigate an overall shift in the gene expression combined with tissue-specific effects due to genetic variants. In the second instance, we showed the flexibility of our model framework by expanding it to include tissue-specific epigenetic data (DNA methylation) and map eQTL by leveraging both tissues and methylation. Finally, we also showed that our methods are applicable on different data type such as whole transcriptome expression data, which is designed to analyze genomic events such alternative gene splicing. In order to accomplish this, we proposed two different models that exploit gene expression data of all available gene-isoforms within a gene to map biomarkers of interest (either genes or gene-sets) in paired early-stage breast tumor samples before and after treatment with external beam radiation. Our efficient score-based approaches have very distinct advantages. They have a computational edge over existing methods because they do not need parameter estimation under the alternative hypothesis. As a result, model parameters only have to be estimated once per genome, significantly decreasing computation time. Also, the efficient score is the locally most powerful test and is guaranteed a theoretical optimality over all other approaches in a neighborhood of the null hypothesis. This theoretical performance is born out in extensive simulation studies which show that our approaches consistently outperform existing methods both in statistical power and computational speed. We applied our methods to publicly available datasets. It is important to note that all of our methods also accommodate the analysis of next-generation sequencing data.</p> / Dissertation
|
9 |
The mapping task and its various applications in next-generation sequencingOtto, Christian 23 March 2015 (has links) (PDF)
The aim of this thesis is the development and benchmarking of
computational methods for the analysis of high-throughput data from
tiling arrays and next-generation sequencing. Tiling arrays have been
a mainstay of genome-wide transcriptomics, e.g., in the identification
of functional elements in the human genome. Due to limitations of
existing methods for the data analysis of this data, a novel
statistical approach is presented that identifies expressed segments
as significant differences from the background distribution and thus
avoids dataset-specific parameters. This method detects differentially
expressed segments in biological data with significantly lower false
discovery rates and equivalent sensitivities compared to commonly used
methods. In addition, it is also clearly superior in the recovery of
exon-intron structures. Moreover, the search for local accumulations
of expressed segments in tiling array data has led to the
identification of very large expressed regions that may constitute a
new class of macroRNAs.
This thesis proceeds with next-generation sequencing for which various
protocols have been devised to study genomic, transcriptomic, and
epigenomic features. One of the first crucial steps in most NGS data
analyses is the mapping of sequencing reads to a reference
genome. This work introduces algorithmic methods to solve the mapping
tasks for three major NGS protocols: DNA-seq, RNA-seq, and
MethylC-seq. All methods have been thoroughly benchmarked and
integrated into the segemehl mapping suite.
First, mapping of DNA-seq data is facilitated by the core mapping
algorithm of segemehl. Since the initial publication, it has been
continuously updated and expanded. Here, extensive and reproducible
benchmarks are presented that compare segemehl to state-of-the-art
read aligners on various data sets. The results indicate that it is
not only more sensitive in finding the optimal alignment with respect
to the unit edit distance but also very specific compared to most
commonly used alternative read mappers. These advantages are
observable for both real and simulated reads, are largely independent
of the read length and sequencing technology, but come at the cost of
higher running time and memory consumption.
Second, the split-read extension of segemehl, presented by Hoffmann,
enables the mapping of RNA-seq data, a computationally more difficult
form of the mapping task due to the occurrence of splicing. Here, the
novel tool lack is presented, which aims to recover missed RNA-seq
read alignments using de novo splice junction information. It
performs very well in benchmarks and may thus be a beneficial
extension to RNA-seq analysis pipelines.
Third, a novel method is introduced that facilitates the mapping of
bisulfite-treated sequencing data. This protocol is considered the
gold standard in genome-wide studies of DNA methylation, one of the
major epigenetic modifications in animals and plants. The treatment of
DNA with sodium bisulfite selectively converts unmethylated cytosines
to uracils, while methylated ones remain unchanged. The bisulfite
extension developed here performs seed searches on a collapsed
alphabet followed by bisulfite-sensitive dynamic programming
alignments. Thus, it is insensitive to bisulfite-related mismatches
and does not rely on post-processing, in contrast to other methods. In
comparison to state-of-the-art tools, this method achieves
significantly higher sensitivities and performs time-competitive in
mapping millions of sequencing reads to vertebrate
genomes. Remarkably, the increase in sensitivity does not come at the
cost of decreased specificity and thus may finally result in a better
performance in calling the methylation rate.
Lastly, the potential of mapping strategies for de novo genome
assemblies is demonstrated with the introduction of a new guided
assembly procedure. It incorporates mapping as major component and
uses the additional information (e.g., annotation) as guide. With this
method, the complete mitochondrial genome of Eulimnogammarus verrucosus has been
successfully assembled even though the sequencing library has been
heavily dominated by nuclear DNA.
In summary, this thesis introduces algorithmic methods that
significantly improve the analysis of tiling array, DNA-seq, RNA-seq,
and MethylC-seq data, and proposes standards for benchmarking NGS read
aligners. Moreover, it presents a new guided assembly procedure that
has been successfully applied in the de novo assembly of a
crustacean mitogenome. / Diese Arbeit befasst sich mit der Entwicklung und dem Benchmarken von
Verfahren zur Analyse von Daten aus Hochdurchsatz-Technologien, wie
Tiling Arrays oder Hochdurchsatz-Sequenzierung. Tiling Arrays bildeten
lange Zeit die Grundlage für die genomweite Untersuchung des
Transkriptoms und kamen beispielsweise bei der Identifizierung
funktioneller Elemente im menschlichen Genom zum Einsatz. In dieser
Arbeit wird ein neues statistisches Verfahren zur Auswertung von
Tiling Array-Daten vorgestellt. Darin werden Segmente als exprimiert
klassifiziert, wenn sich deren Signale signifikant von der
Hintergrundverteilung unterscheiden. Dadurch werden keine auf den
Datensatz abgestimmten Parameterwerte benötigt. Die hier
vorgestellte Methode erkennt differentiell exprimierte Segmente in
biologischen Daten bei gleicher Sensitivität mit geringerer
Falsch-Positiv-Rate im Vergleich zu den derzeit hauptsächlich
eingesetzten Verfahren. Zudem ist die Methode bei der Erkennung von
Exon-Intron Grenzen präziser. Die Suche nach Anhäufungen
exprimierter Segmente hat darüber hinaus zur Entdeckung von sehr
langen Regionen geführt, welche möglicherweise eine neue
Klasse von macroRNAs darstellen.
Nach dem Exkurs zu Tiling Arrays konzentriert sich diese Arbeit nun
auf die Hochdurchsatz-Sequenzierung, für die bereits verschiedene
Sequenzierungsprotokolle zur Untersuchungen des Genoms, Transkriptoms
und Epigenoms etabliert sind. Einer der ersten und entscheidenden
Schritte in der Analyse von Sequenzierungsdaten stellt in den meisten
Fällen das Mappen dar, bei dem kurze Sequenzen (Reads) auf ein
großes Referenzgenom aligniert werden. Die vorliegende Arbeit
stellt algorithmische Methoden vor, welche das Mapping-Problem für
drei wichtige Sequenzierungsprotokolle (DNA-Seq, RNA-Seq und
MethylC-Seq) lösen. Alle Methoden wurden ausführlichen
Benchmarks unterzogen und sind in der segemehl-Suite integriert.
Als Erstes wird hier der Kern-Algorithmus von segemehl vorgestellt,
welcher das Mappen von DNA-Sequenzierungsdaten ermöglicht. Seit
der ersten Veröffentlichung wurde dieser kontinuierlich optimiert
und erweitert. In dieser Arbeit werden umfangreiche und auf
Reproduzierbarkeit bedachte Benchmarks präsentiert, in denen
segemehl auf zahlreichen Datensätzen mit bekannten
Mapping-Programmen verglichen wird. Die Ergebnisse zeigen, dass
segemehl nicht nur sensitiver im Auffinden von optimalen Alignments
bezüglich der Editierdistanz sondern auch sehr spezifisch im
Vergleich zu anderen Methoden ist. Diese Vorteile sind in realen und
simulierten Daten unabhängig von der Sequenzierungstechnologie
oder der Länge der Reads erkennbar, gehen aber zu Lasten einer
längeren Laufzeit und eines höheren Speicherverbrauchs.
Als Zweites wird das Mappen von RNA-Sequenzierungsdaten untersucht,
welches bereits von der Split-Read-Erweiterung von segemehl
unterstützt wird. Aufgrund von Spleißen ist diese Form des
Mapping-Problems rechnerisch aufwendiger. In dieser Arbeit wird das
neue Programm lack vorgestellt, welches darauf abzielt, fehlende
Read-Alignments mit Hilfe von de novo Spleiß-Information zu
finden. Es erzielt hervorragende Ergebnisse und stellt somit eine
sinnvolle Ergänzung zu Analyse-Pipelines für
RNA-Sequenzierungsdaten dar.
Als Drittes wird eine neue Methode zum Mappen von Bisulfit-behandelte
Sequenzierungsdaten vorgestellt. Dieses Protokoll gilt als
Goldstandard in der genomweiten Untersuchung der DNA-Methylierung,
einer der wichtigsten epigenetischen Modifikationen in Tieren und
Pflanzen. Dabei wird die DNA vor der Sequenzierung mit Natriumbisulfit
behandelt, welches selektiv nicht methylierte Cytosine zu Uracilen
konvertiert, während Methylcytosine davon unberührt
bleiben. Die hier vorgestellte Bisulfit-Erweiterung führt die
Seed-Suche auf einem reduziertem Alphabet durch und verifiziert die
erhaltenen Treffer mit einem auf dynamischer Programmierung
basierenden Bisulfit-sensitiven Alignment-Algorithmus. Das verwendete
Verfahren ist somit unempfindlich gegenüber
Bisulfit-Konvertierungen und erfordert im Gegensatz zu anderen
Verfahren keine weitere Nachverarbeitung. Im Vergleich zu aktuell
eingesetzten Programmen ist die Methode sensitiver und benötigt
eine vergleichbare Laufzeit beim Mappen von Millionen von Reads auf
große Genome. Bemerkenswerterweise wird die erhöhte
Sensitivität bei gleichbleibend guter Spezifizität
erreicht. Dadurch könnte diese Methode somit auch bessere
Ergebnisse bei der präzisen Bestimmung der Methylierungsraten
erreichen.
Schließlich wird noch das Potential von Mapping-Strategien für
Assemblierungen mit der Einführung eines neuen,
Kristallisation-genanntes Verfahren zur unterstützten
Assemblierung aufgezeigt. Es enthält Mapping als Hauptbestandteil
und nutzt Zusatzinformation (z.B. Annotationen) als
Unterstützung. Dieses Verfahren ermöglichte die erfolgreiche
Assemblierung des kompletten mitochondrialen Genoms von Eulimnogammarus verrucosus trotz
einer vorwiegend aus nukleärer DNA bestehenden genomischen
Bibliothek.
Zusammenfassend stellt diese Arbeit algorithmische Methoden vor,
welche die Analysen von Tiling Array, DNA-Seq, RNA-Seq und MethylC-Seq
Daten signifikant verbessern. Es werden zudem Standards für den
Vergleich von Programmen zum Mappen von Daten der
Hochdurchsatz-Sequenzierung vorgeschlagen. Darüber hinaus wird ein
neues Verfahren zur unterstützten Genom-Assemblierung vorgestellt,
welches erfolgreich bei der de novo-Assemblierung eines
mitochondrialen Krustentier-Genoms eingesetzt wurde.
|
10 |
Elucidating mechanisms of gene regulation. Integration of high-throughput sequencing data for studying the epigenomeAlthammer, Sonja Daniela 27 April 2012 (has links)
The recent advent of High-Throughput Sequencing (HTS) methods has triggered a
revolution in gene regulation studies. Demand has never been higher to process
the immense amount of emerging data to gain insight into the regulatory
mechanisms of the cell.
We address this issue by describing methods to analyze, integrate and interpret
HTS data from different sources. In particular, we developed and benchmarked
Pyicos, a powerful toolkit that offers flexibility, versatility and efficient memory
usage. We applied it to data from ChIP-Seq on progesterone receptor in breast
cancer cells to gain insight into regulatory mechanisms of hormones. Moreover,
we embedded Pyicos into a pipeline to integrate HTS data from different sources.
In order to do so, we used data sets from ENCODE to systematically calculate
signal changes between two cell lines. We thus created a model that accurately
predicts the regulatory outcome of gene expression, based on epigenetic changes
in a gene locus. Finally, we provide the processed data in a Biomart database to
the scientific community. / La llegada reciente de nuevos métodos de High-Throughput Sequencing (HTS) ha
provocado una revolución en el estudio de la regulación génica. La necesidad de
procesar la inmensa cantidad de datos generados, con el objectivo de estudiar los
mecanismos regulatorios en la celula, nunca ha sido mayor.
En esta tesis abordamos este tema presentando métodos para analizar, integrar e
interpretar datos HTS de diferentes fuentes. En particular, hemos desarollado
Pyicos, un potente conjunto de herramientas que ofrece flexibilidad, versatilidad y
un uso eficiente de la memoria. Lo hemos aplicado a datos de ChIP-Seq del
receptor de progesterona en células de cáncer de mama con el fin de investigar
los mecanismos de la regulación por hormonas. Además, hemos incorporado
Pyicos en una pipeline para integrar los datos HTS de diferentes fuentes. Hemos
usado los conjuntos de datos de ENCODE para calcular de forma sistemática los
cambios de señal entre dos líneas celulares. De esta manera hemos logrado crear
un modelo que predice con bastante precisión los cambios de la expresión génica,
basándose en los cambios epigenéticos en el locus de un gen. Por último, hemos
puesto los datos procesados a disposición de la comunidad científica en una base
de datos Biomart.
|
Page generated in 0.0772 seconds