Spelling suggestions: "subject:"long leads"" "subject:"long ready""
1 |
Improving genome assemblies of non-model non-vertebrate animals with long reads and Hi-CGuiglielmoni, Nadege 07 September 2021 (has links) (PDF)
The corpus of reference genomes is rapidly expanding as more and more genome assemblies are released for a wide variety of species. The constant progress in sequencing technologies has led to the release in 2021 of a first complete, telomere-to-telomere, gap-less assembly of a human genome, yet a myriad of eukaryote species still lack genomic resources. For animals, genomic projects have focused on species closely related to humans (vertebrates) and those with an impact on health and agriculture. By contrast, there is still a dearth of non-vertebrate genomes that poorly represents their tremendous diversity (about 95% of animal diversity).Haploid chromosome-level genome assemblies using long reads and chromosome conformation capture (such as Hi-C) have become a standard in recent publications. To provide a haploid representation of diploid and polyploid genomes, assemblers collapse haplotypes into a single sequence, yet they are sensitive to high levels of heterozygosity and often yield fragmented assemblies with artefactual duplications. I tackled these shortcomings with two strategies: improving collapsed assemblies with a comprehensive long-read assembly methodology tuned for highly heterozygous genomes; and separating haplotypes to obtain phased assemblies using long reads and Hi-C. The assemblies were finally brought to chromosome-level scaffolds with a new Hi-C scaffolder, which demonstrated its efficiency on genomes of non-model organisms.These methods were applied to generate chromosome-level assemblies of three species for which none or few assemblies of closely related species were available: the bdelloid rotifer Adineta vaga, the coral Astrangia poculata, and the chaetognath Flaccisagitta enflata. These high-quality assemblies contribute to filling the current gaps in non-vertebrate genomics and pave the way for future sequencing initiatives aiming to generate such reference assemblies for all the species on Earth. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
2 |
De novo algorithms to identify patterns associated with biological events in de Bruijn graphs built from NGS data / Algorithmes de novo pour l'identification de motifs associés à des événements biologiques dans les graphes de De Bruijn construits à partir de données NGSIshi Soares de Lima, Leandro 23 April 2019 (has links)
L'objectif principal de cette thèse est le développement, l'amélioration et l'évaluation de méthodes de traitement de données massives de séquençage, principalement des lectures de séquençage d'ARN courtes et longues, pour éventuellement aider la communauté à répondre à certaines questions biologiques, en particulier dans les contextes de transcriptomique et d'épissage alternatif. Notre objectif initial était de développer des méthodes pour traiter les données d'ARN-seq de deuxième génération à l'aide de graphes de De Bruijn afin de contribuer à la littérature sur l'épissage alternatif, qui a été exploré dans les trois premiers travaux. Le premier article (Chapitre 3, article [77]) a exploré le problème que les répétitions apportent aux assembleurs de transcriptome si elles ne sont pas correctement traitées. Nous avons montré que la sensibilité et la précision de notre assembleur local d'épissage alternatif augmentaient considérablement lorsque les répétitions étaient formellement modélisées. Le second (Chapitre 4, article [11]) montre que l'annotation d'événements d'épissage alternatifs avec une seule approche conduit à rater un grand nombre de candidats, dont beaucoup sont importants. Ainsi, afin d'explorer de manière exhaustive les événements d'épissage alternatifs dans un échantillon, nous préconisons l'utilisation combinée des approches mapping-first et assembly-first. Étant donné que nous avons une énorme quantité de bulles dans les graphes de De Bruijn construits à partir de données réelles d'ARN-seq, qui est impossible à analyser dans la pratique, dans le troisième travail (Chapitre 5, articles [1, 2]), nous avons exploré théoriquement la manière de représenter efficacement et de manière compacte l'espace des bulles via un générateur des bulles. L'exploration et l'analyse des bulles dans le générateur sont réalisables dans la pratique et peuvent être complémentaires aux algorithmes de l'état de l'art qui analysent un sous-ensemble de l'espace des bulles. Les collaborations et les avancées sur la technologie de séquençage nous ont incités à travailler dans d'autres sous-domaines de la bioinformatique, tels que: études d'association à l'échelle des génomes, correction d'erreur et assemblage hybride. Notre quatrième travail (Chapitre 6, article [48]) décrit une méthode efficace pour trouver et interpréter des unitigs fortement associées à un phénotype, en particulier la résistance aux antibiotiques, ce qui rend les études d'association à l'échelle des génomes plus accessibles aux panels bactériens, surtout ceux qui contiennent des bactéries plastiques. Dans notre cinquième travail (Chapitre 7, article [76]), nous évaluons dans quelle mesure les méthodes existantes de correction d'erreur ADN à lecture longue sont capables de corriger les lectures longues d'ARN-seq à taux d'erreur élevé. Nous concluons qu'aucun outil ne surpasse tous les autres pour tous les indicateurs et est le mieux adapté à toutes les situations, et que le choix devrait être guidé par l'analyse en aval. Les lectures longues d'ARN-seq fournissent une nouvelle perspective sur la manière d'analyser les données transcriptomiques, puisqu'elles sont capables de décrire les séquences complètes des ARN messagers, ce qui n'était pas possible avec des lectures courtes dans plusieurs cas, même en utilisant des assembleurs de transcriptome de l'état de l'art. En tant que tel, dans notre dernier travail (Chapitre 8, article [75]), nous explorons une méthode hybride d'assemblage d'épissages alternatifs qui utilise des lectures à la fois courtes et longues afin de répertorier les événements d'épissage alternatifs de manière complète, grâce aux lectures courtes, guidé par le contexte intégral fourni par les lectures longues / The main goal of this thesis is the development, improvement and evaluation of methods to process massively sequenced data, mainly short and long RNA-sequencing reads, to eventually help the community to answer some biological questions, especially in the transcriptomic and alternative splicing contexts. Our initial objective was to develop methods to process second-generation RNA-seq data through de Bruijn graphs to contribute to the literature of alternative splicing, which was explored in the first three works. The first paper (Chapter 3, paper [77]) explored the issue that repeats bring to transcriptome assemblers if not addressed properly. We showed that the sensitivity and the precision of our local alternative splicing assembler increased significantly when repeats were formally modeled. The second (Chapter 4, paper [11]), shows that annotating alternative splicing events with a single approach leads to missing out a large number of candidates, many of which are significant. Thus, to comprehensively explore the alternative splicing events in a sample, we advocate for the combined use of both mapping-first and assembly-first approaches. Given that we have a huge amount of bubbles in de Bruijn graphs built from real RNA-seq data, which are unfeasible to be analysed in practice, in the third work (Chapter 5, papers [1, 2]), we explored theoretically how to efficiently and compactly represent the bubble space through a bubble generator. Exploring and analysing the bubbles in the generator is feasible in practice and can be complementary to state-of-the-art algorithms that analyse a subset of the bubble space. Collaborations and advances on the sequencing technology encouraged us to work in other subareas of bioinformatics, such as: genome-wide association studies, error correction, and hybrid assembly. Our fourth work (Chapter 6, paper [48]) describes an efficient method to find and interpret unitigs highly associated to a phenotype, especially antibiotic resistance, making genome-wide association studies more amenable to bacterial panels, especially plastic ones. In our fifth work (Chapter 7, paper [76]), we evaluate the extent to which existing long-read DNA error correction methods are capable of correcting high-error-rate RNA-seq long reads. We conclude that no tool outperforms all the others across all metrics and is the most suited in all situations, and that the choice should be guided by the downstream analysis. RNA-seq long reads provide a new perspective on how to analyse transcriptomic data, since they are able to describe the full-length sequences of mRNAs, which was not possible with short reads in several cases, even by using state-of-the-art transcriptome assemblers. As such, in our last work (Chapter 8, paper [75]) we explore a hybrid alternative splicing assembly method, which makes use of both short and long reads, in order to list alternative splicing events in a comprehensive manner, thanks to short reads, guided by the full-length context provided by the long reads
|
3 |
Transcriptome Analysis of MRG-1-deficient Caenorhabditis elegans animals using short and long read sequencingBlume, Alexander 21 July 2022 (has links)
Das Schicksal einer differenzierten Zelle wird durch epigenetische Grenzen bestimmt und mittels Schutzmechanismen bewahrt, wodurch die Reprogrammierung in andere Zelltypen verhindert wird.
In dieser Studie haben wir ein Chromatin-regulierendes Protein, das konservierte MORF4-Verwandte-Gen (MRG) Protein MRG-1, als Barriere für die Reprogrammierung von Zellen in Caenorhabditis elegans (C. elegans) identifiziert. RNAi gegen MRG-1 ermöglicht es uns Keimzellen mittels Überexpression des Neuronen-induzierenden Transkriptionsfaktors CHE-1 in neuronenartige Zellen umzuwandeln.
Mittels ChIP-seq fanden wir heraus, dass MRG-1 unterschiedliche DNA Bindungsstellen in den Keimbahnen und somatischen Geweben von C. elegans aufweist. Wir konnten zeigen, dass MRG-1 besonders stark am Genkörper angereichert ist und sich hauptsächlich auf Genen befindet, welche die aktive Histonmarkierung H3K36me3 tragen. Die Charakterisierung der Protein-Protein-Interaktionspartner von MRG-1 mittels Co-IP/MS ergab, dass MRG-1 mit der Histon-H3K9-Methyltransferase SET-26 und der b-gebundenen N-Acetylglucosamin Transferase OGT-1 zusammenarbeitet, um die Umwandlung von Keimzellen in Neuronen zu verhindern.
Basierend auf RNA-Seq Experimenten in mrg-1-Mutanten und Wildtyp konnten wir weitreichende Veränderungen der Genexpression mit Auswirkung auf Signalwege wie den Notch Signalweg enthüllen, welcher bekanntermaßen die Zelltyp-Reprogrammierung fördern.
Mittels Long-Read basiertem RNA-seq in mrg-1-Mutanten und der Integration entsprechender ChIP-seq Daten habe ich die Beteiligung von MRG-1 am prä-mRNA-Spleißen in C. elegans gezeigt, analog zum Säugetierortholog MRG15.
Diese Ergebnisse weisen darauf hin, dass MRG-1 durch die Regulierung des Chromatins und die Sicherstellung des korrekten Spleißens die Expressionsniveaus kritischer Gene und Signalwege aufrechterhält, um eine ordnungsgemäße Keimbahnentwicklung zu gewährleisten und das Schicksal der Keimzellen zu schützen. / Das Schicksal einer differenzierten Zelle wird durch epigenetische Grenzen bestimmt und mittels Schutzmechanismen bewahrt, wodurch die Reprogrammierung in andere Zelltypen verhindert wird.
In dieser Studie haben wir ein Chromatin-regulierendes Protein, das konservierte MORF4-Verwandte-Gen (MRG) Protein MRG-1, als Barriere für die Reprogrammierung von Zellen in Caenorhabditis elegans (C. elegans) identifiziert. RNAi gegen MRG-1 ermöglicht es uns Keimzellen mittels Überexpression des Neuronen-induzierenden Transkriptionsfaktors CHE-1 in neuronenartige Zellen umzuwandeln.
Mittels ChIP-seq fanden wir heraus, dass MRG-1 unterschiedliche DNA Bindungsstellen in den Keimbahnen und somatischen Geweben von C. elegans aufweist. Wir konnten zeigen, dass MRG-1 besonders stark am Genkörper angereichert ist und sich hauptsächlich auf Genen befindet, welche die aktive Histonmarkierung H3K36me3 tragen. Die Charakterisierung der Protein-Protein-Interaktionspartner von MRG-1 mittels Co-IP/MS ergab, dass MRG-1 mit der Histon-H3K9-Methyltransferase SET-26 und der b-gebundenen N-Acetylglucosamin Transferase OGT-1 zusammenarbeitet, um die Umwandlung von Keimzellen in Neuronen zu verhindern.
Basierend auf RNA-Seq Experimenten in mrg-1-Mutanten und Wildtyp konnten wir weitreichende Veränderungen der Genexpression mit Auswirkung auf Signalwege wie den Notch Signalweg enthüllen, welcher bekanntermaßen die Zelltyp-Reprogrammierung fördern.
Mittels Long-Read basiertem RNA-seq in mrg-1-Mutanten und der Integration entsprechender ChIP-seq Daten habe ich die Beteiligung von MRG-1 am prä-mRNA-Spleißen in C. elegans gezeigt, analog zum Säugetierortholog MRG15.
Diese Ergebnisse weisen darauf hin, dass MRG-1 durch die Regulierung des Chromatins und die Sicherstellung des korrekten Spleißens die Expressionsniveaus kritischer Gene und Signalwege aufrechterhält, um eine ordnungsgemäße Keimbahnentwicklung zu gewährleisten und das Schicksal der Keimzellen zu schützen.
|
Page generated in 0.0563 seconds