Spelling suggestions: "subject:"draft assembly"" "subject:"graft assembly""
1 |
Sequenciamento e caracterização parcial do genoma de cagaiteira (Eugenia dysenterica DC.) / Sequencing and partial characterization of cagaiteira tree genome (E. dysenterica DC)Ribeiro, Stela Barros 11 March 2016 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2016-09-19T11:37:57Z
No. of bitstreams: 2
Dissertação - Stela Barros RIbeiro - 2016.pdf: 2466812 bytes, checksum: 6dcf03c36d51185279b526d71c61bd43 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-09-19T11:38:26Z (GMT) No. of bitstreams: 2
Dissertação - Stela Barros RIbeiro - 2016.pdf: 2466812 bytes, checksum: 6dcf03c36d51185279b526d71c61bd43 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-09-19T11:38:26Z (GMT). No. of bitstreams: 2
Dissertação - Stela Barros RIbeiro - 2016.pdf: 2466812 bytes, checksum: 6dcf03c36d51185279b526d71c61bd43 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-03-11 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The development of genomic analysis technologies, mainly the next generation sequencing
platforms (NGS), has enabled to obtain a large amount of DNA sequencing information. The
association between NGS data and cutting edge computational tools affords access to whole
genome information for different organisms, through whole genome assembly (or partial) and
structural and functional characterization. The cagaiteira tree (E. dysenterica DC.) is one of
the Cerrado native species with potential utilization in crop production systems, due to its
products exploration: fruits, leaves and bark. Besides, it has ecological importance for food
availability to local fauna. Despite the efforts made, little is known about the organization and
genetic structure of the cagaiteira tree. The previous researches take into account a reduced
number of molecular markers applied to mating systems studies and effects of micro
evolutionary events in populations. In this study we obtained an assembly and a partial
characterization of E. dysenterica genome, regarding number, structure and function of genes
and repetitive DNA. We obtained DNA sequences for five individuals from different populations
using Illumina MiSeq sequencing platform. The quality control was performed with FasQc and
Trimmomatic. We assembled the reads using dipSPAdes and used blastn and Samtools to
verify the assembly quality. We used Repeat Masker, Repeat Modeler and QDD to identify and
characterize the repetitive DNA content. For gene prediction and annotation we used
AUGUSTUS and Blast2GO. The raw DNA sequences amounted 8.64 Gb, distributed in
63,017,960 reads. After trimming for low quality, the amount decreased to 5.63 Gb,
distributed in 59,415,168 reads. After filtering for organellar DNA and contigs smaller than
500 bp, we assembled 130,243 contigs, representing 56.7% (~250 Mb) of estimated
E.dysenterica genome size (~442 Mb). About 35.3% of genome assembled comprised
repetitive regions, of which 27.1% are transposable elements (most LTR retrotransposons).
We identified 55,491 microsatellite regions, 46,701 mononucleotides and 8,403 dinucleotides.
The T/A motif was the most common follow by A/T and GA/TC. We predicted 60,171 gene
fragments and 228,510 transcripts. We observed a gene density of 1 gene per 7.3 Kb and an
average of 3.8 transcripts per gene. This study makes the cagaiteira tree the first native plant
species from Cerrado of which genome was widely sampled and characterized using NGS data. / Com o desenvolvimento das tecnologias de análise genômica, entre elas o sequenciamento de
nova geração (NGS), a obtenção de uma grande quantidade de dados de sequenciamento de
DNA é hoje uma realidade. Estes dados, associados às ferramentas computacionais
desenvolvidas para sua análise, permitem o acesso às informações sobre genomas de
diversos organismos, através da montagem de suas sequências parciais ou completas, bem
como sua caracterização estrutural e funcional. A cagaiteira (E.dysenterica DC.) é uma das
espécies nativas do Cerrado que possui potencial de utilização em sistemas de produção
agrícola, devido ao potencial de utilização de seus frutos, folhas e casca além de possuir
grande valor ecológico, por servir de alimento para a fauna nas suas regiões de ocorrência.
Apesar dos avanços obtidos, pouco se sabe sobre a organização e estrutura genética desta
espécie, visto que os trabalhos já realizados fazem o uso de um pequeno número de
marcadores moleculares, aplicados a estudos sobre sistema cruzamento e efeitos de eventos
microevolutivos nas populações. Foi realizada a montagem e a caracterização parcial o
genoma de E.dysenterica com relação à quantidade, estrutura e função de genes e DNAs
repetitivos, de forma a agregar informações àquelas já existentes. DNAs de cinco indivíduos
de populações distintas foram sequenciados utilizando a plataforma Illumina MiSeq. O
controle de qualidade das sequências genômicas obtidas foi feito utilizando o FastQc e o
Trimmomatic. O draft assembly foi obtido utilizando o dipSpades e o controle de qualidade do
assembly foi feito utilizando o blastn e o SamTools. A identificação e caracterização de regiões
repetitivas foi feita com os programas RepeatMasker, RepeatModeler e QDD. Para a predição
e anotação de genes foram utilizados os programas AUGUSTUS e o Blast2GO. Foi obtido um
volume inicial de 8,64 Gb de sequências, distribuídos em 63.017.960 reads. Este valor
diminuiu para após o controle de qualidade, restando 5,63 Gb, distribuídos em 59.415.168
reads. Mesmo com diminuição da quantidade de dados, foi observado o aumento das taxas de
alinhamento entre o genoma de E.dysentera e E.grandis, espécie mais próxima à cagaiteira,
cujo genoma já foi sequenciado. Após a retirada de DNAs organelares e contigs menores que
500 bases, foram obtidos 130.243 contigs, representando 56,7% (~250 Mb) do tamanho
estimado para o genoma de E.dysenterica (~442 Mb). Cerca de 35,3% do assembly é
composto por regiões repetitivas das quais 27,1% são elementos transponíveis, sendo a
maioria pertencente à ordem LTR retrotransposons. Foram identificadas 55.491 regiões
microssatélites das quais 46.701 são monocleotídeos e 8.403 são dinucleotídeos. O motivo de
repetição T/A foi o mais frequente, seguido por A/T e GA/TC. Foram preditos 60.171
fragmentos gênicos e 228.510 transcritos. Observou-se uma densidade de 1 gene a cada 7,3
kb e uma média de 3,8 transcritos por gene. Diante dos resultados obtidos e a abordagem
utilizada, este trabalho faz da cagaiteira a primeira espécie vegetal nativa do Cerrado cujo
genoma foi amplamente amostrado e caracterizado utilizando dados NGS.
|
2 |
Metody pro vylepšení genomového sestavení založené na signálovém zpracování / Signal processing based methods for genome assembly refinementJugas, Robin January 2016 (has links)
The diploma thesis deals with sequencing methods and genome assembly methods including usage of numerical representations. The theoretical part of thesis describes the history of DNA research, generations of sequencing methods, the assembly methods themselves and definiton of numerical representations. Numerical represenatations serve to convert character form of DNA to numerical form and so allow to use digital signal processing methods. There is an algorithm for genome assembly using numerical represenatation proposed in thesis, which is later tested at sequence data.
|
Page generated in 0.0592 seconds