Return to search

Sequenciamento e caracterização parcial do genoma de cagaiteira (Eugenia dysenterica DC.) / Sequencing and partial characterization of cagaiteira tree genome (E. dysenterica DC)

Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2016-09-19T11:37:57Z
No. of bitstreams: 2
Dissertação - Stela Barros RIbeiro - 2016.pdf: 2466812 bytes, checksum: 6dcf03c36d51185279b526d71c61bd43 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2016-09-19T11:38:26Z (GMT) No. of bitstreams: 2
Dissertação - Stela Barros RIbeiro - 2016.pdf: 2466812 bytes, checksum: 6dcf03c36d51185279b526d71c61bd43 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-09-19T11:38:26Z (GMT). No. of bitstreams: 2
Dissertação - Stela Barros RIbeiro - 2016.pdf: 2466812 bytes, checksum: 6dcf03c36d51185279b526d71c61bd43 (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-03-11 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The development of genomic analysis technologies, mainly the next generation sequencing
platforms (NGS), has enabled to obtain a large amount of DNA sequencing information. The
association between NGS data and cutting edge computational tools affords access to whole
genome information for different organisms, through whole genome assembly (or partial) and
structural and functional characterization. The cagaiteira tree (E. dysenterica DC.) is one of
the Cerrado native species with potential utilization in crop production systems, due to its
products exploration: fruits, leaves and bark. Besides, it has ecological importance for food
availability to local fauna. Despite the efforts made, little is known about the organization and
genetic structure of the cagaiteira tree. The previous researches take into account a reduced
number of molecular markers applied to mating systems studies and effects of micro
evolutionary events in populations. In this study we obtained an assembly and a partial
characterization of E. dysenterica genome, regarding number, structure and function of genes
and repetitive DNA. We obtained DNA sequences for five individuals from different populations
using Illumina MiSeq sequencing platform. The quality control was performed with FasQc and
Trimmomatic. We assembled the reads using dipSPAdes and used blastn and Samtools to
verify the assembly quality. We used Repeat Masker, Repeat Modeler and QDD to identify and
characterize the repetitive DNA content. For gene prediction and annotation we used
AUGUSTUS and Blast2GO. The raw DNA sequences amounted 8.64 Gb, distributed in
63,017,960 reads. After trimming for low quality, the amount decreased to 5.63 Gb,
distributed in 59,415,168 reads. After filtering for organellar DNA and contigs smaller than
500 bp, we assembled 130,243 contigs, representing 56.7% (~250 Mb) of estimated
E.dysenterica genome size (~442 Mb). About 35.3% of genome assembled comprised
repetitive regions, of which 27.1% are transposable elements (most LTR retrotransposons).
We identified 55,491 microsatellite regions, 46,701 mononucleotides and 8,403 dinucleotides.
The T/A motif was the most common follow by A/T and GA/TC. We predicted 60,171 gene
fragments and 228,510 transcripts. We observed a gene density of 1 gene per 7.3 Kb and an
average of 3.8 transcripts per gene. This study makes the cagaiteira tree the first native plant
species from Cerrado of which genome was widely sampled and characterized using NGS data. / Com o desenvolvimento das tecnologias de análise genômica, entre elas o sequenciamento de
nova geração (NGS), a obtenção de uma grande quantidade de dados de sequenciamento de
DNA é hoje uma realidade. Estes dados, associados às ferramentas computacionais
desenvolvidas para sua análise, permitem o acesso às informações sobre genomas de
diversos organismos, através da montagem de suas sequências parciais ou completas, bem
como sua caracterização estrutural e funcional. A cagaiteira (E.dysenterica DC.) é uma das
espécies nativas do Cerrado que possui potencial de utilização em sistemas de produção
agrícola, devido ao potencial de utilização de seus frutos, folhas e casca além de possuir
grande valor ecológico, por servir de alimento para a fauna nas suas regiões de ocorrência.
Apesar dos avanços obtidos, pouco se sabe sobre a organização e estrutura genética desta
espécie, visto que os trabalhos já realizados fazem o uso de um pequeno número de
marcadores moleculares, aplicados a estudos sobre sistema cruzamento e efeitos de eventos
microevolutivos nas populações. Foi realizada a montagem e a caracterização parcial o
genoma de E.dysenterica com relação à quantidade, estrutura e função de genes e DNAs
repetitivos, de forma a agregar informações àquelas já existentes. DNAs de cinco indivíduos
de populações distintas foram sequenciados utilizando a plataforma Illumina MiSeq. O
controle de qualidade das sequências genômicas obtidas foi feito utilizando o FastQc e o
Trimmomatic. O draft assembly foi obtido utilizando o dipSpades e o controle de qualidade do
assembly foi feito utilizando o blastn e o SamTools. A identificação e caracterização de regiões
repetitivas foi feita com os programas RepeatMasker, RepeatModeler e QDD. Para a predição
e anotação de genes foram utilizados os programas AUGUSTUS e o Blast2GO. Foi obtido um
volume inicial de 8,64 Gb de sequências, distribuídos em 63.017.960 reads. Este valor
diminuiu para após o controle de qualidade, restando 5,63 Gb, distribuídos em 59.415.168
reads. Mesmo com diminuição da quantidade de dados, foi observado o aumento das taxas de
alinhamento entre o genoma de E.dysentera e E.grandis, espécie mais próxima à cagaiteira,
cujo genoma já foi sequenciado. Após a retirada de DNAs organelares e contigs menores que
500 bases, foram obtidos 130.243 contigs, representando 56,7% (~250 Mb) do tamanho
estimado para o genoma de E.dysenterica (~442 Mb). Cerca de 35,3% do assembly é
composto por regiões repetitivas das quais 27,1% são elementos transponíveis, sendo a
maioria pertencente à ordem LTR retrotransposons. Foram identificadas 55.491 regiões
microssatélites das quais 46.701 são monocleotídeos e 8.403 são dinucleotídeos. O motivo de
repetição T/A foi o mais frequente, seguido por A/T e GA/TC. Foram preditos 60.171
fragmentos gênicos e 228.510 transcritos. Observou-se uma densidade de 1 gene a cada 7,3
kb e uma média de 3,8 transcritos por gene. Diante dos resultados obtidos e a abordagem
utilizada, este trabalho faz da cagaiteira a primeira espécie vegetal nativa do Cerrado cujo
genoma foi amplamente amostrado e caracterizado utilizando dados NGS.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/6232
Date11 March 2016
CreatorsRibeiro, Stela Barros
ContributorsCoelho, Alexandre Siqueira Guedes, Telles, Mariana Pires de Campos, Zucchi, Maria Imaculada, Soares, Thannya Nascimento, Coelho, Alexandre Siqueira Guedes
PublisherUniversidade Federal de Goiás, Programa de Pós-graduação em Genética e Melhoramento de Plantas (EAEA), UFG, Brasil, Escola de Agronomia e Engenharia de Alimentos - EAEA (RG)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation-3325099404361873119, 600, 600, 600, 600, 4500684695727928426, -7397920248419280716, 2075167498588264571

Page generated in 0.002 seconds