Return to search

Estrutura genomica de tres megabases de DNA genomico (shotugun) de Eucalyptus : conteudo nucleotidico, sequencias repetitivas e genes

Orientadores: Gonçalo Amarante Guimarães Pereira, Dario Grattapaglia / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-03T22:25:24Z (GMT). No. of bitstreams: 1
Lourenco_RodrigoTristan_M.pdf: 1426914 bytes, checksum: a25b14ff0d793c6c37d821a81cdb379c (MD5)
Previous issue date: 2004 / Resumo: Com o intuito de obter uma visão da estrutura e composição do genoma de Eucalyptus, sequenciou-se aleatoriamente cerca de 10.000 fragmentos de DNA genômico de Eucalyptus grandis obtidos por meio de seqüenciamento por fragmentação randômica de DNA (shotgun) de uma biblioteca genômica, totalizando mais de 3,0 Mb válidos (phred >=20), isto é, cerca de 0,5% do genoma (640 Mpb). Depois de selecionadas quanto ao tamanho e qualidade, estas seqüências foram analisadas em termos do seu conteúdo nucleotídico, presença de regiões repetitivas e número de genes. Para análise do conteúdo de bases guanidílicas e citidílicas (GC) e do conteúdo de seqüências repetitivas utilizou-se o programa RepeatMasker, o qual indicou que as 10 mil seqüências continham, em média, 40,15% de GC. Aproximadamente 1,4% das bases pertenciam a seqüências transponíveis, distribuídas em 310 elementos repetitivos interespersados, dentre os quais 299 eram retroelementos, principalmente LTRs (¿Long Terminal Repeats¿) e apenas 11 eram transposons. Também foram identificados 986 microssatélites e 1.636 seqüências de baixa complexidade. No total, cerca de 5,8% do genoma de Eucalyptus é composto por seqüências repetitivas. Para a identificação de genes putativos presentes, utilizou-se uma estratégia alternativa baseada na comparação deste banco genômico com bancos de ESTs (¿Expressed Sequence Tags¿) de Eucalyptus utilizando o programa GenESTate, nomeando os genes identificados de acordo com o resultado do ¿BLAST¿ (¿Basic Local Alignment Search Tool¿) encontrado para as ESTs. Também comparou-se todas as seqüências genômicas com o banco de dados não-redundante de proteínas do NCBI (¿National Center for Biotechnology Information¿) com o intuito de identificar outros genes. Aproximadamente 44 seqüências similares a ESTs foram identificadas, contabilizando 2% do total de pares de bases analisado. É importante ressaltar a identificação de íntrons e éxons, além de regiões promotoras, a partir desta comparação, visto que estas estruturas não podem ser identificadas em ESTs. Cerca de 166 genes foram identificados a partir da comparação de todas as seqüências com o banco de dados de proteínas do NCBI por meio do protocolo ¿blastx-nr¿. Também foram identificados genes putativos para 16 tRNAs utilizando o programa tRNAscan-SE. Este banco de dados genômicos poderá ser utilizado no âmbito do Projeto Genolytpus para guiar o processo de ancoragem do mapa genético com o mapa físico, no desenvolvimento de novos marcadores do tipo microssatélites e na identificação de regiões promotoras / Abstract: In this work we intended to obtain an overview of the structure and composition of the Eucalyptus genome by sample sequencing 10.000 genomic DNA fragments obtained from a shotgun genomic library from E. grandis, that represents 3,0 Mbp of the E. grandis genome. The reads were filtered by their quality and length (phred value >=20; length >=150) and analyzed for their nucleotide content, repetitive patterns, repetitive elements and gene content. The program RepeatMasker was used to analyze the %GC content and repetitive patterns and elements. The results indicate that on average the Eucalyptus genome is composed of 40.15% of GC. From the total of the bases sequenced approximately 1.4% were located in transposons, distributed in 310 interespersed repetitive genetic elements, among which 299 classified as retroelements, mainly LTRs. We also identified 986 microsatellites and 1636 low complexity sequences. 5.8% of the sequenced bases were located on repetitive sequences. We used an alternative approach to identify putative genes by comparing the genomic sequences with a Eucalyptus ESTs database using the GenESTate software. We attributed putative functions using a pipeline were the éxons of each gene were put togheter and compared with protein domains data banks. This procedure avoids the misleading results obtained when comparing DNA sequences with sequences deposited in GenBank. The sequences were clustered using the CAP3 software, resulting in 766 agrupamentos contíguos and 5428 singletos, the former showing an average of 1200 bp. These 766 agrupamentos contíguos were compared with more than 5,000 E. grandis ESTs from mature leaf tissue and 6,000 E. urophylla ESTs from xylem. From the 766 agrupamentos contíguos we found 44 that showed high similarity to some ESTs. The coding portion of the sequences accounted for around 2% of the total sequences. It is important to highlight that by this approach it was possible to identify íntrons and éxons, beside core promoter regions, which can¿t be identified in the ESTs. Other 166 possible genes were identified among the genomic sequences by using blastx-nr in NCBI. We also identified putative genes responsible for 16 tRNAs using the tRNAscan-SE software. These sequences are being used in the Genolyptus Project for the development of novel randomly distributed microsatellites markers, for the identification of promoter regions and will be used to assist in the development of overgo-probes to be applied in the anchoring of the genetic map to the physical ma / Mestrado / Genetica de Microorganismos / Mestre em Genética e Biologia Molecular

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unicamp.br:REPOSIP/316753
Date16 February 2004
CreatorsLourenço, Rodrigo Tristan
ContributorsUNIVERSIDADE ESTADUAL DE CAMPINAS, Grattapaglia, Dario, Pereira, Gonçalo Amarante Guimarães, 1964-
Publisher[s.n.], Universidade Estadual de Campinas. Instituto de Biologia
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Repositório Institucional da Unicamp, instname:Universidade Estadual de Campinas, instacron:UNICAMP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0055 seconds