Return to search

Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh

Submitted by Erika Demachki (erikademachki@gmail.com) on 2017-04-27T19:34:22Z
No. of bitstreams: 2
Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-03T12:09:43Z (GMT) No. of bitstreams: 2
Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-05-03T12:09:43Z (GMT). No. of bitstreams: 2
Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-03-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Large-scale sequencing of transcripts via RNA-Seq has been changing paradigms by
demonstrating that transcription is prevalent throughout the eukaryotic genome. In these
organisms, the vast majority of transcripts are non-coding (ncRNA). One type of RNA that
has aroused great interest, given its prevalence, is long non-coding RNAs (lncRNAs),
which are ncRNA with more than 200 nucleotides. However, little is known about the role
and prevalence of these lncRNAs in plant genomes, even in model species such as
Arabidopsis thaliana (L.) Heynh. The objective of this work was to identify lncRNAs in the
Arabidopsis genome and to characterize their size, structure and nucleotide diversity. The
sequences were obtained from previous work that sequenced total RNA from A. thaliana,
grown under different light regimes, using Illumina Hiseq 2000 platform. These sequences
were mapped into the reference genome with TopHat and assembled with Cufflinks. The
assembled transcripts were compared with the genome annotation with Cuffcompare, to
identify non-annotated transcripts. A total of 4,305 long putative RNAs were obtained, with
314 (7%) sense in relation to coding transcripts (mRNAs), 392 (9%) intergenic, 2,216
intronic (52%) and 1,383 (32%) antisense mRNAs. The lncRNAs obtained were filtered to
eliminate those with coding potential, as well as those related to rRNA, tRNA and miRNA
synthesis. A total of 3,710 high-confidence lncRNAs (HC-lncRNA) were obtained, of which
58.6% were not previously annotated. These HC-lncRNA emcompass a low proportion (~
1%) lncRNAs in the genome of Arabidopsis thaliana. A functional enrichment analysis of
Gene Ontology (GO) categories demonstrated that among genes containing lncRNAs
there is a high proportion of categories linked to the localization and transport of proteins
within the cell, as well as to nucleic acid binding. A gene expression analyses identified
only 22 differentially expressed lncRNAs under the different light conditions in which samples were exposed. Using the SNP data from the 1001 genomes project, identified
high nucleotide diversity within lncRNAs regions, indicating low conservation of the
primary structure of these transcripts. The nucleotide diversity in regions of long noncoding
RNAs is lower than in coding regions, but less than a diversity observed in neutral
regions such as pseudogenes. / O sequenciamento em larga escala de transcritos, via RNA-Seq, vêm mudando
paradigmas ao demonstrar que a transcrição é prevalente por todo o genoma dos
eucariotos. Nesses organismos, a grande maioria dos transcritos não codificam proteínas
(ncRNA). Um tipo de RNA que vêm despertando grande interesse, dado sua prevalência,
são os RNAs longos não codificantes (lncRNAs), que são ncRNA com mais de 200 nucleotídeos. No entanto, pouco se sabe sobre o seu papel e prevalência nos genomas
de plantas, mesmo em espécies modelo como Arabidopsis thaliana (L.) Heynh. O
objetivo desse trabalho foi identificar lncRNAs no genoma de Arabidopsis e caracterizar
seus tamanhos, estruturas e diversidade genética. As sequências utilizadas foram
obtidas de um trabalho que sequenciou RNA total de A. thaliana, sob diferentes regimes
de luminosidade, utilizando a plataforma Illumina HiSeq 2000. Estas sequências foram
mapeadas no genoma referência com o programa TopHat e montadas com o Cufflinks.
Os transcritos montados foram comparados com a anotação do genoma com o
Cuffcompare, afim de identificar transcritos ainda não anotados. Um total de 4.305 RNAs
longos putativos foi obtido, sendo 314 (7%) senso em relação a transcritos codantes
(mRNAs), 392 (9%) intergênicos, 2.216 intrônicos (52%) e 1.383 (32%) antisenso de
mRNAs. Os lncRNAs obtidos foram filtrados para eliminar aqueles com potencial de
codificação, bem como aqueles relacionados com a síntese rRNA, tRNA e miRNA. Após
essa filtragem, foram obtidos 3.710 lncRNAs de alta cofiança (HC-lncRNA), sendo que
desses 58,6% ainda não foram previamente anotados. Esses HC-lncRNA representam
uma baixa proporção (~1%) do genoma de Arabidopsis thaliana. Uma análise de
enriquecimento funcional de categorias do Gene Ontology (GO) demonstrou que os
genes que contém lncRNAs apresentam enriquecimento para processos ligados à
localização e transporte de proteínas dentro da célula, bem como para ligação a ácidos
nucléicos. Uma análise de expressão gênica identificou apenas 22 lncRNAs
diferencialmente expressos entre as diferentes condições de luminosidade em que as
amostras foram expostas. Utilizando os SNPs do projeto 1001 genomes, identificou-se
alta diversidade nucleotídica em regiões de lncRNAs, indicando baixa conservação da
estrutura primária destes transcritos. A diversidade nucleotídica em regiões de RNAs
longos não codificantes é menor do que em regiões codantes, mas menor do que a
diversidade observada em regiões neutras como os pseudogenes.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.bc.ufg.br:tede/7249
Date07 March 2017
CreatorsAraújo, Vanessa Cristina da Silva
ContributorsNovaes, Evandro, Novaes, Evandro, Vianello, Rosana Pereira, Coelho, Alexandre Siqueira Guedes
PublisherUniversidade Federal de Goiás, Programa de Pós-graduação em Genética e Biologia Molecular, UFG, Brasil, Instituto de Ciências Biológicas - ICB (RG)
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFG, instname:Universidade Federal de Goiás, instacron:UFG
Rightshttp://creativecommons.org/licenses/by-nc-nd/4.0/, info:eu-repo/semantics/openAccess
Relation7015780075895009588, 600, 600, 600, 600, -3872772117827373404, -5518144268585252051, 2075167498588264571

Page generated in 0.0028 seconds