Return to search

Transcriptoma de Leishmania (V.) braziliensis por RNA-Seq: montagem de transcriptomas, enriquecimento de orfeoma, análise de expressão e anotação dos genes diferencialmente expressos / Transcriptome of L. (V.) braziliensis by RNA-Seq: assembly of transcriptomas, enrichment of orfeoma, expression analysis and annotation of differentially expressed genes

Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2015-11-03T13:28:34Z
No. of bitstreams: 1
texto completo.pdf: 2083437 bytes, checksum: 8f479543c8dc090087a91955c71d8ba0 (MD5) / Made available in DSpace on 2015-11-03T13:28:34Z (GMT). No. of bitstreams: 1
texto completo.pdf: 2083437 bytes, checksum: 8f479543c8dc090087a91955c71d8ba0 (MD5)
Previous issue date: 2014-02-10 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Os parasitos do gênero Leishmania, que causam um amplo espectro de desordens clínicas referidas comumente como leishmanioses, são um grande problema de saúde pública em vários países. A leishmaniose tegumentar americana está entre as endemias de maior importância em saúde pública no Brasil, devido a fatores como: ampla distribuição pelo território nacional, ocorrência de formas clínicas graves e limitações referentes tanto ao diagnóstico como ao tratamento, sendo a L. (V.) braziliensis uma das principais espécies de importância epidemiológica para a LTA no Brasil. Atualmente existem diversas tecnologias que permitem o sequenciamento do DNA em larga escala, sendo a plataforma 454/Roche utilizada neste trabalho. Assim, este trabalho utilizou ferramentas de bioinformática para montar e analisar o transcriptoma de L. (V.) braziliensis através do sequenciamento do transcriptoma de dois isolados (ET e NSL), que apresentam diferença significativa na virulência em modelo murino. Foram preparadas duas formas evolutivas para cada isolado: metacíclica (MET) e procíclica (PRO). Desta forma foram analisadas quatro bibliotecas. Após sequenciamento, os dados foram visualizados com o programa fastQC, tratados com FASTX- Tollkit e Prinseq-Lite e montados com programa Newbler. A montagem (Assembly) foi efetuada de duas maneiras distintas: primeiro efetuou-se a montagem com as reads de cada biblioteca e posteriormente, as reads das quatro bibliotecas foram alocados em arquivo único para realização de um novo assembly. As open reading frame (ORFs), que são regiões com potencial para codificar proteínas, foram preditas utilizando as sequências resultantes da montagem. A anotação foi efetuada através de duas abordagens: transferência de informações do genoma anotado automaticamente para as ORFs preditas e pela abordagem baseada em homologia de sequências através da ferramenta de anotação funcional Blast2GO. Após anotação, efetuou-se a análise da expressão gênica diferencial através de duas abordagens diferentes: a primeira, utilizou o método de Blind do pacote DESeq do R/Bioconductor e a segunda utilizou uma abordagem baseada em RPKM. Foram produzidas 3.095.724 reads, sendo 916.546, 589.554, 1.083.312 e 506.312 sequências para ET-MET (biblioteca 1), ET- PRO (biblioteca 2), NSL-MET (biblioteca 3) e NSL-PRO (biblioteca 4), respectivamente. Após o tratamento, utilizou-se para o restante das análises 2.899.230 sequências. Com o intuito de validar algumas das análises, foi utilizado neste trabalho um segundo conjunto de reads (Illumina) baixado do banco de dados SRA (Sequence Read Archive) indexado ao NCBI, sendo este composto por 52.014.768 de reads paired end. Após o tratamento, utilizou- se para o restante das análises 47.377.233 de reads. Os resultados das análises com as reads sequenciadas neste trabalho e com os contigs montados, tal como o mapeamento destes no genoma anotado de L. (V.) braziliensis, produziu novas informações ao orfeoma anotado automaticamente de L. (V.) braziliensis. Após montagem, obteve-se 14.362, 13.145, 14.899 e 11.434 contigs maiores que 100 pb para as bibliotecas 1, 2, 3 e 4, respectivamente. Obteve-se como resultado da montagem, considerando as reads de todas as bibliotecas, 14.017 contigs. As ORFs preditas à partir dos contigs que não mapearam no genoma anotado foram utilizados para busca de novos genes de L. (V.) braziliensis. Como resultado, foi possível encontrar seis novos genes, 117 possíveis ORFs sem hits no banco de dados nr e 85 ORFs que, por algum motivo, deixaram de fazer parte do genoma anotado. Foram encontrados, ao se comparar as reads obtidas neste trabalho com o genoma anotado, 6.293 sítios com identidades diferentes, que pode ser devido a divergência alélica entre os isolados analisados ou devido ao polimorfismos de nucleotídeo único (SNPs). / Parasites of the genus Leishmania, which cause a broad spectrum of clinical disorders referred to commonly as leishmaniasis, are a major public health problem in many countries. American cutaneous leishmaniasis is among the endemic most important in public health in Brazil, due to factors such as: wide distribution throughout the country, the occurrence of severe clinical forms and limitations relating to both diagnosis and treatment, with L. (V.) braziliensis being one of the main species of epidemiological significance to the LTA in Brazil. Currently there are several technologies that allow the DNA sequencing in large scale, being the 454/Roche platform used in this work. Thus, this study used bioinformatics tools for assembly and analyze the transcriptome of L. (V.) braziliensis through transcriptome sequencing of two isolates (ET and NSL), which present significant difference in virulence in murine model. Were prepared two evolutionary forms for each isolate: metacyclic (MET) and procyclical (PRO). Thus, four libraries were analyzed. After sequencing, the data were visualized with fastQC program, treated with FASTX-Tollkit and Prinseq-Lite and assembly with Newbler v.2.5.3 program. The assembly was conducted of two distinct ways: first performed the assembly whit the reads from each sample and then, the reads of the four samples were placed in single file to perform a new assembly. The open reading frame (ORF), which are regions with potential to encode a protein were predicted using the resulting assembly. The annotation was carried out using two approaches: transfer of information of automatically annotated genomic to predicted ORFs and by approach based on sequence homology by functional annotation tool Blast2GO. After annotation, performed the analysis of differential gene expression by two different approaches: first, was used the Blind method of DESeq package the R/Bioconductor and the second was used an approach based on RPKM. 3.095.724 reads were produced, with 916.546, 589.554, 1.083.312 and 506.312 sequences for ET-MET (sample 1), ET-PRO (sample 2), NSL-MET (sample 3) and NSL- PRO (sample 4), respectively. After treatment, was used for the remaining analysis 2.899.230 sequence. In order to validate some of the analysis, was used in this study, a second set of reads (Illumina) downloaded from the database SRA (Archive Sequence Read) indexed to NCBI, this being composed of 52.014.768 of reads paired end. After treatment, was used for the remainder analysis 47.377.233 of reads. The results of the analysis with the reads sequenced this work and with the assembly contigs, such as mapping of these in annotated genome the L. (V.) braziliensis, produced new information to automatically annotated orfeoma of L. (V.) braziliensis. After assembly, we obtained 14.362, 13.145, 14.899 and 11.434 contigs larger than 100 bp for samples 1, 2, 3 and 4, respectively. It was obtained as a result of assembly, considering the reads from all samples, 14.017 contigs. The ORFs predicted from contigs not mapped the annotated genome were used to search for new genes of L. (V.) braziliensis. So, were found six new genes, 117 ORFs possible without hits in the nr database and 85 ORFs that, for some reason, no longer in the annotated genome. Were found, when comparing the reads obtained in this work with the annotated genome, 6.293 sites with different identities, which may be due to the allelic divergence between the isolates analyzed or due to single nucleotide polymorphisms (SNPs).

Identiferoai:union.ndltd.org:IBICT/oai:localhost:123456789/6490
Date10 February 2014
CreatorsMaciel, Talles Eduardo Ferreira
ContributorsSilva Júnior, Abelardo, Bressan, Gustavo Costa, Lamego, Márcia Rogéria de Almeida, Afonso, Luís Carlos Crocco, Fietto, Juliana Lopes Rangel
PublisherUniversidade Federal de Viçosa
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFV, instname:Universidade Federal de Viçosa, instacron:UFV
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds