O Brasil tem a maior produção de cana-de-açúcar do mundo. O cultivo de cana-de-açúcar no Brasil está voltado principalmente para a produção de açúcar ou Etanol e nos últimos anos para a produção de bioeletricidade através da utilização da biomassa do bagaço e da palha. Apesar da importância econômica e do potencial sustentável que a cana-de-açúcar apresenta, o genoma de referência para esta cultura ainda não está disponível na literatura. A principal justificativa para isso está na complexidade do mesmo, em especial pela alopoliploidia e autopoliploidia. De fato esta característica é a principal barreira para o desenvolvimento de novas variedades comerciais. Na literatura há diferentes estratégias que visam contribuir com o conhecimento genômico de cana-de-açúcar sendo mais prevalente dados de transcriptoma e pouca informação sobre o processo de regulação gênica. Além disso, diferente do que é observado em outras culturas comerciais, em cana-de-açúcar não há trabalhos associados com a caracterização in silico da região Promotora, assim como na identificação de sítios de ligação para Fatores de Transcrição (TFBSs). Por esta razão, o nosso trabalho foi direcionado para a caracterização in silico de regiões regulatórias em cana-de-açúcar. Para esta tarefa nós realizamos apenas a rotulação de sequências de DNA não codificante que estavam a upstream de cada gene anotado em cana-de-açúcar. Todos os genes foram selecionados de dados de transcriptoma e a sequência de DNA da região Promotora foi isolada do Genespace de cana-de-açúcar SP80-3280 gerado pelo projeto de sequenciamento do genoma de referência do nosso grupo. A rotulação da região regulatória em cana-de-açúcar foi executada em duas subsequências: Core Promoter e Promotor Proximal. Na região Core Promoter nós realizamos a identificação do sítio de inicio de transcrição (TSS), a estimativa do tamanho da região 5\' UTR e a classificação da região Core Promoter em TATA-box ou TATA-less. Todos os processos foram realizados através da ferramenta TSSPlant. A utilização da ferramenta TSSPlant motivou o desenvolvimento de uma nova ferramenta para predição do sinal de TSS que aqui chamamos de TSSFinder. A ferramenta TSSinder apresentou resultados de predição do sinal de TSS superior aos seus pares, além disso esta ferramenta foi bem sucedida em diferentes organismos como Arabidopsis thaliana, Gallus gallus e Saccharomyces cerevisiae. Na região Promotora Proximal nós realizamos a identificação de TFBSs através de duas metodologias: predição de novo e mapeamento de matrizes de TFBS (PSSM). O processo de predição de novo foi realizada por meio de dois modelos: Maximização da expectativa e Gibbs Sampler e esse processo foi executado apenas para o subgrupo de genes co-expressos ou apenas para o conjunto de sequências homeólogas de cada gene de cana-de-açúcar selecionado. Para o restante das sequências foi realizado apenas o mapeamento das matrizes de TFBSs identificadas durante o processo de predição de novo. Em paralelo todos TFBSs identificados no nosso trabalho foram comparados com o banco de TFBS para plantas. Através desse procedimento foi possível estimar qual classe de Fator de Transcrição está interagindo com o TFBS identificado na região Promotora Proximal dos genes Scdr1, ScSuSy, ScPAL. Com este trabalho, nós cobrimos parte da lacuna observada em estudos in silico paras regiões regulatórias de cana-de-açúcar. Além disso, nós aperfeiçoamos o processo de identificação do sinal de TSS para diferentes organismos; inclusive para plantas Dicotiledôneas e Monocotiledôneas. / Brazil has the highest production of sugarcane in the world. Its cultivation in Brazil is aimed at producing of sugar or ethanol and in recent years, biomass for bioenergy from bagasse and straw. Despite the economic importance and the sustainable potential that sugarcane presents, a reference genome for this crop is not yet available in the literature. One justification for this absence lies in the sugarcane genome complexity, allopolyploidy and autopolyploidy. In fact these characteristics are the main barrier for the development of new commercial varieties. In the literature different strategies aimed at contributing to genomic sugarcane mostly on the transcriptome and little information on the process of gene regulation. Furthermore, unlike other commercial crops, sugarcane has no reported in silico characterization of its promoter regions and identification of Transcription Factor binding sites. For this reason, our work was directed to an in silico characterization of regulatory regions in sugarcane. For this task we performed the labeling of non-coding DNA sequences that were upstream of each gene annotated in sugarcane. All genes were using from transcriptome data and the promoter region DNA sequence was isolated from Genespace of the SP80-3280 reference genome obtained of our group. The labeling of the regulatory region in sugarcane was carried out in two subsections: Core Promoter and Proximal Promoter. In the Core Promoter region we performed the identification of the TSS signal, the estimation of the size of the 5\' UTR region and the classification of the Core Promoter region in TATA-box or TATA-less. All processes were performed using the TSSPlant tool. The use of the TSSPlant tool motivated the development of a new tool to predict the TSS signal that we call TSSFinder. The TSSinder tool presented TSS signal prediction results superior to its peers, moreover this tool was successful in different organisms - Arabidopsis thaliana, Gallus gallus and Saccharomyces cerevisiae. In the Proximal Promoter region we performed the identification of TFBSs through two methodologies: de novo prediction and mapping of TFBS matrices (PSSM). The de novo prediction process was performed using two models: Expectancy Maximization and Gibbs Sampler and this process was performed only for subgroups of coexpressed genes or only for the set of homeologues sequences from each sugarcane gene. For the rest of the sequences only the mapping of the matrices of TFBSs identified during the de novo prediction process was conducted. In parallel all TFBSs identified in our work were compared with the TFBS database for plants. Through this procedure it was estimated which class of Transcription Factor is interacting with the TFBS identified in the Proximal Promoter region of the Scdr1, ScSuSy, ScPAL genes.With this work, we cover part of the gap observed in in silico studies for the regulatory region of sugarcane. In addition, we improved the process of identification the TSS signal for different organisms including dicotyledonous and monocotyledonous plants.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-10122018-101543 |
Date | 26 September 2018 |
Creators | Oliveira, Mauro de Medeiros |
Contributors | Durham, Alan Mitchell, Souza, Glaucia Mendes |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais. |
Page generated in 0.003 seconds