Os projetos genoma têm fornecido uma grande quantidade de informação sobre a arquitetura gênica e sobre a configuração física de suas respectivas regiões flanqueadoras (RF). Estas RF contêm informações com o potencial de auxiliar na elucidação de vários processos biológicos, como os mecanismos de expressão gênica e de sua regulação. Estes mecanismos são de extrema importância para a compreensão do correto funcionamento dos organismos e das patologias que os afetam. Uma parte significativa dos mecanismos de controle de expressão gênica atuam na fase transcricional. Na base destes mecanismos está o recrutamento de proteínas que se ligam às regiões promotoras da transcrição, as quais são segmentos específicos de DNA que podem estar localizados tanto próximos à região de início da transcrição (TSS) quanto a centenas ou até a milhares de pares de bases dela. Essas proteínas compõem a maquinaria transcricional e podem ativar ou inibir o processo de transcrição. Experimentalmente, os segmentos regulatórios podem ser identificadas utilizando métodos complexos de biologia molecular, tais como SELEX, ChiP-ChiP, ChIP-Seq, dentre outros. Uma estratégia alternativa aos métodos experimentais é a utilização de metodologias computacionais. Análises computacionais tendem a ser mais rápidas, baratas e flexíveis do que protocolos experimentais, além de poderem ser utilizadas em larga escala. Atualmente, os métodos computacionais disponíveis necessitam de informações experimentais para a definição de padrões globais de preferências de sequências de DNA para a ligação de fatores de transcrição (TFBS, em inglês transcription factor binding sites). Entretanto, esses métodos apresentam uma elevada taxa de falso positivos e, por vezes, apresentam também taxas significativas de falso negativos, além de serem limitados ao estudo de fatores de transcrição de espécies bem conhecidas, o que diminui a área de aplicação dos mesmos. Diante deste cenário, o uso de métodos computacionais que não necessitem da informação referente aos sítios de ligação, bem como os que utilizem parâmetros mais robustos de detecção dos resultados, em detrimento dos escores de pontuação provindos de alinhamentos, podem acrescentar uma sensível melhoria ao processos de predição de regiões regulatórias. Neste projeto, foi desenvolvido um novo modelo computacional (TFBSAnalyzer) para análise e identificação de TFBS em elementos regulatórios, que utiliza técnicas de modelagem molecular para a construção de complexos entre um fator de transcrição ancorado a estruturas de DNA com sequências variáveis de bases e, através de cálculos termodinâmicos de entalpia de ligação, determina uma função de pontuação baseada na energia de ligação e realiza a predição de sítios de ligação ao DNA para o fator de transcrição em análise. Esta abordagem foi testada com três fatores de transcrição como sistemas-modelo, pertencentes à família dos receptores nucleares, a saber: o receptor de estrógeno ER-alfa (Estrogen Receptor Alpha), o receptor de ácido retinoico RAR-beta (Retinoid Acid Receptor Beta) e o receptor X retinóico RXR (Retinoid X Receptor). Os modelos previstos computacionalmente foram comparados aos dados experimentais disponíveis para estes receptores nucleares, os quais apresentaram as seguintes taxas de FP/FN: 10%/0 para RAR-beta e RXR, 21%/6% para ER-alfa. Também simulamos um experimento de ChIP-seq do ER-alfa no genoma humano, cujos genes selecionados foram submetidos a uma análise de enriquecimento de fatores de transcrição curados experimentalmente, que fazem sua regulação, revelando que o receptor de estrógeno está realmente envolvido no processo. Para mostrar a aplicabilidade geral de nosso método, nós modelamos a distribuição de energia de ligação para o receptor NHR-28 isoforma a de Caenorhabditis elegans com DNA . Obtivemos distribuições de energia semelhantes àquelas encontradas para os NRs modelos, portanto seria possível aplicar o método para buscar possíveis TFBSs para este receptor no genoma de C. elegans. Os dados gerados e as metodologias desenvolvidas neste projeto devem acrescentar uma sensível melhoria aos processos de predição de regiões regulatórias e consequentemente auxiliar no entendimento dos mecanismos envolvidos no processo de expressão gênica e de sua regulação. / The genome projects have provided a lot of information about the genetic architecture, as well as on the physical configuration of their flanking regions (FR). These FR have the potential to aid in the elucidation of many biological processes, such as the mechanisms involved in gene expression and its regulation. These mechanisms are extremely important for undeerstanfind the correct functioning of organisms as well as the pathologies that affect them. A significant part of the control mechanisms of gene expression act during transcription. On the basis of this mechanisms is the recruitment of proteins that bind to promoter regions of transcription, which are specific segments of DNA that can be located either near the transcription start site or at hundreds or even thousands of base pairs away. These proteins form the transcription machinery, which can activate or inhibit the transcription process. The regulatory segments can be identified experimentally using complex methods of molecular biology, such as SELEX, ChIP-chip, ChIP-seq, among others. An alternative strategy to these experimental methods is the use of computational methodologies for predicting regulatory regions. Computational analysis tend to be faster, cheaper and more flexible than the experimental protocols, and can be used on a larger scale. Currently, the available computational methods require information previously obtained from experiments in order to define global standards of preference of DNA-Binding sequences for transcription factors (TFBS - Transcription Factor Binding Sites). However, these methods have a high rate of false positives and sometimes also have significant rates of false negatives, besides being limited to the study of transcription factors of well-known species, which decreases their application area. In this scenario, the use of computational methods that do not require previous information concerning the binding sites and use more robust parameters of results detection, instead of alignment scores, may add significant improvement to the processes of predicting regulatory regions. In this project, we developed a new computational model TFBSAnalyzer) for analysis and identification of regulatory elements using molecular modeling techniques for the construction of complexes between a transcription factor bound to specific DNA structures with variable sequences of bases and, by means of thermodynamic calculations of bond enthalpy, provides a scoring function based on the binding energy and predicts the DNA binding sites for the transcription factor in analysis. This approach was tested initially with three transcription factors as models, belonging to the nuclear receptor family, namely estrogen receptor ER-alpha (Estrogen Receptor Alpha), the retinoic acid receptor RAR-beta (Retinoid Acid Receptor Beta) and the retinoic X receptor RXR (Retinoid X Receptor). The computationally predicted models were compared to experimental data available for these nuclear receptors, and presented the following rates of FP/FN: 10%/0 for RAR-beta and RXR, 21%/6% for ER-alpha. We also simulated an experiment of ChIP-seq with ER-alpha with the human genome, where the selected genes were subjected to a transcription factor enrichment analysis, with curated information, revealing that the estrogen receptor is indeed involved in their regulation. To show that our method has a general applicability, we modeled the binding energy distribution for the NHR-28 receptor, isoform a, from Caenorhabditis elegans. The energy distributions obtained were similar to the ones obtained for the model NR, so it would be possible to use the method and search for possible TFBS in the C. elegans genome. The data generated and the methodologies developed in this project should add a significant improvement to the prediction processes of regulatory regions and, consequently, help to understand the mechanisms involved in the gene expression process and its regulation.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-23042015-133407 |
Date | 04 February 2015 |
Creators | Ana Claudia Mancusi Valeije |
Contributors | Paulo Sérgio Lopes de Oliveira, Richard Charles Garratt, Otavio Henrique Thiemann |
Publisher | Universidade de São Paulo, Bioinformática, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0033 seconds