Geometria diferencial e teoria da informação aplicada a análise de ensembles conformacionais de proteínas / Differential geometry and information theory application to protein conformational analyses

Um dos maiores desafios atuais na biologia estrutural é como lidar com flexibilidade de proteínas. Além do desafio experimental, uma limitação teórica é a falta de uma linguagem matemática conveniente para representação do espaço conformacional de proteínas. As representações mais populares apresentam diversas limitações, que se refletem nas dificuldades associadas à análise de ensembles conformacionais. Nesse contexto, a aplicação de geometria diferencial (GD) e teoria da informação (TI) foi pouco explorada. Neste trabalho investigamos o uso de descritores de GD e TI como uma representação matemática do espaço conformacional de proteínas aplicada à análise de ensembles conformacionais. O cálculo dos descritores de GD consiste em representar o backbone de proteínas como curvas espaciais e caracterizá-las utilizando os seus valores de curvatura, κ, e torção, τ . Baseado nesses valores, definimos medidas de flexibilidade, de distância entre conformações e aplicamos uma estratégia de clustering para identificação de estados conformacionais. Para permitir a aplicação de TI, desenvolvemos um sistema de codificação desses descritores para expressar cada conformação por uma sequência de símbolos finitos. A partir dessas sequências, definimos uma medida da informação associada a um resíduo, Rres, e a uma conformação, Rconf. Para investigar sua eficácia, aplicamos os métodos propostos aos ensembles conformacionais de três sistemas testes: 1) Ubiquitina, 2) E1-DBD do HPV18 e 3) as etapas de formação do complexo c-Myb-KIX. A análise da representação por geometria diferencial se mostrou igualmente eficaz ou superior aos métodos comumente utilizados em todos os sistemas analisados. O método é especialmente útil para monitoramento de estabilidade de hélices e para análise de proteínas e regiões muito flexíveis, pois evita a necessidade de sobreposição estrutural. Os valores de Rconf se apresentaram úteis para análise de processos de enovelamento e resíduos próximos a regiões funcionais tendem a apresentar maiores valores Rres. No entanto, o papel desses resíduos é incerto e mais estudos são necessários para determinar se há e qual é seu real significado. Apesar disso, as medidas de informação se mostraram úteis para comparação de estados conformacionais e permitem levantar hipóteses testáveis em laboratório. Por fim, a representação por GD é computacionalmente conveniente, intuitiva, evita todas as limitações dos métodos popularmente utilizados e se mostrou eficaz para análise de ensembles conformacionais. / One of the major challenges of modern structural biology is how to deal with protein flexibility. Besides the experimental difficulties, a relatively overlooked theoretical challenge is the lack of a proper mathematical language to represent proteín conformational space. The most popular representations have severe limitations, which reflects on the difficulties associated with conformational ensemble analyses. However, differential geometry (GD) and information theory (TI) can help to overcome such difficulties and were not well explored in this context. Here we investigate the usage of DG and TI as a mathematical representation of protein conformational space applied to the analyses of conformational ensembles. The DG descriptors calculation consists of representing protein backbone as a spatial curve and describes it by its curvature, κ, and torsion, τ . Based on those values, the distance between conformation and flexibility measurements were defined and a clustering algorithm was applied to identify conformational states. For the application of TI, a coding system for DG descriptors was developed to express each conformation as a sequence of finite symbols. Based on those sequences, information measurements associated to a residue, Rres, and to a conformation, Rconf , were defined. To investigate its efficacy, the proposed method was applied to conformation ensembles of three test systems: 1) Ubiquitin, 2) E1-DBD of HPV18 and 3) the steps of c-Myb-KIX binding. The DG analyses show equally good or superior performance when compared with popular methods on all tested system. In addition, the methods are especially useful to monitoring helix stability and analyses of very flexible proteins (or regions), since avoids the necessity of superposing structures. The values of Rconf are useful to compare different steps of a folding process and residues near regions involved in binding events tend to present higher values of Rres. However, those residues importance is uncertain and further studies are necessary to determinate if and how those can contribute to protein function. Nevertheless, the information measurements were informative on the comparison of compare conformational states and allow to formulate a testable hypothesis. On the other hand, the GD representation is computationally convenient, intuitive and avoid most of the limitations of the popular method applied to conformational ensemble analyses.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-07032018-150722
Date19 December 2017
CreatorsAntonio Marinho da Silva Neto
ContributorsGlaucius Oliva, Rinaldo Wander Montalvão, Jorge Chahine, Kaline Rabelo Coutinho, Luiz Carlos Gomide Freitas, João Renato Carvalho Muniz
PublisherUniversidade de São Paulo, Física, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0085 seconds