Return to search

Uso de estratégias baseadas em conhecimento para algoritmos genéticos aplicados à predição de estruturas tridimensionais de proteínas / Knowledge-based Approach to Genetic Algorithms for the Protein Structure Prediction Problem

Proteínas desempenham uma grande variedade de funções biológicas. O conhecimento da estrutura tridimensional proteica pode ajudar no entendimento da função desempenhada. De acordo com a hipótese de Anfisen, a estrutura terciária nativa de uma proteína pode ser determinada a partir da informação contida na sequência primária, o que permitiria que métodos computacionais poderiam ser usados para predizer estruturas terciárias quando a primária estiver disponível. No entanto, ainda não existe uma ferramenta computacional capaz de predizer a estrutura tridimensional para uma grande variedade de proteínas. Desse modo, o problema de Predição de Estruturas de Proteínas (PEP) permanece como um desafio para a Biologia Molecular. A conformação nativa de uma proteína é frequentemente a configuração termodinamicamente mais estável, ou seja, que possui menor energia livre. Assim, PEP pode ser vista como um problema de otimização, onde a estrutura com menor energia livre deve ser encontrada dentre todas as possíveis. Entretanto, este é um problema NP-completo, no qual métodos tradicionais de otimização, em geral, não apresentam um bom desempenho. Algoritmos Genéticos (AGs), devido às suas características, são interessantes para essa classe de problemas. O principal objetivo desse trabalho é verificar se a adição de informação pode ser útil aos AGs aplicados em PEP, valendo-se dede modelos moleculares simplificados. Cada indivíduo do AG representa uma solução que, neste caso, é uma possível conformação que será avaliada por um campo de força. Dessa forma, o indivíduo é codificado por um conjunto de ângulos de torção de cada aminoácido. Para auxiliar no processo de busca, bases de dados compostas de ângulos determinados por cristalografia e RNM são utilizadas. Com o objetivo de guiar o processo de busca e manter a diversidade nos AGs, duas estratégias são aqui testadas: Imigrantes Aleatórios e Imigrantes por Similaridade. A última delas foi criada baseando-se na similaridade da sequência primária. Além disso, é investigado neste trabalho o uso de um campo de força coarse grained, que utiliza os átomos de carbono- para representar a cadeia proteica, para avaliar os indivíduos do AG. / Proteins exhibit an enormous variety of biology functions. The knowledge of tertiary structures can help the understanding of the proteins function. According to Anfisen, the native tertiary structure of a protein can be determined by its primary structure information, what could allow that computational methods could be used to predict the tertiary structure when the primary structure is available. However, there is still not a computational tool to solve the structure prediction problem for a large range of proteins. In this way, Protein Structure Prediction (PSP) has been a challenge to Molecular Biology. The conformation of native protein is usually the thermodynamically most stable configuration, i.e., the one having the lowest free energy. Hence, PSP can be viewed as a problem of optimization, where the structure with the lowest free energy should be found among all possible structures. However, this is an NP-problem, where traditional optimization methods, in general, do not have good performance. Genetic algorithms (GAs), due to their characteristics, are interesting for this class of problems. In recent years, there is a growing interest in using GAs for the protein structure prediction problem. The main objective of this work is to verify the addition of useful information to GAs employed in PSP. Each individual of the GA represents a solution for the optimization problem which is, in this case, a possible conformation that will be evaluated by a force field function. Thus, an individual is encoded by a set of torsion angles of each amino acid. In order to reduce the search space, a database composed of angles, determined by crystallography and NMR, is used. With the aim to guide the final search process and maintain diversity in GAs, two strategies were employed here: Random Immigrants and Similarity-based Immigrants. The last strategy was based on similarity of primary amino acid sequence. Furthermore, in this work, a coarse-grained force field, which uses -carbon to represent the protein backbone was employed to evaluate the individuals of GA.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-26012012-161321
Date20 May 2011
CreatorsLariza Laura de Oliveira
ContributorsRenato Tinós, Alexandre Cláudio Botazzo Delbem, Paulo Sérgio Lopes de Oliveira
PublisherUniversidade de São Paulo, Bioinformática, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds