Global ETD Search

1	Modelos logisticos quadraticos com maxima verossimilhança penalizada para previsão de estrutura secundaria de proteinas Porrelli, Raul Neder 20 November 1995 (has links) Orientador: Renato M. E. Sabbatini / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-21T01:42:31Z (GMT). No. of bitstreams: 1 Porrelli_RaulNeder_M.pdf: 10278987 bytes, checksum: 09e9a4c65fd6c396aa90700be5fdf713 (MD5) Previous issue date: 1995 / Resumo: Apesar do grande número de algoritmos existentes para a previsão de estrutura secundária de proteínas, determinadas técnicas estatísticas ainda não haviam sido exploradas. Utilizamos a metodologia de funções discriminantes logísticas na tentativa de ultrapassar a acurácia obtida por métodos que usaram redes neurais e teoria da informação. O número de parâmetros foi limitado explorando-se a natureza periódica das alfa-hélices e placas pregueadas beta. Uma grande variedade de modelos foi pesquisada, usando abordagem semi-paramétrica (máxima verossimilhança com penalização) combinada com seleção gradual de parâmetros. Mostramos que os modelos mais bem sucedidos tem ao redor de 800 parâmetros "efetivos" para o conjunto de dados utilizado. Os 340 parâmetros lineares e parte dos 800 parâmetros quadráticos puderam ser interpretados do ponto de vista físico-químico, contrastando com outros métodos da literatura. Após otimização e validação _cruzada, a acurácia foi de 65.9% para três estados estruturais, o que representa um resultado ligeiramente superior aos dos algoritmos já publicados. A maior acurácia de previsão está concentrada numa porção dos resíduos e a confiança da previsão pode ser facilmente calculada. Exploramos a possibilidade de usar estes resíduos, previstos com alta confiabilidade, para prever a estrutura completa da proteína, assim como muitos outros artifícios para aumentar a eficiência do método, com resultados limitados. Embora tenhamos obtido apenas uma modesta melhora da acurácia, a maneira como implementamos o modelo sugere que utilizamos toda a informação estrutural contida em segmentos de até 17 aminoácidos, no nível de complexidade que a quantidade de dados permite / Mestrado / Mestre em Engenharia Elétrica Modelos log-lineares Sequencia de aminoacidos Proteínas - Análise
2	Estudo da modulação do canal de sodio pela ativação da proteina quinase Godoy, Carlos Marcelo Gurjão 15 December 1994 (has links) Orientadores: Jose Wilson Magalhães Bassani e Samuel Cukierman / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-19T21:07:46Z (GMT). No. of bitstreams: 1 Godoy_CarlosMarceloGurjao_D.pdf: 5943953 bytes, checksum: 550b0aa5b4aa8af23a8b7c4c6dc65586 (MD5) Previous issue date: 1994 / Resumo: Os canais de sódio são responsáveis pela geração da atividade elétrica celular associada a funções específicas, tais como a contração das células cardíacas que promove o batimento cardíaco, ou transmissão de sinais de controle para todo o corpo pelas fibras nervosas. Os canais de sódio podem ser modulados por inúmeros mecanismos celulares, inclusive pela fosforilação (ligação de íon fosfato), por proteína quinases, da proteína que o constitui. A proteína quinase C, ativada pelo aumento intracelular de diacilglicerol em resposta à estimulação alfa-adrenérgica ou colinérgica muscarínica, pode fosforilar o canal de sódio. Neste trabalho, estudamos os efeitos de três diferentes classes de ativadores da proteína quinase C (diacilglicer6is, ácidos graxos insaturados-cis e ésteres de forbol) sobre a função do canal de sódio e propomos um mecanismobiofísico pelo qual uma das classes de ativadores (os diacilgliceróis) modula o canal de sódio. Utilizamos duas técnicas de "patch clamp" para registro de corrente de sódio em células de neuroblastoma de camundongo (NIE-115): i) "perforatedpatch clamp" para registro de correntesmacroscópicasde sódio e, ii) "cellattached patch clamp" para registro de corrente em canais de sódio.individuais ("single channel recording"). Os resultados obtidos revelaram que os ativadores da proteína quinase C tem múltiplos efeitos sobre as correntes de sódio. Isto sugeriu a existencia de mais de um mecanismo de modulação do canal de sódio pela ativação da proteína quinase C. A ativação da proteína quinase C por diacilglicerol diminuiu as correntes de sódio e desviou a curva de inativação para potenciais mais negativos. A partir de um modelo biofísico baseado nas transições de estado do canal, e de resultados experimentais que confirmaram as previsõesdo modelo,propusemosque o mecanismo pelo qual os diacilgliceróis modulam o canal de sódio consiste do aumento no número de canais que inativam-se diretamente a partir de seu estado de repouso. Este efeito dos diacilgliceróis é um mecanismo biofísico simples e eficiente pelo qual a ativação da proteína quinase C pode modular a função do canal de sódio e, conseqüentemente,a excitabilidade elétrica celular / Abstract: Sodium channels are responsible for the generation of cellular electrical activity involved in specific functions, such as cardiac cell contraction for heart beating, or electrical signal transmission performed by nerve cells for the whole body control. Sodium channels are modulated by many cell mechanisms, incIuding phosphorylation(phosphate ion bonding) of the channelprotein by protein kinases. Protein kinaseC, which is activated when intracellulardiacylglicerolconcentrationis increasedby alpha -adrenergic or cholinergic stimulation,is known to be a sodium channel phosforylator. In this work, we have studied the effects of three different protein kinase C activators (diacylglicerols, cis-unsaturated fatty acids and forbol esters) on sodium channel and suggested a biophysical mechanism for modulation by one kind of the protein kinase C activator (the diacylglicerols). We have used two patch clamp techniques for the sodium current recording in mouse neuroblastoma cells (NIE- 115): i) perforated patch clamp for macroscopic sodium currents recording and li) cellattached patch clamp for single channel recording. The results showed that protein kinase C activators have multiple effects on sodium currents. These results suggested that protein kinase C activation modulates the sodium channel by more. than one mechanism. Protein quinase C activation by diacylglicerol decreased the sodium current amplitude and shifted the inactivation curve to more negative voltages. Considering a biophysical model based on state transitions of the sodium channel and the experimental results that confmned the model predictions, we proposed that the mechanism by which the diacylglicerols modulate sodium channel is an increase on the number of sodium channels direct1y inactivating from their resting state. This diacylglicerol effect represents a simple and efficient biophysical mechanism by which protein kinase C activation might modulate sodium channel function and consequent1y, the cell electrical activity / Doutorado / Engenharia Biomedica / Doutor em Engenharia Elétrica Proleinas Sequencia de aminoacidos Sodio - Efeito fisiológico
3	Método de Wang-Landau para sequenciamento de aminoácidos em estrutura nativa de proteínas em modelos de rede Cagnin, Renato Luciano [UNESP] 15 April 2010 (has links) (PDF) Made available in DSpace on 2014-06-11T19:25:31Z (GMT). No. of bitstreams: 0 Previous issue date: 2010-04-15Bitstream added on 2014-06-13T19:53:21Z : No. of bitstreams: 1 cagnin_rl_me_rcla.pdf: 1628326 bytes, checksum: 51888e5b621ee00120b483fec4fea17a (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Neste trabalho de dissertação, apresentamos uma técnica de se construir sistematicamente sequências de aminoácidos que, ao serem dispostas ao longo de uma cadeia previamente conhecida, resultam em cadeias que se comportam como proteínas. Cada cadeia de aminoácidos, a uma dada temperatura, deve assumir uma forma funcional denominada estrutura nativa, não degenerada, na qual sua energia é a de menor valor possível. A técnica está baseada em um método Monte Carlo, introduzido por Wang e Landau, para se estudar transição de fases em sistemas magnéticos e que neste trabalho foi adaptada e aplicada para se desenhar proteínas. Para se verificar a eficiência do método, foi adotado o modelo de rede para proteínas, onde as cadeias são compostas por 27 monômeros interagindo através do potencial de Miyazawa-Jernigan e 20 tipos de aminoácidos. Um elevado número de sequências foram sintetizadas e todas foram sistematicamente testadas para verificar se cumpriam os requisitos de proteína. Com os resultados obtidos pôde-se verificar o sucesso da implementação da técnica. Trata-se então de uma ferramenta muito interessante e eficiente para o estudo do problema do enovelamento de proteínas / In this dissertation, we present a technique to search and order sequences of amino acids placed along a known chain to build one that behaves as a protein. At a given temperature, each designed sequence should fold to a special nondegenerated conformation known as native state. The energy of the sequence in this state is the lowest one. The technique is based on a Monte Carlo method, introduced by Wang and Landau, to study phase transition of magnetic systems and in this work was adapted and applied to protein design. We adopted the lattice model protein composed of 27 monomers interacting through the Miyazawa-Jernigan potencial and with 20 types of different amino acids. Many sequences were synthesized and all of them were systematically verified if they fulfilled the protein requirements and to check the efficiency of this method. The obtained results showed the success of the implemantation of this technique. Therefore, it is one more very interesting tool to efficiently study the protein folding problem Física aplicada Proteínas - Desenhos Sequencia de aminoacidos Enovelamento Folding
4	Método de Wang-Landau para sequenciamento de aminoácidos em estrutura nativa de proteínas em modelos de rede / Cagnin, Renato Luciano. January 2010 (has links) Orientador: Makoto Yoshida / Banca: Valter Luiz Líbero / Banca: Edson Denis Leonel / Resumo: Neste trabalho de dissertação, apresentamos uma técnica de se construir sistematicamente sequências de aminoácidos que, ao serem dispostas ao longo de uma cadeia previamente conhecida, resultam em cadeias que se comportam como proteínas. Cada cadeia de aminoácidos, a uma dada temperatura, deve assumir uma forma funcional denominada estrutura nativa, não degenerada, na qual sua energia é a de menor valor possível. A técnica está baseada em um método Monte Carlo, introduzido por Wang e Landau, para se estudar transição de fases em sistemas magnéticos e que neste trabalho foi adaptada e aplicada para se desenhar proteínas. Para se verificar a eficiência do método, foi adotado o modelo de rede para proteínas, onde as cadeias são compostas por 27 monômeros interagindo através do potencial de Miyazawa-Jernigan e 20 tipos de aminoácidos. Um elevado número de sequências foram sintetizadas e todas foram sistematicamente testadas para verificar se cumpriam os requisitos de proteína. Com os resultados obtidos pôde-se verificar o sucesso da implementação da técnica. Trata-se então de uma ferramenta muito interessante e eficiente para o estudo do problema do enovelamento de proteínas / Abstract: In this dissertation, we present a technique to search and order sequences of amino acids placed along a known chain to build one that behaves as a protein. At a given temperature, each designed sequence should fold to a special nondegenerated conformation known as native state. The energy of the sequence in this state is the lowest one. The technique is based on a Monte Carlo method, introduced by Wang and Landau, to study phase transition of magnetic systems and in this work was adapted and applied to protein design. We adopted the lattice model protein composed of 27 monomers interacting through the Miyazawa-Jernigan potencial and with 20 types of different amino acids. Many sequences were synthesized and all of them were systematically verified if they fulfilled the protein requirements and to check the efficiency of this method. The obtained results showed the success of the implemantation of this technique. Therefore, it is one more very interesting tool to efficiently study the protein folding problem / Mestre Física aplicada. Proteínas - Desenhos. Sequencia de aminoacidos. Folding. eng
5	Purificação e sequencia parcial de aminoacidos da adesina 2134P isolada de Escherichia coli enterotoxigenica (ETEC) Amorim, Claudio Roberto Nobrega 19 August 1996 (has links) Orientador: Maria Sumiko Arita Matsuura / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-07-21T13:08:08Z (GMT). No. of bitstreams: 1 Amorim_ClaudioRobertoNobrega_M.pdf: 3407710 bytes, checksum: 3bcfb4652357a5fa35b5a91e15d4f0d2 (MD5) Previous issue date: 1996 / Resumo: Colibacilose ocorre em leitões recém-nascidos e pós-desmame. A doença é caracterizada por diarréia aguda, desidratação progressiva e morte, o que leva a uma considerável perda econômica. Para a Escherichia coli causar doença, ela necessita de pelo menos dois fatores de virulência: a) produção de enterotoxinas e, b) produção de adesinas. A proposta deste estudo foi a detecção, isolamento, purificação e caracterização de uma nova adesina, conhecida como 2134P, em amostras de E. coli enterotoxigênica (ETEC) isoladas de leitões com diarréia no Brasil. Esta adesina foi detectada numa freqüência alta (30,0%) em amostras de ETEC, que não expressavam as adesinas K88, K99, 987P, F41 e F42. Isto sugere um papel importante da adesina 2134P na enteropatogenia da colibacilose suma. A adesina 2134P isolada foi purificada por cromatografia em Sepharose CL 4B e analisada por SDS-P AGE corado com Coomassie Blue, apresentando uma única banda de 17 KDa., reconhecida pelo antissoro 2134P por "Westem blot". A técnica de "gold immunolabeling" revelou que a adesina 2134P é uma estrutura do tipo fimbria localizada na superfície da bactéria. A seqüência dos quinze primeiros aminoácidos da porção N-terminal da adesina 2134P foi obtida, a qual apresentou uma homologia de 10 aminoácidos (66%) com a porção N-terminal da fimbria FI07 (FI8ab) / Abstract: Enterotoxigenic colibacillosis occurs in newbom piglets and weaned pigs. It is characterizated by acute diarrhea, progressive dehydratation and death in a few days which lead to considerable economic loss. Disease is caused by two mainly virulence factors of Escherichia cali: a) production of enterotoxins and, b) production of adhesins. The purpose of this study was the detection, isolation purification and characterization of a novel adhesin, referred as 2134P, in Escherichia calí enterotoxigenic (ETEC) strains isolated from piglets with diarrhea in Brazil. This adhesin was detected in a high frequency (30.0%) in these ETEC strains, which didn't present the adhesins K88, K99, 987P, F41 and F42. Its suggests the important role of adehsin 2134P in porcine enter pathogenesis. The adhesin 2134P was purified on Sepharose CL 4B column chromatography, and was analyzed by SDS-PAGE stained with Coomassie Blue, and presented only one band of approximately 17 KDa identified in Westem blot using specific anti-2134P serum. Gold immunolabeling technique revealed that adhesin 2134P is a fimbrial structure on bacterial surface. It was obtained the first fifteen amino acids sequencing-signal of the N-termini portion of the adhesin 2134P, with a homology of 10 amino acids (66%) with the FI07 (FI8ab) fimbriae / Mestrado / Bioquimica / Mestre em Ciências Biológicas Escherichia coli Antígenos Sequencia de aminoacidos Bacterias patogênicas Bioquímica
6	Inibidores de proteinase de sementes de Bauhinia variegata : caracterização fisico-quimica e atividade biologica Leme, Luciana Di Ciero Toledo 03 December 1996 (has links) Orientadores: Sergio Maramgani, Claudio Augusto Machado Sampaio / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-07-21T19:45:45Z (GMT). No. of bitstreams: 1 Leme_LucianaDiCieroToledo_D.pdf: 9158581 bytes, checksum: d80e70dba366d1980e84dad1b3b10893 (MD5) Previous issue date: 1996 / Resumo: A presença de inibidores de serinoproteinases foi investigada em sementes de duas variedades de Bauhinia variegata (Legumonosae, Caesalpinoideae). A purificação dos inibidores de Bauhínia variegata variedade cândida e variedade lilás por cromatografia de troca iônica, cromatografias de exclusão molecular e subsequente cromatografia de fase reversa, evidenciaram nestas espécies 3 isoformas (BvcTI-1, 2 e 3; e BvITI-1, 2 e 3) de inibidores de proteinase com cadeia polipeptídica única. A análise global de aminoácidos resultou em 167 e 180 resíduos de aminoácidos para BvcTI-3 e BvITI-3, respectivamente, e em massa molecular calculada de 18529 para BvcTI-3 e de 20018 para BvITI-3, e 4 resíduos de cisteína para BvcTI-3 e 2 resíduos de cisteína para BvITI-3. Estes resultados incluem estes inibidores na Família' de inibidores tipo Kunitz. A coloração para inibidores de tripsina após focalização isoelétrica demonstrou a presença de inibidores com pontos isoelétricos aparentes de 4,85, 5,00 e 5,15. A determinação da estrutura primária completa de BvcTI-3 e da estrutura primária do N-terminal das isoformas de BvcTI e BvITI, confiram alta homologia com inibidores tipo Kunitz. Os inibidores BvcTI e BvlTI atuam seletivamente sobre serinoproteinases. Extratos de sementes e inibidores purificados de Bauhínia variegata var. cândida e varo. lilás foram testados para atividade de inibição contra tripsina e quimotripsina bovina, porcina e humana, sendo que estas enzimas foram fortemente inibidas pelos inibidores em estudo. O teste de edema através do extravasamento de plasma em pele de coelhos, mostrou que BvcTI potenciou a calicreína de pâncreas de porco / Abstract: The presence of serine proteinase inhibitors was investigated in the seeds of Bauhinia variety cândida and Bauhinia variegata variety lilás (Leguminosae, Caesalpinoideae ). The purification of inhibitors from the Bauhinias by ion-exchange chromatography, molecular exclusion chromatography and subsequent reverse phase chromatography, showed the presence of three isoforms (BvcTI-1, 2 and 3 ; BvITI-1, 2 and 3) in the two species studied with single polypeptide chain. The aminoacid analisis of the forms BvcTI-3 and BvITI-3 resulted in 167 and 180 aminoacids residues, respectively, and the calculated molecular masses were 18529 to BvcTI-3 and 20018 to BvITI-3. It showed 4 cysteine residues to BvcTI-3 and 2 cysteine residues to BvITI-3, and no free thiol groups. This results suggest that these proteins belongs to the Kunitz-type plant inhibitors family. Staining for trypsin inhibitors after isoelectric focusing showed the presence of inhibitors with isoeletric point about 4.85, 5.00 and 5.15. The primary structure sequence of BvcTI-3 was determined, confirming the inhibitor as Kunitz type. The inhibitors BvcTI and BvlTI act selectively on serine proteinases. Extracts from seeds and purifieds inhibitors of both Bauhinia variegata variety candida and Bauhinia variegata variety lilas were tested for inhibitory activity against trypsin and chymotrypsin, from cattle, pig and humans. This three enzymes were strongly inhibited by both inhibitors. The oedema test in rabits showed the BvcTI made the kallikrein of porcine pancreas more potent to plasma. extravasation / Doutorado / Bioquimica / Doutor em Ciências Biológicas Inibidores enzimáticos proteolíticos Pata de vaca Serina proteinase Sequencia de aminoacidos
7	Novas abordagens para o problema do alinhamento múltiplo de sequências / New approaches for the multiple sequence alignment problem Almeida, André Atanasio Maranhão, 1981- 22 August 2018 (has links) Orientador: Zanoni Dias / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-22T15:29:14Z (GMT). No. of bitstreams: 1 Almeida_AndreAtanasioMaranhao_D.pdf: 2248939 bytes, checksum: b57ed5328b80a2fc7f36d1509558e756 (MD5) Previous issue date: 2013 / Resumo: Alinhamento de seqüências é, reconhecidamente, uma das tarefas de maior importância em bioinformática. Tal importância origina-se no fato de ser uma operação básica utilizada por diversos outros procedimentos na área, como busca em bases de dados, visualização do efeito da evolução em uma família de proteínas, construção de árvores filogenéticas e identificação de motifs preservados. Seqüências podem ser alinhadas aos pares, problema para o qual já se conhece algoritmo exato com complexidade de tempo O(l2), para seqüências de comprimento l. Pode-se também alinhar simultaneamente três ou mais seqüências, o que é chamado de alinhamento múltiplo de seqüências (MSA, do inglês Multiple Sequence Alignment ). Este, que é empregado em tarefas como detecção de padrões para caracterizar famílias protéicas e predição de estruturas secundárias e terciárias de proteínas, é um problema NP - Difícil. Neste trabalho foram desenvolvidos métodos heurísticos para alinhamento múltiplo de seqüências de proteína. Estudaram-se as principais abordagens e métodos existentes e foi realizada uma série de implementações e avaliações. Em um primeiro momento foram construídos 342 alinhadores múltiplos utilizando a abordagem progressiva. Esta, que é uma abordagem largamente utilizada para construção de MSAs, consiste em três etapas. Na primeira delas é computada a matriz de distâncias. Em seguida, uma árvore guia é gerada com base na matriz e, finalmente, o MSA é construído através de alinhamentos de pares, cuja ordem é definida pela árvore. Os alinhadores desenvolvidos combinam diferentes métodos aplicados a cada uma das etapas. Para a computação das matrizes de distâncias foram desenvolvidos dois métodos, que são capazes também de gerar alinhamentos de pares de seqüências. Um deles constrói o alinhamento com base em alinhamentos locais e o outro utiliza uma função logarítmica para a penalização de gaps. Foram utilizados ainda outros métodos disponíveis numa ferramenta chamada PHYLIP. Para a geração das árvores guias, foram utilizados os métodos clássicos UPGMA e Neighbor Joining. Usaram-se implementações disponíveis em uma ferramenta chamada R. Já para a construção do alinhamento múltiplo, foram implementados os métodos seleção por bloco único e seleção do par mais próximo. Estes, que se destinam a seleção xiii do par de alinhamentos a agrupar no ciclo corrente, são comumente utilizados para tal tarefa. Já para o agrupamento de um par de alinhamentos, foram implementados 12 métodos inspirados em métodos comumente utilizados - alinhamento de consensos e alinhamento de perfis. Foram feitas todas as combinações possíveis entre esses métodos, resultando em 342 alinhadores. Eles foram avaliados quanto à qualidade dos alinhamentos que geram e avaliou-se também o desempenho dos métodos, utilizados em cada etapa. Em seguida foram realizadas avaliações no contexto de alinhamento baseado em consistência. Nesta abordagem, considera-se MSA ótimo aquele que estão de acordo com a maioria dos alinhamentos ótimos para os n(n ? 1)/2 alinhamentos de pares contidos no MSA. Alterações foram realizadas em um alinhador múltiplo conhecido, MUMMALS, que usa a abordagem. As modificações foram feitas no método de contagem k-mer, assim como, em outro momento, substituiu-se a parte inicial do algoritmo. Foram alterados os métodos para computação da matriz de distâncias e para geração da árvore guia por outros que foram bem avaliados nos testes realizados para a abordagem progressiva. No total, foram implementadas e avaliadas 89 variações do algoritmo original do MUMMALS e, apesar do MUMMALS já produzir alinhamentos de alta qualidade, melhoras significativas foram alcançadas. O trabalho foi concluído com a implementação e a avaliação de algoritmos iterativos. Estes se caracterizam pela dependência de outros alinhadores para a produção de alinhamentos iniciais. Ao alinhador iterativo cabe a tarefa de refinar tais alinhamentos através de uma série de ciclos até que haja uma estabilização na qualidade dos alinhamentos. Foram implementados e avaliados dois alinhadores iterativos não estocásticos, assim como um algoritmo genético (GA) voltado para a geração de MSAs. Nesse algoritmo genético, implementado na forma de um ambiente parametrizável para execução de algoritmos genéticos para MSA, chamado ALGAe, foram realizadas diversas experiências que progressivamente elevaram a qualidade dos alinhamentos gerados. No ALGAe foram incluídas outras abordagens para construção de alinhamentos múltiplos, tais como baseada em blocos, em consenso e em modelos. A primeira foi aplicada na geração de indivíduos para a população inicial. Foram implementados alinhadores baseados em blocos usando duas abordagens distintas e, para uma delas, foram implementadas cinco variações. A segunda foi aplicada na definição de um operador de cruzamento, que faz uso da ferramenta M-COFFEE para realizar alinhamentos baseados em consenso a partir de indivíduos da população corrente do GA, e a terceira foi utilizada para definir uma função de aptidão, que utiliza a ferramenta PSIPRED para predição das estruturas secundárias das seqüências. O ALGAe permite a realização de uma grande variedade de novas avaliações / Abstract: Sequence alignment is one the most important tasks of bioinformatics. It is a basic operation used for several procedures in that domain, such as sequence database searches, evolution effect visualization in an entire protein family, phylogenetic trees construction and preserved motifs identification. Sequences can be aligned in pairs and generate a pairwise alignment. Three or more sequences can also be simultaneously aligned and generate a multiple sequence alignment (MSA). MSAs could be used for pattern recognition for protein family characterization and secondary and tertiary protein structure prediction. Let l be the sequence length. The pairwise alignment takes time O(l2) to build an exact alignment. However, multiple sequence alignment is a NP-Hard problem. In this work, heuristic methods were developed for multiple protein sequence alignment. The main approaches and methods applied to the problem were studied and a series of aligners developed and evaluated. In a first moment 342 multiple aligners using the progressive approach were built. That is a largely used approach for MSA construction and is composed by three steps. In the first one a distance matrix is computed. Then, a guide tree is built based on the matrix and finally the MSA is constructed through pairwise alignments. The order to the pairwise alignments is defined by the tree. The developed aligners combine distinct methods applied to each of steps. Then, evaluations in the consistency based alignment context were performed. In that approach, a MSA is optimal when agree with the majority along all possible optimal pairwise alignments. MUMMALS is a known consistency based aligner. It was changed in this evaluation. The k-mer counting method was modified in two distinct ways. The k value and the compressed alphabet were ranged. In another evaluation, the k-mer counting method and guide tree construction method were replaced. In the last stage of the work, iterative algorithms were developed and evaluated. Those methods are characterized by other aligner's dependence. The other aligners generate an initial population and the iterative aligner performs a refinement procedure, which iteratively changes the alignments until the alignments quality are stabilized. Several evaluations were performed. However, a genetic algorithm for MSA construction stood out along this stage. In that aligner were added other approaches for multiple sequence alignment construction, such as block based, consensus based and template based. The first one was applied to initial population generation, the second one was used for a crossover operator creation and the third one defined a fitness function / Doutorado / Ciência da Computação / Doutor em Ciência da Computação Bioinformática Sequencia de aminoacidos Alinhamento múltiplo de sequências Proteínas Bioinformatics Amino acid sequence Multiple sequence alignments Proteins

1

Page generated in 0.097 seconds