Nesta tese apresentamos alguns resultados teóricos e práticos da modelagem de seqüências simbólicas com cadeias estocásticas parcimoniosas. As cadeias estocásticas parcimoniosas, que incluem as cadeias estocásticas de memória variável, constituem uma generalização das cadeias de Markov de alcance fixo. As seqüências simbólicas às quais foram aplicadas as ferramentas desenvolvidas são as cadeias de aminoácidos. Primeiramente, introduzimos um novo algoritmo, chamado de SPST, para selecionar o modelo de cadeia estocástica parcimoniosa mais ajustado a uma amostra de seqüências. Em seguida, utilizamos esse algoritmo para estudar dois importantes problemas da genômica; a saber, a classificação de proteínas em famílias e o estudo da evolução das seqüências biológicas. Finalmente, estudamos a velocidade de convergência de algoritmos relacionados com a estimação de uma subclasse das cadeias estocásticas parcimoniosas, as cadeias estocásticas de memória variável. Assim, generalizamos um resultado prévio de velocidade exponencial de convergência para o algoritmo PST, no caso de cadeias de memória ilimitada. Além disso, obtemos um resultado de velocidade de convergência para uma versão generalizada do Critério da Informação Bayesiana (BIC), também conhecido como Critério de Schwarz. / In this thesis we present some theoretical and practical results, concerning symbolic sequence modeling with parsimonious stochastic chains. Parsimonious stochastic chains, which include variable memory stochastic chains, constitute a generalization of fixed order Markov chains. The symbolic sequences modeled with parsimonious stochastic chains were the sequences of amino acids. First, we introduce a new algorithm, called SPST, to select the model of parsimonious stochastic chain that fits better to a sample of sequences. Then, we use the SPST algorithm to study two important problems of genomics. These problems are the classification of proteins into families and the study of the evolution of biological sequences. Finally, we find upper bounds for the rate of convergence of some algorithms related with the estimation of a subclass of parsimonious stochastic chains; namely, the variable memory stochastic chains. In consequence, we generalize a previous result about the exponential rate of convergence of the PST algorithm, in the case of unbounded variable memory stochastic chains. On the other hand, we prove a result about the rate of convergence of a generalized version of the Bayesian Information Criterion (BIC), also known as Schwarz\' Criterion.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-07032007-121126 |
Date | 19 January 2007 |
Creators | Florencia Graciela Leonardi |
Contributors | Jefferson Antonio Galves, Hugo Aguirre Armelin, Shaker Chuck Farah, Roberto Fernandez, Jacob Ricardo Fraiman, Nancy Lopes Garcia |
Publisher | Universidade de São Paulo, Bioinformática, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0019 seconds