A demanda por abordagens eficientes para o problema de reconhecer a estrutura de cada gene numa sequência genômica motivou a implementação de um grande número de programas preditores de genes. Fizemos uma análise dos programas de sucesso com abordagem probabilística e reconhecemos semelhanças na implementação dos mesmos. A maior parte desses programas utiliza a cadeia oculta generalizada de Markov (GHMM - generalized hiddenMarkov model) como um modelo de gene. Percebemos que muitos preditores têm a arquitetura da GHMM fixada no código-fonte, dificultando a investigação de novas abordagens. Devido a essa dificuldade e pelas semelhanças entre os programas atuais, implementamos o sistema MYOP (Make Your Own Predictor) que tem como objetivo fornecer um ambiente flexível o qual permite avaliar rapidamente cada modelo de gene. Mostramos a utilidade da ferramenta através da implementação e avaliação de 96 modelos de genes em que cada modelo é formado por um conjunto de estados e cada estado tem uma distribuição de duração e um outro modelo probabilístico. Verificamos que nem sempre um modelo probabilísticomais sofisticado fornece um preditor melhor, mostrando a relevância das experimentações e a importância de um sistema como o MYOP. / The demand for efficient approaches for the gene structure prediction has motivated the implementation of different programs. In this work, we have analyzed successful programs that apply the probabilistic approach. We have observed similarities between different implementations, the same mathematical framework called generalized hidden Markov chain (GHMM) is applied. One problem with these implementations is that they maintain fixed GHMM architectures that are hard-coded. Due to this problem and similarities between the programs, we have implemented the MYOP framework (Make Your Own Predictor) with the objective of providing a flexible environment that allows the rapid evaluation of each gene model. We have demonstrated the utility of this tool through the implementation and evaluation of 96 gene models in which each model has a set of states and each state has a duration distribution and a probabilistic model. We have shown that a sophisticated probabilisticmodel is not sufficient to obtain better predictor, showing the experimentation relevance and the importance of a system as MYOP.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-25112009-151237 |
Date | 23 March 2007 |
Creators | Kashiwabara, Andre Yoshiaki |
Contributors | Durham, Alan Mitchell |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | English |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0018 seconds