Expressed Sequence Tags (ESTs) são amostras de trechos de genes, que funcionam como moldes na síntese de proteínas. Como a quantidade de ESTs coletados nos últimos anos é muito grande, o uso de computadores tornou-se imprescindível para a identificação de genes, proteínas e para a descoberta de genes homólogos. Este trabalho propõe uma metodologia e implementa uma ferramenta para a visualização de ESTs através de um grafo para auxiliar biólogos na exploração e na descoberta de conhecimento sobre estas seqüências. A metodologia inclui agrupamento usando um programa montador de seqüências e, conseqüentemente, a transformação dos grupos em nós de um grafo. O algoritmo BLAST é usado para procurar alinhamentos entre seqüências, representando-os posteriormente por arestas entre as seqüências mais similares. Para a visualização do grafo utilizamos e modificamos a ferramenta TG WikiBrowser conectada a um banco de dados. O resultado é uma ferramenta interativa baseada em código livre e robusto que funciona em ambientesWindows e Linux. Ela possibilita a fácil exploração do grafo, com diversas funcionalidades como, por exemplo: a expansão e filtragem do grafo, a busca por rótulos ou trechos de seqüências e a visualização detalhada de seqüências e grupos de seqüências. Com isso, os biólogos e especialistas em bioinformática ganham mais uma alternativa de investigação da genética / Expressed Sequence Tags (ESTs) are samples of gene stretches, which play the role of templates in synthesis of proteins. Since the amount of collected ESTs on the past few years is enormous, the use of computers has become essential to fields like gene and protein identification, and gene homology. This work proposes a methodology and a tool for visualization of ESTs as a graph for aiding biologists on exploration and on knowledge discovery about these sequences. The methodology includes clustering of ESTs using an assembly program and, consequently, the transformation of the groups in nodes of a graph. BLAST algorithm is used to search alignments among sequences, later representing them as edges between the most similar sequences. For the graph visualization, we adapted TGWikiBrowser software connected to a database. The result is a robust and open source interactive tool forWindows and Linux. It allows easy graph exploration, with various functionalities, for example: graph expansion and filtering, searching for label or sequence stretches, and detailed visualization of sequences and groups of sequences. Therefore, we hope biologists can count on one more option in genetics research
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-08052007-100008 |
Date | 05 February 2007 |
Creators | Delane Pereira de Oliveira Dias |
Contributors | Rosane Minghim, Nalvo Franco de Almeida Junior, Guilherme Pimentel Telles |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0027 seconds