Return to search

Aplicação da inteligência artificial na anotação automática de genomas bacterianos

Orientador : Prof. Dr. Fábio de Oliveira Pedrosa / Co-Orientador: Prof. Dr. Roberto Tadeu Raittz / Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 16/02/2012 / Bibliografia: fls. 81-86 / Resumo: O propósito da anotação é identificar sequências de DNA codificadoras de RNAs ou proteínas, esse processo é importante porque atribuem funções moleculares aos produtos gênicos. Para isso, são utilizadas ferramentas computacionais de anotação de genes que usam alinhamentos de sequência de proteína ou de DNA com o propósito de identificar genes homólogos e utilizar as informações de banco de dados de domínio público para inferir a função do gene. Embora sejam técnicas eficientes, elas podem estar sujeitas a erros quando realizada sem curadoria de um perito, em particular quando ocorre inexistência de grau de similaridade significativo de uma sequência comparada com outras sequências ou quando o banco de dados é composto por sequências parciais. Além disso, a taxa de erro de anotação pode ser significativamente aumentada quando a sequência de proteína de consulta é nova, compartilhando nenhuma semelhança com qualquer sequência disponível em bases de dados. Por esses motivos, neste trabalho desenvolveu-se uma ferramenta para verificar anotação de genes em genomas completos de bactérias, o programa Bioinformatics Tool Based on Bacterial Genomes Comparison (BOBBLES). Ele realiza a verificação da predição de genes computacionalmente propostos pelo programa Hybrid-Gene Finder (HGF). O programa BOBBLES compara a anotação de um genoma de referência completo de bactérias com os genes identificados pelo programa HGF. Este programa utiliza duas abordagens de comparação de sequências, uma utilizando pesquisas de similaridade de sequência através do programa BlastP e a outra utilizando o programa SILA. Ambas as abordagens servem para decidir se as sequências sugeridas pelo programa HGF foram anotadas corretamente. Para testar a ferramenta BOBBLES, utilizou-se um conjunto composto por 14 genomas bacterianos completos. Foram encontrados 365 novos genes e 101 genes com melhor ou similar grau alinhamento em fase de leitura diferente do genoma de referência, resultando em uma porcentagem de acerto de aproximadamente 76 % para esse conjunto de genomas, utilizando o alinhamento das sequências com o programa SILA. Já com o alinhamento realizado pelo programa Blastp obteve-se 529 novos genes. No entanto, o tempo médio estimado de execução do programa BOBBLES tendo em seu algoritmo a ferramenta SILA é de pelo menos cinco vezes mais rápido do que utilizando o programa BlastP. Essa diferença de tempo é justificada pelo fato do programa SILA realizar os alinhamentos das sequências com indexação recursiva em um banco de dados local, o banco de dados de proteínas não redundantes do NCBI, conhecido por NR. / Abstract: The annotation purpose is to identify DNA sequences coding for proteins or RNAs, this process is important because it gives the molecular function for the genes products. For that, it's used Gene Annotation tools using protein or DNA sequences alignments to identify homologous genes and use information from the public database to infer gene function. Although these are efficient techniques, they can be error-prone when performed without curation of an expert, particularly in cases of similarity sequence with no degree of similarity with other sequences that may be relevant or when the database is composed by partial sequences. In addition, annotation error rate can be significantly increased when it's a new query protein sequence, sharing no similarity with any available sequence in databases. Therefore, this work has developed a tool to verify genes annotation in complete bacterial genomes, the Bioinformatics Tool Based on Bacterial Genomes Comparison program (BOBBLES). It realizes the computationally gene prediction performed by Hybrid-Gene Finder (HGF). The BOBBLES compares a previous complete bacterial genome annotation with the genes identified by HGF program. This program uses two sequence comparison approaches, the first one using the BlastP program, and another approach using the SILA program, to decide whether they were recorded correctly. The BOBBLES was tested using a set composed of 14 complete bacterial genomes. These tests obtained 365 new genes and 101 genes with better or similar alignment in process of reading different from the reference genome, resulting in 76% of correct results for genomes set which used the alignment of sequences with the SILA program. But using the BlastP program, 529 new genes were obtained. However, the estimated average execution time for the BOBBLES program using SILA program was at least five times faster than using the BlastP program. This time difference is justified by the fact that the SILA program performs the alignments of the sequences with recursive indexing into a local database, the NCBI's non-redundant protein sequence (NR) database.

Identiferoai:union.ndltd.org:IBICT/oai:dspace.c3sl.ufpr.br:1884/28826
Date January 2012
CreatorsTibães, Juliana Helena
ContributorsRaittz, Roberto Tadeu, Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática, Pedrosa, Fábio de Oliveira, 1947-
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format136f. : il. , grafs., tabs., application/pdf
Sourcereponame:Repositório Institucional da UFPR, instname:Universidade Federal do Paraná, instacron:UFPR
Rightsinfo:eu-repo/semantics/openAccess
RelationDisponível em formato digital

Page generated in 0.0028 seconds