O advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das
sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos
2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas.
Atualmente existe uma nova proposta da comunidade
científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse
contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas.
A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts, grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite
visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida.
Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência.
Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts, dos quais 21 acontecem em regiões
intergênicas.
A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC)
Darcy Fontoura de Almeida do LNCC (dados ainda não publicados).
A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos. / The advent of new sequencing technologies and the development of computational tools that facilitate the analysis of genomes, generated the exponential
growth of genome databases. New approaches in-silico of the comparative genomics use such data in its comparisons. Nevertheless, recent work on the genome of
Escherichia coli indicate that the current state of coding sequences (Coding Sequences - CDS) from annotated genomes contain several errors, which need to be verified
(Ochman e Davalos 2006). Therefore the correct description of a CDS is important to allow future genomic comparisons. Currently, there is an innovated proposal of the
scientific community of biological databases to establish standards for the submission of the draft genome sequences in the new era of sequencing. Within this context, it is
highlighted the identification and/or correction of frameshifts during the assembly of genomic sequences.
The goal of this work was developing a tool with two comparative methods to identify CDSs with conflicting attributes. It uses the description of conflict
to describe attributes such as frameshifts, large insertions or deletions, truncations, etc..
that are detected from a CDS or several CDSs used as references, depending on model.
Also, the proposed tool allows to user to view of the results graphically and provide access to other tools, providing support for future friendly and faster genomic analysis.
As a model of study, it was used the analysis of CDSs with conflicting attributes of the genome of E. coli strain CFT073 (NCBI) version AE014075.1, (last update date:
April 20 of 2006), with this purpose was used as a reference genome of E.coli strain O157: H7 EDL933 version AE005174.2 (last update date: 6 June of 2008). Through this
analysis were identified and stored 1865 CDSs (Included possible paralogs) because they present only alignments with coverage exceeding 30% of the CSD of reference. In
a more detailed analysis of these results, 144 CDSs startle in the target genome by probably present frameshifts, of which 21 occur in intergenic regions.
The tool developed in this work, also was applied to the case study of a genomic region of the bacterium Klebsiella pneumoniae strain KP13. The genome of this bacterium was
sequenced in Computational Genomics Unit (UGC) Darcy Fontoura de Almeida LNCC (unpublished data).
From the analysis of these genomes, one can conclude the importance of using
the tool in the stages of identification, verification and correction of errors in annotation,and thus the need for its inclusion in the sequencing projects that want to reach high standards in the submission of genomic data.
Identifer | oai:union.ndltd.org:IBICT/oai:agregador.ibict.br.BDTD_LNCC:oai:lncc.br:111 |
Date | 23 August 2010 |
Creators | Guadalupe Del Rosario Quispe Saji |
Contributors | Maurillo Egidio Cantão, João Carlos Pereira da Silva, Marcio Alves Ferreira, Marisa Fabiana Nicolás |
Publisher | Laboratório Nacional de Computação Científica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Biblioteca Digital de Teses e Dissertações do LNCC, instname:Laboratório Nacional de Computação Científica, instacron:LNCC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0025 seconds