Global ETD Search

1	Genix: desenvolvimento de uma nova pipeline automatizada para anotação de genomas microbianos / Genix: development of a new automated pipeline for microbial genome annotation Kremer, Frederico Schmitt 17 February 2016 (has links) Submitted by Maria Beatriz Vieira (mbeatriz.vieira@gmail.com) on 2017-10-18T12:09:03Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) dissertacao_frederico_schmitt_kremer.pdf: 1606431 bytes, checksum: 192db9fb559b24dfd0b3038659fdd5b7 (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-10-23T11:10:01Z (GMT) No. of bitstreams: 2 dissertacao_frederico_schmitt_kremer.pdf: 1606431 bytes, checksum: 192db9fb559b24dfd0b3038659fdd5b7 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-10-23T11:11:40Z (GMT) No. of bitstreams: 2 dissertacao_frederico_schmitt_kremer.pdf: 1606431 bytes, checksum: 192db9fb559b24dfd0b3038659fdd5b7 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-10-23T11:11:52Z (GMT). No. of bitstreams: 2 dissertacao_frederico_schmitt_kremer.pdf: 1606431 bytes, checksum: 192db9fb559b24dfd0b3038659fdd5b7 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-02-17 / Conselho Nacional de Pesquisa e Desenvolvimento Científico e Tecnológico - CNPq / O advento do sequenciamento de DNA de nova geração (NGS) reduziu significativamente o custo dos projetos de sequenciamento de genomas. Quanto mais fácil é de obter novos dados genômicos, mais acuradas deve ser a etapa de anotação, de forma a se reduzir a perda de informações relevantes e efetuar o acúmulo de erros que possam afetar a acurácia das análises posteriores. No caso dos genomas bacterianos, um grande número de programas para anotação já foi desenvolvido, entretanto, muitos destes softwares não incorporaram etapas para otimizar os seus resultados, como filtragem de proteínas falso-positivas/spurious e a anotação mais completa de RNA não-codificantes. O presente trabalho descreve o desenvolvimento do Genix, uma nova pipeline automatizada que combina a funcionalidade de diferentes softwares, incluindo Prodigal, tRNAscan-SE, RNAmmer, Aragorn, INFERNAL, NCBI-BLAST+, CD-HIT, Rfam e Uniprot, com a intenção de aumentar a afetividade dos resultados de anotação. Para avaliar a acurácia da presente ferramenta, foram usados como modelo de estudo os genomas de referência de Escherichia coli K-12, Leptospira interrogans cepa Fiocruz L1-130, Listeria monocytogenese EGD-e e Mycobacterium tuberculosis H37Rv. Os resultados obtidos pelo Genix foram comparados às anotações originais e as obtidas pelas ferramentas de anotação RAST e BASys, considerando genes novos, faltantes e exclusivos, informações de anotação funcional e predições de ORFs spurious. De forma a se quantificar o grau de acurácia, uma nova métrica, denominada discrepância de anotação foi também proposta. Na análise comparativa o Genix apresentou para todos os genomas o menor valor de discrepância, variando entre 0,96 e 5,71%, sendo o maior valor observado no genoma de L. interrogans, para o qual RAST e BASys apresentaram valores superiores a 14,0%. Além disso, foram identificadas proteínas spurious nas anotações geradas pelos demais programas, e, em menor número, nas anotações de referência, indicando que a utilização do Antifam permite um melhor controle do número de genes falso positivos. A partir dos testes realizados, foi possível demonstrar que o Genix é capaz de gerar anotação com boa acurácia (baixo discrepância), menor perda de genes relevantes (funcionais) e menor número de genes falso positivos. / The advent of next-generation sequencing (NGS) significantly reduced the cost of genome sequencing projects. The easier it is to generate genomic data, the more accurate the annotation steps must to be to avoid both the loss of information and the accumulation of erroneous features that may affect the accuracy of further analysis. In the case of bacteria genomes, a range of web annotation software has been developed; however, many applications have not incorporated the steps required to improve the output (eg: false-positive/spurious ORF filtering and a more complete non-coding RNA annotation). The present work describes the implementation of Genix, a new bacteria genome annotation pipeline that combines the functionality of the programs Prodigal, tRNAscan-SE, RNAmmer, Aragorn, INFERNAL, NCBI-BLAST+, CD-HIT, Rfam and UniProt, with the intention of increasing the effectiveness of the annotation results. To evaluate the accuracy of Genix, we used as models of study the reference genomes of Escherichia coli K-12, Leptospira interrogans strain Fiocruz L1-130, Listeria monocytogenes EGD-e and Mycobacterium tuberculosis H37Rv. the results obtained by Genix were compared to the original annotation and to those from the annotation pipelines RAST and BASys considering new, missing and exclusive genes, functional annotation information and the prediction of spurious ORFs. To quantify the annotation accuracy, a new metric, called “annotation discrepancy” was developed. In a comparative analysis, Genix showed the smallest discrepancy for the four genomes, ranging for 0.96 to 5.71%, the highest discrepancy was bserved in the L. interrogans genome, for which RAST and BASys resulted in discrepancies greater than 14.0%. Additionally, several spurious proteins were identified in the annotations generated by RAST and BASys, and, in smaller number, in the reference annotations, indicating that the use of the Antifam database allows a better control of the number of false-positive genes. Based on the evaluations, it was possible to show that Genix is able to generate annotations with good accuracy (low discrepancy), low omission of relevant (functional) genes and a small number of false-positive genes. CNPQ::OUTROS Biotecnologia Bioinformática NGS Servidor Web Genômica microbiana LAMP Bioinformatics Webserver Microbial genomics

Search results

Genix: desenvolvimento de uma nova pipeline automatizada para anotação de genomas microbianos / Genix: development of a new automated pipeline for microbial genome annotation