Orientador : Prof. Dr. Roberto Tadeu Raittz / Coorientadores : Dra. Jeroniza Nunes Marchaukoski e Dr. Vinícius Almir Weiss / Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 16/09/2016 / Inclui referências ao final dos capítulos / Resumo: Uma das principais análises envolvendo sequências biológicas, imprescindíveis e complexas, é a análise de homologia. A necessidade de desenvolver técnicas e ferramentas computacionais que consigam predizer com mais eficiência grupos de ortólogos e, ao mesmo tempo, lidar com grande volume de informações biológicas, ainda é um grande gargalo a ser superado pela bioinformática. Atualmente, não existe uma única ferramenta eficiente na detecção desses grupos, pois ainda requerem muito esforço computacional e tempo. Metodologias já consolidadas, como o BLAST 'todos contra todos', RBH e ferramentas como o OrthoMCL, demandam um alto custo computacional e falham quando há ortologia, necessitando de uma intervenção manual sofisticada. Diante desse cenário, neste trabalho, aprensentamos um breve review referente às técnicas, desenvolvidas entre 2011 até metade de 2017, para a detecção de ortólogos, descrevendo 12 ferramentas e contextualizando os principais problemas ainda a serem superados. A maioria das ferramentas utiliza o algoritmo BLAST como algoritmo padrão predição de homologia entre sequências. Apresentamos também uma nova abordagem para a clusterização de homólogos, a ferramenta RAFTS3groups. Para validarmos a ferramenta utilizamos como base de dados o UniProtKB/Swiss-Prot com outras ferramentas de clusterização o UCLUST e CD-HIT. RAFTS3groups mostrou-se ser mais de 4 vezes mais rápido que o CD-HIT e equiparável em volume de clusters e de tempo à ferramenta UCLUST. Para análise e consolidação de homologia, introduzimos uma nova aplicação auxiliar à ferramenta RAFTS3groups, na clusterização de ortólogos, o script DivideCluster. Comparamos com o método BLAST 'todos contra todos', analisando 9 genomas completos de Herbaspirillum spp. disponíveis no NCBI genbank. RAFTS3groups mostrou-se tão eficiente quanto o método, apresentando cerca de 96% de correlação entre os resultados de clusterização de core e pan genoma obtidos. Palavras-chave: homologia, clusterização, alignment-free, k-means, RAFTS3. / Abstract: One of the main tests involving biological sequences, essential and complex, is the analysis of homology. The study of homologous genes involved in processes such as cell cycle, DNA repair in simpler organisms, even with large evolutionary distance, there are genes that are shared between primates, yeasts and bacteria, which we call (core-genome). The need to develop computational tools and techniques that can predict more efficiently ortologs groups and handle large volume of biological information is still a problem to be resolved by Bioinformatics. We don't have a single powerful tool in detecting groups that still require a lot of effort and computing time. Tools, already consolidated, as the BLAST ' 'all-against-all' ', RBH, OrthoMCL, demand a high computational cost and fail when there is orthology, requiring manual intervention. In this scenario, in this work we presents a brief review on main techniques, developed between 2011 until early 2016, for the detection of orthologs groups, describing 12 tools and being developed currently and the main problems main problems still to be overcome. We note that most tools uses the BLAST as default prediction of homology between sequences. We also present a new approach for the analysis of homology, the RAFTS3groups tool. We use as the database UniProtKB /Swiss-Prot with the clustering tools the UCLUST and the CD-HIT. RAFTS3groups proved to be more than 4 times faster than CD-HIT and comparable in volume to clusters and time with UCLUST tool. In Homology analysis we introduced a new clustering strategy of orthology, the DivideCluster algorithm aplication built into the RAFTS3groups. Compared with the BLAST 'all-against-all', analyzing 9 complete genomes from Herbaspirillum spp. available by NCBI genbank. RAFTS3groups was shown to be as efficient as the method, showing approximately 96% of the correlation among the clustering results of core and pan genome obtained. Key-words: homology, clustering, alignment-free, k-means clustering, RAFTS3.
Identifer | oai:union.ndltd.org:IBICT/oai:dspace.c3sl.ufpr.br:1884/49076 |
Date | January 2016 |
Creators | Nichio, Bruno Thiago de Lima |
Contributors | Marchaukoski, Jeroniza Nunes, 1973-, Weiss, Vinicius Almir, 1984-, Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática, Raittz, Roberto Tadeu |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | 89 f. : il., application/pdf |
Source | reponame:Repositório Institucional da UFPR, instname:Universidade Federal do Paraná, instacron:UFPR |
Rights | info:eu-repo/semantics/openAccess |
Relation | Disponível em formato digital |
Page generated in 0.0023 seconds