Return to search

Aplicação de algoritmos de mineração de dados para classificação molecular de Leptospira spp / Application of data mining algorithms for molecular classification of Leptospira spp

Submitted by Maria Beatriz Vieira (mbeatriz.vieira@gmail.com) on 2017-08-30T14:07:13Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissertacao_julia_labonde.pdf: 678599 bytes, checksum: d233ff13ddb416df716b9ee25c98978d (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-09-01T19:13:34Z (GMT) No. of bitstreams: 2
dissertacao_julia_labonde.pdf: 678599 bytes, checksum: d233ff13ddb416df716b9ee25c98978d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-09-01T19:14:34Z (GMT) No. of bitstreams: 2
dissertacao_julia_labonde.pdf: 678599 bytes, checksum: d233ff13ddb416df716b9ee25c98978d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-09-01T19:14:45Z (GMT). No. of bitstreams: 2
dissertacao_julia_labonde.pdf: 678599 bytes, checksum: d233ff13ddb416df716b9ee25c98978d (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2016-02-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / A leptospirose é uma doença infecciosa de importância mundial, que afeta humanos e animais, causada por espiroquetas patogênicas pertencentes ao gênero Leptospira. Para a área epidemiológica e clínica é fundamental que os laboratórios tenham a capacidade de identificar e classificar com precisão as espécies de Leptospira que causam doença, para que sejam tomadas decisões coerentes com relação à saúde pública. Neste estudo, nós relatamos pela primeira vez a utilização de ferramentas de mineração de dados para fins de classificação de cepas do gênero Leptospira. Vinte e cinco loci referentes a 15 genes foram selecionadas e analisados em 600 genomas rascunho de Leptospira, com o propósito de buscar polimorfismos que pudessem ser utilizados na classificação de cada espécie. Para isso, foram utilizados os algoritmos baseados em mineração de dados C4.5, Naive
Bayes e Support Vector Machine. Todos os algoritmos computacionais de mineração de dados utilizados neste trabalho apresentaram valores de acurácia acima de 93% para classificação de Leptospira a nível de espécie, no entanto, o algoritmo C4.5, além de atingir a melhor acurácia de classificação (95.6%), também apresentou os genes que contribuíram para o resultado final da análise. O mesmo banco de dados genômicos utilizado pelos algoritmos computacionais foi submetido a testes com a metodologia MLST – técnica mais utilizada para classificação molecular de espécies
deste gênero – no entanto, nenhum dos testes apresentou acurácia superior a 80%. Visto o algoritmo de mineração de dados C4.5 atingir uma acurácia superior aos outros algoritmos, pode-se concluir que C4.5 é uma ferramenta de mineração de dados bastante promissora para classificar espécies de Leptospira. / Leptospirosis is an infectious disease of global importance that affects humans and animals caused by pathogenic spirochetes belonging to the genus Leptospira. For epidemiological and clinical areas, it is essential that laboratories have the ability to identify and classify accurately species of Leptospira that cause disease, to take decisions consistent with respect to public health. In this study, we report for the first time the use of data mining tools for the purposes of strain classification of the genus Leptospira. Twenty-five loci related to 15 genes were selected and analyzed in 600 Leptospira draft genomes in order to search polymorphisms that could be used for the classification of each species. For this, data mining-based algorithms - C4.5, Naive Bayes and SVM - were used. All data mining computational algorithms used in this study showed accuracy levels above 93% for Leptospira classification species,
however, the C4.5 algorithm achieve the best accuracy rating (95.6%) and presented the genes that contributed to the final result of the analysis. The same genomic database used by computer algorithms has been tested with the MLST methodology – most used technique for molecular classification of species of this genus - however, none of the tests show accuracy higher to 80%. Because data mining algorithm C4.5 achieve better accuracy than other algorithms, it can be concluded that C4.5 is a very
promising data mining tool to classify species of Leptospira.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpel.edu.br:prefix/3710
Date19 February 2016
CreatorsLabonde, Julia
Contributorshttp://lattes.cnpq.br/4649853685495071, Dellagostin, Odir Antônio
PublisherUniversidade Federal de Pelotas, Programa de Pós-Graduação em Biotecnologia, UFPel, Brasil, Centro de Desenvolvimento Tecnológico
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFPEL, instname:Universidade Federal de Pelotas, instacron:UFPEL
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds