Return to search

Uma abordagem para a construção de uma única árvore a partir de uma Random Forest para classificação de bases de expressão gênica / An approach to the construction of a single tree from Random Forest to classification of gene expression databases

Random Forest é uma técnica computacionalmente eciente que pode operar rapida-mente sobre grandes bases de dados. Ela tem sido usada em muitos projetos de pesquisa recentes e aplicações do mundo real em diversos domínios, entre eles a bioinformática uma vez que a Random Forest consegue lidar com bases que apresentam muitos atributos e poucos exemplos. Porém, ela é de difícil compreensão para especialistas humanos de diversas áreas. A pesquisa de mestrado aqui relatada tem como objetivo criar um modelo simbólico, ou seja, uma única árvore a partir da Random Forest para a classicação de bases de dados de expressão gênica. Almeja-se assim, aumentar a compreensão por parte dos especialistas humanos sobre o processo que classica os exemplos no mundo real tentando manter um bom desempenho. Os resultados iniciais obtidos com o algoritmo aqui proposto são pro-missores, uma vez que ela apresenta, em alguns casos, desempenho melhor do que outro algoritmo amplamente utilizado (J48) e um pouco inferior à Random Forest. Além disso, a árvore criada apresenta, no geral, tamanho menor do que a árvore criada pelo algoritmo J48. / Random Forest is a computationally ecient technique which can operate quickly over large datasets. It has been used in many research projects and recent real-world applications in several elds, including bioinformatics since Random Forest can handle datasets having many attributes, and few examples. However, it is dicult for human experts to understand it. The research reported here aims to create a symbolic model, i.e. a single tree from a Random Forest for the classication of gene expression datasets. Thus, we hope to increase the understanding by human experts on the process that classies the examples in the real world trying to keep a good performance. Initial results obtained from the proposed algorithm are promising since it presents in some cases performance better than other widely used algorithm (J48) and a slightly lower than a Random Forest. Furthermore, the induced tree presents, in general, a smaller size than the tree built by the algorithm J48.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-15102013-183234
Date27 August 2013
CreatorsThais Mayumi Oshiro
ContributorsJosé Augusto Baranauskas, Helena Paula Brentani, Roberto Hirata Junior
PublisherUniversidade de São Paulo, Bioinformática, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds