Return to search

LEGAL-Tree: um algoritmo genético multi-objetivo para indução de árvores de decisão / LEGAL-Tree: a lexocographic genetic algorithm for learning decision trees

Dentre as diversas tarefas em que os algoritmos evolutivos têm sido empregados, a indução de regras e de árvores de decisão tem se mostrado uma abordagem bastante atrativa em diversos domínios de aplicação. Algoritmos de indução de árvores de decisão representam uma das técnicas mais populares em problemas de classificação. Entretanto, os algoritmos tradicionais de indução apresentam algumas limitações, pois, geralmente, usam uma estratégia gulosa, top down e com particionamento recursivo para a construção das árvores. Esses fatores degradam a qualidade dos dados, os quais podem gerar regras estatisticamente não significativas. Este trabalho propõe o algoritmo LEGAL-Tree, uma nova abordagem baseada em algoritmos genéticos para indução de árvores de decisão. O algoritmo proposto visa evitar a estratégia gulosa e a convergência para ótimos locais. Para isso, esse algoritmo adota uma abordagem multi-objetiva lexicográfica. Nos experimentos realizados sobre bases de dados de diversos problemas de classificação, a função de fitness de LEGAL-Tree considera as duas medidas mais comuns para avaliação das árvores de decisão: acurácia e tamanho da árvore. Os resultados obtidos mostraram que LEGAL-Tree teve um desempenho equivalente ao algoritmo SimpleCart (implementação em Java do algoritmo CART) e superou o tradicional algoritmo J48 (implementação em Java do algoritmo C4.5), além de ter superado também o algoritmo evolutivo GALE. A principal contribuição de LEGAL-Tree não foi gerar árvores com maior acurácia preditiva, mas sim gerar árvores menores e, portanto, mais compreensíveis ao usuário do que as outras abordagens, mantendo a acurácia preditiva equivalente. Isso mostra que LEGAL-Tree obteve sucesso na otimização lexicográfica de seus objetivos, uma vez que a idéia era justamente dar preferência às árvores menores (em termos de número de nodos) quando houvesse equivalência de acurácia / Among the several tasks evolutionary algorithms have been successfully employed, the induction of classification rules and decision trees has been shown to be a relevant approach for several application domains. Decision tree induction algorithms represent one of the most popular techniques for dealing with classification problems. However, conventionally used decision trees induction algorithms present limitations due to the strategy they usually implement: recursive top-down data partitioning through a greedy split evaluation. The main problem with this strategy is quality loss during the partitioning process, which can lead to statistically insignificant rules. In this thesis we propose the LEGAL-Tree algorithm, a new GA-based algorithm for decision tree induction. The proposed algorithm aims to prevent the greedy strategy and to avoid converging to local optima. For such, it is based on a lexicographic multi-objective approach. In the experiments which were run in several classification problems, LEGAL-Tree\'s fitness function considers two of the most common measures to evaluate decision trees: accuracy and tree size. Results show that LEGAL-Tree performs similarly to SimpleCart (CART Java implementation) and outperforms J48 (C4.5 Java implementation) and the evolutionary algorithm GALE. LEGAL-Tree\'s main contribution is not to generate trees with the highest predictive accuracy possible, but to provide smaller (and thus more comprehensible) trees, keeping a competitive accuracy rate. LEGAL-Tree is able to provide both comprehensible and accurate trees, which shows that the lexicographic fitness evaluation is successful since its goal is to prioritize smaller trees (fewer number of nodes) when there is equivalency in terms of accuracy

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-12052010-165344
Date23 February 2010
CreatorsBasgalupp, Márcio Porto
ContributorsCarvalho, André Carlos Ponce de Leon Ferreira de, Freitas, Alex Alves
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0026 seconds