Combinação de classificadores simbólicos utilizando medidas de regras de conhecimento e algoritmos genéticos / Combinig classifiers using knowledge rule measures and genetic algortgms

A qualidade das hipóteses induzidas pelos atuais sistemas de aprendizado de máquina supervisionado depende da quantidade dos exemplos no conjunto de treinamento. Por outro lado, muitos dos sistemas de aprendizado de máquina conhecidos não estão preparados para trabalhar com uma grande quantidade de exemplos. Grandes conjuntos de dados são típicos em mineração de dados. Uma maneira para resolver este problema consiste em construir ensembles de classificadores. Um ensemble é um conjunto de classificadores cujas decisões são combinadas de alguma maneira para classificar um novo caso. Apesar de melhorar o poder de predição dos algoritmos de aprendizado, ensembles podem ser compostos por muitos classificadores, o que pode ser indesejável. Ainda, apesar de ensembles classificarem novos exemplos melhor que cada classificador individual, eles se comportam como caixas pretas, no sentido de não oferecer ao usuário alguma explicação relacionada à classificação por eles fornecida. Assim, neste trabalho propomos uma abordagem que utiliza algoritmos de aprendizado simbólico para construir ensembles de classificadores simbólicos que explicam suas decisões de classificação e são tão ou mais precisos que o mais preciso dos seus classificadores individuais. Além disso, considerando que algoritmos de aprendizado simbólico utilizam métodos de busca local para induzir classificadores quanto que algoritmos genéticos utilizam métodos de busca global, propomos uma segunda abordagem para aprender conceitos simbólicos de grandes bases de dados utilizando algoritmos genéticos para evoluir classificadores simbólicos em um u´ nico classificador simbólico, de maneira que o classificador evoluído é mais preciso que os classificadores iniciais. Ambas propostas foram implementadas em dois sistemas computacionais. Diversos experimentos usando diferentes conjuntos de dados foram conduzidos para avaliar ambas as propostas. Ainda que os resultados experimenta das duas soluções propostas são promissores, os melhores resultados foram obtidos utilizando a abordagem relacionada a algoritmos genéticos / The quality of hypotheses induced by most of the available supervised machine learning algorithms depends on the quantity and quality of the instances in the training set. However, several well known learning algorithms are not able to manipulate many instances making it difficult to induce good classifiers from large databases, as are needed in the Data Mining process. One approach to overcome this problem is to construct ensembles of classifiers. An ensemble is a set of classifiers whose decisions are combined in some way to classify new cases (instances). However, although ensembles improve learning algorithms power prediction, ensembles may use an undesired large set of classifiers. Furthermore, despite classifying new cases better than each individual classifier, ensembles are generally a sort of ?black-box? classifier, not being able to explain their classification decisions. To this end, in this work we propose an approach that uses symbolic learning algorithms to construct ensembles of symbolic classifiers that can explain their classification decisions so that the ensemble is as accurate as or more accurate than the individual classifiers. Furthermore, considering that symbolic learning algorithms use local search methods to induce classifiers while genetic algorithms use global search methods, we propose a second approach to learn symbolic concepts from large databases using genetic algorithms to evolve symbolic classifiers into only one symbolic classifier so that the evolved classifier is more accurate than the initial ones. Both proposals were implemented in two computational systems. Several experiments using different databases were conducted in order to evaluate both proposals. Results show that although both proposals are promising, the approach using genetic algorithms produces better results.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-29092006-110806
Date29 August 2006
CreatorsFlávia Cristina Bernardini
ContributorsMaria Carolina Monard, Alexandre Gonçalves Evsukoff, Ana Cristina Bicharra Garcia, Anna Helena Reali Costa, Solange Oliveira Rezende
PublisherUniversidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds