Return to search

Investigação de regressão no processo de mineração de dados / Investigation of regression in the data mining process.

Mineração de dados refere-se ao processo responsável por identificar padrões em grandes conjuntos de dados com o objetivo de extrair um novo conhecimento. Depois de extraídos os padrões, a etapa de pós-processamento tem como objetivo avaliar alguns aspectos desses padrões, como precisão, compreensibilidade e interessabilidade. Um dos problemas da mineração de dados preditiva conhecido como regressão tenta predizer o valor de um atributo-meta contínuo baseado em um conjunto de atributos de entrada. No entanto, a regressão em mineração de dados preditivo é uma questão pouco explorada nas áreas de aprendizado de máquina e mineração de dados, uma vez que a maioria das pesquisas são voltadas para os problemas de classificação. Por outro lado, o DISCOVER é um projeto que está sendo desenvolvido no Laboratório de Inteligência Computacional. Ele tem como objetivo fornecer um ambiente integrado para apoiar as etapas do processo de descoberta de conhecimento, oferecendo funcionalidades voltadas para aprendizado de máquina e mineração de dados e textos. O DISCOVER tem motivado a realização de muitos trabalhos em diversas áreas, sendo este mais um projeto a ele integrado. Para auxiliar na preparação dos dados para a construção de um modelo de regressão simbólico e na posterior avaliação desse modelo foi proposto e implementado neste trabalho o ambiente computacional DISCOVER POSTPROCESSING ENVIRONMENT OF REGRESSION - DiPER. Esse ambiente é composto por uma biblioteca de classes, implementada de acordo com as especificações do DISCOVER, que oferece uma série de métodos para serem utilizados na etapa de pós-processamento do processo de mineração de dados. / Data mining refers to the process which are able to find patterns from big amounts of data in order to discover knowledge. After found the patterns, the post-processing stage of Data Mining evaluates some aspects of these patterns such as precision, compreensibility and interessability. The activity of regression in Data Mining tries to predict the values of a continuous target variable based on a set of other variables. Beside the fact of many researches in Machine Learning and Data Mining are concerned to classification problems, there are many real world regression problems. This fact motivates the study of methods related to post-processing in symbolic regression. Moreover, a group of researchers of Computational Intelligence Laboratoiy (LABIC) is developing a research project, called DISCOVER. The aim of DISCOVER is to support the stages of knowledge discovery offering methods to Machine Learning, Data Mining and Text Mining. This work, that is related to regression problems, is one of the projects integrated into the DISCOVER. In this work we proposed and implemented a computational environment, the DISCOVER POST-PROCESSING ENVIRONMENT OF REGRESSION - DiPER - which is a framework implemented according the specifications of DISCOVER project, that offers a collection of methods to be used in the post-processing stage of Data Mining.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-12112014-101732
Date30 May 2003
CreatorsDosualdo, Daniel Gomes
ContributorsRezende, Solange Oliveira
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeDissertação de Mestrado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0016 seconds