Global ETD Search

Return to search

Pré-processamento para a mineração de dados

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2013-07-15T23:15:02Z (GMT). No. of bitstreams: 1
223783.pdf: 989944 bytes, checksum: 5339f705a93558e2bbd0069d6c4d34b9 (MD5) / A mineração de dados em grandes bases pode requerer alto tempo computacional. Além do mais, é comum as bases de dados conterem variáveis mensuradas em diferentes níveis: intervalar, ordinal e nominal. Neste caso, técnicas desenvolvidas para variáveis quantitativas não poderiam ser aplicadas sob as variáveis originais. Como exemplo, pode-se citar a análise de agrupamentos pelo método das k-médias. Este exige que as variáveis de entradas sejam quantitativas.
Este trabalho apresenta uma metodologia para a fase do pré-processamento em mineração de dados, que utiliza a análise de componentes principais (ACP) com escalonamento ótimo (EO). O pré-processamento é uma etapa fundamental que pode melhorar a performance dos algoritmos de análise, através da redução de dimensionalidade. O escalonamento ótimo permite analisar bases que contenham variáveis observadas em diferentes níveis de mensuração.
Através da ACP é possível obter uma redução das variáveis originais em um número de componentes principais, gerando novas coordenadas, menor que o número de variáveis originais. As novas coordenadas podem ser utilizadas na mineração de dados propriamente dita, em tarefas como agrupamentos, classificação entre outras. Essas tarefas podem ser realizadas por métodos estatísticos ou computacionais, como redes neurais, algoritmos genéticos entre outros.
A metodologia proposta foi testada em uma base de dados com 118.776 registros de pessoas, pesquisadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE, contendo 13 variáveis observadas em diferentes níveis de mensuração. Através da ACP com EO, as 13 variáveis foram reduzidas a 6 componentes principais, preservando ainda 77% da variabilidade original. Sob o novo conjunto de coordenadas foi aplicada a análise de agrupamentos, utilizando o algoritmo das k-médias para a separação dos grupos, com o objetivo de ilustrar uma tarefa comum em mineração de dados, a identificação de grupos, onde foi possível descrever 6 subgrupos ou clusters.

Ciência da computação

Informatica

Mineração de dados (Computação)

Analise de componentes principais

Identifer	oai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/101803
Date	January 2005
Creators	Schmitt, Jeovani
Contributors	Universidade Federal de Santa Catarina, Andrade, Dalton Francisco de, Barbetta, Pedro Alberto
Publisher	Florianópolis, SC
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format	146 f.\| grafs. tab.
Source	reponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds

Pré-processamento para a mineração de dados

Description

Links & Downloads

Tags

Additional Fields