Return to search

[en] KNOWLEDGE SEARCH IN DATABASES / [pt] BUSCA DE CONHECIMENTOS EM BASES DE DADOS

[pt] Esta dissertação investiga a aplicação de Redes Neurais e
Algoritmos Genéticos como ferramentas para retirar
conhecimentos, em forma de regras, de um Banco de Dados.
Essa nova área, KDD (knowledge Discovery in Database),
surgiu com a necessidade de se desenvolver ferramentas que
possam, de forma automática e inteligente, ajudar aos
analistas de dados a transformar grandes volumes de dados
em informações e organizar estas informações em
conhecimentos úteis.
A pesquisa aqui resumida é portanto, um
desenvolvimento na área de sistemas de computação
(desenvolvimento de sistemas) e na área de inteligência
computacional (data mining, algoritmos genéticos, redes
neurais, interfaces inteligentes, sistemas de apoio a
decisão, criação de bases de conhecimentos) O trabalho de
tese foi dividido em cinco partes principais: um estudo
sobre o processo KDD; um estudo da estrutura dos sistemas
de KDD encontrados na literatura; o desenvolvimento de
sistemas de KDD, um utilizando algoritmos Genéticos e os
outros utilizando Redes Neurais; o estudo de casos e a
análise de desempenho dos sistemas desenvolvidos.
O processo de KDD serve para que se possa retirar
novos conhecimentos (padrões, tendências, fatos,
probabilidade, associações) de um determinado banco de
dados. Basicamente o KDD consiste em oito etapas, que são:
Definição do problema, Seleção dos dados, Limpeza dos
dados, enriquecimento dos dados, Pré-processamento dos
dados, Codificação dos dados, Mineração dos dados (data
mining) e o relatório contendo a interpretação dos
resultados. A mineração dos dados é freqüentemente vista
como elemento chave do processo de KDD. A extração do
conhecimento, propriamente dita, se dá na Mineração dos
dados, onde toda técnica que ajude a extrair mais
informações dos dados é útil. Assim na Mineração de dados
podemos lançar mão de um grupo heterogêneo de técnicas,
como por exemplo, Técnicas de estatísticas, visualização
dos dados, redes neurais e algoritmos genéticos. Portanto
os estudos do processo inclui estudos sobre Data Mining,
aprendizado de máquinas, data warehouse, o processo e o
ambiente do KDD, aspectos formais dos algoritmos de
aprendizado, inteligência artificial, e algumas aplicações
na vida real.
Dentre os vários sistemas de KDD encontrados na
literatura que foram estudados e analisados, podemos citar
sistemas que utilizaram, na etapa de mineração dos dados,
uma ou mais das seguintes técnicas de computação para
extrair padrões e associações nos dados, uma ou mais das
seguintes técnicas de computação para extrair padrões e
associações nos dados tais como: Visualização dos dados,
ferramenta de consulta, técnicas de estatísticas,
processamento analítico on-line (OLAP), Árvore de decisão,
regras de associação, redes neurais e algoritmos genéticos.
Neste trabalho foram desenvolvidos dois sistemas
de KDD. Em cada um dos modelos desenvolvidos utilizou-se
uma técnica de visualização dos dados para garantir a
interação do sistema com o analista dos dados. Além disso
utilizou-se, na etapa mineração dos dados, num dos modelos
Algoritmos genéticos, e no outro Redes Neurais
Backpropagation. Também para efeito de comparação e de
apoio, se desenvolveu um sistema utilizando Técnicas de
Estatísticas.
Com o modelo utilizando Algoritmos Genéticos se
encontra a melhor regra de produção relacionada a um banco
de dados, que responde a uma pergunta específica. E com os
modelos utilizando Redes Neurais se obtém resultados para
serem comparados.
A fase de aplicação consistiu em analisar dois
diferentes bancos de dados, um contendo dados dos meninos
e meninas de rua, e o outro contendo dados dos alunos que
se matricularam no vestibular. Na análise dos bancos de
dados se utilizou os sistemas de KDD aqui desenvolvidos,
tendo como objetivo encontrar, com o auxílio de Algoritmos
genéticos, ou de redes ne / [en] This dissertation investigates the genetic algorithms and
neural networks as applications tools to find knowledge,
in the form of rules, from a database. This new area, KDD
(Knowledge Discovery in Database) appeared with the need
of developing tools that can, in automatic and intelligent
way, help the data analysis to transform great volumes of
data in information and to organize these information in
useful knowledge.
The research here summarized is therefore, a
development in the area of computational systems
(development of systems) and in the area of intelligence
computational (data mining, genetic algoriths, neural
networks, intelligence interfaces, decision support
systems and creation of knowledge bases). The thesis work
was divided in five main parts: A study of the KDD
process: a study of the structure of the KDD systems found
in the literature; the development of KDD systems, one
using genetic algorithms and the others using neural
networks; the study of cases and the analysis of the
performance of the developed systems.
The KDD process is able to find new knowledge
(patterns, tendencies, facts, probability and
associations) from a certain database. Basically KDD
involves eight steps, that are: problem definition, data
selection, cleaning, enrichment, preprocessing, coding,
data mining and the reporting containing the
interpretation of the results. The Data Mining is
frequently seen as the key element of the KDD process. The
extraction of the knowledge, itself, happens in the Data
mining, where any technique that helps extract more
information out of your data is useful. In Data Mining we
can make use of a heterogeneous group of techiques, for
example, Statistical techniques, Visualization techniques,
Neural Networks and Genetic algorithms. Therefore the
studies of the KDD process included studies on data
mining, machine learning, data warehouse, the KDD process
and the KDD environment, formal aspects of the learning
algoriths, artificial intelligence, and some applications
in the real life.
In several KDD systems found in the literature
that were studied and analyzed, we can mention systems
that uses, in the data mining step, one or more of
following computation techniques to extract patterns and
associations from data as: visualization techniques, query
tools, statistical techniques, online analytical
processing (OLAP), decision trees, association rules,
neural networks and genetic algorithms.
In this work two KDD systems wer developed. In
each one of the developed models a visualization
techniques was used, to guarantee the interaction of the
system with the data analyst. And in the Data Mining step,
genetic algorithms was used in one of the models, and
Backpropagation Neural Networks in the other. For
comparison and support effect, a system was developed
using Statistical techniques.
The genetic algorithm model is to find the best
production rule related to a database, that answers to a
specific question. And the results of the Neural Networks
model is to be compared with the results of the genetic
algorithm model.
The application phase consisted of analyzing two
different databases, one with the boys´data that lives in
the street, and the other with the students´data that
makes the university admission test. In the analysis of
the databases it was used the KDD system here developed,
with the objective to find, with genetic algorithms, or
Neural Network, the best production rule, related to the
databases, that answers a specific question. Two types of
question. Two types of question were considered, the ones
that look for characteristic of a group of data, for
example, Which the boys characteristics that live in the
streets? And Which the characteristics of a group of
individuals that were classified but they didn´t enroll in
the university? And that associates groups of data, for
example, What differentiate the boys, with similar
economic situation, tha

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:11103
Date27 December 2007
CreatorsCIBELE LUZANA REIS
ContributorsEMMANUEL PISECES LOPES PASSOS, EMMANUEL PISECES LOPES PASSOS
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguagePortuguese
TypeTEXTO

Page generated in 0.004 seconds