Return to search

Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014. / Made available in DSpace on 2014-08-06T18:04:53Z (GMT). No. of bitstreams: 1
327126.pdf: 885886 bytes, checksum: 75231cd2c02dd6ae8e60fb0d058ec67d (MD5)
Previous issue date: 2014 / Rede Bayesiana é uma técnica de classificação vastamente utilizada na área de Inteligência Artificial. Sua estrutura é composta por um grafo acíclico direcionado usado para modelar a associação de variáveis categóricas (qualitativas). Entretanto, em casos onde existem variáveis numéricas no domínio, uma pré discretização é geralmente necessária. Nesta dissertação, é apresentada uma discretização heurística para Redes Bayesianas que procura padrões nos dados e os divide de acordo com os padrões encontrados. Esses padrões são identificados por dois eventos que são otimizados por uma busca através do Algoritmo Genético. Esses dois eventos mudam de acordo com a base de dados, tornando a discretização proposta mais flexível para lidar com diferentes domínios de aplicação. O método de discretizaçãao proposto foi testado em duas situações distintas: quando a variável de saída é qualitativa (classificação) e também quando a variável de saída é quantitativa e é necessário estimar o seu valor médio e desvio-padrão. Para casos em que a saída é qualitativa foram utilizados duas bases de dados: Iris Flower e Wine. Em ambas as bases de dados a acurácia do método proposto foi superior quando comparada com outros dois métodos da literatura: um que discretiza as variáveis por frequência e outro por tamanho de classes. Para representar os casos em que variável de saída é quantitativa, foi utilizada uma base de dados real com dados de perfuração de poços de petróleo com o objetivo de estimar a taxa média de perfuração de broca. Nesses casos, é feito a estimação do valor de saída através da média da distribuição de probabilidade. O método proposto obteve um erro inferior na estimação quando comparado tanto com o método que discretiza por frequência quanto com o método que discretiza por tamanho. Com os resultados, a conclusão é que o método pode discretizar as variáveis quantitativas através das identificações dos eventos que desviam de um intervalo intermediário nos dados, seja para cima (pico) ou para baixo (vale). Também foi observado que o método está ligado a um problema de otimização global quando todas as variáveis quantitativas são discretizadas ao mesmo tempo.<br> / Abstract : Bayesian Network (BN) is a classification technique widely used in Artificial Intelligence. Its structure is a DAG (direct acyclic graph) used to model the association of categorical variables. However, in cases where the variables are numerical, a previous discretization is usually necessary. In this dissertation, we show a heuristic discretization for Bayesian Networks that search for data patterns and divide the data according to them. These patterns are identified by two events: peak and valley being optimized by a search through the Genetic Algorithm. These two events change according to the database, making the proposed method a exible discretization to handle difierent application domains. The Peak-Valley Discretization Method proposed was tested two different situations: only classification when the output variable is qualitative and also estimating the mean value and the standard deviation when the output variable is quantitative. Considering the cases where the output is quantitative, two databases where used: Iris Flower and Wine. The accuracy in both of them was superior with the proposed method when compared with two other methods from the literature: one that discretizes the variable by frequency and one that does that by class' size. To represent the cases where the output variable is quantitative, was used a real data of oil wells perforation with the objective of estimating the average perforation rate. In such cases, the estimation is done by the average of the output value distribution of probability. The proposed method achieved a lower error in the estimation when compared with the method of frequency discretization and with the method that discretizes by size. With the results, the conclusion is that the method can properly discretize the quantitative variables by identifying events that deviate from expected results within the knowledge domain, whether up (peak) or down (valley). It was also observed that the method brings a problem of global optimization when discretizing all quantitative variables simultaneously. The problem of global optimization was treated by a Genetic Algorithm.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/123325
Date January 2014
CreatorsLima, Mariana Dehon Costa e
ContributorsUniversidade Federal de Santa Catarina, Nassar, Silvia Modesto
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format82 p.| il., grafs., tabs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0034 seconds