Return to search

A seleção de atributos e o aprendizado supervisionado de redes bayesianas no contexto da mineração de dados

Made available in DSpace on 2016-06-02T19:05:28Z (GMT). No. of bitstreams: 1
1698.pdf: 1287729 bytes, checksum: 3b1a05110798861ad7e42fd67b1694d6 (MD5)
Previous issue date: 2007-10-29 / Universidade Federal de Minas Gerais / The Knowledge Discovery in Databases (KDD) techniques have grown from the need for obtain more information about the data stored by organizations, such as, enterprise companies and research institutes. Bayesian Networks (BNs) can be considered as a probabilistic reasoning based model to represent knowledge and are very adequate to KDD tasks. In the last years, Bayesian Networks (BNs) have been
applied in many supervised and unsupervised learning successful applications. The process to induce BNs and Bayesian Classifiers (BCs) from data tries do identify a BN (or a BC) able to represent the relationship among the variables of a certain data set. However, this is a NP-complete problem and, thus, its search space may become very large in most applications. That is the reason why many algorithms explore some way to reduce the search space in order to make the learning process computationally viable. In
this master s thesis a new Conditional Independence based approach to induce BCs
from data is proposed and implemented. Such approach is based on the Markov Blanket
concept in order to impose some constraints and optimize the traditional PC learning algorithm. Experiments performed with ten data sets revealed that the proposed approach tends to execute fewer comparisons than the traditional PC. The experiments also show that the implemented algorithm produce competitive classification rates when compared with both, PC and NaiveBayes / As técnicas de Descoberta de Conhecimento em Bancos de Dados (KDD), também chamadas de Mineração de Dados, surgiram da grande necessidade de se obter mais informação sobre os dados armazenados por organizações, como
empresas, grandes corporações e instituições de pesquisa. As Redes Bayesianas (RBs)
podem ser consideradas como uma forma de representação do conhecimento baseada no
raciocínio probabilístico e possuem características que as tornam muito adequadas para tarefas de descoberta de conhecimento em bancos de dados. Por isso, este é um campo
de aplicação efervescente nos últimos anos. O aprendizado automático de RBs e
Classificadores Bayesianos (CBs) busca identificar uma RB (ou CB) que represente o
relacionamento entre as variáveis de um determinado conjunto de dados, mas como este
é um problema NP-completo o espaço de busca se torna muito amplo na maioria das
aplicações. Por este motivo, muitos algoritmos exploram alguma forma de redução do
espaço de busca para tornar o processo de aprendizado computacionalmente viável. Esta
dissertação de mestrado apresenta um método (MarkovPC) de aprendizado de CBs que
visa exatamente reduzir o espaço de busca durante a indução de um classificador a partir
de dados. Para tanto, toma-se como base algoritmos de aprendizado de RB da classe IC
(Independência Condicional) e o conceito de Markov Blanket. Resultados obtidos
através de experimentos realizados com 10 conjuntos de dados mostram que o
MarkovPC é capaz de reduzir o esforço computacional do processo de indução de um
classificador Bayesiano e manter a qualidade do classificador induzido (em termos de taxa de classificação correta)

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufscar.br:ufscar/366
Date29 October 2007
CreatorsGalvão, Sebastian David Carvalho de Oliveira
ContributorsHruschka Júnior, Estevam Rafael
PublisherUniversidade Federal de São Carlos, Programa de Pós-graduação em Ciência da Computação, UFSCar, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Repositório Institucional da UFSCAR, instname:Universidade Federal de São Carlos, instacron:UFSCAR
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds