Return to search

Generalização de regras de associação utilizando conhecimento de domínio e avaliação do conhecimento generalizado / Generalization of association rules through domain knowledge and generalized knoeledge evaliation

Dentre as técnicas de mineração de dados encontra-se a associação, a qual identifica todas as associações intrínsecas contidas na base de dados. Entretanto, essa característica, vantajosa por um lado, faz com que um grande número de padrões seja gerado, sendo que muito deles, mesmo sendo estatisticamente aceitos, são triviais, falsos, ou irrelevantes à aplicação. Além disso, a técnica de associação tradicional gera padrões compostos apenas por itens contidos na base de dados, o que leva à extração, em geral, de um conhecimento muito específico. Essa especificidade dificulta a obtenção de uma visão geral do domínio pelos usuários finais, que visam a utilização/exploração de conhecimentos úteis e compreensíveis. Assim, o pós-processamento das regras descobertas se torna um importante tópico, uma vez que há a necessidade de se validar as regras obtidas. Diante do exposto, este trabalho apresenta uma abordagem de pós-processamento de regras de associação que utiliza conhecimento de domínio, expresso via taxonomias, para obter um conjunto de regras de associação generalizadas compacto e representativo. Além disso, a fim de avaliar a representatividade de padrões generalizados, é apresentado também neste trabalho um estudo referente à utilização de medidas de interesse objetivas quando aplicadas a regras de associação generalizadas. Nesse estudo, a semântica da generalização é levada em consideração, já que cada uma delas fornece uma visão distinta do domínio. Como resultados desta tese, foi possível observar que: um conjunto de regras de associação pode ser compactado na presença de um conjunto de taxonomias; para cada uma das semânticas de generalização existe um conjunto de medidas mais apropriado para ser utilizado na avaliação de regras generalizadas / The association technique, one of the data mining techniques, identifies all the intrinsic associations in database. This characteristic, which can be advantageous on the one hand, generates a large number of patterns. Many of these patterns, even statistically accepted, are trivial, spurious, or irrelevant to the application. In addition, the association technique generates patterns composed only by items in database, which in general implies a very specific knowledge. This specificity makes it difficult to obtain a general view of the domain by the final users, who aims the utilization/exploration of useful and comprehensible knowledge . Thus, the post-processing of the discovered rules becomes an important topic, since it is necessary to validate the obtained rules. In this context, this work presents an approach for post-processing association rules that uses domain knowledge, expressed by taxonomies, to obtain a reduced and representative generalized association rule set. In addition, in order to evaluate the representativeness of generalized patterns, a study referent to the use of objective interest measures when applied to generalized association rules is presented. In this study, the generalization semantics is considered, since each semantic provides a distinct view of the domain. As results of this thesis, it was possible to observe that: an association rule set can be compacted with a taxonomy set; for each generalization semantic there is a measure set that is more appropriate to be used in the generalized rules evaluation

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-10122007-160534
Date23 August 2007
CreatorsCarvalho, Veronica Oliveira de
ContributorsRezende, Solange Oliveira
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0019 seconds