Dentre as técnicas de mineração de dados encontra-se a associação, a qual identifica todas as associações intrínsecas contidas na base de dados. Entretanto, essa característica, vantajosa por um lado, faz com que um grande número de padrões seja gerado, sendo que muito deles, mesmo sendo estatisticamente aceitos, são triviais, falsos, ou irrelevantes à aplicação. Além disso, a técnica de associação tradicional gera padrões compostos apenas por itens contidos na base de dados, o que leva à extração, em geral, de um conhecimento muito específico. Essa especificidade dificulta a obtenção de uma visão geral do domínio pelos usuários finais, que visam a utilização/exploração de conhecimentos úteis e compreensíveis. Assim, o pós-processamento das regras descobertas se torna um importante tópico, uma vez que há a necessidade de se validar as regras obtidas. Diante do exposto, este trabalho apresenta uma abordagem de pós-processamento de regras de associação que utiliza conhecimento de domínio, expresso via taxonomias, para obter um conjunto de regras de associação generalizadas compacto e representativo. Além disso, a fim de avaliar a representatividade de padrões generalizados, é apresentado também neste trabalho um estudo referente à utilização de medidas de interesse objetivas quando aplicadas a regras de associação generalizadas. Nesse estudo, a semântica da generalização é levada em consideração, já que cada uma delas fornece uma visão distinta do domínio. Como resultados desta tese, foi possível observar que: um conjunto de regras de associação pode ser compactado na presença de um conjunto de taxonomias; para cada uma das semânticas de generalização existe um conjunto de medidas mais apropriado para ser utilizado na avaliação de regras generalizadas / The association technique, one of the data mining techniques, identifies all the intrinsic associations in database. This characteristic, which can be advantageous on the one hand, generates a large number of patterns. Many of these patterns, even statistically accepted, are trivial, spurious, or irrelevant to the application. In addition, the association technique generates patterns composed only by items in database, which in general implies a very specific knowledge. This specificity makes it difficult to obtain a general view of the domain by the final users, who aims the utilization/exploration of useful and comprehensible knowledge . Thus, the post-processing of the discovered rules becomes an important topic, since it is necessary to validate the obtained rules. In this context, this work presents an approach for post-processing association rules that uses domain knowledge, expressed by taxonomies, to obtain a reduced and representative generalized association rule set. In addition, in order to evaluate the representativeness of generalized patterns, a study referent to the use of objective interest measures when applied to generalized association rules is presented. In this study, the generalization semantics is considered, since each semantic provides a distinct view of the domain. As results of this thesis, it was possible to observe that: an association rule set can be compacted with a taxonomy set; for each generalization semantic there is a measure set that is more appropriate to be used in the generalized rules evaluation
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-10122007-160534 |
Date | 23 August 2007 |
Creators | Carvalho, Veronica Oliveira de |
Contributors | Rezende, Solange Oliveira |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Tese de Doutorado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0022 seconds