[pt] A mineração de conjuntos de itens frequentes em sequências de dados
possui diversas aplicações práticas como, por exemplo, análise de comportamento
de usuários, teste de software e pesquisa de mercado. Contudo, a grande
quantidade de dados gerada pode representar um obstáculo para o processamento
dos mesmos em tempo real e, consequentemente, na sua análise e tomada de
decisão. Sendo assim, melhorias na eficiência dos algoritmos usados para estes
fins podem trazer grandes benefícios para os sistemas que deles dependem. Esta
dissertação apresenta o algoritmo MFI-TransSWmais, uma versão otimizada do
algoritmo MFI-TransSW, que utiliza vetores de bits para processar sequências de
dados em tempo real. Além disso, a dissertação descreve a implementação de um
sistema de recomendação de matérias jornalísticas, chamado ClickRec, baseado
no MFI-TransSWmais, para demonstrar o uso da nova versão do algoritmo. Por
último, a dissertação descreve experimentos com dados reais e apresenta
resultados da comparação de performance dos dois algoritmos e dos acertos do
sistema de recomendações ClickRec. / [en] The mining of frequent itemsets in data streams has several practical
applications, such as user behavior analysis, software testing and market research.
Nevertheless, the massive amount of data generated may pose an obstacle to
processing then in real time and, consequently, in their analysis and decision
making. Thus, improvements in the efficiency of the algorithms used for these
purposes may bring great benefits for systems that depend on them. This thesis
presents the MFI-TransSWplus algorithm, an optimized version of MFI-TransSW
algorithm, which uses bit vectors to process data streams in real time. In addition,
this thesis describes the implementation of a news articles recommendation
system, called ClickRec, based on the MFI-TransSWplus, to demonstrate the use of
the new version of the algorithm. Finally, the thesis describes experiments with
real data and presents results of performance and a comparison between the two
algorithms in terms of performance and the hit rate of the ClickRec
recommendation system.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:25748 |
Date | 11 February 2016 |
Creators | FRANKLIN ANDERSON DE AMORIM |
Contributors | MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0025 seconds