Global ETD Search

51	Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rules Fabiano Fernandes dos Santos 17 September 2010 (has links) Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods Agrupamento hierárquico de documantos Mineração de texto Regras de associação Association rules Hierarchical document clustering Label hierarchical clustering Text mining
52	Detecção de fraudes em cartões: um classificador baseado em regras de associação e regressão logística / Card fraud detection: a classifier based on association rules and logistic regression Paulo Henrique Maestrello Assad Oliveira 11 December 2015 (has links) Os cartões, sejam de crédito ou débito, são meios de pagamento altamente utilizados. Esse fato desperta o interesse de fraudadores. O mercado de cartões enxerga as fraudes como custos operacionais, que são repassados para os consumidores e para a sociedade em geral. Ainda, o alto volume de transações e a necessidade de combater as fraudes abrem espaço para a aplicação de técnicas de Aprendizagem de Máquina; entre elas, os classificadores. Um tipo de classificador largamente utilizado nesse domínio é o classificador baseado em regras. Entretanto, um ponto de atenção dessa categoria de classificadores é que, na prática, eles são altamente dependentes dos especialistas no domínio, ou seja, profissionais que detectam os padrões das transações fraudulentas, os transformam em regras e implementam essas regras nos sistemas de classificação. Ao reconhecer esse cenário, o objetivo desse trabalho é propor a uma arquitetura baseada em regras de associação e regressão logística - técnicas estudadas em Aprendizagem de Máquina - para minerar regras nos dados e produzir, como resultado, conjuntos de regras de detecção de transações fraudulentas e disponibilizá-los para os especialistas no domínio. Com isso, esses profissionais terão o auxílio dos computadores para descobrir e gerar as regras que embasam o classificador, diminuindo, então, a chance de haver padrões fraudulentos ainda não reconhecidos e tornando as atividades de gerar e manter as regras mais eficientes. Com a finalidade de testar a proposta, a parte experimental do trabalho contou com cerca de 7,7 milhões de transações reais de cartões fornecidas por uma empresa participante do mercado de cartões. A partir daí, dado que o classificador pode cometer erros (falso-positivo e falso-negativo), a técnica de análise sensível ao custo foi aplicada para que a maior parte desses erros tenha um menor custo. Além disso, após um longo trabalho de análise do banco de dados, 141 características foram combinadas para, com o uso do algoritmo FP-Growth, gerar 38.003 regras que, após um processo de filtragem e seleção, foram agrupadas em cinco conjuntos de regras, sendo que o maior deles tem 1.285 regras. Cada um desses cinco conjuntos foi submetido a uma modelagem de regressão logística para que suas regras fossem validadas e ponderadas por critérios estatísticos. Ao final do processo, as métricas de ajuste estatístico dos modelos revelaram conjuntos bem ajustados e os indicadores de desempenho dos classificadores também indicaram, num geral, poderes de classificação muito bons (AROC entre 0,788 e 0,820). Como conclusão, a aplicação combinada das técnicas estatísticas - análise sensível ao custo, regras de associação e regressão logística - se mostrou conceitual e teoricamente coesa e coerente. Por fim, o experimento e seus resultados demonstraram a viabilidade técnica e prática da proposta. / Credit and debit cards are two methods of payments highly utilized. This awakens the interest of fraudsters. Businesses see fraudulent transactions as operating costs, which are passed on to consumers. Thus, the high number of transactions and the necessity to combat fraud stimulate the use of machine learning algorithms; among them, rule-based classifiers. However, a weakness of these classifiers is that, in practice, they are highly dependent on professionals who detect patterns of fraudulent transactions, transform them into rules and implement these rules in the classifier. Knowing this scenario, the aim of this thesis is to propose an architecture based on association rules and logistic regression - techniques studied in Machine Learning - for mining rules on data and produce rule sets to detect fraudulent transactions and make them available to experts. As a result, these professionals will have the aid of computers to discover the rules that support the classifier, decreasing the chance of having non-discovered fraudulent patterns and increasing the efficiency of generate and maintain these rules. In order to test the proposal, the experimental part of the thesis has used almost 7.7 million transactions provided by a real company. Moreover, after a long process of analysis of the database, 141 characteristics were combined using the algorithm FP-Growth, generating 38,003 rules. After a process of filtering and selection, they were grouped into five sets of rules which the biggest one has 1,285 rules. Each of the five sets was subjected to logistic regression, so their rules have been validated and weighted by statistical criteria. At the end of the process, the goodness of fit tests were satisfied and the performance indicators have shown very good classification powers (AUC between 0.788 and 0.820). In conclusion, the combined application of statistical techniques - cost sensitive learning, association rules and logistic regression - proved being conceptually and theoretically cohesive and coherent. Finally, the experiment and its results have demonstrated the technical and practical feasibilities of the proposal. Análise sensível ao custo Aprendizagem de máquina Detecção e prevenção de fraudes Mineração de regras de associação Regressão logística Association rule learning Cost sensitive learning Fraud detection and prevention Logistic regression Machine learning
53	Uma metodologia para exploração de regras de associação generalizadas integrando técnicas de visualização de informação com medidas de avaliação do conhecimento / A methodology for exploration of generalized association rules integrating information visualization techniques with knowledge evaluation measures Magaly Lika Fujimoto 04 August 2008 (has links) O processo de mineração de dados tem como objetivo encontrar o conhecimento implícito em um conjunto de dados para auxiliar a tomada de decisão. Do ponto de vista do usuário, vários problemas podem ser encontrados durante a etapa de pós-processamento e disponibilização do conhecimento extraído, como a enorme quantidade de padrões gerados por alguns algoritmos de extração e a dificuldade na compreensão dos modelos extraídos dos dados. Além do problema da quantidade de regras, os algoritmos tradicionais de regras de associação podem levar à descoberta de conhecimento muito específico. Assim, pode ser realizada a generalização das regras de associação com o intuito de obter um conhecimento mais geral. Neste projeto é proposta uma metodologia interativa que auxilie na avaliação de regras de associação generalizadas, visando melhorar a compreensibilidade e facilitar a identificação de conhecimento interessante. Este auxílio é realizado por meio do uso de técnicas de visualização em conjunto com a aplicação medidas de avaliação objetivas e subjetivas, que estão implementadas no módulo de visualização de regras de associação generalizados denominado RulEE-GARVis, que está integrado ao ambiente de exploração de regras RulEE (Rule Exploration Environment). O ambiente RulEE está sendo desenvolvido no LABIC-ICMC-USP e auxilia a etapa de pós-processamento e disponibilização de conhecimento. Neste contexto, também foi objetivo deste projeto de pesquisa desenvolver o Módulo de Gerenciamento do ambiente de exploração de regras RulEE. Com a realização do estudo dirigido, foi possível verificar que a metodologia proposta realmente facilita a compreensão e a identificação de regras de associação generalizadas interessantes / The data mining process aims at finding implicit knowledge in a data set to aid in a decision-making process. From the users point of view, several problems can be found at the stage of post-processing and provision of the extracted knowledge, such as the huge number of patterns generated by some of the extraction algorithms and the difficulty in understanding the types of the extracted data. Besides the problem of the number of rules, the traditional algorithms of association rules may lead to the discovery of very specific knowledge. Thus, the generalization of association rules can be realized to obtain a more general knowledge. In this project an interactive methodology is proposed to aid in the evaluation of generalized association rules in order to improve the understanding and to facilitate the identification of interesting knowledge. This aid is accomplished through the use of visualization techniques along with the application of objective and subjective evaluation measures, which are implemented in the visualization module of generalized association rules called RulEE-GARVis, which is integrated with the Rule Exploration Environment RulEE. The RulEE environment is being developed at LABIC-ICMC-USP and aids in the post-processing and provision of knowledge. In this context, it was also the objective of this research project to develop the Module Management of the rule exploration environment RulEE. Through this directed study, it was verified that the proposed methodology really facilitates the understanding and identification of interesting generalized association rules Generalização Medidas objetivas Medidas subjetivas Mineração de dados Pós-processamento Regras de associação Taxonomias Visualização Association rules Data mining Generalization Objective measures Post-processing Subjective measures Taxonomies Visualization
54	Mineração de regras de associação generalizadas utilizando ontologias fuzzy e similaridade baseada em contexto Ayres, Rodrigo Moura Juvenil 08 August 2012 (has links) Made available in DSpace on 2016-06-02T19:05:58Z (GMT). No. of bitstreams: 1 4486.pdf: 3511223 bytes, checksum: 3f8c09a3cb87230a2ac0f6706ea07944 (MD5) Previous issue date: 2012-08-08 / Financiadora de Estudos e Projetos / The mining association rules are an important task in data mining. Traditional algorithms of mining association rules are based only on the database items, providing a very specific knowledge. This specificity may not be advantageous, because the users normally need more general, interesting and understandable knowledge. In this sense, there are approaches working in order to obtain association rules with items belonging to any level of a taxonomic structure. In the crisp contexts taxonomies are used in different steps of the mining process. When the objective is the generalization they are used, mainly, in the pre-processing or post-processing stages. On the other hand, in the fuzzy context, fuzzy taxonomies are used, mainly, in the pre-processing step, during the generating extended transactions. A great problem of these transactions is related to the huge amount of candidates and rules. Beyond that, the inclusion of ancestors ends up generating redundancy problems. Besides, it is possible to see that many works have directed efforts for the question of mining fuzzy rules, exploring linguistic terms, but few approaches have been proposed for explore new steps of mining process. In this sense, this paper proposes the Context FOntGAR algorithm, a new algorithm for mining generalized association rules under all levels of fuzzy ontologies composed by specialization/generalization degrees varying in the interval [0,1]. In order to obtain more semantic enrichment, the rules may be composed by similarity relations, which are represented at the fuzzy ontologies in different contexts. In this work the generalization is done during the post-processing step. Other relevant points of this paper are the specification of a new approach of generalization; including a new grouping rules treatment, and a new and efficient way for calculating both support and confidence of generalized rules. / Algoritmos tradicionais de associação se caracterizam por utilizar apenas itens contidos na base de dados, proporcionando um conhecimento muito específico. No entanto, essa especificidade nem sempre é vantajosa, pois normalmente os usuários finais necessitam de padrões mais gerais, e de fácil compreensão. Nesse sentido, existem abordagens que não se limitam somente aos itens da base, e trabalham com o objetivo de minerar regras (generalizadas) com itens presentes em qualquer nível de estruturas taxonômicas. Taxonomias podem ser utilizadas em diferentes etapas do processo de mineração. A literatura mostra que, em contextos crisp, essas estruturas são utilizadas tanto em etapa de pré-processamento, quanto em etapa de pós-processamento, e que em domínios fuzzy, a utilização ocorre somente na etapa de pré-processamento, durante a geração de transações estendidas. Além do viés de utilização de transações estendidas, que podem levar a geração de um volume de regras superior ao caso tradicional, é possível notar que, em domínios nebulosos, as pesquisas dão enfoque apenas à mineração de regras fuzzy, deixando de lado a exploração de diferentes graus de especialização/generalização em taxonomias. Nesse sentido, este trabalho propõem o algoritmo FOntGAR, um novo algoritmo para mineração de regras de associação generalizadas com itens presentes em qualquer nível de ontologias compostas por graus de especialização/generalização variando no intervalo [0,1] (ontologias de conceitos fuzzy), em etapa de pós-processamento. Objetivando obter maior enriquecimento semântico, as regras geradas pelo algoritmo também podem possuir relações de similaridade, de acordo com contextos pré-definidos. Outros pontos relevantes são a especificação de uma nova abordagem de generalização (incluindo um novo tratamento de agrupamento das regras), e um novo e eficiente método para calcular o suporte estendido das regras generalizadas durante a etapa mencionada. Banco de dados Data mining (Mineração de dados) Ontologia difusa Pósprocessamento Similaridade baseada em contexto Regras de Associação Generalizadas Generalized Association Rules Fuzzy Ontologies Post-Processing Context- Based Similarity
55	Uma Metodologia para Mineração de Regras de Associação Usando Ontologias para Integração de Dados Estruturados e Não-Estruturados / A Methodology for Mining Association Rules Using Ontologies for Integrating Structured and Non-Structured Data CAMILO, Cassio Oliveira 23 August 2010 (has links) Made available in DSpace on 2014-07-29T14:57:46Z (GMT). No. of bitstreams: 1 dissertacao cassio o camilo.pdf: 2631871 bytes, checksum: 70087ec16670e8999d58da53330104f4 (MD5) Previous issue date: 2010-08-23 / Data and text mining methods have been applied in several areas of knowledge with the purpose of extracting useful information from large data volumes. Among the various data mining methods reported by specialized literature, association rule mining has proved useful in producing understandable rules. However, one of its major problems is the significant amount of rules produced, which hampers the selection of the more relevant rules needed to reply to a query. This study proposes a method for mining data from structured and unstructured sources in order to generate association rules between the terms extracted. The process of mining data from unstructured sources is assisted by an ontology that maps knowledge from a specific domain. The result of such process is converted into structured data and combined with data from other structured sources. A combination of objective and subjective interest measures is used to filter the set of rules obtained, in addition to support and confidence model. To verify the feasibility of this method in real-life situations, it was applied to a database of police occurrence reports of a government institution, which included data stored in structured and unstructured sources. / Métodos de mineração de dados e mineração de textos têm sido aplicados em diversas áreas do conhecimento para recuperação de informações úteis a partir de grandes volumes de dados. Dentre os diversos métodos de mineração de dados propostos na literatura, a mineração de regras de associação tem sido de grande utilidade. Entretanto, um dos grandes problemas gerados pela aplicação deste método sobre um grande volume de dados é, em geral, a produção de uma quantidade significativa de regras, dificultando a escolha daquelas mais relevantes para responder a uma consulta. O presente trabalho propõe uma metodologia para minerar dados de fontes estruturadas e não estruturadas, visando gerar regras de associação entre termos extraídos dessas fontes. O processo de mineração de dados de fontes não-estruturadas é auxiliado por uma Ontologia para mapear conhecimentos de um domínio específico. O resultado desta etapa é convertido para uma representação estruturada, e é então combinado com os dados obtidos de outras fontes estruturadas. Além do modelo de suporte e confiança, utiliza-se uma combinação das medidas de interesse objetivas e subjetivas para filtrar o conjunto de regras obtido. Para analisar sua viabilidade em situações reais, a metodologia proposta neste trabalho foi submetida à aplicação de ocorrências policiais de uma instituição governamental, sob conjuntos de dados armazenados em fontes estruturadas e não estruturadas. Mineração de Dados Mineração de Texto Recuperação de Informação Extração de Informação Conceitos Ontologia Regras de Associação Data mining Text mining Information Retrievel Information Extraction Concept Ontology Association Rules
56	MINERAÇÃO DE DADOS: ALGORITMO DA CONFIANÇA INVERSA / DATA MINING: INVERSE ALGORITHM OF CONFIDENCE Casanova, Anderson Araújo 28 June 2005 (has links) Made available in DSpace on 2016-08-17T14:52:55Z (GMT). No. of bitstreams: 1 Anderson Araujo Casanova.pdf: 587331 bytes, checksum: 45bf9a1dbbcfa2f595d1baf7e3651125 (MD5) Previous issue date: 2005-06-28 / This work presents studies that culminated in the development of a data mining algorithm that extracts knowledge in a more efficient way and allows for a better use of the collected information. Decisions based on imprecise information and a lack of criteria can cause the relatively few resources available to be poorly applied, burdening taxpayers and consequently the state. This much-needed information which allows for the fairest and most efficient application of available resources and which would facilitate the work of the users as well as those who render the services should be based upon consideration of the great variety of established criteria. The making of a decision should be based upon the evaluation of the most varied types of data and be analyzed by specialists who can judge which are true needs, so that the criteria for the search of knowledge may be defined. The Algorithm of Inverse Confidence - ACI accomplishes data mining using the technique of association rules, and it proposes a new measure that enlarges the dimension of extracted information through five fixed rules. ACI also classifies and associates items, using the concept of the fuzzy logic, through parameters established by the user. ACI was applied in the surgical center of HUUFMA - Academical Hospital of the Federal University of Maranhão - envisioning the extraction of knowledge (standards). / Este trabalho apresenta estudos que culminaram no desenvolvimento de um algoritmo de mineração de dados que, faz extração de conhecimento e que possibilita um melhor aproveitamento das informações coletadas. Decisões baseadas em informações imprecisas e com falta de critérios podem fazer com que recursos, de qualquer tipo, sejam mal aplicados. A informação necessária que tornem a aplicação dos recursos mais justa e eficiente, e que facilitem o trabalho tanto dos usuários de um determinado serviço quanto aos que prestam o serviço, devem ser baseadas considerando a grande variedade de critérios estabelecidos. A tomada de decisão deve ser com base na avaliação dos mais variados tipa de dados e analisada por especialistas que julguem quais as necessidades, para que os critérios de busca do conhecimento sejam definidos. O Algoritmo da Confiança Inversa ACI realiza mineração de dados utilizando a técnica de regras de associação e propõe uma nova medida que amplia a dimensão das informações extraídas através de cinco regras fixas. O ACI também classifica e associa itens similares, utilizando o conceito da lógica nebulosa (fuzzy logic), através de parâmetro estabelecido pelo usuário. O ACI foi aplicado no centro cirúrgico do HUUFMA Hospital Universitário da Universidade Federal do Maranhão visando à extração de conhecimento (padrões). mineração de dados regras de associação lógica nebulosa similaridade algoritmo da confiança inversa data mining association rules fuzzy logic similarity algorithm of the inverse confidence

Page generated in 0.0911 seconds