• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 56
  • Tagged with
  • 56
  • 56
  • 48
  • 41
  • 37
  • 37
  • 33
  • 30
  • 13
  • 13
  • 12
  • 11
  • 11
  • 11
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Mineração de padrões sequenciais e geração de regras de associação envolvendo temporalidade

João, Rafael Stoffalette 07 May 2015 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-08-07T19:16:02Z No. of bitstreams: 1 DissRSJ.pdf: 7098556 bytes, checksum: 78b5b020899e1b4ef3e1fefb18d32443 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-07T19:18:39Z (GMT) No. of bitstreams: 1 DissRSJ.pdf: 7098556 bytes, checksum: 78b5b020899e1b4ef3e1fefb18d32443 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-07T19:18:50Z (GMT) No. of bitstreams: 1 DissRSJ.pdf: 7098556 bytes, checksum: 78b5b020899e1b4ef3e1fefb18d32443 (MD5) / Made available in DSpace on 2017-08-07T19:28:30Z (GMT). No. of bitstreams: 1 DissRSJ.pdf: 7098556 bytes, checksum: 78b5b020899e1b4ef3e1fefb18d32443 (MD5) Previous issue date: 2015-05-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Data mining aims at extracting useful information from a Database (DB). The mining process enables, also, to analyze the data (e.g. correlations, predictions, chronological relationships, etc.). The work described in this document proposes an approach to deal with temporal knowledge extraction from a DB and describes the implementation of this approach, as the computational system called S_MEMIS+AR. The system focuses on the process of finding frequent temporal patterns in a DB and generating temporal association rules, based on the elements contained in the frequent patterns identified. At the end of the process performs an analysis of the temporal relationships between time intervals associated with the elements contained in each pattern using the binary relationships described by the Allen´s Interval Algebra. Both, the S_MEMISP+AR and the algorithm that the system implements, were subsidized by the Apriori, the MEMISP and the ARMADA approaches. Three experiments considering two different approaches were conducted with the S_MEMISP+AR, using a DB of sale records of products available in a supermarket. Such experiments were conducted to show that each proposed approach, besides inferring new knowledge about the data domain and corroborating results that reinforce the implicit knowledge about the data, also promotes, in a global way, the refinement and extension of the knowledge about the data. / A mineração de dados tem como objetivo principal a extração de informações úteis a partir de uma Base de Dados (BD). O processo de mineração viabiliza, também, a realização de análises dos dados (e.g, identificação de correlações, predições, relações cronológicas, etc.). No trabalho descrito nesta dissertação é proposta uma abordagem à extração de conhecimento temporal a partir de uma BD e detalha a implementação dessa abordagem por meio de um sistema computacional chamado S_MEMISP+AR. De maneira simplista, o sistema tem como principal tarefa realizar uma busca por padrões temporais em uma base de dados, com o objetivo de gerar regras de associação temporais entre elementos de padrões identificados. Ao final do processo, uma análise das relações temporais entre os intervalos de duração dos elementos que compõem os padrões é feita, com base nas relações binárias descritas pelo formalismo da Álgebra Intervalar de Allen. O sistema computacional S_MEMISP+AR e o algoritmo que o sistema implementa são subsidiados pelas propostas Apriori, ARMADA e MEMISP. Foram realizados três experimentos distintos, adotando duas abordagens diferentes de uso do S_MEMISP+AR, utilizando uma base de dados contendo registros de venda de produtos disponibilizados em um supermercado. Tais experimentos foram apresentados como forma de evidenciar que cada uma das abordagens, além de inferir novo conhecimento sobre o domínio de dados e corroborar resultados que reforçam o conhecimento implícito já existente sobre os dados, promovem, de maneira global, o refinamento e extensão do conhecimento sobre os dados.
32

Análise associativa: identificação de padrões de associação entre o perfil socioeconômico dos alunos do ensino básico e os resultados nas provas de matemática / Association analysis: identification of patterns related to the socioeconomic profiles

Lyvia Aloquio 20 February 2014 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Nos dias atuais, a maioria das operações feitas por empresas e organizações é armazenada em bancos de dados que podem ser explorados por pesquisadores com o objetivo de se obter informações úteis para auxílio da tomada de decisão. Devido ao grande volume envolvido, a extração e análise dos dados não é uma tarefa simples. O processo geral de conversão de dados brutos em informações úteis chama-se Descoberta de Conhecimento em Bancos de Dados (KDD - Knowledge Discovery in Databases). Uma das etapas deste processo é a Mineração de Dados (Data Mining), que consiste na aplicação de algoritmos e técnicas estatísticas para explorar informações contidas implicitamente em grandes bancos de dados. Muitas áreas utilizam o processo KDD para facilitar o reconhecimento de padrões ou modelos em suas bases de informações. Este trabalho apresenta uma aplicação prática do processo KDD utilizando a base de dados de alunos do 9 ano do ensino básico do Estado do Rio de Janeiro, disponibilizada no site do INEP, com o objetivo de descobrir padrões interessantes entre o perfil socioeconômico do aluno e seu desempenho obtido em Matemática na Prova Brasil 2011. Neste trabalho, utilizando-se da ferramenta chamada Weka (Waikato Environment for Knowledge Analysis), foi aplicada a tarefa de mineração de dados conhecida como associação, onde se extraiu regras por intermédio do algoritmo Apriori. Neste estudo foi possível descobrir, por exemplo, que alunos que já foram reprovados uma vez tendem a tirar uma nota inferior na prova de matemática, assim como alunos que nunca foram reprovados tiveram um melhor desempenho. Outros fatores, como a sua pretensão futura, a escolaridade dos pais, a preferência de matemática, o grupo étnico o qual o aluno pertence, se o aluno lê sites frequentemente, também influenciam positivamente ou negativamente no aprendizado do discente. Também foi feita uma análise de acordo com a infraestrutura da escola onde o aluno estuda e com isso, pôde-se afirmar que os padrões descobertos ocorrem independentemente se estes alunos estudam em escolas que possuem infraestrutura boa ou ruim. Os resultados obtidos podem ser utilizados para traçar perfis de estudantes que tem um melhor ou um pior desempenho em matemática e para a elaboração de políticas públicas na área de educação, voltadas ao ensino fundamental. / Nowadays, most of the transactions made by companies and organizations is stored in databases that can be explored by researchers in order to obtain useful information to aid decision making. Due to the large volume involved, the extraction and analysis of data is not a simple task. The general process of converting raw data into useful information is called Knowledge Discovery in Databases (KDD). One step in this process is the Data Mining, which involves the application of algorithms and statistical techniques to exploit information contained implicitly in large databases. Many areas use the KDD process to facilitate the recognition of patterns or models on their bases of information. This work presents a practical application of KDD process using the database of students in the 9th grade of elementary education in the State of Rio de Janeiro, available in INEP site, with the aim of finding interesting patterns between the socioeconomic profile of the student and his/her performance obtained in Mathematics. The tool called Weka was used and the Apriori algorithm was applied to extracting association rules. This study revealed, for example, that students who have been reproved once tend to get a lower score on the math test, as well as students who had never been disapproved have had superior performance. Other factors like student future perspectives, ethnic group, parent's schooling, satisfaction in mathematics studying, and the frequency of access to Internet also affect positively or negatively the students learning. An analysis related to the schools infrastructure was made, with the conclusion that patterns do not change regardless of the student studying in good or bad infrastructure schools. The results obtained can be used to trace the students profiles which have a better or a worse performance in mathematics and to the development of public policies in education, aimed at elementary education.
33

Otimização computacional e estudo comparativo das técnicas de extração de conhecimento de grandes repositórios de dados. / Comparative study of techniques for extracting knowledge from large data repository.

Fernando Luiz Coelho Senra 16 September 2009 (has links)
Ao se realizar estudo em qualquer área do conhecimento, quanto mais dados se dispuser, maior a dificuldade de se extrair conhecimento útil deste banco de dados. A finalidade deste trabalho é apresentar algumas ferramentas ditas inteligentes, de extração de conhecimento destes grandes repositórios de dados. Apesar de ter várias conotações, neste trabalho, irá se entender extração de conhecimento dos repositórios de dados a ocorrência combinada de alguns dados com freqüência e confiabilidade que se consideram interessantes, ou seja, na medida e que determinado dado ou conjunto de dados aparece no repositório de dados, em freqüência considerada razoável, outro dado ou conjunto de dados irá aparecer. Executada sobre repositórios de dados referentes a informações georreferenciadas dos alunos da UERJ (Universidade do Estado do Rio de Janeiro), irá se analisar os resultados de duas ferramentas de extração de dados, bem como apresentar possibilidades de otimização computacional destas ferramentas. / Comparative Study of Techniques for Extracting knowledge from large data repositories. When conducting the study in any field of knowledge, the more data is available, the greater the difficulty in extracting useful knowledge from this database. The purpose of this paper is to present some tools called intelligent, knowledge extraction of these large data repositories. Although many connotations, this work will understand knowledge extraction from data repositories on the combined occurrence of some data with frequency and reliability that are considered interesting, ie, the extent and specific data or data set appears in the data, at a rate deemed reasonable, other data or data set will appear. Runs on repositories of data on georeferenced data of students UERJ (Universidade do Estado do Rio de Janeiro), will analyze the results of two tools to extract data and present opportunities for optimization of these computational tools.
34

Otimização computacional e estudo comparativo das técnicas de extração de conhecimento de grandes repositórios de dados. / Comparative study of techniques for extracting knowledge from large data repository.

Fernando Luiz Coelho Senra 16 September 2009 (has links)
Ao se realizar estudo em qualquer área do conhecimento, quanto mais dados se dispuser, maior a dificuldade de se extrair conhecimento útil deste banco de dados. A finalidade deste trabalho é apresentar algumas ferramentas ditas inteligentes, de extração de conhecimento destes grandes repositórios de dados. Apesar de ter várias conotações, neste trabalho, irá se entender extração de conhecimento dos repositórios de dados a ocorrência combinada de alguns dados com freqüência e confiabilidade que se consideram interessantes, ou seja, na medida e que determinado dado ou conjunto de dados aparece no repositório de dados, em freqüência considerada razoável, outro dado ou conjunto de dados irá aparecer. Executada sobre repositórios de dados referentes a informações georreferenciadas dos alunos da UERJ (Universidade do Estado do Rio de Janeiro), irá se analisar os resultados de duas ferramentas de extração de dados, bem como apresentar possibilidades de otimização computacional destas ferramentas. / Comparative Study of Techniques for Extracting knowledge from large data repositories. When conducting the study in any field of knowledge, the more data is available, the greater the difficulty in extracting useful knowledge from this database. The purpose of this paper is to present some tools called intelligent, knowledge extraction of these large data repositories. Although many connotations, this work will understand knowledge extraction from data repositories on the combined occurrence of some data with frequency and reliability that are considered interesting, ie, the extent and specific data or data set appears in the data, at a rate deemed reasonable, other data or data set will appear. Runs on repositories of data on georeferenced data of students UERJ (Universidade do Estado do Rio de Janeiro), will analyze the results of two tools to extract data and present opportunities for optimization of these computational tools.
35

Análise associativa: identificação de padrões de associação entre o perfil socioeconômico dos alunos do ensino básico e os resultados nas provas de matemática / Association analysis: identification of patterns related to the socioeconomic profiles

Lyvia Aloquio 20 February 2014 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Nos dias atuais, a maioria das operações feitas por empresas e organizações é armazenada em bancos de dados que podem ser explorados por pesquisadores com o objetivo de se obter informações úteis para auxílio da tomada de decisão. Devido ao grande volume envolvido, a extração e análise dos dados não é uma tarefa simples. O processo geral de conversão de dados brutos em informações úteis chama-se Descoberta de Conhecimento em Bancos de Dados (KDD - Knowledge Discovery in Databases). Uma das etapas deste processo é a Mineração de Dados (Data Mining), que consiste na aplicação de algoritmos e técnicas estatísticas para explorar informações contidas implicitamente em grandes bancos de dados. Muitas áreas utilizam o processo KDD para facilitar o reconhecimento de padrões ou modelos em suas bases de informações. Este trabalho apresenta uma aplicação prática do processo KDD utilizando a base de dados de alunos do 9 ano do ensino básico do Estado do Rio de Janeiro, disponibilizada no site do INEP, com o objetivo de descobrir padrões interessantes entre o perfil socioeconômico do aluno e seu desempenho obtido em Matemática na Prova Brasil 2011. Neste trabalho, utilizando-se da ferramenta chamada Weka (Waikato Environment for Knowledge Analysis), foi aplicada a tarefa de mineração de dados conhecida como associação, onde se extraiu regras por intermédio do algoritmo Apriori. Neste estudo foi possível descobrir, por exemplo, que alunos que já foram reprovados uma vez tendem a tirar uma nota inferior na prova de matemática, assim como alunos que nunca foram reprovados tiveram um melhor desempenho. Outros fatores, como a sua pretensão futura, a escolaridade dos pais, a preferência de matemática, o grupo étnico o qual o aluno pertence, se o aluno lê sites frequentemente, também influenciam positivamente ou negativamente no aprendizado do discente. Também foi feita uma análise de acordo com a infraestrutura da escola onde o aluno estuda e com isso, pôde-se afirmar que os padrões descobertos ocorrem independentemente se estes alunos estudam em escolas que possuem infraestrutura boa ou ruim. Os resultados obtidos podem ser utilizados para traçar perfis de estudantes que tem um melhor ou um pior desempenho em matemática e para a elaboração de políticas públicas na área de educação, voltadas ao ensino fundamental. / Nowadays, most of the transactions made by companies and organizations is stored in databases that can be explored by researchers in order to obtain useful information to aid decision making. Due to the large volume involved, the extraction and analysis of data is not a simple task. The general process of converting raw data into useful information is called Knowledge Discovery in Databases (KDD). One step in this process is the Data Mining, which involves the application of algorithms and statistical techniques to exploit information contained implicitly in large databases. Many areas use the KDD process to facilitate the recognition of patterns or models on their bases of information. This work presents a practical application of KDD process using the database of students in the 9th grade of elementary education in the State of Rio de Janeiro, available in INEP site, with the aim of finding interesting patterns between the socioeconomic profile of the student and his/her performance obtained in Mathematics. The tool called Weka was used and the Apriori algorithm was applied to extracting association rules. This study revealed, for example, that students who have been reproved once tend to get a lower score on the math test, as well as students who had never been disapproved have had superior performance. Other factors like student future perspectives, ethnic group, parent's schooling, satisfaction in mathematics studying, and the frequency of access to Internet also affect positively or negatively the students learning. An analysis related to the schools infrastructure was made, with the conclusion that patterns do not change regardless of the student studying in good or bad infrastructure schools. The results obtained can be used to trace the students profiles which have a better or a worse performance in mathematics and to the development of public policies in education, aimed at elementary education.
36

Seleção e geração de características utilizando regras de associação para o problema de ordenação de resultados de máquinas de buscas / Feature selection and generation using assossiation rules for the ranking problem of searches machines

Araujo, Carina Calixto Ribeiro de 29 August 2014 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2015-03-31T12:22:43Z No. of bitstreams: 2 Dissertação - Carina Calixto Ribeiro de Araujo - 2014.pdf: 962707 bytes, checksum: 35c8b1aaf03b3f0aeefb923de0f8dfcc (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2015-04-01T10:56:06Z (GMT) No. of bitstreams: 2 Dissertação - Carina Calixto Ribeiro de Araujo - 2014.pdf: 962707 bytes, checksum: 35c8b1aaf03b3f0aeefb923de0f8dfcc (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-04-01T10:56:06Z (GMT). No. of bitstreams: 2 Dissertação - Carina Calixto Ribeiro de Araujo - 2014.pdf: 962707 bytes, checksum: 35c8b1aaf03b3f0aeefb923de0f8dfcc (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2014-08-29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Information Retrieval is an area of IT that deals with document storage and the information retrieval in these documents. With the advent of the Internet, the number of documents produced has increased as well as the need to retrieve the information more accurately. Many approaches have been proposed to meet these requirements and one of them is Learning to rank (L2R). Despite major advances achieved in the accuracy of retrived documents, there is still considerable room for improvement. This master thesis proposes the use of feature selection and generation using association rules to improve the accuracy of the L2R methods. / Recuperação de Informação é a área da informática que lida com o armazenamento de documentos e a recuperação de informação desses documentos. Com o advento da internet a quantidade de documentos produzidos aumentou, bem como a necessidade de recuperar a informação de forma mais mais precisa. Muitas abordagens surgiram para suprir essa requisição e uma delas é a abordagem Learning to Rank (L2R). Apesar de obtidos grandes avanços na precisão dos documentos retornados, ainda há espaço para melhorias. Esse trabalho de mestrado propõe a utilização de seleção e geração de características utilizando regras de associação para conseguir uma melhoria na acurácia dos métodos de L2R.
37

Suporte a sistemas de auxílio ao diagnóstico e de recuperação de imagens por conteúdo usando mineração de regras de associação / Supporting Computer-Aided Diagnosis and Content-Based Image Retrieval Systems through Association Rule Mining

Marcela Xavier Ribeiro 16 December 2008 (has links)
Neste trabalho, a mineração de regras de associação é utilizada para dar suporte a dois tipos de sistemas médicos: os sistemas de busca por conteúdo em imagens (Content-based Image Retrieval - CBIR) e os sistemas de auxílio ao diagnóstico (Computer Aided Diagnosis - CAD). Na busca por conteúdo, regras de associação são empregadas para reduzir a dimensionalidade dos vetores de características que representam as imagens e para diminuir o ``gap semântico\'\', que existe entre as características de baixo nível das imagens e seu significado semântico. O algoritmo StARMiner (Statistical Association Rule Miner) foi desenvolvido para associar características de baixo nível das imagens com o seu significado semântico, sendo também utilizado para realizar seleção de características em bases de imagens médicas, melhorando a precisão dos sistemas CBIR. Para dar suporte aos sistemas CAD, o método IDEA (Image Diagnosis Enhancement through Association rules) foi desenvolvido. Nesse método regras de associação são empregadas para sugerir uma segunda opinião ou diagnóstico preliminar de uma nova imagem para o radiologista. A segunda opinião automaticamente gerada pelo método pode acelerar o processo de diagnóstico de uma imagem ou reforçar uma hipótese, trazendo ao especialista médico um apoio estatístico da situação sendo analisada. Dois novos algoritmos foram propostos: um para pré-processar as características de baixo nível das imagens médicas e, o outro, para propor diagnósticos baseados em regras de associação. Vários experimentos foram realizados para validar os métodos desenvolvidos. Os experimentos realizados indicam que o uso de regras de associação pode contribuir para melhorar a busca por conteúdo e o diagnóstico de imagens médicas, consistindo numa poderosa ferramenta para descoberta de padrões em sistemas médicos / In this work we take advantage of association rule mining to support two types of medical systems: the Content-based Image Retrieval (CBIR) and the Computer-Aided Diagnosis (CAD) systems. For content-based retrieval, association rules are employed to reduce the dimensionality of the feature vectors that represent the images and to diminish the semantic gap that exists between low-level features and its high-level semantical meaning. The StARMiner (Statistical Association Rule Miner) algorithm was developed to associate low-level features with their semantical meaning. StARMiner is also employed to perform feature selection in medical image datasets, improving the precision of CBIR systems. To improve CAD systems, we developed the IDEA (Image Diagnosis Enhancement through Association rules) method. Association rules are employed to suggest a second opinion to the radiologist or a preliminary diagnosis of a new image. A second opinion automatically obtained can accelerate the process of diagnosing or strengthen a hypothesis, giving to the physician a statistical support to the decision making process. Two new algorithms are developed to support the IDEA method: to pre-process low-level features and to propose a diagnosis based on association rules. We performed several experiments to validate the developed methods. The results indicate that association rules can be successfully applied to improve CBIR and CAD systems, empowering the arsenal of techniques to support medical image analysis in medical systems
38

Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rules

Santos, Fabiano Fernandes dos 17 September 2010 (has links)
Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods
39

Visualização como suporte à extração e exploração de regras de associação / Vusualization as support to the extraction and exploration of association rules

Yamamoto, Claudio Haruo 17 April 2009 (has links)
Desde a definção do problema de obtenção de regras de associação, vários algoritmos eficientes foram introduzidos para tratá-lo. Entretanto, ainda hoje o problema apresenta várias dificuldades práticas para os mineradores, como a determinação de limiares adequados de suporte mínimo e confiança mínima, a manipulação de grandes conjuntos de regras, e a compreensão de regras (especialmente aquelas contendo muitos itens). Para tratar estes problemas, pesquisadores têm investigado a aplicação de técnicas interativas, sumarização (de conjuntos de regras) e representações visuais. Entretanto, nenhuma abordagem na qual os usuários podem entender e controlar o processo por meio da interação com o algoritmo analítico ao longo de sua execução foi introduzida. Neste trabalho, é introduzida uma abordagem interativa para extração e exploração de regras de associação que insere o usuário no processo por meio de: execução interativa do Apriori ; seleção interativa de itemsets freqüentes; extração de regras baseada em itemsets e orientada por agrupamentos de itemsets similares; e exploração de regras aos pares. Para validar a abordagem, foram realizados diversos estudos, apoiados pelo Sistema \'I IND.2\' E, com o objetivo de: comparar a abordagem interativa, sob diversos aspectos, com uma abordagem convencional de obtenção de regras de associação; avaliar o efeito de variar alguns parâmetros do processo nos resultados finais; e mostrar a aplicação dos recursos oferecidos em situações reais e com usuários reais. Os resultados indicam que a abordagem apresentada é adequada, tanto em cenários exploratórios quanto em cenários em que há um direcionamento inicial para o processo, à execução de certas tarefas de extração de regras de associação, pois: provém recursos capazes de evitar execuções inteiras do algoritmo antes que os resultados sejam analisados; gera conjuntos de regras mais compactos; preserva a cobertura de itemsets; favorece a reformulação de tarefas ou a formulação de novas tarefas; e provê meios para comparação visual de regras, aumentando o poder de análise do minerador / Since the definition of the association rule mining problem, many efficient algorithms have been introduced to deal with it. However, the problem still presents many practical difficulties to the miners, such as the determination of suitable minimum support and minimum confidence thresholds, manipulation of large rule sets, and comprehension of rules (specially those containing many items). In order to deal with these problems, researchers have been investigating the application of interactive techniques, sumarization (of rule sets) and visual representations. Nonetheless, no approach in which users can understand and control the process through interaction with the analytical algorithm along its execution has been introduced. We introduce an interactive approach to extract and explore association rules that inserts the user into the process through: interactive execution of the Apriori ; interactive selection of frequent itemsets; itemset-based and cluster-oriented extraction of rules; and pairwise exploration of rules. To validate the approach, several studies have been conducted, supported by the \'I IND.2\' E System, aiming at: comparing the interactive approach, under several aspects, with a conventional approach to obtain association rules; evaluate the effect of different execution parameters in the final results; and illustrate its application in real situations and with real users. Results of these studies indicate that the approach is adequate, both in exploratory scenarios and in scenarios in which there is an initial guidance for the process, to the execution of certain association rule extraction tasks, because: it provides resources to avoid complete algorithm executions before results are analyzed; generates more compact rule sets for exploration; preserves rule diversity; favors the reformulation of tasks; and provides support for rule comparison, enhancing analysis capability for miners
40

Uma metodologia para exploração de regras de associação generalizadas integrando técnicas de visualização de informação com medidas de avaliação do conhecimento / A methodology for exploration of generalized association rules integrating information visualization techniques with knowledge evaluation measures

Fujimoto, Magaly Lika 04 August 2008 (has links)
O processo de mineração de dados tem como objetivo encontrar o conhecimento implícito em um conjunto de dados para auxiliar a tomada de decisão. Do ponto de vista do usuário, vários problemas podem ser encontrados durante a etapa de pós-processamento e disponibilização do conhecimento extraído, como a enorme quantidade de padrões gerados por alguns algoritmos de extração e a dificuldade na compreensão dos modelos extraídos dos dados. Além do problema da quantidade de regras, os algoritmos tradicionais de regras de associação podem levar à descoberta de conhecimento muito específico. Assim, pode ser realizada a generalização das regras de associação com o intuito de obter um conhecimento mais geral. Neste projeto é proposta uma metodologia interativa que auxilie na avaliação de regras de associação generalizadas, visando melhorar a compreensibilidade e facilitar a identificação de conhecimento interessante. Este auxílio é realizado por meio do uso de técnicas de visualização em conjunto com a aplicação medidas de avaliação objetivas e subjetivas, que estão implementadas no módulo de visualização de regras de associação generalizados denominado RulEE-GARVis, que está integrado ao ambiente de exploração de regras RulEE (Rule Exploration Environment). O ambiente RulEE está sendo desenvolvido no LABIC-ICMC-USP e auxilia a etapa de pós-processamento e disponibilização de conhecimento. Neste contexto, também foi objetivo deste projeto de pesquisa desenvolver o Módulo de Gerenciamento do ambiente de exploração de regras RulEE. Com a realização do estudo dirigido, foi possível verificar que a metodologia proposta realmente facilita a compreensão e a identificação de regras de associação generalizadas interessantes / The data mining process aims at finding implicit knowledge in a data set to aid in a decision-making process. From the users point of view, several problems can be found at the stage of post-processing and provision of the extracted knowledge, such as the huge number of patterns generated by some of the extraction algorithms and the difficulty in understanding the types of the extracted data. Besides the problem of the number of rules, the traditional algorithms of association rules may lead to the discovery of very specific knowledge. Thus, the generalization of association rules can be realized to obtain a more general knowledge. In this project an interactive methodology is proposed to aid in the evaluation of generalized association rules in order to improve the understanding and to facilitate the identification of interesting knowledge. This aid is accomplished through the use of visualization techniques along with the application of objective and subjective evaluation measures, which are implemented in the visualization module of generalized association rules called RulEE-GARVis, which is integrated with the Rule Exploration Environment RulEE. The RulEE environment is being developed at LABIC-ICMC-USP and aids in the post-processing and provision of knowledge. In this context, it was also the objective of this research project to develop the Module Management of the rule exploration environment RulEE. Through this directed study, it was verified that the proposed methodology really facilitates the understanding and identification of interesting generalized association rules

Page generated in 0.0896 seconds