• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • Tagged with
  • 17
  • 17
  • 17
  • 17
  • 15
  • 15
  • 15
  • 15
  • 15
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Consultas por similaridade e mineração de regras de associação: maximizando o conhecimento extraído de séries temporais

Andrade, Claudinei Garcia de 28 August 2014 (has links)
Made available in DSpace on 2016-06-02T19:06:18Z (GMT). No. of bitstreams: 1 6337.pdf: 1365151 bytes, checksum: 464969011137271e4d5d5088872c236b (MD5) Previous issue date: 2014-08-28 / A time series analysis presents challenges. There is a difficulty to manipulate the data by requiring a large computational cost, or even, by the difficulty of finding subsequences that have the same characteristics. However, this analysis is important for understanding the evolution of various phenomena such as climate change, changes in financial markets among others. This project proposed the development of a method for performing similarity queries in time series that have better performance and accuracy than the state-of-art and a method of mining association rules in series using similarity. The experiments performed have applied the proposed methods in real data sets, bringing relevant knowledge, indicating that both methods are suitable for analysis by similarity of one-dimensional and multidimensional time series. / A analise de séries temporais apresenta certos desafios. Seja pela dificuldade na manipulação dos dados, por exigir um grande custo computacional, ou mesmo pela dificuldade de se en¬contrar subsequências que apresentam as mesmas características. No entanto, essa analise e importante para o entendimento da evolução de diversos fenômenos como as mudanças climaticas, as variações no mercado financeiro entre outros. Este projeto de mestrado propos o desenvolvimento de um método para a realização de consultas por similaridade em series temporais que apresentam melhor desempenho e acurâcia que o estado-da-arte e um método de mineração de regras de associação em series utilizando similaridade. Os experimentos feitos aplicaram os métodos propostos em conjuntos de dados reais, trazendo conhecimento relevante, indicando que os metodos são adequados para analise por similaridade de series temporais unidimensionais e multidimensionais.
12

Uso do data mining no estabelecimento de relacionamentos entre medidas de desempenho.

Custodio, Flavio Augusto 30 September 2004 (has links)
Made available in DSpace on 2016-06-02T19:52:06Z (GMT). No. of bitstreams: 1 DissFAC.pdf: 1641656 bytes, checksum: 3e48b5a2633d9ec682a617bdd738dac7 (MD5) Previous issue date: 2004-09-30 / Universidade Federal de Sao Carlos / This work aims to propose a method to analyze the relationships between performance measures in a Performance Measurement System using historical performance data storaged in a datawarehouse or operational data store. There is a problem in the performance measurement area that it doesn t have methods to create relationships models between performance measures. The present methods that we have in academic researches don t help to build the relationships concerning historical performance data. Therefore, there is a trend to build the relationship between performance measures to reflect the desirable future, but it is also true that we have to learn about the past actions. Nowadays, with the increasing complexity in the organizations environment it is very difficulty to handle historical data about performance to identify relationship patterns without using concepts, techniques and tools of the Information Technology (IT) field. The variables contained in the performance measurement models are increasing continually so it is important to understand the complex net of relationships between performance measures in an organization. The stakeholders in the organization see the relationships between performance measures as trivial, but this doesn t help because the relationships are partial and subjective and the stakeholders that articulate the variables in most of the cases are accountable by the performance. It s expected that decision makers participate and share their models of relationships between performance measures and that it be the most comprehensive as possible. This work is important because it proposes to use the data mining philosophy to help building a method to understand relationship between performance measures with performance historical data. Hence, it will be possible to define and communicate the relationships between performance measures to the users of the organization and increase the use of performance measurement models. The proposed method presents a process to build and find relationships between performance measures data using data mining techniques. The IDEF0 procedure was used to present our approach. / O objetivo deste trabalho é propor um método para o estabelecimento dos relacionamentos entre as medidas de desempenho de um sistema de medição de desempenho a partir de dados históricos sobre desempenho armazenados em um banco de dados, utilizando a abordagem data mining. Um problema no campo da medição de desempenho é a falta de métodos de criação de modelos de relacionamentos entre as medidas de desempenho. Os existentes, encontrados na literatura, não tratam de como construir o relacionamento a partir de dados históricos de desempenho. Além disso, existe uma tendência de estabelecer o relacionamento esperado de forma que a medição de desempenho reflita o futuro desejado. Entretanto, é de grande valia aprender por intermédio daquilo que já foi feito, ou seja, pelas ações passadas. Com o aumento da complexidade das organizações, fica um tanto quanto difícil manipular dados históricos sobre desempenho para a identificação de padrões de relacionamento sem lançar mão de conceitos, técnicas e ferramentas da tecnologia de informação. Em face de o número de variáveis envolvidas ser cada vez maior, é importante a busca do entendimento da complexa teia de relacionamento existente entre as medidas de desempenho numa organização. Este relacionamento é visto pelas pessoas nas organizações como algo corriqueiro. Entretanto, o que pode ser improdutivo é que esses relacionamentos são parciais e pessoais, visando a articular as variáveis por cujo desempenho as pessoas, na maioria dos casos, tinham responsabilidade. O ideal é que a maioria dos tomadores de decisão compartilhem do mesmo modelo de relacionamento entre as medidas de desempenho e que ele fosse a mais abrangente possível. Portanto, a relevância deste trabalho é procurar desenvolver uma forma de aplicação da abordagem data mining a fim de auxiliar na construção de um método para o estabelecimento dos relacionamentos entre as medidas de desempenho com base em dados de desempenho históricos. Assim, será possível formalizar e disseminar o relacionamento entre as medidas de desempenho para uma gama maior de pessoas numa organização, podendo melhorar o uso da medição de desempenho. O método proposto procura abranger todo o processo de construção do relacionamento com aplicação de data mining e não somente a aplicação de uma ou outra técnica especifica dele. A apresentação da proposta é feita utilizando-se a prática IDEF0.
13

Mineração de regras de associação generalizadas utilizando ontologias fuzzy e similaridade baseada em contexto

Ayres, Rodrigo Moura Juvenil 08 August 2012 (has links)
Made available in DSpace on 2016-06-02T19:05:58Z (GMT). No. of bitstreams: 1 4486.pdf: 3511223 bytes, checksum: 3f8c09a3cb87230a2ac0f6706ea07944 (MD5) Previous issue date: 2012-08-08 / Financiadora de Estudos e Projetos / The mining association rules are an important task in data mining. Traditional algorithms of mining association rules are based only on the database items, providing a very specific knowledge. This specificity may not be advantageous, because the users normally need more general, interesting and understandable knowledge. In this sense, there are approaches working in order to obtain association rules with items belonging to any level of a taxonomic structure. In the crisp contexts taxonomies are used in different steps of the mining process. When the objective is the generalization they are used, mainly, in the pre-processing or post-processing stages. On the other hand, in the fuzzy context, fuzzy taxonomies are used, mainly, in the pre-processing step, during the generating extended transactions. A great problem of these transactions is related to the huge amount of candidates and rules. Beyond that, the inclusion of ancestors ends up generating redundancy problems. Besides, it is possible to see that many works have directed efforts for the question of mining fuzzy rules, exploring linguistic terms, but few approaches have been proposed for explore new steps of mining process. In this sense, this paper proposes the Context FOntGAR algorithm, a new algorithm for mining generalized association rules under all levels of fuzzy ontologies composed by specialization/generalization degrees varying in the interval [0,1]. In order to obtain more semantic enrichment, the rules may be composed by similarity relations, which are represented at the fuzzy ontologies in different contexts. In this work the generalization is done during the post-processing step. Other relevant points of this paper are the specification of a new approach of generalization; including a new grouping rules treatment, and a new and efficient way for calculating both support and confidence of generalized rules. / Algoritmos tradicionais de associação se caracterizam por utilizar apenas itens contidos na base de dados, proporcionando um conhecimento muito específico. No entanto, essa especificidade nem sempre é vantajosa, pois normalmente os usuários finais necessitam de padrões mais gerais, e de fácil compreensão. Nesse sentido, existem abordagens que não se limitam somente aos itens da base, e trabalham com o objetivo de minerar regras (generalizadas) com itens presentes em qualquer nível de estruturas taxonômicas. Taxonomias podem ser utilizadas em diferentes etapas do processo de mineração. A literatura mostra que, em contextos crisp, essas estruturas são utilizadas tanto em etapa de pré-processamento, quanto em etapa de pós-processamento, e que em domínios fuzzy, a utilização ocorre somente na etapa de pré-processamento, durante a geração de transações estendidas. Além do viés de utilização de transações estendidas, que podem levar a geração de um volume de regras superior ao caso tradicional, é possível notar que, em domínios nebulosos, as pesquisas dão enfoque apenas à mineração de regras fuzzy, deixando de lado a exploração de diferentes graus de especialização/generalização em taxonomias. Nesse sentido, este trabalho propõem o algoritmo FOntGAR, um novo algoritmo para mineração de regras de associação generalizadas com itens presentes em qualquer nível de ontologias compostas por graus de especialização/generalização variando no intervalo [0,1] (ontologias de conceitos fuzzy), em etapa de pós-processamento. Objetivando obter maior enriquecimento semântico, as regras geradas pelo algoritmo também podem possuir relações de similaridade, de acordo com contextos pré-definidos. Outros pontos relevantes são a especificação de uma nova abordagem de generalização (incluindo um novo tratamento de agrupamento das regras), e um novo e eficiente método para calcular o suporte estendido das regras generalizadas durante a etapa mencionada.
14

Mineração visual de imagens aliada a consultas pelos k-vizinhos diversos mais próximos: flexibilizando e maximizando o entendimento de consultas por conteúdo de imagens / Mineração visual de imagens aliada a consultas pelos k-vizinhos diversos mais próximos: flexibilizando e maximizando o entendimento de consultas por conteúdo de imagens

Dias, Rafael Loosli 23 August 2013 (has links)
Made available in DSpace on 2016-06-02T19:06:11Z (GMT). No. of bitstreams: 1 5726.pdf: 4603491 bytes, checksum: 0fe3fa824a018f481106303c4816bf07 (MD5) Previous issue date: 2013-08-23 / Financiadora de Estudos e Projetos / Content-Based Image Retrieval systems use visual information like color, shape and texture to represent images in feature vectors. The numerical representation found for the images is used in query execution through a metric to evaluate the distance between vectors. In general, there is an inconsistency in the evaluation of similarity between images according to human perception and the results computed by CBIR systems, which is called Semantic Gap. One way to overcome this problem is by the addition of a diversity factor in query execution, allowing the user to specify a degree of dissimilarity between the resulting images and changing the query result. Adding diversity in consultation, however, requires high computational cost and the reduction of possible subsets to be analyzed is a difficult task to be understood by the user. This masters degree thesis aims to make use of Visual Data Mining techniques applied to queries in CBIR systems, improving the interpretability of the measure of similarity and diversity, as well as the relevance of the result according to the judgment and prior knowledge of the user. The user takes an active role in the retrieval of images by their content, guiding its result and, consequently, reducing the Semantic Gap. Additionally, a better understanding of the diversity and similarity factors involved in the query is supported by visualization and interaction techniques. / Sistemas de recuperação de imagens por conteúdo (do Inglês, Content-Based Image Retrieval - CBIR) utilizam informações visuais de cor, forma e textura para representar as imagens em vetores de características. A representação numérica encontrada para as imagens é utilizada na execução da consulta através de uma métrica que avalie a distância entre os vetores. Em geral, existe uma inconsistência entre a percepção do ser humano na avaliação de similaridade entre imagens se comparada com a computada por sistemas CBIR, sendo esta descontinuidade denominada Gap Semântico. Adicionar um fator de diversidade na consulta tem-se mostrado como uma maneira de superar este problema, permitindo que o usuário especifique o grau de dissimilaridade entre as imagens resultantes e altere o resultado da consulta. Adicionar diversidade em consulta, no entanto, requer alto custo computacional e a redução das possibilidades de conjuntos para resposta é de difícil entendimento para o usuário. Este trabalho de mestrado propôs a utilização de técnicas de Mineração Visual de Dados (MVD) aplicadas sobre consultas em sistemas CBIR, melhorando a interpretabilidade da medida de similaridade e diversidade, assim como a relevância do resultado obtido. O usuário passa a exercer um papel ativo na consulta por conteúdo de imagens, permitindo que o mesmo dirija o processo, aproximando o resultado ao esperado pela cognição humana e reduzindo o gap semântico.
15

Classificação de data streams utilizando árvore de decisão estatística e a teoria dos fractais na análise evolutiva dos dados

Cazzolato, Mirela Teixeira 24 March 2014 (has links)
Made available in DSpace on 2016-06-02T19:06:13Z (GMT). No. of bitstreams: 1 5984.pdf: 1962060 bytes, checksum: d943b973e9dd5f12ab87985f7388cb80 (MD5) Previous issue date: 2014-03-24 / Financiadora de Estudos e Projetos / A data stream is generated in a fast way, continuously, ordered, and in large quantities. To process data streams there must be considered, among others factors, the limited use of memory, the need of real-time processing, the accuracy of the results and the concept drift (which occurs when there is a change in the concept of the data being analyzed). Decision tree is a popular form of representation of the classifier, that is intuitive and fast to build, generally obtaining high accuracy. The techniques of incremental decision trees present in the literature generally have high computational costs to construct and update the model, especially regarding the calculation to split the decision nodes. The existent methods have a conservative characteristic to deal with limited amounts of data, tending to improve their results as the number of examples increases. Another problem is that many real-world applications generate data with noise, and the existing techniques have a low tolerance to these events. This work aims to develop decision tree methods for data streams, that supply the deficiencies of the current state of the art. In addition, another objective is to develop a technique to detect concept drift using the fractal theory. This functionality should indicate when there is a need to correct the model, allowing the adequate description of most recent events. To achieve the objectives, three decision tree algorithms were developed: StARMiner Tree, Automatic StARMiner Tree, and Information Gain StARMiner Tree. These algorithms use a statistical method as heuristic to split the nodes, which is not dependent on the number of examples and is fast. In the experiments the algorithms achieved high accuracy, also showing a tolerant behavior in the classification of noisy data. Finally, a drift detection method was proposed to detect changes in the data distribution, based on the fractal theory. The method, called Fractal Detection Method, detects significant changes on the data distribution, causing the model to be updated when it does not describe the data (becoming obsolete). The method achieved good results in the classification of data containing concept drift, proving to be suitable for evolutionary analysis of data. / Um data stream e gerado de forma rápida, contínua, ordenada e em grande quantidade. Para o processamento de data streams deve-se considerar, dentre outros fatores, o uso limitado de memoria, a necessidade de processamento em tempo real, a precisão dos resultados e o concept drift (que ocorre quando há uma mudança no conceito dos dados que estão sendo analisados). À arvore de decisão e uma popular forma de representação do modelo classificador, intuitiva, e rápida de construir, geralmente possuindo alta acurada. Às técnicas de arvores de decisão incrementais presentes na literatura geralmente apresentam um alto custo computacional para a construção e atualização do modelo, principalmente no que se refere ao calculo para a decisão de divisão dos nós. Os métodos existentes possuem uma característica conservadora para lidar com quantidades de dados limitadas, tendendo a melhorar seus resultados conforme o número de exemplos aumenta. Outro problema e a geração dos dados com ruídos por muitas aplicações reais, pois as técnicas existentes possuem baixa tolerância a essas ocorrências. Este trabalho tem como objetivo o desenvolvimento de métodos de arvores de decisão para data streams, que suprem as deficiências do atual estado da arte. Além disso, outro objetivo deste projeto e o desenvolvimento de uma funcionalidade para detecção de concept drift utilizando a teoria dos fractais, corrigindo o modelo sempre que necessário, possibilitando a descrição correta dos acontecimentos mais recentes dos dados. Para atingir os objetivos foram desenvolvidos três algoritmos de arvore de decisão: o StÀRMiner Tree, o Àutomatic StÀRMiner Tree, e o Information Gain StÀR-Miner Tree. Esses algoritmos utilizam um método estatístico como heurística de divisão de nós, que não é dependente do numero de exemplos lidos e que e rápida. Os algoritmos obtiveram alta acurácia nos experimentos realizados, mostrando também um comportamento tolerante na classificação de dados ruidosos. Finalmente, foi proposto um método para a detecção de mudanças no comportamento dos dados baseado na teoria dos fractais, o Fractal Drift Detection Method. Ele detecta mudanças significativas na distribuicao dos dados, fazendo com que o modelo seja atualizado sempre que o mesmo não descrever os dados atuais (se tornar obsoleto). O método obteve bons resultados na classificação de dados contendo concept drift, mostrando ser adequado para a análise evolutiva dos dados.
16

Análise de dados sequenciais heterogêneos baseada em árvore de decisão e modelos de Markov : aplicação na logística de transporte

Ataky, Steve Tsham Mpinda 16 October 2015 (has links)
Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-09-16T12:52:39Z No. of bitstreams: 1 DissSATM.pdf: 3079104 bytes, checksum: 51b46ffeb4387370e30fb92e31771606 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-16T19:59:28Z (GMT) No. of bitstreams: 1 DissSATM.pdf: 3079104 bytes, checksum: 51b46ffeb4387370e30fb92e31771606 (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-09-16T19:59:34Z (GMT) No. of bitstreams: 1 DissSATM.pdf: 3079104 bytes, checksum: 51b46ffeb4387370e30fb92e31771606 (MD5) / Made available in DSpace on 2016-09-16T19:59:41Z (GMT). No. of bitstreams: 1 DissSATM.pdf: 3079104 bytes, checksum: 51b46ffeb4387370e30fb92e31771606 (MD5) Previous issue date: 2015-10-16 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Latterly, the development of data mining techniques has emerged in many applications’ fields with aim at analyzing large volumes of data which may be simple and / or complex. The logistics of transport, the railway setor in particular, is a sector with such a characteristic in that the data available in are of varied natures (classic variables such as top speed or type of train, symbolic variables such as the set of routes traveled by train, degree of tack, etc.). As part of this dissertation, one addresses the problem of classification and prediction of heterogeneous data; it is proposed to study through two main approaches. First, an automatic classification approach was implemented based on classification tree technique, which also allows new data to be efficiently integrated into partitions initialized beforehand. The second contribution of this work concerns the analysis of sequence data. It has been proposed to combine the above classification method with Markov models for obtaining a time series (temporal sequences) partition in homogeneous and significant groups based on probabilities. The resulting model offers good interpretation of classes built and allows us to estimate the evolution of the sequences of a particular vehicle. Both approaches were then applied onto real data from the a Brazilian railway information system company in the spirit of supporting the strategic management of planning and coherent prediction. This work is to initially provide a thinner type of planning to solve the problems associated with the existing classification in homogeneous circulations groups. Second, it sought to define a typology of train paths (sucession traffic of the same train) in order to provide or predict the next movement of statistical characteristics of a train carrying the same route. The general methodology provides a supportive environment for decision-making to monitor and control the planning organization. Thereby, a formula with two variants was proposed to calculate the adhesion degree between the track effectively carried out or being carried out with the planned one. / Nos últimos anos aflorou o desenvolvimento de técnicas de mineração de dados em muitos domínios de aplicação com finalidade de analisar grandes volumes de dados, os quais podendo ser simples e/ou complexos. A logística de transporte, o setor ferroviário em particular, é uma área com tal característica em que os dados disponíveis são muitos e de variadas naturezas (variáveis clássicas como velocidade máxima ou tipo de trem, variáveis simbólicas como o conjunto de vias percorridas pelo trem, etc). Como parte desta dissertação, aborda-se o problema de classificação e previsão de dados heterogêneos, propõe-se estudar através de duas abordagens principais. Primeiramente, foi utilizada uma abordagem de classificação automática com base na técnica por ´arvore de classificação, a qual também permite que novos dados sejam eficientemente integradas nas partições inicial. A segunda contribuição deste trabalho diz respeito à análise de dados sequenciais. Propôs-se a combinar o método de classificação anterior com modelos de Markov para obter uma participação de sequências temporais em grupos homogêneos e significativos com base nas probabilidades. O modelo resultante oferece uma boa interpretação das classes construídas e permite estimar a evolução das sequências de um determinado veículo. Ambas as abordagens foram então aplicadas nos dados do sistema de informação ferroviário, no espírito de dar apoio à gestão estratégica de planejamentos e previsões aderentes. Este trabalho consiste em fornecer inicialmente uma tipologia mais fina de planejamento para resolver os problemas associados com a classificação existente em grupos de circulações homogêneos. Em segundo lugar, buscou-se definir uma tipologia de trajetórias de trens (sucessão de circulações de um mesmo trem) para assim fornecer ou prever características estatísticas da próxima circulação mais provável de um trem realizando o mesmo percurso. A metodologia geral proporciona um ambiente de apoio à decisão para o monitoramento e controle da organização de planejamento. Deste fato, uma fórmula com duas variantes foi proposta para calcular o grau de aderência entre a trajetória efetivamente realizada ou em curso de realização com o planejado.
17

Algoritmo para a extração incremental de sequências relevantes com janelamento e pós-processamento aplicado a dados hidrográficos

Silveira Junior, Carlos Roberto 07 June 2013 (has links)
Made available in DSpace on 2016-06-02T19:06:09Z (GMT). No. of bitstreams: 1 5554.pdf: 2294386 bytes, checksum: ce6dc6cd7128337c0533ddd23c0bc601 (MD5) Previous issue date: 2013-06-07 / The mining of sequential patterns in data from environmental sensors is a challenging task: the data may show noise and may also contain sparse patterns that are difficult to detect. The knowledge extracted from environmental sensor data can be used to determine climate change, for example. However, there is a lack of methods that can handle this type of database. In order to reduce this gap, the algorithm Incremental Miner of Stretchy Time Sequences with Post-Processing (IncMSTS-PP) was proposed. The IncMSTS-PP applies incremental extraction of sequential patterns with post-processing based on ontology for the generalization of the patterns. The post-processing makes the patterns semantically richer. Generalized patterns synthesize the information and makes it easier to be interpreted. IncMSTS-PP implements the Stretchy Time Window (STW) that allows stretchy time patterns (patterns with temporal intervals) are mined from bases that have noises. In comparison with GSP algorithm, IncMSTS-PP can return 2.3 times more patterns and patterns with 5 times more itemsets. The post-processing module is responsible for the reduction in 22.47% of the number of patterns presented to the user, but the returned patterns are semantically richer. Thus, the IncMSTS-PP showed good performance and mined relevant patterns showing, that way, that IncMSTS-PP is effective, efficient and appropriate for domain of environmental sensor data. / A mineração de padrões sequenciais em dados de sensores ambientais é uma tarefa desafiadora: os dados podem apresentar ruídos e podem, também, conter padrões esparsos que são difíceis de serem detectados. O conhecimento extraído de dados de sensores ambientais pode ser usado para determinar mudanças climáticas, por exemplo. Entretanto, há uma lacuna de métodos que podem lidar com este tipo de banco de dados. Com o intuito de diminuir esta lacuna, o algoritmo Incremental Miner of Stretchy Time Sequences with Post- Processing (IncMSTS-PP) foi proposto. O IncMSTS-PP aplica a extração incremental de padrões sequencias com pós-processamento baseado em ontologia para a generalização dos padrões obtidos que acarreta o enriquecimento semântico desses padrões. Padrões generalizados sintetizam a informação e a torna mais fácil de ser interpretada. IncMSTS-PP implementa o método Stretchy Time Window (STW) que permite que padrões de tempo elástico (padrões com intervalos temporais) sejam extraídos em bases que apresentam ruídos. Em comparação com o algoritmo GSP, o IncMSTS-PP pode retornar 2,3 vezes mais sequencias e sequencias com 5 vezes mais itemsets. O módulo de pós-processamento é responsável pela redução em 22,47% do número de padrões apresentados ao usuário, porém os padrões retornados são semanticamente mais ricos, se comparados aos padrões não generalizados. Assim sendo, o IncMSTS-PP apresentou bons resultados de desempenho e minerou padrões relevantes mostrando, assim, que IncMSTS-PP é eficaz, eficiente e apropriado em domínio de dados de sensores ambientais.

Page generated in 0.1332 seconds