• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 24
  • Tagged with
  • 24
  • 24
  • 24
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Random forests estocástico

Gómez, Silvio Normey January 2012 (has links)
Made available in DSpace on 2013-08-07T18:43:07Z (GMT). No. of bitstreams: 1 000449231-Texto+Completo-0.pdf: 1860025 bytes, checksum: 1ace09799e27fa64938e802d2d91d1af (MD5) Previous issue date: 2012 / In the Data Mining area experiments have been carried out using Ensemble Classifiers. We experimented Random Forests to evaluate the performance when randomness is applied. The results of this experiment showed us that the impact of randomness is much more relevant in Random Forests when compared with other algorithms, e. g., Bagging and Boosting. The main purpose of this work is to decrease the effect of randomness in Random Forests. To achieve the main purpose we implemented an extension of this method named Stochastic Random Forests and specified the strategy to increase the performance and stability combining the results. At the end of this work the improvements achieved are presented. / Na área de Mineração de Dados, experimentos vem sendo realizados utilizando Conjuntos de Classificadores. Estes experimentos são baseados em comparações empíricas que sofrem com a falta de cuidados no que diz respeito à questões de aleatoriedade destes métodos. Experimentamos o Random Forests para avaliar a eficiência do algoritmo quando submetido a estas questões. Estudos sobre os resultados mostram que a sensibilidade do Random Forests é significativamente maior quando comparado com a de outros métodos encontrados na literatura, como Bagging e Boosting. O proposito desta dissertação é diminuir a sensibilidade do Random Forests quando submetido a aleatoriedade. Para alcançar este objetivo, implementamos uma extensão do método, que chamamos de Random Forests Estocástico. Logo especificamos como podem ser alcançadas melhorias no problema encontrado no algoritmo combinando seus resultados. Por último, um estudo é apresentado mostrando as melhorias atingidas no problema de sensibilidade.
2

Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza

Carvalho, Juliano Varella de January 2015 (has links)
Made available in DSpace on 2015-08-18T02:05:38Z (GMT). No. of bitstreams: 1 000473651-Texto+Completo-0.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) Previous issue date: 2015 / Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset items. Apriori is the traditional algorithm of the Generate-and-Test class to discover these relations. Recent studies show that this algorithm and others of this task are not adapted to execute in contexts with uncertainty because these algorithms are not prepared to handle with the probabilities associated to items of the dataset. Nowadays, data with uncertainty occur in many applications, for example, data collected from sensors, information about the presence of objects in satellite images and data from application of statistical methods. Due to big datasets with associated uncertainty, new algorithms have been developed to work in this context: UApriori, UF-Growth and UH-Mine. UApriori, specially, is an algorithm based in expected support, often addressed by scientific community. On the one hand, when this algorithm is applied to big datasets, in a context with associated probabilities to dataset items, it does not present good scalability. On the other hand, some works have evolved the Apriori algorithm joining with the model of programming MapReduce, in order to get a better scalability. With this model, it is possible to discover frequent itemsets using parallel and distributed computation. However, these works focus their efforts on discovering frequent itemsets on deterministic datasets. This thesis present the development, implementation and experiments applied to three algorithms: UAprioriMR, UAprioriMRByT and UAprioriMRJoin. The three cited algorithms evolve the traditional algorithm Apriori, integrating the model of programming MapReduce, on contexts with uncertainty. The algorithm UAprioriMRJoin is a hybrid algorithm based on the UAprioriMR and UAprioriMRByT algorithms. The experiments expose the good performance of the UAprioriMRJoin algorithm, when applied on big datasets, with many distinct items and a small average number of items per transaction in a cluster of nodes. / Frequent Itemsets Mining (FIM) é uma tarefa de mineração de dados utilizada para encontrar relações entre os itens de um dataset. O Apriori é um tradicional algoritmo da classe Generateand- Test para descobrir tais relações. Estudos recentes mostram que este e outros algoritmos desta tarefa não estão aptos para executar em contextos onde haja incerteza associada, pois eles não estão preparados para lidar com as probabilidades existentes nos itens do dataset. A incerteza nos dados ocorre em diversas aplicações como, por exemplo, dados coletados de sensores, informações sobre a presença de objetos em imagens de satélite e dados provenientes da aplicação de métodos estatísticos. Dada a grande quantidade de dados com incertezas associadas, novos algoritmos têm sido desenvolvidos para trabalharem neste contexto: UApriori, UF-Growth e UH-Mine. O UApriori, em especial, é um algoritmo baseado em suporte esperado, abordado frequentemente pela comunidade acadêmica. Quando este algoritmo é aplicado sobre grandes datasets, em um contexto com probabilidades associadas aos itens do dataset, ele não apresenta boa escalabilidade. Por outro lado, alguns trabalhos têm adaptado o algoritmo Apriori para trabalhar com o modelo de programação MapReduce, a fim de prover uma melhor escalabilidade. Utilizando este modelo, é possível descobrir itens frequentes de modo paralelo e distribuído. No entanto, tais trabalhos focam seus esforços na descoberta de itens frequentes sobre datasets determinísticos. Esta tese apresenta o desenvolvimento, implementação e os experimentos realizados, a partir da aplicação e discussão de três algoritmos: UAprioriMR, UAprioriMRByT e UAprioriMRJoin. Os três algoritmos citados evoluem o algoritmo tradicional Apriori para que possam executar com o modelo de programação MapReduce sobre contextos com incerteza associada. O algoritmo UAprioriMRJoin é um algoritmo híbrido com base nos algoritmos UAprioriMR e UAprioriMRByT. Os experimentos revelam o bom desempenho do algoritmo UAprioriMRJoin quando aplicado sobre grandes datasets, com muitos atributos e um número médio pequeno de itens por transação, em um cluster de nodos.
3

Evolutionary model tree induction

Barros, Rodrigo Coelho January 2009 (has links)
Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1 000422461-Texto+Completo-0.pdf: 1656872 bytes, checksum: 4520cf1ef2435e86327deed3e89baed9 (MD5) Previous issue date: 2009 / Model trees are a particular case of decision trees employed to solve regression problems, where the variable to be predicted is continuous. They have the advantage of presenting an interpretable output, helping the end-user to get more confidence in the prediction and providing the basis for the end-user to have new insight about the data, confirming or rejecting hypotheses previously formed. Moreover, model trees present an acceptable level of predictive performance in comparison to most techniques used for solving regression problems. Since generating the optimal model tree is a NPComplete problem, traditional model tree induction algorithms make use of a greedy top-down divideand- conquer strategy, which may not converge to the global optimal solution. In this work, we propose the use of the evolutionary algorithms paradigm as an alternate heuristic to generate model trees in order to improve the convergence to global optimal solutions. We test the predictive performance of this new approach using public UCI data sets, and we compare the results with traditional greedy regression/model trees induction algorithms. Results show that our approach presents a good tradeoff between predictive performance and model comprehensibility, which may be crucial in many data mining applications. / Árvores-modelo são um caso particular de árvores de decisão aplicadas na solução de problemas de regressão, onde a variável a ser predita é contínua. Possuem a vantagem de apresentar uma saída interpretável, auxiliando o usuário do sistema a ter mais confiança na predição e proporcionando a base para o usuário ter novos insights sobre os dados, confirmando ou rejeitando hipóteses previamente formadas. Além disso, árvores-modelo apresentam um nível aceitável de desempenho preditivo quando comparadas à maioria das técnicas utilizadas na solução de problemas de regressão. Uma vez que gerar a árvore-modelo ótima é um problema NP-Completo, algoritmos tradicionais de indução de árvores-modelo fazem uso da estratégia gulosa, top-down e de divisão e conquista, que pode não convergir à solução ótima-global. Neste trabalho é proposta a utilização do paradigma de algoritmos evolutivos como uma heurística alternativa para geração de árvores-modelo. Esta nova abordagem é testada por meio de bases de dados de regressão públicas da UCI, e os resultados são comparados àqueles gerados por algoritmos gulosos tradicionais de indução de árvores-modelo. Os resultados mostram que esta nova abordagem apresenta uma boa relação custo-benefício entre desempenho preditivo e geração de modelos de fácil interpretação, proporcionando um diferencial muitas vezes crucial em diversas aplicações de mineração de dados.
4

Spatio-temporal data mining in palaeogeographic data with a density-based clustering algorithm

Hemerich, Daiane January 2014 (has links)
Made available in DSpace on 2014-06-06T02:01:22Z (GMT). No. of bitstreams: 1 000458539-Texto+Completo-0.pdf: 3705446 bytes, checksum: de3d802acba0f10f03298ee0277b51b1 (MD5) Previous issue date: 2014 / The usefulness of data mining and the process of Knowledge Discovery in Databases (KDD) has increased its importance as grows the volume of data stored in large repositories. A promising area for knowledge discovery concerns oil prospection, in which data used differ both from traditional and geographical data. In palaeogeographic data, temporal dimension is treated according to the geologic time scale, while the spatial dimension is related to georeferenced data, i. e. , latitudes and longitudes on Earth’s surface. This approach differs from that presented by spatio-temporal data mining algorithms found in literature, arising the need to evolve the existing ones to the context of this research. This work presents the development of a solution to employ a density-based spatio-temporal algorithm for mining palaeogeographic data on the Earth’s surface. An evolved version of the ST-DBSCAN algorithm was implemented in Java language making use of Weka API, where improvements were carried out in order to allow the data mining algorithm to solve a variety of research problems identified. A set of experiments that validate the proposed implementations on the algorithm are presented in this work. The experiments show that the solution developed allow palaeogeographic data mining by applying appropriate formulas for calculating distances over the Earth’s surface and, at the same time, treating the temporal dimension according to the geologic time scale. / O uso da mineração de dados e do processo de descoberta de conhecimento em banco de dados (Knowledge Discovery in Databases (KDD)) vem crescendo em sua importância conforme cresce o volume de dados armazenados em grandes repositórios. Uma área promissora para descoberta do conhecimento diz respeito à prospecção de petróleo, onde os dados usados diferem tanto de dados tradicionais como de dados geográficos. Nesses dados, a dimensão temporal é tratada de acordo com a escala de tempo geológico, enquanto a escala espacial é relacionada a dados georeferenciados, ou seja, latitudes e longitudes projetadas na superfície terrestre. Esta abordagem difere da adotada em algoritmos de mineração espaço-temporal presentes na literatura, surgindo assim a necessidade de evolução dos algoritmos existentes a esse contexto de pesquisa. Este trabalho apresenta o desenvolvimento de uma solução para uso do algoritmo de mineração de dados espaço-temporais baseado em densidade ST-DBSCAN para mineração de dados paleogeográficos na superfície terrestre. O algoritmo foi implementado em linguagem de programação Java utilizando a API Weka, onde aperfeiçoamentos foram feitos a fim de permitir o uso de mineração de dados na solução de problemas de pesquisa identificados. Como resultados, são apresentados conjuntos de experimentos que validam as implementações propostas no algoritmo. Os experimentos demonstram que a solução desenvolvida permite a mineração de dados paleogeográficos com a aplicação de fórmulas apropriadas para cálculo de distâncias sobre a superfície terrestre e, ao mesmo tempo, tratando a dimensão temporal de acordo com a escala de tempo geológico.
5

Processo de KDD para auxílio à reconfiguração de ambientes virtualizados

Winck, Ana Trindade January 2007 (has links)
Made available in DSpace on 2013-08-07T18:42:21Z (GMT). No. of bitstreams: 1 000397762-Texto+Completo-0.pdf: 1330898 bytes, checksum: 5d70750d721e0c762826c9afce7b0753 (MD5) Previous issue date: 2007 / Xen is a paravirtualizer that allows the simultaneous execution of several virtual machines (VM), each with its own operating system. Inputs for these VMs occur at different resource levels. When the aim is to improve Xen performance, it is interesting to assess the best resource allocation for a given Xen machine when different VMs are executed and the respective parameters adopted. This study puts forward a complete process of knowledge discovering in databases (KDD process). The aim of the process is to (i) capture VM development data, (ii) organize these data as an analytical model, and (iii) implement data mining techniques to suggest new parameters. First, VM development data are obtained by benchmarking each operating system. These data are stored in a data warehouse specially modeled so as to store capture records of benchmark metrics. The data stored are conveniently prepared to be used by data mining algorithms. The predictive models generated are enriched with high-level reconfiguration instructions. These models aim at suggesting the best set of configuration parameters to modify the environment and reach an overall gain in performance, for a given configuration in use. The process proposed was initially implemented and tested in a significant set of benchmarking executions, proving the quality and range of the solution. / Xen é um paravirtualizador que permite a execução simultânea de diversas máquinas virtuais (VM), cada uma com seu próprio sistema operacional. O consumo dessas VMs se dá em diferentes níveis de recursos. Com o objetivo de melhorar a performance do Xen, é interessante verificar qual a melhor alocação de recursos para uma dada máquina Xen, quando várias VMs são executadas, e quais são os respectivos parâmetros. Para auxiliar a eventual reconfiguração de parâmetros, este trabalho propõe um processo completo de descoberta de conhecimento em banco de dados (processo de KDD) para capturar dados de desempenho das VMs, organizá-los em um modelo analítico e aplicar técnicas de mineração para sugerir novos parâmetros. Inicialmente são obtidos dados de desempenho de cada VM, onde a estratégia empregada é a execução de benchmarks sobre cada sistema operacional. Esses dados são armazenados em um data warehouse propriamente modelado para armazenar registros de captura de métricas de benchmarks. Os dados armazenados são convenientemente preparados para serem utilizados por algoritmos de mineração de dados. Os modelos preditivos gerados podem, então, ser enriquecidos com instruções em alto nível de reconfigurações. Tais modelos buscam sugerir, dada uma configuração vigente, qual o melhor conjunto de parâmetros de configuração para modificar o ambiente, e alcançar um ganho global de desempenho. O processo proposto foi implementado e testado com um conjunto significativo de execuções de benchmarks, o que mostrou a qualidade e abrangência da solução.
6

Uma abordagem para mineração de dados e visualização de resultados em imagens batimétricas

Gonzalez, Luis Fernando Planella January 2012 (has links)
Made available in DSpace on 2013-08-07T18:42:58Z (GMT). No. of bitstreams: 1 000439096-Texto+Completo-0.pdf: 7558590 bytes, checksum: 4fb2b1caf2e02f0f7ee3d5ffb4741bb7 (MD5) Previous issue date: 2012 / Bathymetry is the measurement of the depth at various places in a body of water, as well as information derived from such measurements. It has several important applications, and has been attracting increasing interest over the last years. Bathymetry maps may cover the entire extent of the Earth globe. However, the analysis of such maps by visual inspection solely is difficult, due to subtle variations on the seafloor conformation. Thus, it would be interesting to have available computational tools capable of assisting a domain expert in problems related to bathymetry images, by analyzing them automatically or semi-automatically. The contribution of this work is an approach to use data mining for such analysis, and an iconography for results visualization, as well as map characteristics. We propose techniques to process input images, in order to extract records and their features, which can be processed by classic data mining algorithms. We also propose an iconography for visualization of knowledge discovery process results, as well as characteristics of areas in the processed map. Finally, the proposed approach is tested by applying it on a real database, under a domain expert supervision. / A batimetria é a medida da profundidade em distintos lugares de uma massa de água, e também a informação derivada de tais medições. Possui diversas aplicações importantes e tem atraído cada vez mais interesse nos últimos anos. Mapas batimétricos podem cobrir toda a extensão do globo terrestre. Entretanto, a análise apenas por inspeção visual destes mapas pode ser difícil, devido a variações sutis na conformação do solo oceânico. Assim, seria interessante a disponibilização de ferramentas computacionais capazes de auxiliar ao especialista de domínio nos mais diversos problemas relativos a imagens batimétricas, analisando-as de forma automática ou semi-automática. A contribuição deste trabalho é uma abordagem para a utilização da mineração de dados para tal análise, e de uma iconografia para a visualização dos resultados da mineração e de características do próprio mapa. São propostas técnicas para o processamento da imagem de entrada, a fim de extrair da mesma registros e atributos que possam ser processados por algoritmos clássicos da mineração de dados. Também é proposta uma iconografia para a visualização dos resultados do processo de descoberta de conhecimento e das características de áreas processadas do mapa. Finalmente a abordagem proposta é testada, aplicando-a sobre uma base de dados real, com supervisão de um especialista de domínio.
7

SPDW-Miner: um método para a execução de processos de descoberta de conhecimento em bases de dados de projetos de software

Figueira, Fernanda Vieira January 2008 (has links)
Made available in DSpace on 2013-08-07T18:42:36Z (GMT). No. of bitstreams: 1 000417649-Texto+Completo-0.pdf: 1251849 bytes, checksum: ad607557163d02817ddb83aa46013681 (MD5) Previous issue date: 2008 / Software organizations aim at improving their Software Development Process (SDP) targeting the quality assessment of their processes and products. They adopt software maturity models to achieve this. Maturity models define quality measuring should be done through a metrics program. The defined metrics must be collected and stored properly, maintaining the history of the organizational quality data. However, measuring alone is not enough. Stored data must be useful to support SDP quality maintenance. To do that, maturity models suggest the use of statistical and analytical techniques. The goal is to make feasible the quantitative understanding of the metrics. Data mining techniques are useful in this scenario as an approach able to improve analytical and predictive capabilities on estimations and performance of SDP. This work introduces a method of performing KDD process, named SPDW-Miner, oriented to software metrics prediction. It is proposed a KDD process that incorporates the SPDW+ data-warehousing environment. Such method is composed by a set of steps that guide users to apply the whole KDD process. In special, instead of considering DW as an intermediate step, SPDW-Miner adopts it as a reference to rule its execution. It is specified all KDD process steps: defining the mining goal; extracting a preparing data; data mining and results optimization. The contribution of this work is the establishing of a KDD process, in a proper, user-comfortable detail level. It enables organizational users can to adopt it as a reference guide to knowledge discovery. / As organizações de software buscam, cada vez mais, aprimorar seu Processo de Desenvolvimento de Software (PDS), com o intuito de garantir a qualidade dos seus processos e produtos. Para tanto, elas adotam modelos de maturidade de software. Esses modelos estabelecem que a mensuração da qualidade seja realizada através de um programa de métricas (PM). As métricas definidas devem ser coletadas e armazenadas, permitindo manter um histórico organizacional da qualidade. Contudo, apenas mensurar não é o bastante. As informações armazenadas devem ser úteis para apoiar na manutenção da qualidade do PDS. Para tanto, os níveis mais altos dos modelos de maturidade sugerem que técnicas estatísticas e analíticas sejam utilizadas, com a finalidade de estabelecer o entendimento quantitativo sobre as métricas. As técnicas de mineração de dados entram neste contexto como uma abordagem capaz de aumentar a capacidade analítica e preditiva sobre as estimativas e o desempenho quantitativo do PDS. Este trabalho propõe um método para a execução do processo de KDD (Knowledge Discovery in Database), denominado de SPDW-Miner, voltado para a predição de métricas de software. Para tanto, propõe um processo de KDD que incorpora o ambiente de data warehousing, denominado SPDW+. O método é composto por uma série de etapas que guiam os usuários para o desenvolvimento de todo o processo de KDD. Em especial, em vez de considerar o DW (data warehouse) como um passo intermediário deste processo, o toma como ponto de referência para a sua execução. São especificadas todas as etapas que compõem o processo de KDD, desde o estabelecimento do objetivo de mineração; a extração e preparação dos dados; a mineração até a otimização dos resultados. A contribuição está em estabelecer um processo de KDD em um nível de detalhamento bastante confortável, permitindo que os usuários organizacionais possam adotá-lo como um manual de referência para a descoberta de conhecimento.
8

Um estudo sobre a predição da estrutura 3D aproximada de proteínas utilizando o método CReF com refinamento

Dall'Agno, Karina Cristina da Motta January 2012 (has links)
Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1 000438289-Texto+Completo-0.pdf: 4232980 bytes, checksum: 881bd64c55df7a95a458dac98379df88 (MD5) Previous issue date: 2012 / One of the most important problems in Structural Bioinformatics is to understand how the information coded in linear sequence amino acids, or primary structure, is translated into the three-dimensional structure of a protein. Many algorithms proposed solutions to this complex problem of NP-complete class. One of them is the CReF method (Central Residue Fragment-based) which makes prediction of approximate 3-D structure of proteins and polypeptides. The method uses data mining techniques to group data structures, showing good secondary structure prediction, good performance at low machine cost, but has problems in the prediction of turns and loops regions and usability. Valuing the different characteristics of CReF and seeking to evolve it, this work proposes improvements to CReF. After the initial stage of understanding the tool and making changes to turn it executable on the current state of data banks and support tools, two categories of improvements to make were identified. The technical improvements aimed to automate CReF, adapting it to the environment and emphasizing usability. In the method‟s improvements variations on the amount of groups were tested for data mining with the Expectation Maximization algorithm in Weka. Tests indicated that the best results for the initial conformation were for four and six groups, hence we decided to allow the user to select the amount of groups.A new mapping of the data in the Ramachandran plot indicated some problems that had to be fixed. In the analysis of data mining results, we decided that groups in regions not allowed would be discarded. The new version of CReF generated by the implementation of these improvements standardized the method of secondary structure prediction to use Porter. As a consequence, the rules of selection of data mining groups to represent each amino acids have been changed and extended. The new version has the same initial performance of CReF in prediction and execution, however, the problem of correct predictions of turns and loops remained. This problem was addressed through a refinement protocol, based on simulations by the molecular dynamics method, which presented a significant result for the target protein 1ZDD. / Um dos principais desafios da Bioinformática Estrutural é entender como a informação decodificada em uma sequência linear de aminoácidos, ou estrutura primária de uma proteína, possibilita a formação de sua estrutura tridimensional. Muitos algoritmos buscam propor soluções para o problema complexo da classe NP-completo. Dentre eles, está o método CReF (Central Residue Fragment-based method) que realiza a predição da estrutura 3D aproximada de proteínas ou polipeptídios. O método usa técnicas de mineração de dados para agrupar dados de estruturas, apresentando boa predição de estruturas secundárias, bom desempenho em máquina de baixo custo, mas enfrenta problemas na predição das regiões de voltas e alças e na usabilidade. Valorizando as características diferenciadas do método e buscando sua evolução, este trabalho propôs-se a realizar melhorias no CReF. Após uma etapa inicial de entendimento e adaptações para tornar a ferramenta executável na situação atual dos bancos de dados e ferramentas de apoio, foram identificadas duas categorias de melhorias. As melhorias técnicas tiveram por objetivo automatizar a ferramenta, adaptá-la ao ambiente e ao usuário enfatizando usabilidade. Para melhorias no método realizaram-se testes com variação na quantidade de grupos identificados na etapa de mineração de dados com o algoritmo Expectation Maximization (EM) no Weka. Os testes indicaram que as melhores conformações iniciais eram obtidas com quatro e seis grupos, assim, optou-se por permitir ao usuário a escolha dos grupos a considerar. Um novo mapeamento do mapa de Ramachandran indicou ajustes que foram corrigidos e decidiu-se descartar grupos identificados nas regiões não permitidas na análise do resultado da mineração de dados.A nova versão do CReF, gerada pela implementação dessas melhorias, também padronizou o método de predição de estrutura secundária, passando a utilizar o método Porter. Como consequência, as regras para escolha do grupo resultante da mineração a representar cada aminoácido foram adaptadas e ampliadas para atender novas situações. A nova versão manteve o desempenho de predição e execução iniciais do CReF, entretanto, manteve o problema das voltas e alças. Este problema de otimização das regiões de voltas e alças foi endereçado por meio do desenho e aplicação de um protocolo de refinamento, baseado em simulações pelo método da dinâmica molecular, o qual apresentou um resultado expressivo para a proteína alvo de código PDB 1ZDD.
9

Um ambiente integrador para análise de processos de negócio

Tristão, Cristian January 2006 (has links)
Made available in DSpace on 2013-08-07T18:43:06Z (GMT). No. of bitstreams: 1 000394031-Texto+Completo-0.pdf: 3211775 bytes, checksum: 8e122c8440a9621f48abe25377d2f4c2 (MD5) Previous issue date: 2006 / The processes analysis has performed an essential role in businesses management. The majority of research efforts and existing solutions for this analysis focus very exclusively on the quantitative analysis of processes through performance metrics and quality indicators. Few of them investigate resources that allow understanding the reasons of the observed behavior. Data mining techniques have an important role in this context, offering resources for behavior causal analysis. However, the analysis and monitoring techniques of business processes have been a disjoint use. Indeed, there is not an information integration or synergy among different knowledge discovery approaches. Moreover they do not support the sequence analysis of execution flows, harming anomaly investigate and specific behaviors. This work proposes an environment for the analysis of business processes taking into account related resources. Such environment permits the synergic exploration among information originated from the employment of sequential mining techniques, previously used by Web Usage Mining, with those from processes, activities and resources measurements. / A análise de processos tem desempenhado um papel fundamental na gestão dos negócios. A maior parte das pesquisas e soluções existentes para essa análise focaliza muito exclusivamente na análise quantitativa de processos através de métricas de desempenho e indicadores de qualidade, possuindo menos recursos investigativos que permitam compreender o porquê do comportamento observado. Técnicas de mineração de dados possuem um papel importante neste contexto, oferecendo recursos para análise causal de comportamento. No entanto, as técnicas de análise e monitoração de processos de negócio são utilizadas de forma disjunta, ou seja, não existe uma integração ou complementação de informação entre as diferentes abordagens de descoberta de conhecimento. Além disso, não suportam a análise seqüencial dos fluxos de execução, prejudicando a investigação de anomalias e comportamentos específicos. Este trabalho propõe um ambiente para a análise de processos de negócio com recursos, que combinam e permitem explorar, de forma sinérgica, as informações advindas da aplicação de técnicas de mineração seqüencial, originalmente propostas para a Mineração do Uso da Web, com aquelas sobre mensuração de processos, atividades e recursos.
10

RSAPP, um algoritmo baseado em rough sets para auxílio ao processo de descoberta de conhecimento em banco de dados

Silveira, Juliano Gomes da January 2013 (has links)
Made available in DSpace on 2013-11-12T11:38:27Z (GMT). No. of bitstreams: 1 000451416-Texto+Completo-0.pdf: 14725586 bytes, checksum: 00990626e7c5d4d2d585832062bda2f3 (MD5) Previous issue date: 2013 / Techniques of Business Intelligence (BI) became one of the main allies of organizations in tasks of transforming data into knowledge, supporting the middle and upper management levels in decision making. BI tools in their composition are based on techniques of knowledge management, such as Data Warehouse (DW), OLAP (Online Analytical Processing), Data Mining (DM), among others. In this context, it is observed that in many case, DM projects become unfeasible by some factors, such as project costs, duration and specially the uncertainty in obtaining results that return the investment spent on the project. This work seeks to minimize these factors through a diagnosis on data, by an algorithm based on Rough Sets Theory. The algorithm, named Rough Set App (RSAPP) aims to create a diagnosis on data persisted in DW, in order to map which attributes have the greatest potential for generating more accurate mining models and more interesting results. Thus, it is expected that the diagnosis generated by RSAPP can complement the KDD (Knowledge Discovery in Database) process, reducing the time spent on activities of understanding and reducing data dimensionality. This work presents a detailed description about the implemented algorithm, as well as the report of the executed tests. At the end there is an empirical analysis of the results, in order to estimate the effectiveness of the proposed algorithm. / As técnicas, business intelligence (BI) firmaram-se como grandes aliadas das organizações nas tarefas de transformar dados em conhecimento, apoiando a média e alta gestão na tomada de decisões. As ferramentas de BI em sua, composição são fundadas em técnicas de gestão do conhecimento, tais como Data Warehouse (DW), OLAP (Online Analytical Processing), minaração de dados (MD), entre outras. Neste contexto, observa-se que em muitos casos, projatos de MD acabam sendo inviabilizados por alguns fatores, tais como, custo do projeto, duração e principalmente, a incerteza na obtenção de resultados que retornem o investimento despedindo no projeto. O presente trabalho busca minimizar os fatores acima por meio um diagnóstico sobre dados, através de um algoritmo baseado em Rough Sets Theory (Teoria dos Conjuntos Aproximados (TCA)). O algoritmo desenvolvido, nomeado Rough Set App (RSAPP) objetiva criar um diagnóstico sobre os dados persistidos no DW, a fim de mapear quais atributos possuem maior potencial de gerar modelos de mineração mais preciosos e resultados mais interessantes. Desta forma, entende-se que o diagnóstico gerado por RSAPP pode complementar o processo de KDD (Knowledge Discovery in database), reduzindo o tempo gasto nas atividades de entendimento e redução da dimensionalidade dos dados. No trabalho se faz uma descrição detalhada acerca do algoritmo implementado, bem como o relato dos, testes que foram executados. Ao final faz-se uma análise empírica sobre os resultados a fim de estimar a eficácia do algoritmo quanto a sua proposta.

Page generated in 0.0494 seconds