Global ETD Search

11	Evolutionary model tree induction Barros, Rodrigo Coelho January 2009 (has links) Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1 000422461-Texto+Completo-0.pdf: 1656872 bytes, checksum: 4520cf1ef2435e86327deed3e89baed9 (MD5) Previous issue date: 2009 / Model trees are a particular case of decision trees employed to solve regression problems, where the variable to be predicted is continuous. They have the advantage of presenting an interpretable output, helping the end-user to get more confidence in the prediction and providing the basis for the end-user to have new insight about the data, confirming or rejecting hypotheses previously formed. Moreover, model trees present an acceptable level of predictive performance in comparison to most techniques used for solving regression problems. Since generating the optimal model tree is a NPComplete problem, traditional model tree induction algorithms make use of a greedy top-down divideand- conquer strategy, which may not converge to the global optimal solution. In this work, we propose the use of the evolutionary algorithms paradigm as an alternate heuristic to generate model trees in order to improve the convergence to global optimal solutions. We test the predictive performance of this new approach using public UCI data sets, and we compare the results with traditional greedy regression/model trees induction algorithms. Results show that our approach presents a good tradeoff between predictive performance and model comprehensibility, which may be crucial in many data mining applications. / Árvores-modelo são um caso particular de árvores de decisão aplicadas na solução de problemas de regressão, onde a variável a ser predita é contínua. Possuem a vantagem de apresentar uma saída interpretável, auxiliando o usuário do sistema a ter mais confiança na predição e proporcionando a base para o usuário ter novos insights sobre os dados, confirmando ou rejeitando hipóteses previamente formadas. Além disso, árvores-modelo apresentam um nível aceitável de desempenho preditivo quando comparadas à maioria das técnicas utilizadas na solução de problemas de regressão. Uma vez que gerar a árvore-modelo ótima é um problema NP-Completo, algoritmos tradicionais de indução de árvores-modelo fazem uso da estratégia gulosa, top-down e de divisão e conquista, que pode não convergir à solução ótima-global. Neste trabalho é proposta a utilização do paradigma de algoritmos evolutivos como uma heurística alternativa para geração de árvores-modelo. Esta nova abordagem é testada por meio de bases de dados de regressão públicas da UCI, e os resultados são comparados àqueles gerados por algoritmos gulosos tradicionais de indução de árvores-modelo. Os resultados mostram que esta nova abordagem apresenta uma boa relação custo-benefício entre desempenho preditivo e geração de modelos de fácil interpretação, proporcionando um diferencial muitas vezes crucial em diversas aplicações de mineração de dados. INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) ALGORITMOS
12	Avaliação de ferramentas de mineração de dados como fonte de dados relevantes para a tomada de decisão : aplicação na rede Unidão de supermercados, São Leopoldo-RS Gonçalves, Lóren Pinto Ferreira January 2001 (has links) Esta pesquisa tem como tema a avaliação de ferramentas de mineração de dados disponíveis no mercado, de acordo com um site de descoberta do conhecimento, chamado Kdnuggets (http://www.kdnuggets.com). A escolha deste tema justifica-se pelo fato de tratar-se de uma nova tecnologia de informação que vem disponibilizando diversas ferramentas com grandes promessas e altos investimentos, mas que, por outro lado, ainda não é amplamente utilizada pelos tomadores de decisão das organizações. Uma das promessas desta tecnologia é vasculhar grandes bases de dados em busca de informações relevantes e desconhecidas e que não poderiam ser obtidas através de sistemas chamados convencionais. Neste contexto, realizar uma avaliação de algumas destas ferramentas pode auxiliar a estes decisores quanto à veracidade daquilo que é prometido sem ter de investir antes de estar seguro do cumprimento de tais promessas. O foco da pesquisa é avaliar sistemas que permitem a realização da análise de cesta de supermercado (market basket analysis) utilizando bases de dados reais de uma rede de supermercados. Os seus objetivos são: avaliar ferramentas de mineração de dados como fonte de informações relevantes para a tomada de decisão; identificar, através da revisão de literatura, as promessas da tecnologia e verificar se tais promessas são cumpridas pelas ferramentas; identificar e caracterizar ferramentas de mineração de dados disponíveis no mercado e comparar os tipos de resultados gerados pelas diferentes ferramentas e relatar problemas encontrados durante a aplicação destas ferramentas. O desenvolvimento do trabalho segue o método estudo de caso múltiplo: os dados foram coletados a partir da aplicação das ferramentas às bases de dados e da entrevista com tomadores de decisão da empresa. Foram seguidos procedimentos já utilizados de avaliação de sistemas para a realização desta pesquisa. A partir da análise dos dados coletados, pôde-se conhecer alguns problemas apresentados pelas ferramentas e concluiu-se que as ferramentas, que foram utilizadas neste trabalho, não estão prontas para serem disponibilizadas no mercado. Supermercados Sistemas de informação Mineração de dados
13	Um método para interpretar outliers em trajetórias de objetos móveis Aquino, Artur Ribeiro de January 2014 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014. / Made available in DSpace on 2014-08-06T18:00:39Z (GMT). No. of bitstreams: 1 326743.pdf: 3567685 bytes, checksum: 552537134134fce0fdc4becfa0599acf (MD5) Previous issue date: 2014 / Dispositivos capazes de registrar o rastro de um objeto móvel estão cada vez mais populares. Esses registros são chamados de Trajetórias de Objetos Móveis. Devido ao grande volume desses dados surge a necessidade de criar métodos e algoritmos para extrair alguma informação útil desses dados. Existem vários trabalhos de mineração de dados em trajetórias para detectar diferentes tipos de padrões, porém poucos focam na detecção de outliers entre trajetórias. Os outliers entre trajetórias são aqueles com um comportamento ou característica diferente da maioria. Se a maioria dos objetos estão andando a 80km/h em um determinado trecho, os objetos a 120km/h são os outliers. Outliers de trajetórias podem ser interessantes para descobrir comportamentos suspeitos em um grupo de pessoas, para encontrar rotas alternativas na análise de tráfego e até saber quais são os melhores ou piores caminhos conectando duas regiões de interesse. Não se teve conhecimento de um outro trabalho na literatura que fizesse uma análise mais aprofundada, que interpretasse ou desse significado aos outliers. A semântica dos outliers pode prover mais informação para tomadas de decisão. Nesse trabalho é apresentado um algoritmo para agregar significado aos outliers de trajetórias de motoristas considerando três possíveis razões principais para um desvio: paradas fora do caminho padrão, eventos ou trânsito no caminho padrão. Experimentos são mostrados com dados reais e o método encontra os diferentes tipos e classificações de outliers corretamente.<br> / Abstract : Devices for recording moving object traces are becoming very popular. These traces are called Trajectories of Moving Objects. The huge volume of these data raises the need for developing methods and algorithms to extract useful information from these data. There are many works related to trajectory data mining that nd dierent types of patterns, but only a few of them focused on outlier detection between trajectories. Outliers between trajectories are the ones that behave different from the majority. If the majority of the objects are going on a speed of 80km/h in some part of a road, for example, the objects on 120km/h are the outliers. Trajectory outliers are interesting to discover suspicious behaviors in a group of people, to nd alternative routes in trac analysis and even to discover better and worse paths connecting two regions of interest. To the best of our knowledge, no works so far have made a deeper analysis to either understand or give a meaning to the outliers. Outliers with semantic information can provide more information for decision making. In this work we present an algorithm to add meaning to trajectory outliers of vehicles drivers considering three main possible reasons for a detour: stops outside the standard route, events, and trac jams in the standard path. We show throughexperiments on real data that the method correctly nds the dierent types of outliers and classies them correctly. Informatica Computação Mineração de dados (Computação)
14	Avaliação de ferramentas de mineração de dados como fonte de dados relevantes para a tomada de decisão : aplicação na rede Unidão de supermercados, São Leopoldo-RS Gonçalves, Lóren Pinto Ferreira January 2001 (has links) Esta pesquisa tem como tema a avaliação de ferramentas de mineração de dados disponíveis no mercado, de acordo com um site de descoberta do conhecimento, chamado Kdnuggets (http://www.kdnuggets.com). A escolha deste tema justifica-se pelo fato de tratar-se de uma nova tecnologia de informação que vem disponibilizando diversas ferramentas com grandes promessas e altos investimentos, mas que, por outro lado, ainda não é amplamente utilizada pelos tomadores de decisão das organizações. Uma das promessas desta tecnologia é vasculhar grandes bases de dados em busca de informações relevantes e desconhecidas e que não poderiam ser obtidas através de sistemas chamados convencionais. Neste contexto, realizar uma avaliação de algumas destas ferramentas pode auxiliar a estes decisores quanto à veracidade daquilo que é prometido sem ter de investir antes de estar seguro do cumprimento de tais promessas. O foco da pesquisa é avaliar sistemas que permitem a realização da análise de cesta de supermercado (market basket analysis) utilizando bases de dados reais de uma rede de supermercados. Os seus objetivos são: avaliar ferramentas de mineração de dados como fonte de informações relevantes para a tomada de decisão; identificar, através da revisão de literatura, as promessas da tecnologia e verificar se tais promessas são cumpridas pelas ferramentas; identificar e caracterizar ferramentas de mineração de dados disponíveis no mercado e comparar os tipos de resultados gerados pelas diferentes ferramentas e relatar problemas encontrados durante a aplicação destas ferramentas. O desenvolvimento do trabalho segue o método estudo de caso múltiplo: os dados foram coletados a partir da aplicação das ferramentas às bases de dados e da entrevista com tomadores de decisão da empresa. Foram seguidos procedimentos já utilizados de avaliação de sistemas para a realização desta pesquisa. A partir da análise dos dados coletados, pôde-se conhecer alguns problemas apresentados pelas ferramentas e concluiu-se que as ferramentas, que foram utilizadas neste trabalho, não estão prontas para serem disponibilizadas no mercado. Supermercados Sistemas de informação Mineração de dados
15	Spatio-temporal data mining in palaeogeographic data with a density-based clustering algorithm Hemerich, Daiane January 2014 (has links) Made available in DSpace on 2014-06-06T02:01:22Z (GMT). No. of bitstreams: 1 000458539-Texto+Completo-0.pdf: 3705446 bytes, checksum: de3d802acba0f10f03298ee0277b51b1 (MD5) Previous issue date: 2014 / The usefulness of data mining and the process of Knowledge Discovery in Databases (KDD) has increased its importance as grows the volume of data stored in large repositories. A promising area for knowledge discovery concerns oil prospection, in which data used differ both from traditional and geographical data. In palaeogeographic data, temporal dimension is treated according to the geologic time scale, while the spatial dimension is related to georeferenced data, i. e. , latitudes and longitudes on Earth’s surface. This approach differs from that presented by spatio-temporal data mining algorithms found in literature, arising the need to evolve the existing ones to the context of this research. This work presents the development of a solution to employ a density-based spatio-temporal algorithm for mining palaeogeographic data on the Earth’s surface. An evolved version of the ST-DBSCAN algorithm was implemented in Java language making use of Weka API, where improvements were carried out in order to allow the data mining algorithm to solve a variety of research problems identified. A set of experiments that validate the proposed implementations on the algorithm are presented in this work. The experiments show that the solution developed allow palaeogeographic data mining by applying appropriate formulas for calculating distances over the Earth’s surface and, at the same time, treating the temporal dimension according to the geologic time scale. / O uso da mineração de dados e do processo de descoberta de conhecimento em banco de dados (Knowledge Discovery in Databases (KDD)) vem crescendo em sua importância conforme cresce o volume de dados armazenados em grandes repositórios. Uma área promissora para descoberta do conhecimento diz respeito à prospecção de petróleo, onde os dados usados diferem tanto de dados tradicionais como de dados geográficos. Nesses dados, a dimensão temporal é tratada de acordo com a escala de tempo geológico, enquanto a escala espacial é relacionada a dados georeferenciados, ou seja, latitudes e longitudes projetadas na superfície terrestre. Esta abordagem difere da adotada em algoritmos de mineração espaço-temporal presentes na literatura, surgindo assim a necessidade de evolução dos algoritmos existentes a esse contexto de pesquisa. Este trabalho apresenta o desenvolvimento de uma solução para uso do algoritmo de mineração de dados espaço-temporais baseado em densidade ST-DBSCAN para mineração de dados paleogeográficos na superfície terrestre. O algoritmo foi implementado em linguagem de programação Java utilizando a API Weka, onde aperfeiçoamentos foram feitos a fim de permitir o uso de mineração de dados na solução de problemas de pesquisa identificados. Como resultados, são apresentados conjuntos de experimentos que validam as implementações propostas no algoritmo. Os experimentos demonstram que a solução desenvolvida permite a mineração de dados paleogeográficos com a aplicação de fórmulas apropriadas para cálculo de distâncias sobre a superfície terrestre e, ao mesmo tempo, tratando a dimensão temporal de acordo com a escala de tempo geológico. INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) PALEOGEOGRAFIA
16	Análise de óbitos por acidentes de trânsito com uso de mineração de dados Nunes, Renata Adele de Lima 26 October 2018 (has links) Made available in DSpace on 2019-03-30T00:32:46Z (GMT). No. of bitstreams: 0 Previous issue date: 2018-10-26 / Traffic accidents account annually for 1.3 million deaths globally. In Brazil, one-third of deaths from external causes result from traffic injuries. Epidemiological data on this condition, because of its importance for public health, require constant vigilance and updating. Thus, it is proposed the analysis of deaths due to traffic accidents through data mining, using data from necropsies of traffic victims. Objective: To analyze the deaths due to traffic accidents in Ceará. Methodology: an analytical cross-sectional study, in autopsy reports, in the state of Ceará, from 2010 to 2015. The reports went through selection, pre-processing, data mining and post-processing for the classification task using the J48 algorithm. Odds ratio (OR) was also generated, with a 95% confidence interval. Results: The main cause of death was Cranioencephalic Trauma (CET). Above 60 years, CET showed an OR of 1.31 when compared to the range of 20 to 59 years. The data mining reached averages of Accuracy, recall and F measurement of 0.687, 0.693 and 0.689. Conclusion: the analysis of deaths due to traffic accidents highlighted Cranioencephalic Trauma as a cause of death; the deaths were concentrated in the age group of 20 to 59 years, male. The data mining performed the classification of reports to content, reaching good evaluation metrics. The use of autopsy reports as a source of data contributes to the increase of knowledge about traffic deaths, aiding decision making. / Os acidentes de trânsito respondem anualmente por 1,3 milhões de mortes mundialmente. No Brasil, um terço das mortes por causas externas são resultantes de lesões do trânsito. Os dados epidemiológicos sobre este agravo, por sua importância para a saúde pública, necessitam de constante vigilância e atualização. Assim, propõe-se a análise de óbitos por acidentes de trânsito por meio da mineração de dados, utilizando dados de necropsias de vítimas do trânsito. Objetivo: Analisar os óbitos por acidentes de trânsito no Ceará. Metodologia: estudo transversal analítico, em laudos de necropsias, no estado do Ceará, de 2010 a 2015. Os laudos passaram por seleção, pré-processamento, mineração de dados e pós-processamento, para a tarefa de classificação, utilizando o algoritmo J48. Foram também gerados odds ratio (OR), com intervalo de confiança de 95%. Resultados: a principal causa de morte foi o Trauma Cranioencefálico (TCE). Acima de 60 anos, o TCE mostrou um OR de 1,31 quando comparada com a faixa de 20 a 59 anos. A mineração de dados alcançou médias de Precisão, recall e medida F de 0,687, 0,693 e 0,689. Conclusão: a análise de óbitos por acidentes de trânsito destacou o Traumatismo Cranioencefálico como causa de morte; os óbitos se concentraram na faixa etária de 20 a 59 anos, sexo masculino. A mineração de dados realizou a classificação de laudos a contento, atingindo boas métricas de avaliação. O uso de laudos de necropsias como fonte de dados contribui para a ampliação do conhecimento sobre óbitos no trânsito, auxiliando a tomada de decisão. Acidentes de trânsito Saúde pública Mineração de dados
17	Imputação automática de atributos faltantes em problemas de classificação : um estudo comparativo envolvendo algoritmos bio-inspirados / Imputação Automática de Atributos Faltantes em Problemas de Classificação: Um Estudo Comparativo Envolvendo Algoritmos Bio-inspirados (Inglês) Oliveira, Pedro Gonçalves de 21 August 2009 (has links) Made available in DSpace on 2019-03-29T23:16:04Z (GMT). No. of bitstreams: 0 Previous issue date: 2009-08-21 / Real-world databases may contain several missing values, which may degrade the performance of data mining algorithms running over them, making it hard to analyze data. This problem is usually dealt with missing value imputation. The present work evaluates how imputation by numerical optimization using bio-inspired algorithms may affect the performance of classifiers induced over pre-processed data. Here, three techniques were conceived: imputation using genetic algorithm (GA), imputation using particle swarm optimization (PSO), and imputation using cooperative co-evolution. In order to analyze the proposed techniques, six different datasets from the UCI Machine Learning Repository and five well known classification algorithms were adopted. In this analysis, efficiency and efficacy criteria were taken into account. In order to compare the results obtained, two traditional missing value imputation techniques were used, namely, imputation using mean or mode, and imputation using the KNN algorithm. The study shows that all the imputation techniques considered could increase the performance of the resulting classifiers. The obtained results do not point out an optimal method, adequate to all situations. The experiments, however, showed that, in general, the techniques that use bio-inspired algorithms were the most effective, while traditional techniques entailed better computational performance. It should also be observed that the heuristic techniques PSO and cooperative co-evolution, still not much explored in the context of data preprocessing, could have prevailed in several experiments. Keywords: Data mining, Data preparation, Missing value imputation, Metaheuristics, Genetic algorithms, Particle swarm optimization, Cooperative co-evolution. / Diversas bases de dados reais se caracterizam pela ausência marcante de determinados valores de seus atributos. Esses dados ausentes podem vir a degradar sobremaneira o desempenho de algoritmos de mineração de dados, dificultando a análise resultante. Uma maneira comum de tratar esse problema é via imputação, ou seja, estimação dos valores faltantes a partir de outros existentes na base. Este trabalho avalia como uma abordagem de imputação por otimização numérica utilizando algoritmos bio-inspirados pode vir a aprimorar o desempenho de classificadores induzidos sobre as bases pré-processadas. Três técnicas foram empregadas segundo esta abordagem: imputação utilizando algoritmo genético (GA), imputação utilizando otimização por enxame de partículas (PSO) e imputação utilizando co-evolução cooperativa. Com o intuito de analisar as técnicas propostas, em termos de eficiência e eficácia, seis bases de dados do repositório UCI e cinco populares algoritmos de classificação foram adotados. Para efeito de comparação, foram empregadas ainda outras duas técnicas tradicionais de imputação: a imputação pela média ou moda e a imputação fazendo uso do algoritmo KNN. O estudo mostra que todas as técnicas de imputação consideradas são capazes de elevar o desempenho dos classificadores. Os resultados obtidos não apontam para um método ótimo para todas as situações. Contudo, os experimentos sugerem que, em geral, as técnicas que fazem uso de algoritmos bio-inspirados são as mais eficazes ao passo que as técnicas tradicionais são as de melhor desempenho computacional. Observa-se também que os algoritmos co-evolução cooperativa e PSO, ainda não muito explorados no contexto de pré-processamento de dados, sobressaíram-se em diversos experimentos realizados. Palavras-Chave: Mineração de dados, Pré-processamento de dados, Imputação de valores faltantes, Metaheurísticas, Algoritmos genéticos, Otimização por enxame de partículas, Co-evolução cooperativa. Mineração de dados Algorítmos genéticos Otimização matemática
18	Processo de KDD para auxílio à reconfiguração de ambientes virtualizados Winck, Ana Trindade January 2007 (has links) Made available in DSpace on 2013-08-07T18:42:21Z (GMT). No. of bitstreams: 1 000397762-Texto+Completo-0.pdf: 1330898 bytes, checksum: 5d70750d721e0c762826c9afce7b0753 (MD5) Previous issue date: 2007 / Xen is a paravirtualizer that allows the simultaneous execution of several virtual machines (VM), each with its own operating system. Inputs for these VMs occur at different resource levels. When the aim is to improve Xen performance, it is interesting to assess the best resource allocation for a given Xen machine when different VMs are executed and the respective parameters adopted. This study puts forward a complete process of knowledge discovering in databases (KDD process). The aim of the process is to (i) capture VM development data, (ii) organize these data as an analytical model, and (iii) implement data mining techniques to suggest new parameters. First, VM development data are obtained by benchmarking each operating system. These data are stored in a data warehouse specially modeled so as to store capture records of benchmark metrics. The data stored are conveniently prepared to be used by data mining algorithms. The predictive models generated are enriched with high-level reconfiguration instructions. These models aim at suggesting the best set of configuration parameters to modify the environment and reach an overall gain in performance, for a given configuration in use. The process proposed was initially implemented and tested in a significant set of benchmarking executions, proving the quality and range of the solution. / Xen é um paravirtualizador que permite a execução simultânea de diversas máquinas virtuais (VM), cada uma com seu próprio sistema operacional. O consumo dessas VMs se dá em diferentes níveis de recursos. Com o objetivo de melhorar a performance do Xen, é interessante verificar qual a melhor alocação de recursos para uma dada máquina Xen, quando várias VMs são executadas, e quais são os respectivos parâmetros. Para auxiliar a eventual reconfiguração de parâmetros, este trabalho propõe um processo completo de descoberta de conhecimento em banco de dados (processo de KDD) para capturar dados de desempenho das VMs, organizá-los em um modelo analítico e aplicar técnicas de mineração para sugerir novos parâmetros. Inicialmente são obtidos dados de desempenho de cada VM, onde a estratégia empregada é a execução de benchmarks sobre cada sistema operacional. Esses dados são armazenados em um data warehouse propriamente modelado para armazenar registros de captura de métricas de benchmarks. Os dados armazenados são convenientemente preparados para serem utilizados por algoritmos de mineração de dados. Os modelos preditivos gerados podem, então, ser enriquecidos com instruções em alto nível de reconfigurações. Tais modelos buscam sugerir, dada uma configuração vigente, qual o melhor conjunto de parâmetros de configuração para modificar o ambiente, e alcançar um ganho global de desempenho. O processo proposto foi implementado e testado com um conjunto significativo de execuções de benchmarks, o que mostrou a qualidade e abrangência da solução. INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) DATA WAREHOUSE
19	Uma abordagem para mineração de dados e visualização de resultados em imagens batimétricas Gonzalez, Luis Fernando Planella January 2012 (has links) Made available in DSpace on 2013-08-07T18:42:58Z (GMT). No. of bitstreams: 1 000439096-Texto+Completo-0.pdf: 7558590 bytes, checksum: 4fb2b1caf2e02f0f7ee3d5ffb4741bb7 (MD5) Previous issue date: 2012 / Bathymetry is the measurement of the depth at various places in a body of water, as well as information derived from such measurements. It has several important applications, and has been attracting increasing interest over the last years. Bathymetry maps may cover the entire extent of the Earth globe. However, the analysis of such maps by visual inspection solely is difficult, due to subtle variations on the seafloor conformation. Thus, it would be interesting to have available computational tools capable of assisting a domain expert in problems related to bathymetry images, by analyzing them automatically or semi-automatically. The contribution of this work is an approach to use data mining for such analysis, and an iconography for results visualization, as well as map characteristics. We propose techniques to process input images, in order to extract records and their features, which can be processed by classic data mining algorithms. We also propose an iconography for visualization of knowledge discovery process results, as well as characteristics of areas in the processed map. Finally, the proposed approach is tested by applying it on a real database, under a domain expert supervision. / A batimetria é a medida da profundidade em distintos lugares de uma massa de água, e também a informação derivada de tais medições. Possui diversas aplicações importantes e tem atraído cada vez mais interesse nos últimos anos. Mapas batimétricos podem cobrir toda a extensão do globo terrestre. Entretanto, a análise apenas por inspeção visual destes mapas pode ser difícil, devido a variações sutis na conformação do solo oceânico. Assim, seria interessante a disponibilização de ferramentas computacionais capazes de auxiliar ao especialista de domínio nos mais diversos problemas relativos a imagens batimétricas, analisando-as de forma automática ou semi-automática. A contribuição deste trabalho é uma abordagem para a utilização da mineração de dados para tal análise, e de uma iconografia para a visualização dos resultados da mineração e de características do próprio mapa. São propostas técnicas para o processamento da imagem de entrada, a fim de extrair da mesma registros e atributos que possam ser processados por algoritmos clássicos da mineração de dados. Também é proposta uma iconografia para a visualização dos resultados do processo de descoberta de conhecimento e das características de áreas processadas do mapa. Finalmente a abordagem proposta é testada, aplicando-a sobre uma base de dados real, com supervisão de um especialista de domínio. INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) PROCESSAMENTO DE IMAGENS
20	SPDW-Miner: um método para a execução de processos de descoberta de conhecimento em bases de dados de projetos de software Figueira, Fernanda Vieira January 2008 (has links) Made available in DSpace on 2013-08-07T18:42:36Z (GMT). No. of bitstreams: 1 000417649-Texto+Completo-0.pdf: 1251849 bytes, checksum: ad607557163d02817ddb83aa46013681 (MD5) Previous issue date: 2008 / Software organizations aim at improving their Software Development Process (SDP) targeting the quality assessment of their processes and products. They adopt software maturity models to achieve this. Maturity models define quality measuring should be done through a metrics program. The defined metrics must be collected and stored properly, maintaining the history of the organizational quality data. However, measuring alone is not enough. Stored data must be useful to support SDP quality maintenance. To do that, maturity models suggest the use of statistical and analytical techniques. The goal is to make feasible the quantitative understanding of the metrics. Data mining techniques are useful in this scenario as an approach able to improve analytical and predictive capabilities on estimations and performance of SDP. This work introduces a method of performing KDD process, named SPDW-Miner, oriented to software metrics prediction. It is proposed a KDD process that incorporates the SPDW+ data-warehousing environment. Such method is composed by a set of steps that guide users to apply the whole KDD process. In special, instead of considering DW as an intermediate step, SPDW-Miner adopts it as a reference to rule its execution. It is specified all KDD process steps: defining the mining goal; extracting a preparing data; data mining and results optimization. The contribution of this work is the establishing of a KDD process, in a proper, user-comfortable detail level. It enables organizational users can to adopt it as a reference guide to knowledge discovery. / As organizações de software buscam, cada vez mais, aprimorar seu Processo de Desenvolvimento de Software (PDS), com o intuito de garantir a qualidade dos seus processos e produtos. Para tanto, elas adotam modelos de maturidade de software. Esses modelos estabelecem que a mensuração da qualidade seja realizada através de um programa de métricas (PM). As métricas definidas devem ser coletadas e armazenadas, permitindo manter um histórico organizacional da qualidade. Contudo, apenas mensurar não é o bastante. As informações armazenadas devem ser úteis para apoiar na manutenção da qualidade do PDS. Para tanto, os níveis mais altos dos modelos de maturidade sugerem que técnicas estatísticas e analíticas sejam utilizadas, com a finalidade de estabelecer o entendimento quantitativo sobre as métricas. As técnicas de mineração de dados entram neste contexto como uma abordagem capaz de aumentar a capacidade analítica e preditiva sobre as estimativas e o desempenho quantitativo do PDS. Este trabalho propõe um método para a execução do processo de KDD (Knowledge Discovery in Database), denominado de SPDW-Miner, voltado para a predição de métricas de software. Para tanto, propõe um processo de KDD que incorpora o ambiente de data warehousing, denominado SPDW+. O método é composto por uma série de etapas que guiam os usuários para o desenvolvimento de todo o processo de KDD. Em especial, em vez de considerar o DW (data warehouse) como um passo intermediário deste processo, o toma como ponto de referência para a sua execução. São especificadas todas as etapas que compõem o processo de KDD, desde o estabelecimento do objetivo de mineração; a extração e preparação dos dados; a mineração até a otimização dos resultados. A contribuição está em estabelecer um processo de KDD em um nível de detalhamento bastante confortável, permitindo que os usuários organizacionais possam adotá-lo como um manual de referência para a descoberta de conhecimento. INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) DATA WAREHOUSE

Search results