• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 591
  • 18
  • 18
  • 13
  • 13
  • 12
  • 12
  • 9
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 629
  • 629
  • 376
  • 373
  • 243
  • 110
  • 104
  • 104
  • 103
  • 102
  • 90
  • 89
  • 87
  • 81
  • 67
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
271

Arvore de decisão aplicada a bancos de dados de incubatorio de matrizes de postura / Decision tree applied to hatchery databases of breeder hen

Lima, Marcelo Gomes Ferreira 11 August 2018 (has links)
Orientador: Luiz Henrique Antunes Rodrigues / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-11T14:21:00Z (GMT). No. of bitstreams: 1 Lima_MarceloGomesFerreira_M.pdf: 1187384 bytes, checksum: c8afd722e3c0a9ff22e8f9cdff828369 (MD5) Previous issue date: 2007 / Resumo: Incubatório de ovos é um setor de grande importância na Avicultura de postura. Com a redução dos custos dos equipamentos de informática cresce o armazenamento de dados para gerenciamento do processo produtivo. A Mineração de Dados surge como uma técnica para identificar conhecimentos novos e úteis nos bancos de dados. Neste sentido, este trabalho tem por objetivo explorar a técnica Arvore de Decisão em banco de dados de dados de incubatórios de matrizes de postura visando a elaboração de padrões de incubação. Foram disponibilizados, pela empresa Hy-Line do Brasil Ltda, dados de incubação entre os anos de 2002 e 2006 das linhagens Hy-Line W-36, Hy-Line Brown e Lohmann LSL. Dois experimentos foram realizados para cada linhagem. Valores acima dos estabelecidos pela empresa como desejado para o índice ¿fêmeas nascidas vendáveis¿, foram identificados como relevantes para a geração das regras no primeiro experimento e no segundo, valores abaixo do estabelecidos pela empresa. Foi utilizado o algoritmo Entropia C4.5 e o software SASEnterprise Miner como ferramenta de análise . Como conclusão deste estudo, foi possível observar que com técnica estudada, os dados utilizados no gerenciamento de produção são suficientes para identificar conhecimentos novos, úteis e aplicáveis a fim de melhorar a produtividade das empresas incubadoras, atendendo a demanda com diminuição do desperdício / Abstract: Hatchery is a sector of high importance in the egg production. Due to the cost reduction of computers there is an increase in data storage for the production management process. Data Mining has appeared as a technique to identify new and useful knowledge in databases. This paper aims to explore the Decision Tree technique in hatchery databases to identify the best standards of the incubation process. The data set used in this research was supplied by Hy-Line do Brasil Ltda., corresponding to the incubation period of 2002-2006, from the strains Hy-line W-36, Hy-line Brown and Lohmann LSL. Two experiments were carried out for each strain. For the first experiment, values higher than the company¿s standards for saleable females were identified as relevant to generate the rules. In the opposite way, the second experiment evaluated values lower than the standards values. The algorithm Entropy C 4.5 and the software SAS-Enterprise Miner 4.3. were used for data analysis. The conclusion is that the technique and the management of attributes can be used to identify new, useful and applicable knowledge in order to increase hatcheries productivity, attending the demand with less waste / Mestrado / Planejamento e Desenvolvimento Rural Sustentável / Mestre em Engenharia Agrícola
272

Mineração de series temporais de dados de sensores / Mining sensor time series

Mariote, Leonardo Elias 25 April 2008 (has links)
Orientador: Claudia Maria Bauzer Medeiros / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-11T15:55:05Z (GMT). No. of bitstreams: 1 Mariote_LeonardoElias_M.pdf: 1035887 bytes, checksum: 094c91408f53fdbaaa175f5b7206a2d7 (MD5) Previous issue date: 2008 / Resumo: Redes de sensores têm aumentado a quantidade e variedade de dados temporais disponíveis. Com isto, surgiram novos desafios na definição de novas técnicas de mineração, capazes de descrever características distintas em séries temporais. A literatura correlata endereça problemas diversos, como indexação, classificação, definição de vetores de características e funções de distâncias mais eficazes. No entanto, a maioria dos trabalhos atuais tem como objetivo descrever e analisar os valores de uma série temporal, e não sua evolução. Além disto, vários fenômenos requerem uma análise mais elaborada, capaz de relacionar várias grandezas. Tal tipo de análise não pode ser realizada pela maioria das técnicas existentes hoje. Esta dissertação apresenta uma técnica que descreve séries temporais sob uma premissa diferente - a de caracterizar a oscilação das séries e não seus valores propriamente ditos. O novo descritor apresentado - TID ES (TIme series oscillation D EScriptor) - utiliza os coeficientes angulares de uma segmentação linear da curva que representa a evolução das . séries analisadas, em múltiplas escalas. Com isso, permite a comparação e a mineração de séries utilizando várias granularidades, enriquecendo a análise efetuada. As principais contribuições são: ~I) A especificação de um descritor que caracteriza a oscilação de séries temporais, ao invés de seus valores, utilizando múltiplas escalas; (II) A implementação deste descritor, validada por meio de dados sintéticos e reais; (III) A extensão do descritor de modo a suportar a análise de coevolução em um conjunto de séries / Abstract: Sensor networks have increased the amount and variety of temporal data available. This motivated the appearance of new techniques far data mining, which describe different aspects of time series. Related work addresses several issues, such as indexing and clustering time series, and the definition of more efficient feature vectares and distance functions. However, most results focus on describing the values in a series, and not their evolution. Furthermore, the majority of papers only characterize a single series, which is not enough in cases where multiple kinds of data must be considered simultaneously. This thesis presents a new technique, which describes time series using a distinct approach, characterizing their oscillation, rather than the values themselves. The descriptor presented - called TIDES (TIme series oscillation DEScriptor) uses the angular coefficients from a linear segmentation of the curve that represents the evolution of the analyzed series. Furthermore, TIDES suports multiscale analysis, what enables series and series mining under different granularities. The main contributions are: (I) The specification of a descriptor that characterizes the oscillation of time series, rather than their values, unde multiple scale; (II) The implementation of this descriptor, validated for synthetic and real data; (III) The extension of the descriptor to support the analysis of the coevolution of a set of series / Mestrado / Banco de Dados / Mestre em Ciência da Computação
273

"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning"

Gustavo Enrique de Almeida Prado Alves Batista 16 May 2003 (has links)
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process.
274

Construção semi-automática de taxonomias para generalização de regras de associação / Semi-automatic construction of taxonomies for association rules generation

Camila Delefrate Martins 14 July 2006 (has links)
Para o sucesso do processo de mineração de dados é importante que o conhecimento extraí?do seja compreensível e interessante para que o usuário final possa utilizá-lo em um sistema inteligente ou em processos de tomada de decisão. Um grande problema, porém, é identificado quando a tarefa de mineração de dados denominada associação é utilizada: a geração de um grande volume de regras. Taxonomias podem ser utilizadas para facilitar a análise e interpretação das regras de associação, uma vez que as mesmas provêm uma visão de como os itens podem ser hierarquicamente classificados. Em função dessa hierarquia é possível obter regras mais gerais que representem um conjunto de itens. Dentro desse contexto, neste trabalho é apresentada uma metodologia para construção semi-automática de taxonomias, que inclui procedimentos automáticos e interativos para a realização dessa tarefa. Essa combinação possibilita a utilização do conhecimento do especialista e também o auxilia na identificação de grupos. Entre os principais resultados deste trabalho, pode-se destacar a proposta e implementação do algoritmo SACT (Semi-automatic Construction of Taxonomies - Construção Semi-automática de Taxonomias), que provê a utilização da metodologia proposta. Para viabilizar a utilização do algoritmo, foi desenvolvido o módulo computacional RulEESACT. Com o objetivo de viabilizar e analisar a qualidade da metodologia proposta e do módulo desenvolvido, foi realizado um estudo de caso no qual foram construída taxonomias para duas bases de dados utilizando o RulEE-SACT. Uma das taxonomias foi analisada e validada por uma especialista do domínio. Posteriormente, as taxonomias e as bases de transações foram fornecidas para dois algoritmos de generalização de regras de associação a fim de analisar a aplicação das taxonomias geradas / I n the data mining process it is important that the extracted knowledge is understandable and interesting to the final user, so it can be used to support in the decision making. However, the data mining task named association has one problem: it generates a big volume of rules. Taxonomies can be used to facilitate the analysis and interpretation of association rules, because they provide an hierarchical vision of the items. This hierarchy enables the obtainment of more general rules, which represent a set of items. In this context, a methodology to semi-automatically construct taxonomies is proposed in this work. This methodology includes automatic and interactives procedures in order to construct the taxonomies, using the specialist?s knowledge and also assisting in the identification of groups. One of the main results of this work is the proposal and implementation of the SACT (Semi-automatic Construction of Taxonomies) algorithm, which provides the use of the proposed methodology. In order to facilitate the use of this algorithm, a computational module named RulEE-SACT was developed. Aiming to analyze the viability and quality of the proposed methodology and the developed module, a case study was done. In this case study, taxonomies of two databases were constructed using the RulEE-SACT. One of them was analyzed and validated by a domain specialist. Then the taxonomies and the databases were supplied to two algorithms which generalize association rules, aiming to analyze the use of the generated taxonomies
275

Incorporando técnicas de mineração de dados a meta-heurísticas populacionais

Protásio, Ivaneide Alves 21 March 2014 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T18:20:32Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Ivaneide Alves Protásio.pdf: 1710443 bytes, checksum: 890976db270d6fb66cc3f04a13cabf51 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T18:20:47Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Ivaneide Alves Protásio.pdf: 1710443 bytes, checksum: 890976db270d6fb66cc3f04a13cabf51 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-02-01T18:21:08Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Ivaneide Alves Protásio.pdf: 1710443 bytes, checksum: 890976db270d6fb66cc3f04a13cabf51 (MD5) / Made available in DSpace on 2017-02-01T18:21:08Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertação - Ivaneide Alves Protásio.pdf: 1710443 bytes, checksum: 890976db270d6fb66cc3f04a13cabf51 (MD5) Previous issue date: 2014-03-21 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Several real-world problems can be modeled as combinatorial optimization problems. This is are usually complex and large scale problems can not be solved by exact methods , since they would require impractical computational time . Thus, meta-heuristics have been widely used for solving such problems. Two of the major difficulties of these methods are to escape from sub-optimal regions and to avoid premature convergence of the algorithm . To try to solving this problem , we use o hybrid techniques in order to develop strategies that are applicable to many optimization algorithms . This study investigates the efficiency of incorporating of data mining techniques to ant colony and genetic algorithm Population Metaheuristcs in order to guide them to generate new and better solutions. To validate the proposal, we use the Travelling Salesman Problem and the Problem Sets Cover and different versions of the hybrid meta-heuristics are tested and analyzed . The technique chosen to guide the search of new solutions , from the patterns obtained with the Data Mining , was grouping similar solutions in an attempt to reduce the search space in combinatorial optimization problems . The mining algorithms used are the K -means and Ward which use techniques of hierarchical and partitioning respectively. Computational experiments were performed in order to evaluate the use of MD in Meta-Population traditional heuristics . These experiments showed that the use of mined patterns can assist in obtaining good solutions . / Vários problemas do mundo real podem ser modelados como problemas de otimização combinatória. Em geral são problemas complexos e de larga escala, não podendo ser resolvidos por métodos exatos, pois os mesmos necessitariam de tempo computacional impraticável. Desse modo, as meta-heurísticas têm sido amplamente empregadas para a resolução de tais problemas. Duas das principais dificuldades destes métodos são escapar das regiões sub-ótimas e evitar a convergência prematura do algoritmo. Para tentar solucionar estes problema, propõe-se o uso de técnicas híbridas buscando desenvolver estratégias que sejam aplicáveis a diversos algoritmos de otimização. O presente trabalho investiga a eficiência da incorporação de técnicas de Mineração de Dados (MD) as Meta-heurísticas Populacionais Colônia de Formiga e Algoritmo Genético com o intuito de guiá-las a gerar novas e melhores soluções. Para a validação da proposta, serão utilizados o Problema do Caixeiro Viajante e diferentes versões das meta-heurísticas híbridas serão testadas e analisadas. A técnica escolhida para guiar a obtenção de novas soluções, a partir dos padrões obtidos com a Mineração de Dados, foi o de Agrupamento de soluções similares, na tentativa de reduzir o espaço de busca em problemas de otimização combinatória. O algoritmos de mineração utilizados são o K-Means e o Ward que utilizam técnicas de particionamento e hierárquico respectivamente. Experimentos Computacionais foram realizados com o objetivo de avaliar o uso de MD em Meta-heurísticas Populacionais tradicionais, atai como Algoritmo Genético e Colonia de Formiga. Estes experimentos mostraram que a utilização de padrões minerados podem auxiliar na obtenção de boas soluções em relação as técnicas tradicionais
276

Combinação de classificadores para detecção de fraudes em sinistros de automóveis.

Rodrigues, Luis Alexandre 05 August 2014 (has links)
Made available in DSpace on 2016-03-15T19:37:51Z (GMT). No. of bitstreams: 1 Luis Alexandre Rodrigues.pdf: 1364668 bytes, checksum: ac6c4273730fb6f75f7a0ceead7e4c1f (MD5) Previous issue date: 2014-08-05 / Universidade Presbiteriana Mackenzie / This work presents a process to detect suspected cases of fraud at automobile claims dataset, which is evaluated the economic created by it. Because of a detection process presenting misclassific ation, it is necessary to evaluate the financial economy made by the process not only its accuracy in detecting suspected cases of fraud. This process uses a combination of classifiers, with C4.5 Decision Tree, Naive Bayes and Support Vector Machine, const ructed by samples of the data set with automobile claims. This way, the process defined by this work can obtain the balance between the accuracy of classification and the financial economy. / Este trabalho apresenta um processo para detectar casos suspeitos de fraude em conjunto de dados com sinistros de automóvel, em que é avaliada a economia financeira gerada por ele. Devido ao fato de um processo de detecção apresentar erros de classificação, é necessário avaliar a economia financeira apresentada pelo processo e não somente a sua precisão na detecção de casos suspeitos de fraude. Este processo utiliza a combinação de classificadores, sendo Árvore de Decisão C4.5, Naive Bayes e Support Vector Machine, construídos por amostras do conjunto de dados com sinistros de automóvel. Desta forma, o processo definido por este trabalho pode obter o equilíbrio entre a precisão da classificação e a economia financeira.
277

Um estudo de caso sobre o modelo de temperamento de Keirsey

Claro, Cristina Fátima 15 February 2018 (has links)
Submitted by Marta Toyoda (1144061@mackenzie.br) on 2018-05-02T22:17:41Z No. of bitstreams: 2 CRISTINA FÁTIMA CLARO.pdf: 1435369 bytes, checksum: 8be497c2e09310e9805b180de47c48d4 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2018-05-04T16:05:24Z (GMT) No. of bitstreams: 2 CRISTINA FÁTIMA CLARO.pdf: 1435369 bytes, checksum: 8be497c2e09310e9805b180de47c48d4 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-05-04T16:05:24Z (GMT). No. of bitstreams: 2 CRISTINA FÁTIMA CLARO.pdf: 1435369 bytes, checksum: 8be497c2e09310e9805b180de47c48d4 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-02-15 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Fundação de Amparo a Pesquisa do Estado de São Paulo / Fundo Mackenzie de Pesquisa / Social media is full of unstructured data and content generated in a decentralized way, and it is possible to analyze these data to identify patterns or predict future events. The analysis of these data gives rise to social media mining, an area that uses data mining techniques to extract knowledge from social data. From how the user presents himself in social media, how he/she interacts, what he/she shares and posts, it is possible to analyze his/her behavior by assigning a virtual identity, called virtual persona, and, from the behavior of the virtual persona, to predict characteristics, such as the temperament. Temperament is a set of natural tendencies of the mind that is related to the processes of perceiving, analyzing and making daily decisions. This dis-sertation aims to identify the temperament of users (virtual personas) based on D. Keirsey’s model, who classifies the temperament in Artisan, Guardian, Idealist and Rational. As a result, an average accuracy of 88.37% was obtained for the SVM algorithm for the classification of temperaments for LIWC with 6-fold cross validation. / As mídias sociais possuem um grande volume de dados não estruturados e permitem a geração de conteúdo de forma descentralizada, sendo possível analisar estes dados para identificar padrões ou prever eventos futuros. A análise desses dados dá origem à mineração de mídias sociais, uma área que utiliza técnicas de mineração de dados para extrair conhecimentos de dados sociais. A partir de como o usuário se apresenta nas mídias sociais, a forma como interage, o que curte, compartilha e posta, é possível analisar seu comportamento atribuindo uma identidade virtual, chamada persona virtual e, a partir do comportamento da persona virtual, predizer características, como o seu temperamento. O temperamento é um conjunto de tendências naturais da mente que tem relação com os processos de perceber, analisar e tomar decisão no dia a dia. Esta dissertação teve como objetivo predizer o temperamento de usuários (personas virtuais) de acordo com o modelo de D. Keirsey, que classifica o temperamento em Artesão, Guardião, Idealista e Racional. Como resultado, obteve-se uma acurácia média de 88,37% com o algoritmo SVM com estruturação dos textos via LIWC e validação cruzada em 6-pastas.
278

Mineração e visualização de coleções de séries temporais / Mining and visualization of time series collections

Aretha Barbosa Alencar 10 December 2007 (has links)
A análise de séries temporais gera muitos desafios para profisionais em um grande número de domínios. Várias soluções de visualização integrada com algoritmos de mineração já foram propostas para tarefas exploratórias em coleções de séries temporais. À medida que o conjunto de dados cresce, estas soluções falham em promover uma boa associação entre séries temporais similares. Neste trabalho, é apresentada uma ferramenta para a análise exploratória e mineração de conjuntos de séries temporais que adota uma representação visual baseada em medidas de dissimilaridade entre séries. Esta representação é criada usando técnicas rápidas de projeção, de forma que as séries temporais possam ser visualizadas em espaços bidimensionais. Vários tipos de atributos visuais e conexões no grafo resultante podem ser utilizados para suportar a exploração dessa representação. Também é possível aplicar algumas tarefas de mineração de dados, como a classificação, para apoiar a busca por padrões. As visualizações resultantes têm se mostrado muito úteis na identificação de grupos de séries com comportamentos similares, que são mapeadas para a mesma vizinhança no espaço bidimensional. Grupos visuais de elementos, assim como outliers, são facilmente identficáveis. A ferramenta é avaliada por meio de sua aplicação a vários conjuntos de séries. Um dos estudos de caso explora dados de vazões de usinas hidrelétricas no Brasil, uma aplicação estratégica para o planejamento energético. / Time series analysis poses many challenges to professionals in a wide range of domains. Several visualization solutions integrated with mining algorithms have been proposed for exploratory tasks on time series collections. As the data sets grow large, though, the visual alternatives do not allow for a good association between similar time series. In this work, we introduce a tool for exploratory visualization and mining of large time series data sets that adopts a visual representation based on distance measures between series. This representation is created employing fast projection techniques, so the time series can be viewed in two-dimensional spaces. Various types of visual attributes and connection on the resulting graph can be applied to support exploration. It also supports data mining tasks, such as classification, to search for patterns. The resulting visualizations have proved very useful for identifying groups of series with similar behavior, which are mapped to the close neighborhoods in twodimensional spaces. Visual clusters of elements, as well as outliers, are easily identifiable. Case studies on several domains are presented to validate the tool. One of them is on a data set of stream ows in hydroelectric power plants in Brazil, a strategic application for energy planning.
279

Integrando mineração de séries temporais e fractais para encontrar padrões e eventos extremos em bases de dados climáticas e de sensoriamento remoto / Integrating time series mining and fractals to discover patterns and extreme events in climate and remote sensing databases

Luciana Alvim Santos Romani 13 December 2010 (has links)
Esta tese apresenta novos metodos baseados na teoria dos fractais e em tecnicas de mineração de dados para dar suporte ao monitoramento agrícola em escala regional, mais especicamente areas com plantações de cana-de-açucar que tem um papel importante na economia brasileira como uma alternativa viavel para a substituição de combustíveis fósseis. Uma vez que o clima tem um grande impacto na agricultura, os agrometeorologistas utilizam dados climáticos associados a índices agrometeorológicos e mais recentemente dados provenientes de satélites para apoiar a tomada de decisão. Neste sentido, foi proposto um método que utiliza a dimensão fractal para identicar mudanças de tendências nas séries climáticas juntamente com um módulo de análise estatística para definir quais atributos são responsáveis por essas alterações de comportamento. Além disso, foram propostos dois métodos de medidas de similaridade para auxiliar na comparação de diferentes regiões agrícolas representadas por múltiplas variáveis provenientes de dados meteorológicos e imagens de sensoriamento remoto. Diante da importância de se estudar os extremos climáticos que podem se intensicar dado os cenários que preveem mudanças globais no clima, foi proposto o algoritmo CLIPSMiner que identifica padrões relevantes e extremos em séries climáticas. CLIPSMiner também permite a identificação de correlação de múltiplas séries considerando defasagem de tempo e encontra padrões de acordo com parâmetros que podem ser calibrados pelos usuários. A busca por padrões de associação entre séries foi alcançada por meio de duas abordagens distintas. A primeira delas integrou o cálculo da correlação de dimensão fractal com uma técnica para tornar os valores contínuos das séries em intervalos discretos e um algoritmo de regras de associação gerando o método Apriori-FD. Embora tenha identificado padrões interessantes em relação a temperatura, este método não conseguiu lidar de forma apropriada com defasagem temporal. Foi proposto então o algoritmo CLEARMiner que de forma não-supervisionada minera padrões em uma série associando-os a padrões em outras séries considerando a possibilidade de defasagem temporal. Os métodos propostos foram comparados a técnicas similares e avaliados por um grupo composto por meteorologistas, agrometeorologistas e especialistas em sensoriamento remoto. Os experimentos realizados mostraram que a aplicação de técnicas de mineração de dados e fractais contribui para melhorar a análise dos dados agrometeorológicos e de satélite auxiliando no trabalho de pesquisadores, além de se configurar como uma ferramenta importante para apoiar a tomada de decisão no agronegócio / This thesis presents new methods based on fractal theory and data mining techniques to support agricultural monitoring in regional scale, specifically regions with sugar canefields. This commodity greatly contributes to the Brazilian economy since it is a viable alternative to replace fossil fuels. Since climate in uences the national agricultural production, researchers use climate data associated to agrometeorological indexes, and recently they also employed data from satellites to support decision making processes. In this context, we proposed a method that uses the fractal dimension to identify trend changes in climate series jointly with a statistical analysis module to define which attributes are responsible for the behavior alteration in the series. Moreover, we also proposed two methods of similarity measure to allow comparisons among different agricultural regions represented by multiples variables from meteorological data and remote sensing images. Given the importance of studying the extreme weather events, which could increase in intensity, duration and frequency according to different scenarios indicated by climate forecasting models, we proposed the CLIPSMiner algorithm to identify relevant patterns and extremes in climate series. CLIPSMiner also detects correlations among multiple time series considering time lag and finds patterns according to parameters, which can be calibrated by the users. We applied two distinct approaches in order to discover association patterns on time series. The first one is the Apriori-FD method that integrates an algorithm to perform attribute selection through applying the correlation fractal dimension, an algorithm of discretization to convert continuous values of series into discrete intervals, and a well-known association rules algorithm (Apriori). Although Apriori-FD has identified interesting patterns related to temperature, this method failed to appropriately deal with time lag. As a solution, we proposed CLEARMiner that is an unsupervised algorithm in order to mine the association patterns in one time series relating them to patterns in other series considering the possibility of time lag. The proposed methods were compared with similar techniques as well as assessed by a group of meteorologists, and specialists in agrometeorology and remote sensing. The experiments showed that applying data mining techniques and fractal theory can contribute to improve the analyses of agrometeorological and satellite data. These new techniques can aid researchers in their work on decision making and become important tools to support decision making in agribusiness
280

PROV-Process: proveniência de dados aplicada a processos de desenvolvimento de software

Dalpra, Humberto Luiz de Oliveira 23 August 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-01-16T17:35:36Z No. of bitstreams: 1 humbertoluizdeoliveiradalpra.pdf: 4521013 bytes, checksum: 48a27b3b030503c69b1b6dda2de4be97 (MD5) / Approved for entry into archive by Diamantino Mayra (mayra.diamantino@ufjf.edu.br) on 2017-01-31T10:32:02Z (GMT) No. of bitstreams: 1 humbertoluizdeoliveiradalpra.pdf: 4521013 bytes, checksum: 48a27b3b030503c69b1b6dda2de4be97 (MD5) / Made available in DSpace on 2017-01-31T10:32:02Z (GMT). No. of bitstreams: 1 humbertoluizdeoliveiradalpra.pdf: 4521013 bytes, checksum: 48a27b3b030503c69b1b6dda2de4be97 (MD5) Previous issue date: 2016-08-23 / O processo de desenvolvimento de software pode ser definido como um conjunto de atividades, métodos, práticas e transformações utilizadas para desenvolver e manter o software e seus produtos associados. A descrição simplificada deste processo é denominada modelo de processo, no qual definem-se as atividades para o desenvolvimento do software, as especificações dos produtos de cada atividade e a indicação dos papéis das pessoas envolvidas. A execução destes processos gera dados importantes sobre o mesmo. A análise devida do histórico destes dados pode resultar na descoberta de informações importantes, as quais podem contribuir para o entendimento de todo o processo e, consequentemente, colaborar para a melhoria deste. A palavra proveniência refere-se a origem, fonte, procedência de um determinado objeto. Em termos computacionais, proveniência é um registro histórico da derivação dos dados que pode auxiliar no entendimento do dado e/ou registro atual. Este trabalho apresenta a proposta de uma arquitetura que, através do uso de modelos de proveniência de dados, aliado a um modelo ontológico e técnicas de mineração de dados, visa identificar melhorias nos processos de desenvolvimento de software e apresentá-las ao gerente de projetos por meio de uma ferramenta. Esta ferramenta, através da importação dos dados de execução de processos, alimenta um banco de dados relacional, modelado conforme a especificação de um modelo de proveniência de dados. Estes dados são carregados em um modelo de Ontologia e em um arquivo de mineração de dados. Assim, os dados são submetidos a uma máquina de inferência, no modelo ontológico, e também a análise de um algoritmo que integra regras de classificação e associação, na mineração de dados. O resultado desta análise apresenta indícios de pontos de melhorias no processo de desenvolvimento de software. A arquitetura proposta baseia-se em trabalhos relacionados, os quais foram selecionados a partir da execução de uma revisão sistemática. / The software development process can be defined as a set of activities, methods, practices and transformations used to develop and maintain the software and its related products. A simplified description of this process is called process model, which defines the activities for the development of software, product specifications of each activity and the indication of the roles of the people involved. The implementation of these processes generates important data on it. The proper analysis of the history of this data may result in the discovery of important information, which can contribute to the understanding of the process and therefore contribute to its improvement. The word provenance refers to the origin or source a particular object. In computer terms, provenance is a historical record of the derivation of data that can assist in the understanding of the data and / or the current record. This dissertation presents a proposal for an architecture that, through the use of data source models, combined with an ontological model and data mining techniques, aims to identify improvements in software development processes and present them to the project manager. This tool, by importing the process execution data, feeds a relational database, modeled based on a provenance model. These data are loaded into an ontology model and into a data mining file. Upon this loading, the data are processed by an inference machine, considering the ontological model, and also by an algorithm that integrates classification and association rules in data mining. The result of this analysis can presents points to improvements in the software development process. The proposed architecture is based on related work, which selected from the execution of a systematic review.

Page generated in 0.0714 seconds