Global ETD Search

381	Uma abordagem visual para apoio ao aprendizado multi-instâncias / A visual approach for support to multi-instances learning Sonia Castelo Quispe 14 August 2015 (has links) Aprendizado múltipla instância (MIL) é um paradigma de aprendizado de máquina que tem o objetivo de classificar um conjunto (bags) de objetos (instâncias), atribuindo rótulos só para os bags. Em MIL apenas os rótulos dos bags estão disponíveis para treinamento, enquanto os rótulos das instâncias são desconhecidos. Este problema é frequentemente abordado através da seleção de uma instância para representar cada bag, transformando um problema MIL em um problema de aprendizado supervisionado padrão. No entanto, não se conhecem abordagens que apoiem o usuário na realização desse processo. Neste trabalho, propomos uma visualização baseada em árvore multi-escala chamada MILTree que ajuda os usuários na realização de tarefas relacionadas com MIL, e também dois novos métodos de seleção de instâncias, chamados MILTree-SI e MILTree-Med, para melhorar os modelos MIL. MILTree é um layout de árvore de dois níveis, sendo que o primeiro projeta os bags, e o segundo nível projeta as instâncias pertencentes a cada bag, permitindo que o usuário explore e analise os dados multi-instância de uma forma intuitiva. Já os métodos de seleção de instãncias objetivam definir uma instância protótipo para cada bag, etapa crucial para a obtenção de uma alta precisão na classificação de dados multi-instância. Ambos os métodos utilizam o layout MILTree para atualizar visualmente as instâncias protótipo, e são capazes de lidar com conjuntos de dados binários e multi-classe. Para realizar a classificação dos bags, usamos um classificador SVM (Support Vector Machine). Além disso, com o apoio do layout MILTree também pode-se atualizar os modelos de classificação, alterando o conjunto de treinamento, a fim de obter uma melhor classificação. Os resultados experimentais validam a eficácia da nossa abordagem, mostrando que a mineração visual através da MILTree pode ajudar os usuários em cenários de classificação multi-instância. / Multiple-instance learning (MIL) is a paradigm of machine learning that aims at classifying a set (bags) of objects (instances), assigning labels only to the bags. In MIL, only the labels of bags are available for training while the labels of instances in bags are unknown. This problem is often addressed by selecting an instance to represent each bag, transforming a MIL problem into a standard supervised learning. However, there is no user support to assess this process. In this work, we propose a multi-scale tree-based visualization called MILTree that supports users in tasks related to MIL, and also two new instance selection methods called MILTree-SI and MILTree-Med to improve MIL models. MILTree is a two-level tree layout, where the first level projects bags, and the second level projects the instances belonging to each bag, allowing the user to understand the data multi-instance in an intuitive way. The developed selection methods define instance prototypes of each bag, which is important to achieve high accuracy in multi-instance classification. Both methods use the MILTree layout to visually update instance prototypes and can handle binary and multiple-class datasets. In order to classify the bags we use a SVM classifier. Moreover, with support of MILTree layout one can also update the classification model by changing the training set in order to obtain a better classifier. Experimental results validate the effectiveness of our approach, showing that visual mining by MILTree can help the users in MIL classification scenarios. Aprendizado múltipla instância Árvore de similaridade Classificação visual de dados Mineração de dados Data mining Multiple instance learning Similarity tree Visual data classification
382	Análise de padrões operacionais da frota de ônibus de transporte público no município de São Paulo e a influência de fatores climáticos em sua dinâmica. / Understanding temporal, weather and spatialvariation patterns in São Paulo urban bus travel speeds. Erick Sobreiro Gonçalves 04 December 2017 (has links) Atualmente existem muitas fontes de dados oriundos de movimentação de pessoas e veículos. Deduzir o comportamento do tráfego a partir desses dados pode ser de grande utilidade para a gestão do tráfego. Entretanto, os métodos existentes podem não abordar todas as dimensões referentes ao comportamento do tráfego, em especial sob efeito de adversidades, como por exemplo - eventos climáticos. O objetivo dessa dissertação é apresentar uma combinação de métodos estatísticos e de análise espacial, para uso na compreensão dos padrões temporais e espaciais de variabilidade das velocidades, em condições normais e sob o impacto da precipitação. O método consiste na mineração de dados de micro trechos de deslocamento (microviagens), através da combinação de estatísticas descritivas, árvores de regressão CHAID (Chi square automatic interaction detection) e análises espaciais (Krigagem). Para a validação do método foram utilizados dados obtidos, durante março de 2014, de operação da frota de ônibus municipal da cidade de São Paulo, fornecidos pela São Paulo Transportes (SPTrans). Os dados de precipitação de chuva foram fornecidos pelo Instituto Nacional de Meteorologia (INMET). Os resultados demonstraram o impacto da precipitação sobre a variabilidade das velocidades por dia da semana e hora do dia. Adicionalmente, com base nos conjuntos de dados classificados via CHAID, foram produzidas representações da distribuição das velocidades sobre a superfície através uso da Krigagem. Observou-se uma consistente queda das velocidades no período vespertino, principalmente entre 16:00 e 19:00 horas, frequentemente agravados pela presença de precipitação. Foram selecionados casos de alta variabilidade, a partir da técnica CHAID, que foram analisados espacialmente. Os efeitos da queda da variabilidade foram observados geograficamente, demonstrando que a infraestrutura de transporte é um importante fator em sua caracterização. O estudo demonstra a viabilidade desta abordagem e a importância de incorporar a geografia no entendimento da variabilidade das velocidades em geral. / Nowadays there is a wide number of movement data sources which can be useful in transportation management. However, the existing methods may not cover all traffic dimensions, especially under inclement weather. The objective of this work is presenting a combination of statistical and spatial methods which allows to understand space and time speed patterns, considering regular operation conditions in comparison with rainfall events. The method consists in sequential bus tracking data segments (micro travel) mining by the combination of descriptive statistics, CHAID (Chi square automatic interaction detection) regression trees and spatial analysis (Kriging). To validate the method, São Paulo bus fleet tracking data provided by SPTrans, and rainfall precipitation, provided by INMET was combined and processed. The results presented rainfall as a relevant factor of speed variability by day of week and time of the day. A consistent speed decrease in the afternoon period, mainly between 4:00 PM and 7:00 PM, was observed. Such effects are more intense in face of rainfall precipitation. The highest variability cases obtained by CHAID classification was selected and spatially analyzed showing the transportation infrastructure is an important variability component. Such results show the importance of a geographic approach over speed variability. Mineração de dados Ônibus Transporte público Average speed Bus operation CHAID Data mining GIS GPS Kriging Public transportation Rainfall São Paulo
383	Large scale similarity-based time series mining / Mineração de séries temporais por similaridade em larga escala Diego Furtado Silva 25 September 2017 (has links) Time series are ubiquitous in the day-by-day of human beings. A diversity of application domains generate data arranged in time, such as medicine, biology, economics, and signal processing. Due to the great interest in time series, a large variety of methods for mining temporal data has been proposed in recent decades. Several of these methods have one characteristic in common: in their cores, there is a (dis)similarity function used to compare the time series. Dynamic Time Warping (DTW) is arguably the most relevant, studied and applied distance measure for time series analysis. The main drawback of DTW is its computational complexity. At the same time, there are a significant number of data mining tasks, such as motif discovery, which requires a quadratic number of distance computations. These tasks are time intensive even for less expensive distance measures, like the Euclidean Distance. This thesis focus on developing fast algorithms that allow large-scale analysis of temporal data, using similarity-based methods for time series data mining. The contributions of this work have implications in several data mining tasks, such as classification, clustering and motif discovery. Specifically, the main contributions of this thesis are the following: (i) an algorithm to speed up the exact DTW calculation and its embedding into the similarity search procedure; (ii) a novel DTW-based spurious prefix and suffix invariant distance; (iii) a music similarity representation with implications on several music mining tasks, and a fast algorithm to compute it, and; (iv) an efficient and anytime method to find motifs and discords under the proposed prefix and suffix invariant DTW. / Séries temporais são ubíquas no dia-a-dia do ser humano. Dados organizados no tempo são gerados em uma infinidade de domínios de aplicação, como medicina, biologia, economia e processamento de sinais. Devido ao grande interesse nesse tipo de dados, diversos métodos de mineração de dados temporais foram propostos nas últimas décadas. Muitos desses métodos possuem uma característica em comum: em seu núcleo, há uma função de (dis)similaridade utilizada para comparar as séries. Dynamic Time Warping (DTW) é indiscutivelmente a medida de distância mais relevante na análise de séries temporais. A principal dificuldade em se utilizar a DTW é seu alto custo computacional. Ao mesmo tempo, algumas tarefas de mineração de séries temporais, como descoberta de motifs, requerem um alto número de cálculos de distância. Essas tarefas despendem um grande tempo de execução, mesmo utilizando-se medidas de distância menos custosas, como a distância Euclidiana. Esta tese se concentra no desenvolvimento de algoritmos eficientes que permitem a análise de dados temporais em larga escala, utilizando métodos baseados em similaridade. As contribuições desta tese têm implicações em variadas tarefas de mineração de dados, como classificação, agrupamento e descoberta de padrões frequentes. Especificamente, as principais contribuições desta tese são: (i) um algoritmo para acelerar o cálculo exato da distância DTW e sua incorporação ao processo de busca por similaridade; (ii) um novo algoritmo baseado em DTW para prover invariância a prefixos e sufixos espúrios no cálculo da distância; (iii) uma representação de similaridade musical com implicações em diferentes tarefas de mineração de dados musicais e um algoritmo eficiente para computá-la; (iv) um método eficiente e anytime para encontrar motifs e discords baseado na medida DTW invariante a prefixos e sufixos. Dynamic Time Warping Medidas de similaridade Mineração de dados Séries temporais Data mining Dynamic Time Warping Similarity measures Time series
384	Análise espaço-temporal de data streams multidimensionais / Spatio-temporal analysis in multidimensional data streams Santiago Augusto Nunes 06 April 2015 (has links) Fluxos de dados são usualmente caracterizados por grandes quantidades de dados gerados continuamente em processos síncronos ou assíncronos potencialmente infinitos, em aplicações como: sistemas meteorológicos, processos industriais, tráfego de veículos, transações financeiras, redes de sensores, entre outras. Além disso, o comportamento dos dados tende a sofrer alterações significativas ao longo do tempo, definindo data streams evolutivos. Estas alterações podem significar eventos temporários (como anomalias ou eventos extremos) ou mudanças relevantes no processo de geração da stream (que resultam em alterações na distribuição dos dados). Além disso, esses conjuntos de dados podem possuir características espaciais, como a localização geográfica de sensores, que podem ser úteis no processo de análise. A detecção dessas variações de comportamento que considere os aspectos da evolução temporal, assim como as características espaciais dos dados, é relevante em alguns tipos de aplicação, como o monitoramento de eventos climáticos extremos em pesquisas na área de Agrometeorologia. Nesse contexto, esse projeto de mestrado propõe uma técnica para auxiliar a análise espaço-temporal em data streams multidimensionais que contenham informações espaciais e não espaciais. A abordagem adotada é baseada em conceitos da Teoria de Fractais, utilizados para análise de comportamento temporal, assim como técnicas para manipulação de data streams e estruturas de dados hierárquicas, visando permitir uma análise que leve em consideração os aspectos espaciais e não espaciais simultaneamente. A técnica desenvolvida foi aplicada a dados agrometeorológicos, visando identificar comportamentos distintos considerando diferentes sub-regiões definidas pelas características espaciais dos dados. Portanto, os resultados deste trabalho incluem contribuições para a área de mineração de dados e de apoio a pesquisas em Agrometeorologia. / Data streams are usually characterized by large amounts of data generated continuously in synchronous or asynchronous potentially infinite processes, in applications such as: meteorological systems, industrial processes, vehicle traffic, financial transactions, sensor networks, among others. In addition, the behavior of the data tends to change significantly over time, defining evolutionary data streams. These changes may mean temporary events (such as anomalies or extreme events) or relevant changes in the process of generating the stream (that result in changes in the distribution of the data). Furthermore, these data sets can have spatial characteristics such as geographic location of sensors, which can be useful in the analysis process. The detection of these behavioral changes considering aspects of evolution, as well as the spatial characteristics of the data, is relevant for some types of applications, such as monitoring of extreme weather events in Agrometeorology researches. In this context, this project proposes a technique to help spatio-temporal analysis in multidimensional data streams containing spatial and non-spatial information. The adopted approach is based on concepts of the Fractal Theory, used for temporal behavior analysis, as well as techniques for data streams handling also hierarchical data structures, allowing analysis tasks that take into account the spatial and non-spatial aspects simultaneously. The developed technique has been applied to agro-meteorological data to identify different behaviors considering different sub-regions defined by the spatial characteristics of the data. Therefore, results from this work include contribution to data mining area and support research in Agrometeorology. Análise espaço-temporal Data streams multidimensionais. Mineração de dados Teoria dos fractais Data mining fractals Multidimensional data streams Spatio-temporal analysis
385	Método de mineração de dados para diagnóstico de câncer de mama baseado na seleção de variáveis / A data mining method for breast cancer diagnosis based on selected features Holsbach, Nicole January 2012 (has links) A presente dissertação propõe métodos para mineração de dados para diagnóstico de câncer de mama (CM) baseado na seleção de variáveis. Partindo-se de uma revisão sistemática, sugere-se um método para a seleção de variáveis para classificação das observações (pacientes) em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. O método de seleção de variáveis para categorização das observações baseia-se em 4 passos operacionais: (i) dividir o banco de dados original em porções de treino e de teste, e aplicar a ACP (Análise de Componentes Principais) na porção de treino; (ii) gerar índices de importância das variáveis baseados nos pesos da ACP e na percentagem da variância explicada pelos componentes retidos; (iii) classificar a porção de treino utilizando as técnicas KVP (k-vizinhos mais próximos) ou AD (Análise Discriminante). Em seguida eliminar a variável com o menor índice de importância, classificar o banco de dados novamente e calcular a acurácia de classificação; continuar tal processo iterativo até restar uma variável; e (iv) selecionar o subgrupo de variáveis responsável pela máxima acurácia de classificação e classificar a porção de teste utilizando tais variáveis. Quando aplicado ao WBCD (Wisconsin Breast Cancer Database), o método proposto apresentou acurácia média de 97,77%, retendo uma média de 5,8 variáveis. Uma variação do método é proposta, utilizando quatro diferentes tipos de kernels polinomiais para remapear o banco de dados original; os passos (i) a (iv) acima descritos são então aplicados aos kernels propostos. Ao aplicar-se a variação do método ao WBCD, obteve-se acurácia média de 98,09%, retendo uma média de 17,24 variáveis de um total de 54 variáveis geradas pelo kernel polinomial recomendado. O método proposto pode auxiliar o médico na elaboração do diagnóstico, selecionando um menor número de variáveis (envolvidas na tomada de decisão) com a maior acurácia, obtendo assim o maior acerto possível. / This dissertation presents a data mining method for breast cancer (BC) diagnosis based on selected features. We first carried out a systematic literature review, and then suggested a method for feature selection and classification of observations, i.e., patients, into benign or malignant classes based on patients’ breast tissue measures. The proposed method relies on four operational steps: (i) split the original dataset into training and testing sets and apply PCA (Principal Component Analysis) on the training set; (ii) generate attribute importance indices based on PCA weights and percent of variance explained by the retained components; (iii) classify the training set using KNN (k-Nearest Neighbor) or DA (Discriminant Analysis) techniques, eliminate irrelevant features and compute the classification accuracy. Next, eliminate the feature with the lowest importance index, classify the dataset, and re-compute the accuracy. Continue such iterative process until one feature is left; and (iv) choose the subset of features yielding the maximum classification accuracy, and classify the testing set based on those features. When applied to the WBCD (Wisconsin Breast Cancer Database), the proposed method led to average 97.77% accurate classifications while retaining average 5.8 features. One variation of the proposed method is presented based on four different types of polynomial kernels aimed at remapping the original database; steps (i) to (iv) are then applied to such kernels. When applied to the WBCD, the proposed modification increased average accuracy to 98.09% while retaining average of 17.24 features from the 54 variables generated by the recommended kernel. The proposed method can assist the physician in making the diagnosis, selecting a smaller number of variables (involved in the decision-making) with greater accuracy, thereby obtaining the highest possible accuracy. Análise multivariada Mineração de dados Neoplasias mamárias : Diagnóstico Feature selection Breast cancer diagnosis K-nearest neighbor Discriminant Kernel
386	Sistema automático para negociação de ações usando técnica de mineração de dados com detecção de mudança de conceito SOUZA, Victor Lorena de Farias 19 October 2015 (has links) Submitted by Haroudo Xavier Filho (haroudo.xavierfo@ufpe.br) on 2016-01-22T14:22:26Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação_Mestrado_Victor_Lorena.pdf: 1644188 bytes, checksum: 4a53bf1f4dc89599b68bd29f20b7fd59 (MD5) / Made available in DSpace on 2016-01-22T14:22:26Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação_Mestrado_Victor_Lorena.pdf: 1644188 bytes, checksum: 4a53bf1f4dc89599b68bd29f20b7fd59 (MD5) Previous issue date: 2015-10-19 / FACEPE / Uma série temporal financeira representa as cotações dos preços das ações e apresenta comportamento similar a um fluxo de dados. Para a descoberta de padrões presentes em seus dados alguns trabalhos utilizam técnicas de mineração de dados que são fundamentadas na ideia de que os dados históricos guardam a memória essencial para prever a direção futura dos preços. Métodos tradicionais propostos na literatura consideram que o ambiente é estático, ou seja, que o mecanismo gerador da série financeira é o mesmo durante todo o intervalo de tempo de interesse. Porém, no caso de séries temporais financeiras, isso pode não ocorrer. Para resolver este problema, esta dissertação propõe a abordagem PAA-IDPSO-CD (Aproximação por Valor Agregado de Segmento - Otimização por Enxame de Partículas Auto Adaptativa com detecção de mudança de conceito) para descoberta de padrões em séries temporais financeiras. A abordagem proposta objetiva lidar explicitamente com mudanças de conceito na série e descobrir os melhores padrões representativos dos dados das séries temporais que serão utilizados junto a uma estratégia de investimento formulada para automatizar as operações a serem feitas no mercado de ações. Isso possibilitará a redução das incertezas e dos riscos envolvidos nas compras e vendas de ações e auxiliará os investidores a maximizar o lucro nas suas operações feitas no mercado de ações. A fim de alcançar melhores resultados são propostas diferentes estruturas de partículas, utilizadas pelo IDPSO, junto a diferentes regras de decisão. Primeiramente, é utilizada uma estrutura básica para a partícula, em que se opera apenas na posição comprado no mercado financeiro. É proposto também uma segunda estrutura que é capaz de operar tanto na posição comprado quanto na posição vendido. Os experimentos do presente estudo comparam os resultados das versões do método proposto entre si e com os resultados obtidos pelas abordagens Buy and Hold (B&H) e SAX-GA (Aproximação por Valor Agregado Simbólico - Algoritmos Genéticos). Para isso, foram realizados Teste t Pareado com nível de confiança de 95% em vinte ações. O presente estudo conclui que o PAA-IDPSO-CD apresentou resultados estatisticamente melhores que o B&H e o SAX-GA para todas as vinte ações em que os testes foram executados (pvalor <0;05). Além disso, a estratégia que opera nas posições comprado e vendido é melhor quando comparada àquela que opera apenas na posição comprado. No estudo comparativo em onze ações não houve diferença estatística e em outras sete a estratégia comprado e vendido obteve melhores resultados (pvalor < 0; 05). / Financial time series represents the prices of stock over time and presents similar behavior to a data stream. Mining techniques, which are based on the idea that the historical data retain the essential memory to predict the future direction, are used to make the patterns discovery in the time series data. In this context, this study proposes the PAA-IDPSO-CD (Piecewise Aggregate Approximation - Improved self-adaptive particle swarm optimization with Concept Drift) approach aiming to find patterns in financial time series. The purpose of this study is the discovery of the best representative patterns of the time series data to be used by a designed investment strategy to automate the operations to be made in the stock market. Thus, reducing the uncertainties and risks involved in buying and selling operations of stocks and help investors maximize the profit in their operations made in the stock market. In order to achieve best results, different particle structures, used by IDPSO, along with different decision rules are proposed. First, a basic structure to the particle is employed, it operates only in the Long position in the financial market. Subsequently, this structure develops to be able to operate both in Long and Short position. The experiments of this study comparing the results of the various versions of the proposed approach with each other and with those obtained by the Buy and Hold (B&H) and SAX-GA techniques, for that, were performed Paired t test with a confidence level of 95% in twenty stocks. The achieved results show that the PAA-IDPSO-CD outperforms B&H and SAX-GA for all twenty stocks in which the tests were performed (pvalue < 0:05). Furthermore, the long-short operating strategy is better than that operating only in the long position. In the comparative study in eleven actions there was no statistical difference and in other seven long-short strategy outperforms (pvalue < 0:05). Descoberta de padrões Reconhecimento de padrões Mineração de dados Representação PAA Otimização por enxame de partículas Detecção de mudança de conceito Mercado de ações
387	Representação e análise de encontros espaço-temporais publicados em redes sociais online MORENO, Bruno Neiva 09 September 2016 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-04-24T14:37:15Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) tese_bnm_OK.pdf: 5126585 bytes, checksum: 5ccba23295950094b489a2df805e0815 (MD5) / Made available in DSpace on 2017-04-24T14:37:15Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) tese_bnm_OK.pdf: 5126585 bytes, checksum: 5ccba23295950094b489a2df805e0815 (MD5) Previous issue date: 2016-09-09 / O crescente uso de redes sociais online tem feito com que usuários compartilhem, também, informações detalhadas a respeito dos locais que os mesmos frequentam, criando uma ligação entre o mundo físico (o movimento destes usuários no globo) e o mundo virtual (o que eles expressam sobre esses movimentos nas redes). O “check-in” é a funcionalidade responsável pelo compartilhamento da localização. Em uma rede social com essa funcionalidade, qualquer usuário pode publicar o local em que o mesmo está em determinado instante de tempo. Esta tese apresenta novas abordagens de análise de redes sociais online considerando as dimensões social, espacial e temporal que são inerentes à publicação de check-ins de usuários. As informações sociais, espaciais e temporais são definidas sob a perspectiva de encontros de usuários, sendo este o objeto de estudo dessa tese. Encontros ocorrem quando duas pessoas (dimensão social), estão em algum local (dimensão espacial), em determinado instante de tempo (dimensão temporal) e decidem publicar esse encontro através de check-ins. Além de apresentar um algoritmo para detecção de encontros, é definido um modelo para representação desses encontros. Este modelo é chamado de SiST (do inglês, SocIal, Spatial and Temporal) e modela encontros por meio de redes complexas. Para validar o modelo proposto, foram utilizados dados reais de redes sociais online. Com esses dados, os encontros foram detectados e analisados sob diferentes perspectivas com o objetivo de investigar a existência de alguma lei que governe a publicação dos mesmos, bem como para identificar padrões relativos a sua ocorrência, como padrões temporais, por exemplo. Além disso, as redes construídas a partir do modelo SiST também foram analisadas em termos de suas propriedades estruturais e topológicas. Por meio de redes SiST também foram estudados padrões de movimentação de usuários, como situações em que usuários se movimentam em grupo no globo ou situações em que um usuário é seguido por outros. / The growing use of online social networks has caused users to share detailed information about the places they visit, resulting on a clear connection between the physical world (i.e. the movement of these users on the globe) and the virtual world (which they express about these movements in the social network). The functionality responsible for sharing location by users is named as “check in”. In a social network with this feature, any user can publish their visited places. This thesis presents new approaches for online social networks analysis considering the social, spatial and temporal dimensions that are implicit in the publication of users check-ins. Social, spatial and temporal information is defined from the perspective of “user encounters”, which is the study object of this thesis. Users encounters occur when two people (social dimension) are somewhere (spatial dimension) in a given time (temporal dimension) and decide to publish this meeting through check-ins. In addition to the algorithm presented for encounters detection, we also defined a model for representation of these encounters. This model is called as SiST (SocIal, Spatial and Temporal). The SiST model basically represent encounters by a graph structure. To validate the proposed approach, we used real data from online social networks. With these data the users encounters were detected and analyzed from different perspectives aiming at investigating the existence of any law governing the publication of encounters and also to identify patterns related to its occurrence, like temporal patterns, for example. Furthermore, the graphs built from SiST model were also analyzed in terms of its structural and topological properties. Through the SiST networks the users movements were studied as well, like in situations in which users move in group or situations where users are followed by other users. Análise de Redes Sociais Online Redes Complexas Mineração de Dados de Redes Sociais Analysis of Online Social Networks Complex Networks Social Networking Data Mining
388	Processo de descoberta de conhecimento em bases de dados para a analise e o alerta de doenças de culturas agricolas e sua aplicação na ferrugem do cafeeiro / Process of knowledge discovery in databases for analysis and warning of crop diseases and its application on coffee rust Meira, Carlos Alberto Alves 13 June 2008 (has links) Orientador: Luiz Henrique Antunes Rodrigues / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-11T10:02:19Z (GMT). No. of bitstreams: 1 Meira_CarlosAlbertoAlves_D.pdf: 2588338 bytes, checksum: 869cc28d2c71dbc901870285cc32d8f9 (MD5) Previous issue date: 2008 / Resumo: Sistemas de alerta de doenças de plantas permitem racionalizar o uso de agrotóxicos, mas são pouco utilizados na prática. Complexidade dos modelos, dificuldade de obtenção dos dados necessários e custos para o agricultor estão entre as razões que inibem o seu uso. Entretanto, o desenvolvimento tecnológico recente - estações meteoro lógicas automáticas, bancos de dados, monitoramento agrometeorológico na Web e técnicas avançadas de análise de dados - permite se pensar em um sistema de acesso simples e gratuito. Uma instância do processo de descoberta de conhecimento em bases de dados foi realizada com o objetivo de avaliar o uso de classificação e de indução de árvores de decisão na análise e no alerta da ferrugem do cafeeiro causada por Hemileia vastatrix. Taxas de infecção calculadas a partir de avaliações mensais de incidência da ferrugem foram agrupadas em três classes: TXl - redução ou estagnação; TX2 - crescimento moderado (até 5 p.p.); e TX3 - crescimento acelerado (acima de 5 p.p.). Dados meteorológicos, carga pendente de frutos do cafeeiro (Coffea arabica) e espaçamento entre plantas foram as variáveis independentes. O conjunto de treinamento totalizou 364 exemplos, preparados a partir de dados coletados em lavouras de café em produção, de outubro de 1998 a outubro de 2006. Uma árvore de decisão foi desenvolvida para analisar a epidemia da ferrugem do cafeeiro. Ela demonstrou seu potencial como modelo simbólico e interpretável, permitindo a identificação das fronteiras de decisão e da lógica contidas nos dados, allf'iliando na compreensão de quais variáveis e como as interações dessas variáveis condicionaram o progresso da doença no campo. As variáveis explicativas mais importantes foram a temperatura média nos períodos de molhamento foliar, a carga pendente de frutos, a média das temperaturas máximas diárias no período de inG:!Jbação e a umidade relativa do ar. Os modelos de alerta foram deserivolvtdos considerando taxas de infecção binárias, segundo os limites de 5 p.p e 10 p.p. (classe- '1' para taxas maiores ou iguais ao limite; classe 'O', caso contrário). Os modelos são específicos para lavouras com alta carga pendente ou para lavouras com baixa carga. Os primeiros tiveram melhor desempenho na avaliação. A estimativa de acurácia, por validação cruzada, foi de até 83%, considerando o alerta a partir de 5 p.p. Houve ainda equilíbrio entre a acurácia e medidas importantes como sensitividade, especificidade e confiabilidade positiva ou negativa. Considerando o alerta a partir de 10 p.p., a acurácia foi de 79%. Para lavouras com baixa carga pendente, os modelos considerando o alerta a partir de 5 p.p. tiveram acurácia de até 72%. Os modelos para a taxa de infecção mais elevada (a partir de 10 p.p.) tiveram desempenho fraco. Os modelos mais bem avaliados mostraram ter potencial para servir como apoio na tomada de decisão referente à adoção de medidas de controle da ferrugem do cafeeiro. O processo de descoberta de conhecimento em bases de dados foi caracterizado, com a intenção de que possa vir a ser útil em aplicações semelhantes para outras culturas agrícolas ou para a própria cultura do café, no caso de outras doenças ou pragas / Abstract: Plant disease warning systems can contribute for diminishing the use of chemicals in agriculture, but they have received limited acceptance in practice. Complexity of models, difficulties in obtaining the required data and costs for the growers are among the reasons that inhibit their use. However, recent technological advance - automatic weather stations, databases, Web based agrometeorological monitoring and advanced techniques of data analysis - allows the development of a system with simple and free access. A process .instance of knowledge discovery in databases has been realized to evaluate the use of classification and decision tree induction in the analysis and warning of coffee rust caused by Hemileia vastatrix. Infection rates calculated from monthly assessments of rust incidence were grouped into three classes: TXl - reduction or stagnation; TX2 - moderate growth (up to 5 pp); and TX3 - accelerated growth (above 5 pp). Meteorological data, expected yield and space between plants were used as independent variables. The training data set contained 364 examples prepared from data collected in coffee-growing areas between October 1998 and October 2006. A decision tree has been developed to analyse the coffee rust epidemics. The decision tree demonstrated its potential as a symbolic and interpretable model. Its mo deI representation identified the existing decision boundaries in the data and the logic underlying them, helping to understand which variables, and interactions between these variables, led to, coffee rust epidemics in the field. The most important explanatory variables were mean temperature during leaf wetness periods, expected yield, mean of maximum temperatures during the incubation period and relative air humidity. The warning models have been developed considering binary infection rates, according to the 5 pp and 10 pp thresholds, (class '1' for rates greater than or equal the threshold; class 'O;, otherwise). These models are specific for growing are as with high expected yield or areas with low expected yield. The former had best performance in the evaluation. The estimated accuracy by cross-validation was up to 83%, considering the waming for 5 pp and higher. There was yet equivalence between accuracy and such important measures like sensitivity, specificity a~d positive or negative reliability. Considering the waming for 10 pp and higher, the accuracy was 79%. For growing areas with low expected yield, the accuracy of the models considering the waming for 5 pp and higher was up to 72%. The models for the higher infection rate (10 pp and higher) had low performance. The best evaluated models showed potential to be used in decision making about coffee rust disease control. The process of knowledge discovery in databases was characterized in such a way it can be employed in similar problems of the application domain with other crops or other coffee diseases or pests / Doutorado / Planejamento e Desenvolvimento Rural Sustentável / Doutor em Engenharia Agrícola Mineração de dados (Computação) Classificação Modelos Árvores de decisão Hemileia vastatrix Data mining Classification Decision tree Plant disease forecasting system Predictive model
389	Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade Motta, Porthos Ribeiro de Albuquerque 20 October 2016 (has links) Submitted by JÚLIO HEBER SILVA (julioheber@yahoo.com.br) on 2016-12-02T15:54:04Z No. of bitstreams: 2 Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Jaqueline Silva (jtas29@gmail.com) on 2016-12-13T15:28:18Z (GMT) No. of bitstreams: 2 Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2016-12-13T15:28:18Z (GMT). No. of bitstreams: 2 Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-10-20 / Educational Data Mining, by the triad of quality improvement, cost reduction and educational effectiveness, acts and seeks to better understand the teaching and learning process. In this context, the aim of this work is an exploratory study of classification methods to predict student performance and dropout from data in university academic databases. In this study we used demographic, socio-economic and academic results, obtained from the Vestibular and the university database to analyze several classification techniques, as well as balancing and attribute selection techniques, identified through a systematic review of the literature. Following a trend found in the selected articles, we chose to use decision trees as the primary classification algorithm, although comparative studies showed better results with logistic regression techniques and Bayesian networks. This is because decision trees allow an analysis of the attributes used in the generated models while maintaining acceptable levels of accuracy, while other techniques work as a black box. Through the tests we found that you get better results using balanced sets. In this sense, the Resample technique that selects a balanced subset of the data showed better results than SMOTE technique that generates synthetic data for balancing the dataset. Regarding the use of attribute selection techniques, these did not bring significant advantages. Among the attributes used, grades and economic factors often appear as nodes in the generated models. An attempt to predict performance for each subject based on data from previous courses was less successful, maybe because of the use of ternary predictive classes. Nevertheless, the analysis carried out showed that the use of classifiers is a promising way to predict performance and dropout, but further studies are still needed. / A Mineração de Dados Educacionais, por meio da tríade melhoria da qualidade, redução do custo e eficácia do ensino, age e procura compreender melhor o processo de ensinoaprendizagem dos alunos. Neste contexto, o objetivo desta dissertação é o estudo exploratório de métodos de classificação para predizer o desempenho e o abandono de alunos a partir de dados existentes nas bases de dados acadêmicas das universidades. Neste trabalho foram usados dados demográficos, sócio-econômicos e resultados acadêmicos, oriundos do Vestibular e do banco de dados acadêmico da universidade para analisar diversas técnicas de classificação, assim como técnicas de balanceamento e seleção de atributos identificadas através de uma revisão sistemática da literatura. Seguindo uma tendência verificada nos artigos levantados, optou-se por utilizar como principal algoritmo de classificação o J48, apesar de estudos comparativos terem mostrado melhores resultados com técnicas de regressão logística e redes Bayesianas. Isto se deve ao fato das árvores de decisão permitirem uma análise dos atributos usados nos modelos gerados, mantendo ní- veis de acurácia aceitáveis, enquanto as outras técnicas funcionam como uma caixa preta. Neste sentido, a técnica de Resample, que escolhe um subconjunto balanceado dos dados, apresentou melhores resultados que a técnica de SMOTE, que gera dados sintéticos para balancear os dados. Quanto ao uso de técnicas de seleção de atributos, estas não trouxeram vantagens significativas. Dentre os atributos usados, notas e aspectos econômicos aparecem com frequência nos modelos gerados. Uma tentativa de prever desempenho por disciplina, com base em dados de disciplinas já cursadas em semestres anteriores foi menos bem sucedida, talvez pelo fato de usar classes preditoras ternárias. Apesar disto, as análises realizadas mostraram que o uso de classificadores é um caminho promissor para a predição de desempenho e abandono, mas estudos mais aprofundados ainda são necessários Mineração de dados educacionais Classificação Predição de desempenho e abandono Educational data mininig Classification Outcome prediction
390	Análise de dados de bases de honeypots: estatística descritiva e regras de IDS Ferreira, Pedro Henrique Matheus da Costa 04 March 2015 (has links) Made available in DSpace on 2016-03-15T19:37:56Z (GMT). No. of bitstreams: 1 PEDRO HENRIQUE MATHEUS DA COSTA FERREIRA.pdf: 2465586 bytes, checksum: c81a1527d816aeb0b216330fd4267b93 (MD5) Previous issue date: 2015-03-04 / Fundação de Amparo a Pesquisa do Estado de São Paulo / A honeypot is a computer security system dedicated to being probed, attacked or compromised. The information collected help in the identification of threats to computer network assets. When probed, attacked and compromised the honeypot receives a sequence of commands that are mainly intended to exploit a vulnerability of the emulated systems. This work uses data collected by honeypots to create rules and signatures for intrusion detection systems. The rules are extracted from decision trees constructed from the data sets of real honeypots. The results of experiments performed with four databases, both public and private, showed that the extraction of rules for an intrusion detection system is possible using data mining techniques, particularly decision trees. The technique pointed out similarities between the data sets, even the collection occurring in places and periods of different times. In addition to the rules obtained, the technique allows the analyst to identify problems quickly and visually, facilitating the analysis process. / Um honeypot é um sistema computacional de segurança dedicado a ser sondado, atacado ou comprometido. As informações coletadas auxiliam na identificação de ameaças computacionais aos ativos de rede. Ao ser sondado, atacado e comprometido o honeypot recebe uma sequência de comandos que têm como principal objetivo explorar uma vulnerabilidade dos sistemas emulados. Este trabalho faz uso dos dados coletados por honeypots para a criação de regras e assinaturas para sistemas de detecção de intrusão. As regras são extraídas de árvores de decisão construídas a partir dos conjuntos de dados de um honeypot real. Os resultados dos experimentos realizados com quatro bases de dados, duas públicas e duas privadas, mostraram que é possível a extração de regras para um sistema de detecção de intrusão utilizando técnicas de mineração de dados, em particular as árvores de decisão. A técnica empregada apontou similaridades entre os conjuntos de dados, mesmo a coleta ocorrendo em locais e períodos de tempos distintos. Além das regras obtidas, a técnica permite ao analista identificar problemas existentes de forma rápida e visual, facilitando o processo de análise. honeypot dionaea mineração de dados IDS árvores de decisão honeypot dionaea data mining IDS decision trees CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA

Search results