Global ETD Search

141	Detecção de outliers usando regras de associação na descrição do padrão de comportamento. Roberto Sávio de Oliveira Júnior 23 October 2009 (has links) A mineração de dados se divide em algumas categorias, dentre elas a mineração de outliers. Outliers são registros que não seguem padrões esperados. Eles podem ser interpretados como ruídos ou falhas de medição, sendo assim descartados, mas também podem ser considerados casos especiais que trazem relatos úteis que podem ser usados para encontrar novas oportunidades de negócio, falhas ou indícios de fraudes. Em alguns setores, é importante que a detecção de outliers ocorra com a maior antecedência possível, de modo que ações possam ser tomadas o quanto antes. Nesta dissertação, propomos uma abordagem denominada Comprass para mineração de outliers. Utilizamos a técnica de mineração denominada Regras de Associação, mais especificamente o algoritmo Apriori, para definirmos os padrões comportamentais a serem utilizados em nossa abordagem. A abordagem Comprass permite atribuir pesos a variáveis e o valor máximo aceitável para discordância do padrão. Em nosso estudo, os pesos e o valor máximo aceitável é atribuído manualmente pelo especialista da área. O uso da abordagem Comprass permite que a mineração de outliers possa ser feita em tempo real, ou seja, à medida que os dados são coletados pelos sistemas de aquisição de dados. A abordagem Comprass utiliza as regras de associação geradas para comparar o novo registro mensurando, por meio dos pesos atribuídos às variáveis, qual a variação do novo registro em relação ao padrão estabelecido pelas regras. Na abordagem Comprass, uma possível mudança no padrão analisado não é refletida de forma incremental e precisa de nova geração das regras considerando os novos registros. A abordagem Comprass foi testada em bases de dados reais e sintéticos dos setores de telefonia e meteorologia. Mineração de dados Algoritmos Reconhecimento de padrões Registro de padrões Operação em tempo real Matemática computacional Matemática Computação
142	Método para identificar intrusão por anomalia em host com o sistema operacional windows usando o processo de mineração de dados. Rogério Winter 18 October 2010 (has links) São inegáveis os benefícios proporcionados pelo uso dos computadores e suas redes conectadas a Internet. Com o crescimento significativo dos sistemas computacionais em rede, principalmente os conectados à Internet, é possível constatar pelo portal do Centro de Estudos, Resposta e Tratamento de Incidentes de Segurança no Brasil - CERT. BR, um crescimento exponencial nos incidentes de segurança nos últimos 10 anos. Com o crescimento dos incidentes de segurança têm-se observado que a maioria deles ocorre no sistema operacional Windows, líder mundial em desktop e o segundo na venda de servidores para a Internet. Desta forma, significativas pesquisas na área de detecção de intrusão em host estão sendo realizadas em centros de pesquisa. A proposta desta dissertação é apresentar um Método para a Realização de Medidas em computador que permita distinguir o comportamento de um computador em atividade normal de outro com problemas com infecção ou intrusão. O método, derivado da análise dinâmica de malware, foi concebido em fases representativas do funcionamento de um computador: fase inicial, fase de instalação, fase de conexão de rede, fase de operação e, por fim, fase de infecção. Assim, todas as fases tiveram o seu comportamento medido e os logs foram tratados pelo processo de mineração de dados. O método é empregado, com sucesso, conjuntamente com os algoritmos ADTree e Naive Bayes na fase de experimentação, os quais se mostraram eficientes na detecção de intrusão em host com o sistema operacional Windows. Detecção de intrusão (computadores) Mineração de dados Algoritmos Redes de comunicação Computação
143	Extração do conhecimento contido em ocorrências no transporte coletivo urbano usando árvores de decisão Alexandre Bittencourt Faria 08 December 2011 (has links) O presente trabalho tem como objetivo extrair conhecimento de um banco de dados que contém as mensagens de alerta geradas pelos computadores embarcados instalados nos veículos de uma grande frota usada no transporte coletivo urbano na cidade de São Paulo. Para tal foi aplicada a técnica de aprendizado de árvores de decisão. Nos experimentos foram usados os algoritmos CART, ID3 e C4.5 implementados nos softwares MATLAB R2007b, Sipina Research e WEKA 3.7.1. A base de dados usada contém cerca de 25 mil mensagens de alerta coletadas durante cerca de 2 meses de operação dos veículos que compõe o sistema de transporte público urbano. Os seguintes 4 atributos de entrada foram investigados: Área (Leste, Noroeste, Norte), Sentido (Centro-Bairro, Bairro-Centro), Período (Madrugada, Manhã, Tarde e Noite) e Dia Útil (Sim ou Não). Como atributo de saída foi usado as variavel ALERTA cujos os possíveis valores são: Catraca, Elétrica, Mecânica, Pneu, Terceiro e Veículo). As diferentes implementações de algoritmos investigadas geraram árvores de decisão similares contendo de 4 a 28 regras do tipo "SE-ENTÃO" com acurácia de 80% e precisão de 40% aproximadamente. Inteligência artificial Árvores de decisão Sistemas de computadores embarcados Mineração de dados Transporte urbano Computação
144	Métodos de mineração de dados (data mining) como suporte à tomada de decisão. Itamar Costa Carvalho 00 December 2002 (has links) Neste trabalho efetua-se uma análise dos algoritmos de Data Mining através de estudos de caso. Esses estudos de caso envolvem desde a simples utilização das informações dos algoritmos, como suporte à tomada de decisão na construção de modelos de análise de desempenho, até a construção de modelos com os próprios algoritmos. Os estudos de caso são dedicados a uma análise de aplicação e desempenho de algoritmos específicos. No primeiro estudo, que se refere à Previsão de Solvência de Empresas, são aplicados os algoritmos de Árvore de Classificação. No problema de Procedimentos em Saúde Pública são utilizados os algoritmos de Regras de Associação e as técnicas de Visualização de Dados. No estudo de caso de Predição do Comportamento de Ações aplicam-se os algoritmos de Árvore de Regressão. No estudo de caso principal são utilizados todos os algoritmos e técnicas apresentadas neste trabalho. Trata-se da construção de um modelo de eficiência através da metodologia DEA - Data Envelopment Analysis. Os algoritmos de Data Mining são utilizados como suporte nas diversas escolhas ocorridas durante a construção dos modelos.Em todos os problemas analisados, os resultados obtidos mostram a utilidade dos algoritmos de Data Mining. Mineração de dados Análise envoltória de dados Tomada de decisões Algoritmos Programação linear Pesquisa operacional Administração Matemática
145	Análise de fatores envolvidos em acidentes e incidentes aeronáuticos, com ênfase em contaminantes de cabine Emilio Melhem Bumachar Neto 30 March 2011 (has links) Este trabalho apresenta uma análise estatística efetuada sobre dados a respeito de acidentes e incidentes (i.e. eventos) aeronáuticos, conforme registrados pelo NTSB, com ênfase no envolvimento dos contaminantes mais comuns ao ar da cabine. Algoritmo de Particionamento Recursivo (RPA), ou Indução de Árvore de Decisão, foi escolhido como o método de mineração de dados para a análise. Após uma visão geral sobre o funcionamento do sistema de condicionamento do ambiente de cabine, são apresentados os contaminantes mais comuns, listando seus efeitos sobre a saúde e concentrações aceitáveis. O envolvimento dos contaminantes nos acidentes e incidentes foi inferindo a partir das narrativas e conclusões associados a esses eventos. O monóxido de carbono esteve envolvido em um número significativo de eventos. Numa árvore feita a partir da ocorrência de fatalidade, seguindo o algoritmo de particionamento de forma a minimizar a impureza, a ocorrência de monóxido de carbono aparece apenas no sexto nível da lista (após cinco partições), indicando relevância muito baixa. Numa árvore feita a partir da ocorrência de monóxido de carbono, ao contrário, a ocorrência de fatalidade é o fator que desencadeia o primeiro particionamento, indicando relevância muito alta. O efeito drástico que a presença de monóxido de carbono tem no risco de morte num acidente confirma que os parâmetros estão relacionados. Concluiu-se que apesar de a ocorrência de monóxido de carbono aumentar drasticamente o risco de morte, sua influência na taxa de fatalidades como um todo é diminuta devido à raridade dos casos. Preponderam fatores de risco de exposição mais frequente. Os fatores que mais influenciam o risco de fatalidade, aparecendo próximos à raiz da árvore, são a gravidade do dano à aeronave, a ocorrência ou não de incêndio em solo, a condição de visibilidade, e o assento único na aeronave. Mineração de dados Prevenção de acidentes Contaminantes Riscos aeronáuticos Análise estatística Acidentes de aeronaves Matemática aplicada Engenharia aeronáutica
146	Aplicação do método CART na classificação de sinais radar Jorge Luiz Lessa Júnior 17 December 2014 (has links) Operações militares são invariavelmente conduzidas com informações incompletas, cabendo à inteligência militar agir no sentido de reduzir tais lacunas. O reconhecimento eletrônico é uma das atividades de inteligência tipicamente militar, especializada na coleta de informações por meio do monitoramento sistemático do espectro eletromagnético externo, originado dos vários tipos de sistemas de comunicação e detecção operados principalmente próximo às regiões de fronteira. Tais informações, após serem tratadas por analistas especializados, permitem inferir as características dos emissores, suas potencialidades e limitações. Uma vez que o número de analistas é limitado e que a capacidade de analisar e compreender grandes conjuntos de dados dificilmente acompanha o aumento da capacidade de coleta e armazenagem, fica justificado o uso de ferramentas de apoio à tarefa de classificação, como uma forma de redução da carga de trabalho e de incremento da confiabilidade das informações geradas. Nesse contexto, o objetivo da pesquisa é investigar a aplicabilidade do método CART na obtenção de modelos de classificação interpretáveis, ao invés de modelos analíticos, a partir de uma base de dados simulada, com a qual foi possível contabilizar as classificações certas e erradas dos modelos gerados. Os modelos de treinamento foram gerados inicialmente com a base completa e aos poucos fez-se o desbalanceamento das amostras por meio do empobrecimento proposital dos dados de treino. A precisão do modelo se manteve praticalmente inalterada, com erros de classificação inferiores a 2% no pior caso, mostrando a robustez dos modelos gerados a partir do CART. A partir dos três modelos foram estabelecidos os padrões determinantes para cada classe de radar constante da base simulada, com um bom índice de acerto. Sistemas de informação Árvores de decisão Mineração de dados Operações militares Tecnologia militar Engenharia militar
147	"Generalização de regras de associação" / Generalization of association rules Domingues, Marcos Aurélio 27 April 2004 (has links) Mineração de Dados é um processo de natureza iterativa e interativa responsável por identificar padrões em grandes conjuntos de dados, objetivando extrair conhecimento válido, útil e inovador a partir desses. Em Mineração de Dados, Regras de Associação é uma técnica que consiste na identificação de padrões intrínsecos ao conjunto de dados. Essa técnica tem despertado grande interesse nos pesquisadores de Mineração de Dados e nas organizações, entretanto, a mesma possui o inconveniente de gerar grande volume de conhecimento no formato de regras, dificultando a análise e interpretação dos resultados pelo usuário. Nesse contexto, este trabalho tem como objetivo principal generalizar e eliminar Regras de Associação não interessantes e/ou redundantes, facilitando, dessa maneira, a análise das regras obtidas com relação à compreensibilidade e tamanho do conjunto de regras. A generalização das Regras de Associação é realizada com o uso de taxonomias. Entre os principais resultados deste trabalho destacam-se a proposta e a implementação do algoritmo GART e do módulo computacional RulEE-GAR. O algoritmo GART (Generalization of Association Rules using Taxonomies - Generalização de Regras de Associação usando Taxonomias) utiliza taxonomias para generalizar Regras de Associação. Já o módulo RulEE-GAR, além de facilitar o uso do algoritmo GART durante a identificação de taxonomias e generalização de regras, provê funcionalidades para analisar as Regras de Associação generalizadas. Os experimentos realizados, neste trabalho, mostraram que o uso de taxonomias na generalização de Regras de Associação pode reduzir o volume de um conjunto de regras. / Data Mining refers to the process of finding patterns in large data sets. The Association Rules in Data Mining try to identify intrinsic behaviors of the data set. This has motivated researchers of Data Mining and organizations. However, the Association Rules have the inconvenient of generating a great amount of knowledge in the form of rules. This makes the analysis and interpretation of the results difficult for the user. Taking this into account, the main objective of this research is the generalization and elimination of non-interesting and/or redundant Association Rules. This facilite the analysis of the rules with respect to the compreensibility and the size of the rule set. The generalization is realized using taxonomies. The main results of this research are the proposal and the implementation of the algorithm GART and of the computational module RulEE-GAR. The algorithm GART (Generalization of Association Rules using Taxonomies) uses taxonomies to generalize Association Rules. The module RulEE-GAR facilitates the use of the algorithm GART in the identification of taxonomies and generalization of rules and provide functionalities to the analysis of the generalized Association Rules. The results of experiments showed that the employment of taxonomies in the generalization of Association Rules can reduce the size of a rule set. Association Rules Data Mining Mineração de Dados Pós Processamento Post Processing Regras de Associação Taxonomias Taxonomies
148	"Pré-processamento de dados em aprendizado de máquina supervisionado" / "Data pre-processing for supervised machine learning" Batista, Gustavo Enrique de Almeida Prado Alves 16 May 2003 (has links) A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste trabalho é proposta a utilização do algoritmo k-vizinhos mais próximos como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algoritmo k-vizinhos mais próximos pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a imputação pela média ou moda, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com classes desbalanceadas é de crucial importância, uma vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional Discover Learning Environmnet - DLE - o qual é um em framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto Discover, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD. / Data quality is a major concern in Machine Learning, which is frequently used to extract knowledge during the Data Mining phase of the relatively new research area called Knowledge Discovery from Databases - KDD. As most Machine Learning algorithms induce knowledge strictly from data, the quality of the knowledge extracted is largely determined by the quality of the underlying data. Several aspects may influence the performance of a learning system due to data quality. In real world databases, two of these aspects are related to (i) the presence of missing data, which is handled in a rather naive way by many Machine Learning algorithms; (ii) the difference between the number of examples, or database records, that belong to different classes since, when this difference is large, learning systems may have difficulties to learn the concept related to the minority class. The problem of missing data is of great practical and theoretical interest. In many applications it is important to know how to react if the available information is incomplete or if sources of information become unavailable. Missing data treatment should be carefully thought, otherwise bias might be introduced into the knowledge induced. In this work, we propose the use of the k-nearest neighbour algorithm as an imputation method. Imputation is a term that denotes a procedure that replaces the missing values in a data set by some plausible values. Our analysis indicates that missing data imputation based on the k-nearest neighbour algorithm can outperform the internal missing data treatment strategies used by C4.5 and CN2, and the mean or mode imputation, a widely used method for treating missing values. The problem of learning from imbalanced data sets is of crucial importance since it is encountered in a large number of domains. Imbalanced class distributions might cause a significant bottleneck in the performance obtained by standard learning methods, which assume a balanced distribution of the classes. One solution to the problem of learning with skewed class distributions is to artificially balance the data set. In this work we propose the use of the one-sided selection method, which performs a careful removal of cases belonging to the majority class while leaving untouched all cases from the minority class. Such careful removal consists of detecting and removing cases considered less reliable, using some heuristics. An experimental application confirmed the efficiency of the proposed method. As there is not a mathematical analysis able to predict whether the performance of a learning system is better than others, experimentation plays an important role for evaluating learning systems. In this work we propose and implement a computational environment, the Discover Learning Environment - DLE - which is a framework to develop and evaluate new data pre-processing methods. The DLE is integrated into the Discover project, a major research project under development in our laboratory for planning and execution of experiments related to the use of learning systems during the Data Mining phase of the KDD process. aprendizado de máquina data mining data pre-processing machine learning mineração de dados pré-processamento de dados
149	Construção semi-automática de taxonomias para generalização de regras de associação / Semi-automatic construction of taxonomies for association rules generation Martins, Camila Delefrate 14 July 2006 (has links) Para o sucesso do processo de mineração de dados é importante que o conhecimento extraí?do seja compreensível e interessante para que o usuário final possa utilizá-lo em um sistema inteligente ou em processos de tomada de decisão. Um grande problema, porém, é identificado quando a tarefa de mineração de dados denominada associação é utilizada: a geração de um grande volume de regras. Taxonomias podem ser utilizadas para facilitar a análise e interpretação das regras de associação, uma vez que as mesmas provêm uma visão de como os itens podem ser hierarquicamente classificados. Em função dessa hierarquia é possível obter regras mais gerais que representem um conjunto de itens. Dentro desse contexto, neste trabalho é apresentada uma metodologia para construção semi-automática de taxonomias, que inclui procedimentos automáticos e interativos para a realização dessa tarefa. Essa combinação possibilita a utilização do conhecimento do especialista e também o auxilia na identificação de grupos. Entre os principais resultados deste trabalho, pode-se destacar a proposta e implementação do algoritmo SACT (Semi-automatic Construction of Taxonomies - Construção Semi-automática de Taxonomias), que provê a utilização da metodologia proposta. Para viabilizar a utilização do algoritmo, foi desenvolvido o módulo computacional RulEESACT. Com o objetivo de viabilizar e analisar a qualidade da metodologia proposta e do módulo desenvolvido, foi realizado um estudo de caso no qual foram construída taxonomias para duas bases de dados utilizando o RulEE-SACT. Uma das taxonomias foi analisada e validada por uma especialista do domínio. Posteriormente, as taxonomias e as bases de transações foram fornecidas para dois algoritmos de generalização de regras de associação a fim de analisar a aplicação das taxonomias geradas / I n the data mining process it is important that the extracted knowledge is understandable and interesting to the final user, so it can be used to support in the decision making. However, the data mining task named association has one problem: it generates a big volume of rules. Taxonomies can be used to facilitate the analysis and interpretation of association rules, because they provide an hierarchical vision of the items. This hierarchy enables the obtainment of more general rules, which represent a set of items. In this context, a methodology to semi-automatically construct taxonomies is proposed in this work. This methodology includes automatic and interactives procedures in order to construct the taxonomies, using the specialist?s knowledge and also assisting in the identification of groups. One of the main results of this work is the proposal and implementation of the SACT (Semi-automatic Construction of Taxonomies) algorithm, which provides the use of the proposed methodology. In order to facilitate the use of this algorithm, a computational module named RulEE-SACT was developed. Aiming to analyze the viability and quality of the proposed methodology and the developed module, a case study was done. In this case study, taxonomies of two databases were constructed using the RulEE-SACT. One of them was analyzed and validated by a domain specialist. Then the taxonomies and the databases were supplied to two algorithms which generalize association rules, aiming to analyze the use of the generated taxonomies Association rules Data mining Knowledge post-processing Mineração de dados Pós-processamento do conhecimento Regras de associação Taxonomias Taxonomies
150	Diagnóstico de doenças mentais baseado em mineração de dados e redes complexas / Diagnosis of mental disorders based on data mining and complex networks Alves, Caroline Lourenço 23 January 2019 (has links) O uso de técnicas de mineração de dados tem produzido resultados importantes em diversas áreas, tais como bioinformática, atividades de transações bancárias, auditorias de computadores relacionados à segurança, tráfego de redes, análise de textos, imagens e avaliação da qualidade em processos de fabricação. Em medicina, métodos de mineração de dados têm se revelado muito eficazes na realização de diagnósticos automáticos, ajudando na tomada de decisões por equipes médicas. Além do uso de mineração de dados, dados médicos podem ser representados por redes complexas, de modo a incluir conexões entre seus elementos. Por exemplo, no caso do cérebro, regiões corticais podem representar vértices em um grafo e as conexões podem ser definidas através das atividades corticais. Com isso, pode-se comparar a estrutura do cérebro de sujeitos sadios com a de pacientes que apresentam doenças mentais de modo a definir métodos para diagnóstico e obter conhecimento sobre como a estrutura do cérebro está relacionada com alterações comportamentais e neurológicas. Nesse trabalho, estamos interessados em usar métodos de mineração de dados e redes complexas para classificar pacientes portadores de quatro diferentes tipos de doenças mentais, isto é, esquizofrenia, autismo, déficit de atenção/desordem de hiperatividade e paralisia progressiva nuclear. / A data mining and knowledge discovery is in a field of research, with applications in different areas such as bioinformatics, customer transaction activity, security related computer audits, network traffic, text analysis and quality evaluation in manufacturing. In medicine, data mining methods have proven very effective in performing automatic diagnostics, helping in making decisions by medical teams. In addition to the use of data mining, medical data can be represented by complex networks in order to include connections between its elements. For example, in the case of the brain, cortical regions can represent vertices in a graph and the connections can be defined through cortical activities. Thus, we can compare the brain structure of healthy patients with those of patients with mental disorder in order to define methods for diagnosis and to obtain knowledge about how the structure of the brain is related to behavioral and neurological changes. Here, we are interested in using data mining methods and complex networks to classify patients with four different types of mental desorders, that is, schizophrenia, autism, attention deficit / hyperactivity disorder, and progressive supranuclear paralysis. Artificial intelligence Complex networks Data mining Doenças neurológicas Inteligência artificial Mineração de dados Neurological diseases Redes complexas

Search results