Spelling suggestions: "subject:"detecção dde outliers"" "subject:"detecção dee outliers""
11 |
Avaliação e seleção de modelos em detecção não supervisionada de outliers / On the internal evaluation of unsupervised outlier detectionHenrique Oliveira Marques 23 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas. O presente trabalho enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura, porém cada um deles utiliza uma intuição própria do que deve ser considerado um outlier ou não, que é naturalmente um conceito subjetivo. Isso dificulta sensivelmente a escolha de um algoritmo em particular e também a escolha de uma configuração adequada para o algoritmo escolhido em uma dada aplicação prática. Isso também torna altamente complexo avaliar a qualidade da solução obtida por um algoritmo/configuração em particular adotados pelo analista, especialmente em função da problemática de se definir uma medida de qualidade que não seja vinculada ao próprio critério utilizado pelo algoritmo. Tais questões estão inter-relacionadas e se referem respectivamente aos problemas de seleção de modelos e avaliação (ou validação) de resultados em aprendizado de máquina não supervisionado. Neste trabalho foi desenvolvido um índice pioneiro para avaliação não supervisionada de detecção de outliers. O índice, chamado IREOS (Internal, Relative Evaluation of Outlier Solutions), avalia e compara diferentes soluções (top-n, i.e., rotulações binárias) candidatas baseando-se apenas nas informações dos dados e nas próprias soluções a serem avaliadas. O índice também é ajustado estatisticamente para aleatoriedade e extensivamente avaliado em vários experimentos envolvendo diferentes coleções de bases de dados sintéticas e reais. / Outlier detection (or anomaly detection) plays an important role in the pattern discovery from data that can be considered exceptional in some sense. An important distinction is that between the supervised and unsupervised techniques. In this work we focus on unsupervised outlier detection techniques. There are dozens of algorithms of this category in literature, however, each of these algorithms uses its own intuition to judge what should be considered an outlier or not, which naturally is a subjective concept. This substantially complicates the selection of a particular algorithm and also the choice of an appropriate configuration of parameters for a given algorithm in a practical application. This also makes it highly complex to evaluate the quality of the solution obtained by an algorithm or configuration adopted by the analyst, especially in light of the problem of defining a measure of quality that is not hooked on the criterion used by the algorithm itself. These issues are interrelated and refer respectively to the problems of model selection and evaluation (or validation) of results in unsupervised learning. Here we developed a pioneer index for unsupervised evaluation of outlier detection results. The index, called IREOS (Internal, Relative Evaluation of Outlier Solutions), can evaluate and compare different candidate (top-n, i.e., binary labelings) solutions based only upon the data information and the solution to be evaluated. The index is also statistically adjusted for chance and extensively evaluated in several experiments involving different collections of synthetic and real data sets.
|
12 |
Confiabilidade de rede GPS de referência cadastral municipal - estudo de caso : rede do município de Vitória (ES) / Reliability of network GPS of municipal cadastral reference - study of case : network of the municipal district of Vitória (ES)Geraldo Passos Amorim 25 March 2004 (has links)
A proposta deste trabalho é estudar as teorias de análise de qualidade de rede GPS, baseando-se nas teorias de confiabilidade de rede propostas por Baarda, em 1968. As hipóteses estatísticas para detecção de "outliers" constituem a base desse estudo, pois são fundamentais para elaboração dos testes de detecção de "outliers", localização e eliminação de erros grosseiros e, também, para a análise da confiabilidade da rede. A confiabilidade, que traduz a controlabilidade da rede e depende do número de redundância, é estudada em dois aspectos: confiabilidade interna e confiabilidade externa. A rede de referência cadastral do município de Vitória ES, escolhida para o estudo de caso foi estabelecida por GPS, em 2001, tendo como concepção básica a implantação de 37 pares de vértices intervisíveis, privilegiando locais públicos e de livre acesso. Essa rede foi ajustada em 2001 pela Prefeitura Municipal de Vitória, e as coordenadas ajustadas dos vértices são usadas, deste então, para apoiar todos os levantamentos topográficos e cadastrais realizados no município. O ajustamento dessa rede, em 2001, constituiu-se de um ajustamento simples em que os testes estatísticos de detecção de "outliers", a localização e eliminação dos erros grosseiros não foram levados em conta. A parte prática desta pesquisa compreendeu a medição de 21 novos vetores (linhas bases) para formar uma rede de controle, conforme estabelece a NBR-14166, o ajustamento dessa rede de controle (15 vértices) e o ajustamento da rede principal (78 vértices), tendo por injunção a rede de controle previamente ajustada. A principal diferença ente o ajustamento de 2001, feito pela Prefeitura Municipal de Vitória, e ajustamento de 2004, feito para esta pesquisa, foi a consideração no novo ajustamento dos testes estatísticos baseados nas teorias de confiabilidade propostas por Baarda. A comparação entre os resultados dos dois ajustamentos da rede cadastral de Vitória não apontou diferenças significativas entre as coordenadas ajustadas / The proposal of this work is to study the theories of analysis of network quality GPS, basing on the theories of reliability network proposed by Baarda, in 1968. The statistical hypotheses for outlier's detection constitute the base of this study, because they are fundamental for elaboration of the tests of outlier's detection tests, location and elimination of observations with gross errors as well as for the analysis of the realiability of the network. The reliability, that translates the controllability of the network and it depends of the redundancy number, it was studied in two aspects: internal reliability and external reliability. The network of cadastral reference of the municipal district of Vitória (ES), chosen for the case study it established by GPS, in 2001. The basic conception of this network was the implantation of 37 pair of vertexes inter-visible, privileging public places (of free access), as sidewalks and central stonemasons. This network adjusted in 2001 by the Municipal City Hall of Vitória, and the adjusted coordinates of the vertexes used, of this then, to support all topographical and cadastral survey accomplished in the municipal district. The adjustment of this network, in 2001, constituted of a simple adjustment in that did not take into account the statistical tests of outlier's detection and location and elimination of observations with gross errors. The practical part of this research was constituted of the measurement of 21 new vectors (line bases) to form a control network, as it establishes NBR-14166, the adjustment of that control network (15 vertexes) and the adjustment of the main network (78 vertexes), tends previously for injunction the control network adjusted. To principal it differentiates being the adjustment of 2001, done by the Municipal City Hall of Vitória, and adjustment of 2004, done for this research; it was the consideration in the new adjustment of the based statistical tests, mainly, in the reliability theories proposed by Baarda. The results of the adjustment of 2001 and of 2004 compared, and it verified that, in the case of the cadastral network of Vitória, there was not significant difference among results found in the two adjustments
|
13 |
Estudo, avaliação e comparação de técnicas de detecção não supervisionada de outliers / Study, evaluation and comparison of unsupervised outlier detection techniquesCampos, Guilherme Oliveira 05 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Detectar tais padrões é relevante de maneira geral porque, em muitas aplicações de mineração de dados, tais padrões representam comportamentos extraordinários que merecem uma atenção especial. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas de detecção. O presente projeto enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura e novos algoritmos são propostos de tempos em tempos, porém cada um deles utiliza uma abordagem própria do que deve ser considerado um outlier ou não, que é um conceito subjetivo no contexto não supervisionado. Isso dificulta sensivelmente a escolha de um algoritmo em particular em uma dada aplicação prática. Embora seja de conhecimento comum que nenhum algoritmo de aprendizado de máquina pode ser superior a todos os demais em todos os cenários de aplicação, é uma questão relevante se o desempenho de certos algoritmos em geral tende a dominar o de determinados outros, ao menos em classes particulares de problemas. Neste projeto, propõe-se contribuir com o estudo, seleção e pré-processamento de bases de dados que sejam apropriadas para se juntarem a uma coleção de benchmarks para avaliação de algoritmos de detecção não supervisionada de outliers. Propõe-se ainda avaliar comparativamente o desempenho de métodos de detecção de outliers. Durante parte do meu trabalho de mestrado, tive a colaboração intelectual de Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle e, principalmente, Joerg Sander e Arthur Zimek. A contribuição deles foi essencial para as análises dos resultados e a forma compacta de apresentá-los. / The outlier detection area has an essential role in discovering patterns in data that can be considered as exceptional in some perspective. Detect such patterns is important in general because, in many data mining applications, such patterns represent extraordinary behaviors that deserve special attention. An important distinction occurs between supervised and unsupervised detection techniques. This project focuses on the unsupervised detection techniques. There are dozens of algorithms in this category in literature and new algorithms are proposed from time to time, but each of them uses its own approach of what should be considered an outlier or not, which is a subjective concept in the unsupervised context. This considerably complicates the choice of a particular algorithm in a given practical application. While it is common knowledge that no machine learning algorithm can be superior to all others in all application scenarios, it is a relevant question if the performance of certain algorithms in general tends to dominate certain other, at least in particular classes of problems. In this project, proposes to contribute to the databases study, selection and pre-processing that are appropriate to join a benchmark collection for evaluating unsupervised outlier detection algorithms. It is also proposed to evaluate comparatively the performance of outlier detection methods. During part of my master thesis, I had the intellectual collaboration of Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle and especially Joerg Sander and Arthur Zimek. Their contribution was essential for the analysis of the results and the compact way to present them.
|
14 |
Fast and Scalable Outlier Detection with Metric Access Methods / Detecção Rápida e Escalável de Casos de Exceção com Métodos de Acesso MétricoBispo Junior, Altamir Gomes 25 July 2019 (has links)
It is well-known that the existing theoretical models for outlier detection make assumptions that may not reflect the true nature of outliers in every real application. This dissertation describes an empirical study performed on unsupervised outlier detection using 8 algorithms from the state-of-the-art and 8 datasets that refer to a variety of real-world tasks of practical relevance, such as spotting cyberattacks, clinical pathologies and abnormalities occurring in nature. We present our lowdown on the results obtained, pointing out to the strengths and weaknesses of each technique from the application specialists point of view, which is a shift from the designer-based point of view that is commonly adopted. Many of the techniques had unfeasibly high runtime requirements or failed to spot what the specialists consider as outliers in their own data. To tackle this issue, we propose MetricABOD: a novel ABOD-based algorithm that makes the analysis up to thousands of times faster, still being in average 26% more accurate than the most accurate related work. This improvement is tantamount to practical outlier detection in many real-world applications for which the existing methods present unstable accuracy or unfeasible runtime requirements. Finally, we studied two collections of text data to show that our MetricABOD works also for adimensional, purely metric data. / É conhecido e notável que os modelos teóricos existentes empregados na detecção de outliers realizam assunções que podem não refletir a verdadeira natureza dos outliers em cada aplicação. Esta dissertação descreve um estudo empírico sobre detecção de outliers não-supervisionada usando 8 algoritmos do estado-da-arte e 8 conjuntos de dados que foram extraídos de uma variedade de tarefas do mundo real de relevância prática, tais como a detecção de ataques cibernéticos, patologias clínicas e anormalidades naturais. Apresentam-se considerações sobre os resultados obtidos, apontando os pontos positivos e negativos de cada técnica do ponto de vista do especialista da aplicação, o que representa uma mudança do embasamento rotineiro no ponto de vista do desenvolvedor da técnica. A maioria das técnicas estudadas apresentou requerimentos de tempo impraticáveis ou falhou em encontrar o que os especialistas consideram como outliers nos conjuntos de dados confeccionados por eles próprios. Para lidar-se com esta questão, foi desenvolvido o método MetricABOD: um novo algoritmo baseado no ABOD que torna a análise milhares de vezes mais veloz, sendo ainda em média 26% mais acurada do que o trabalho relacionado mais acurado. Esta melhoria equivale a tornar a busca por outliers uma tarefa factível em muitas aplicações do mundo real para as quais os métodos existentes apresentam resultados instáveis ou requerimentos de tempo impassíveis de realização. Finalmente, foram também estudadas duas coleções de dados adimensionais para mostrar que o novo MetricABOD funciona também para dados puramente métricos.
|
15 |
Estudo, avaliação e comparação de técnicas de detecção não supervisionada de outliers / Study, evaluation and comparison of unsupervised outlier detection techniquesGuilherme Oliveira Campos 05 March 2015 (has links)
A área de detecção de outliers (ou detecção de anomalias) possui um papel fundamental na descoberta de padrões em dados que podem ser considerados excepcionais sob alguma perspectiva. Detectar tais padrões é relevante de maneira geral porque, em muitas aplicações de mineração de dados, tais padrões representam comportamentos extraordinários que merecem uma atenção especial. Uma importante distinção se dá entre as técnicas supervisionadas e não supervisionadas de detecção. O presente projeto enfoca as técnicas de detecção não supervisionadas. Existem dezenas de algoritmos desta categoria na literatura e novos algoritmos são propostos de tempos em tempos, porém cada um deles utiliza uma abordagem própria do que deve ser considerado um outlier ou não, que é um conceito subjetivo no contexto não supervisionado. Isso dificulta sensivelmente a escolha de um algoritmo em particular em uma dada aplicação prática. Embora seja de conhecimento comum que nenhum algoritmo de aprendizado de máquina pode ser superior a todos os demais em todos os cenários de aplicação, é uma questão relevante se o desempenho de certos algoritmos em geral tende a dominar o de determinados outros, ao menos em classes particulares de problemas. Neste projeto, propõe-se contribuir com o estudo, seleção e pré-processamento de bases de dados que sejam apropriadas para se juntarem a uma coleção de benchmarks para avaliação de algoritmos de detecção não supervisionada de outliers. Propõe-se ainda avaliar comparativamente o desempenho de métodos de detecção de outliers. Durante parte do meu trabalho de mestrado, tive a colaboração intelectual de Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle e, principalmente, Joerg Sander e Arthur Zimek. A contribuição deles foi essencial para as análises dos resultados e a forma compacta de apresentá-los. / The outlier detection area has an essential role in discovering patterns in data that can be considered as exceptional in some perspective. Detect such patterns is important in general because, in many data mining applications, such patterns represent extraordinary behaviors that deserve special attention. An important distinction occurs between supervised and unsupervised detection techniques. This project focuses on the unsupervised detection techniques. There are dozens of algorithms in this category in literature and new algorithms are proposed from time to time, but each of them uses its own approach of what should be considered an outlier or not, which is a subjective concept in the unsupervised context. This considerably complicates the choice of a particular algorithm in a given practical application. While it is common knowledge that no machine learning algorithm can be superior to all others in all application scenarios, it is a relevant question if the performance of certain algorithms in general tends to dominate certain other, at least in particular classes of problems. In this project, proposes to contribute to the databases study, selection and pre-processing that are appropriate to join a benchmark collection for evaluating unsupervised outlier detection algorithms. It is also proposed to evaluate comparatively the performance of outlier detection methods. During part of my master thesis, I had the intellectual collaboration of Erich Schubert, Ira Assent, Barbora Micenková, Michael Houle and especially Joerg Sander and Arthur Zimek. Their contribution was essential for the analysis of the results and the compact way to present them.
|
16 |
Confiabilidade de rede GPS de referência cadastral municipal - estudo de caso : rede do município de Vitória (ES) / Reliability of network GPS of municipal cadastral reference - study of case : network of the municipal district of Vitória (ES)Amorim, Geraldo Passos 25 March 2004 (has links)
A proposta deste trabalho é estudar as teorias de análise de qualidade de rede GPS, baseando-se nas teorias de confiabilidade de rede propostas por Baarda, em 1968. As hipóteses estatísticas para detecção de "outliers" constituem a base desse estudo, pois são fundamentais para elaboração dos testes de detecção de "outliers", localização e eliminação de erros grosseiros e, também, para a análise da confiabilidade da rede. A confiabilidade, que traduz a controlabilidade da rede e depende do número de redundância, é estudada em dois aspectos: confiabilidade interna e confiabilidade externa. A rede de referência cadastral do município de Vitória ES, escolhida para o estudo de caso foi estabelecida por GPS, em 2001, tendo como concepção básica a implantação de 37 pares de vértices intervisíveis, privilegiando locais públicos e de livre acesso. Essa rede foi ajustada em 2001 pela Prefeitura Municipal de Vitória, e as coordenadas ajustadas dos vértices são usadas, deste então, para apoiar todos os levantamentos topográficos e cadastrais realizados no município. O ajustamento dessa rede, em 2001, constituiu-se de um ajustamento simples em que os testes estatísticos de detecção de "outliers", a localização e eliminação dos erros grosseiros não foram levados em conta. A parte prática desta pesquisa compreendeu a medição de 21 novos vetores (linhas bases) para formar uma rede de controle, conforme estabelece a NBR-14166, o ajustamento dessa rede de controle (15 vértices) e o ajustamento da rede principal (78 vértices), tendo por injunção a rede de controle previamente ajustada. A principal diferença ente o ajustamento de 2001, feito pela Prefeitura Municipal de Vitória, e ajustamento de 2004, feito para esta pesquisa, foi a consideração no novo ajustamento dos testes estatísticos baseados nas teorias de confiabilidade propostas por Baarda. A comparação entre os resultados dos dois ajustamentos da rede cadastral de Vitória não apontou diferenças significativas entre as coordenadas ajustadas / The proposal of this work is to study the theories of analysis of network quality GPS, basing on the theories of reliability network proposed by Baarda, in 1968. The statistical hypotheses for outlier's detection constitute the base of this study, because they are fundamental for elaboration of the tests of outlier's detection tests, location and elimination of observations with gross errors as well as for the analysis of the realiability of the network. The reliability, that translates the controllability of the network and it depends of the redundancy number, it was studied in two aspects: internal reliability and external reliability. The network of cadastral reference of the municipal district of Vitória (ES), chosen for the case study it established by GPS, in 2001. The basic conception of this network was the implantation of 37 pair of vertexes inter-visible, privileging public places (of free access), as sidewalks and central stonemasons. This network adjusted in 2001 by the Municipal City Hall of Vitória, and the adjusted coordinates of the vertexes used, of this then, to support all topographical and cadastral survey accomplished in the municipal district. The adjustment of this network, in 2001, constituted of a simple adjustment in that did not take into account the statistical tests of outlier's detection and location and elimination of observations with gross errors. The practical part of this research was constituted of the measurement of 21 new vectors (line bases) to form a control network, as it establishes NBR-14166, the adjustment of that control network (15 vertexes) and the adjustment of the main network (78 vertexes), tends previously for injunction the control network adjusted. To principal it differentiates being the adjustment of 2001, done by the Municipal City Hall of Vitória, and adjustment of 2004, done for this research; it was the consideration in the new adjustment of the based statistical tests, mainly, in the reliability theories proposed by Baarda. The results of the adjustment of 2001 and of 2004 compared, and it verified that, in the case of the cadastral network of Vitória, there was not significant difference among results found in the two adjustments
|
Page generated in 0.0843 seconds