Return to search

Detecção de anomalias por Floresta caminhos ótimos /

Orientador: João Paulo Papa / Coorientador: Kelton Augusto Pontara da Costa / Banca: Alexandre Luís Magalhães Levada / Banca: Antonio Carlos Sementille / Resumo: O problema de detecção de anomalias vem sendo estudado há vários anos, dado que esta área é de grande interesse por parte de indústrias e também da comunidade científica. Basicamente, a detecção de anomalias difere da tarefa de reconhecimento de padrões convencional pelo fato de apenas amostras não anômalas (normais) estarem disponíveis para o treinamento da técnica de aprendizado de máquina. Assim, quando uma nova amostra é classificada, o sistema deve reconhecer a mesma como pertencente ou não ao modelo de dados "normais" que o mesmo aprendeu. Dentre as várias técnicas disponíveis, uma das mais antigas e populares é a que faz uso de distribuições Gaussianas multivariadas, as quais modelam o conjunto de dados normais como sendo distribuições Gaussianas e, qualquer amostra que não pertençaa a essas distribuições, é considerada anômala. Entretanto, um grande problema dessa abordagem está relacionado à etapa de estimação dos parãmetros dessas distribuições Gaussianas, a qual é realizada de maneira não supervisionada. Na presente dissertação, objetivamos estudar o comportamento do classificador Floresta de Caminhos Ótimos (Optimum-Path Forest - OPF) para (i) estimação dos parâmetros das distribuições Gaussianas, bem como compará-lo com várias outras técnicas comumente utilizadas para esta tarefa, e (ii) desenvolver uma nova técnica de detecção de anomalias centralizada nas funcionalidades do OPF. Os resultados experimentais em bases de dados sintéticas e reais demonstraram que o classificador OPF obteve melhores resultados em ambas as tarefas, dado que o mesmo é menos sensível à escolha dos parâmetros iniciais, o que é de grande valia em bases de dados cujas amostras "normais" estão representadas por múltiplos agrupamentos / Abstract: Anomaly detection has a massive literature, since detecting such anomalies are of great interest for big companies and also the scientific community. Basically, anomaly detection differs from regular pattern recognition task by the fact that only nom-anomalous (normal) samples are available for training the machine learning technique. Therefore, when a new a sample is classified, the system should recognize whether the sample belongs or not to the "normal" data model. Multivariate Gaussian Distributions is one of the oldest and most used techniques among others available, which models the set of normal samples as Gaussian Distributions, and classifies any sample outside those distributions as an anomaly. However, this approach presents a problem related to the parameter estimation, which is performed in a non-supervised classification. In this work, we propose to study the behavior of the Optimum Path Forest (OPF) classifier to (i) estimate the parameters of Gaussian distributions, as well as to compare it against with some of the most used techniques for this task, and (ii) to develop a new anomaly detection technique centered in the OPF functionalities. The experimental results applied in synthetic and real datasets show that OPF classifier achieved best results for both tasks, since its initial parameters are less sensible than the other techniques, which makes a great difference for datasets when "normal" samples are represented by many clusters / Mestre

Identiferoai:union.ndltd.org:UNESP/oai:www.athena.biblioteca.unesp.br:UEP01-000844236
Date January 2015
CreatorsPassos Júnior, Leandro Aparecido
ContributorsUniversidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências, Letras e Ciências Exatas.
PublisherSão José do Rio Preto,
Source SetsUniversidade Estadual Paulista
LanguagePortuguese
Detected LanguagePortuguese
Typetext
Format33 f. :
RelationSistema requerido: Adobe Acrobat Reader

Page generated in 0.002 seconds