Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A detecção de anomalias em vídeos de vigilância é um tema de pesquisa recorrente em visão computacional. Os métodos de aprendizagem profunda têm alcançado o estado da arte para o reconhecimento de padrões em imagens e o Autocodificador Convolucional (ACC) é uma das abordagens mais utilizadas por sua capacidade em capturar as estruturas 2D dos objetos. Neste trabalho, a detecção de anomalias se refere ao problema de encontrar padrões em vídeos que não pertencem a um conceito normal esperado. Com o objetivo de classificar anomalias adequadamente, foram verificadas formas de aprender representações relevantes para essa tarefa. Por esse motivo, estudos tanto da capacidade do modelo em aprender características automaticamente quanto do efeito da fusão de características extraídas manualmente foram realizados. Para problemas de detecção de anomalias do mundo real, a representação da classe normal é uma questão importante, sendo que um ou mais agrupamentos podem descrever diferentes aspectos de normalidade. Para fins de classificação, esses agrupamentos devem ser tão compactos (densos) quanto possível. Esta tese propõe o uso do ACC como uma abordagem orientada a dados aplicada ao contexto de detecção de anomalias em vídeos. Foram propostos métodos para o aprendizado de características espaço-temporais, bem como foi introduzida uma abordagem híbrida chamada Autocodificador Convolucional com Incorporação Compacta (ACC-IC), cujo objetivo é melhorar a compactação dos agrupamentos normais. Além disso, foi proposto um novo critério de parada baseado na sensibilidade e sua adequação para problemas de detecção de anomalias foi verificada. Todos os métodos propostos foram avaliados em conjuntos de dados disponíveis publicamente e comparados com abordagens estado da arte. Além do mais, foram introduzidos dois novos conjuntos de dados projetados para detecção de anomalias em vídeos de vigilância em rodovias. O ACC se mostrou promissor na detecção de anomalias em vídeos. Resultados sugerem que o ACC pode aprender características espaço-temporais automaticamente e a agregação de características extraídas manualmente parece ser valiosa para alguns conjuntos de dados. A compactação introduzida pelo ACC-IC melhorou o desempenho de classificação para a maioria dos casos e o critério de parada baseado na sensibilidade é uma nova abordagem que parece ser uma alternativa interessante. Os vídeos foram analisados qualitativamente de maneira visual, indicando que as características aprendidas com os dois métodos (ACC e ACC-IC) estão intimamente correlacionadas com os eventos anormais que ocorrem em seus quadros. De fato, ainda há muito a ser feito para uma definição mais geral e formal de normalidade, de modo que se possa ajudar pesquisadores a desenvolver métodos computacionais eficientes para a interpretação dos vídeos. / The anomaly detection in automated video surveillance is a recurrent topic in recent computer vision research. Deep Learning (DL) methods have achieved the state-of-the-art performance for pattern recognition in images and the Convolutional Autoencoder (CAE) is one of the most frequently used approach, which is capable of capturing the 2D structure of objects. In this work, anomaly detection refers to the problem of finding patterns in images and videos that do not belong to the expected normal concept. Aiming at classifying anomalies adequately, methods for learning relevant representations were verified. For this reason, both the capability of the model for learning automatically features and the effect of fusing hand-crafted features together with raw data were studied. Indeed, for real-world problems, the representation of the normal class is an important issue for detecting anomalies, in which one or more clusters can describe different aspects of normality. For classification purposes, these clusters must be as compact (dense) as possible. This thesis proposes the use of CAE as a data-driven approach in the context of anomaly detection problems. Methods for feature learning using as input both hand-crafted features and raw data were proposed, and how they affect the classification performance was investigated. This work also introduces a hybrid approach using DL and one-class support vector machine methods, named Convolutional Autoencoder with Compact Embedding (CAE-CE), for enhancing the compactness of normal clusters. Besides, a novel sensitivity-based stop criterion was proposed, and its suitability for anomaly detection problems was assessed. The proposed methods were evaluated using publicly available datasets and compared with the state-of-the-art approaches. Two novel benchmarks, designed for video anomaly detection in highways were introduced. CAE was shown to be promising as a data-driven approach for detecting anomalies in videos. Results suggest that the CAE can learn spatio-temporal features automatically, and the aggregation of hand-crafted features seems to be valuable for some datasets. Also, overall results suggest that the enhanced compactness introduced by the CAE-CE improved the classification performance for most cases, and the stop criterion based on the sensitivity is a novel approach that seems to be an interesting alternative. Videos were qualitatively analyzed at the visual level, indicating that features learned using both methods (CAE and CAE-CE) are closely correlated to the anomalous events occurring in the frames. In fact, there is much yet to be done towards a more general and formal definition of normality/abnormality, so as to support researchers to devise efficient computational methods to mimetize the semantic interpretation of visual scenes by humans.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.utfpr.edu.br:1/3172 |
Date | 05 March 2018 |
Creators | Ribeiro, Manassés |
Contributors | Lopes, Heitor Silvério, Lazzaretti, André Eugênio, Lopes, Heitor Silvério, Comunello, Eros, Thomaz, Carlos Eduardo, Oliveira, Luiz Eduardo Soares de, Neto, Hugo Vieira |
Publisher | Universidade Tecnológica Federal do Paraná, Curitiba, Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial, UTFPR, Brasil |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Repositório Institucional da UTFPR, instname:Universidade Tecnológica Federal do Paraná, instacron:UTFPR |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0029 seconds