En los últimos años el campo de la Visión Artificial ha experimentado un crecimiento
acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La
cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado
y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en
la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que
parecían imposibles de abordar pocos años atrás.
En particular, las Redes Neuronales Convolucionales se han convertido en el modelo
más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la
década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas
de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo,
algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido
su estructura geométrica estática en las últimas décadas.
El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura
tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones
para superar las mismas. En esta línea, se presenta una generalización de la definición de
los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva
definición de la Convolución Dilatada para permitir comportamientos dinámicos durante
el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las
nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación
Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la
dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La
segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular
transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una
red convolucional, una de sus limitaciones más conocidas.
Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las
propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas
y configuraciones para redes conocidas en la literatura, mostrando resultados favorables
con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular,
por lo que pueden ser incluidas en arquitecturas arbitrarias. / In the last years, the field of Computer Vision has seen incredible success through
the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled
data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to
approach a few years before.
In particular, these networks have become the most popular models within this field
of Computer Sciences. Throughout the last decade, the state-of-the-art research in the
different Computer Vision problems had almost exclusively included this type of model.
However, the structure of some components of Convolutional Networks has remained
almost unaffected. This is the case with convolutional filters, which have kept their original
geometric structure in the last decades.
The overall goal of this thesis is to explore the limitations inherent to the traditional
structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is
presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed,
which enables dynamic behaviors in the dilation of the filters during the training process.
Based on these new definitions, two new operations are presented: the Adaptive Dilation
Convolution and the Random Dilation Convolution. The first one introduces the capacity
for Convolutional Networks to optimize the dilation of the filters according to the input
data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale
transformations in the data, aiming to increase the scale invariance of these networks,
one of their known limitations.
Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics.
Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed
operations. Moreover, their design is modular, enabling them to be included in arbitrary
architectures.
Identifer | oai:union.ndltd.org:uns.edu.ar/oai:repositorio.bc.uns.edu.ar:123456789/6402 |
Date | 10 May 2021 |
Creators | Larregui, Juan Ignacio |
Contributors | Castro, Silvia |
Publisher | Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación |
Source Sets | Universidad Nacional del Sur |
Language | Spanish |
Detected Language | Spanish |
Type | Electronic Thesis or Dissertation, Text |
Format | application/pdf |
Rights | 2 |
Page generated in 0.003 seconds