Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Eléctrica / Memoria para optar al título de Ingeniero Civil Eléctrico / Durante los últimos años, las redes neuronales profundas han mostrado excelentes resultados en múltiples tareas. Sin embargo, estos modelos son percibidos como "cajas negras", cuyos procesos internos no son comprendidos del todo. Dados los prometedores resultados alcanzados, estos modelos se proyectan como herramientas de gran utilidad en astronomía y otras áreas. Sin embargo, si se quieren utilizar para la toma automática de decisiones es necesario comprender mejor los principios fundamentales que rigen el comportamiento de las redes.
En esta tesis se propone utilizar la teoría de la información para analizar el flujo de información en redes neuronales. Primero se analizan teóricamente algunas operaciones utilizadas en las redes neuronales, explicando los mecanismos mediante los cuales se destruye la información. Segundo, se monitorean las representaciones internas de los datos en la red durante el entrenamiento usando dos medidas de información. La primera medida utilizada es la "suficiencia", que corresponde a la información mutua entre la representación y las etiquetas, mientras que la segunda es una nueva medida propuesta llamada "robustez", que corresponde a la información mutua entre las etiquetas y la representación contaminada con ruido aditivo gaussiano. Tercero, se propone un algoritmo para aprender representaciones basado en la optimización de la robustez. Cuarto, se diseña un algoritmo capaz de entrenar redes neuronales completas, tanto redes MLP como redes neuronales convolucionales.
Por otra parte se introduce Deep-HiTS, una red convolucional para detectar eventos astronómicos transitorios, la cual se entrena con datos semi-sintéticos construidos desde observaciones del High cadence Transient Survey (HiTS). Al comparar los resultados de Deep-HiTS con un modelo Random Forests y características diseñadas a mano, se observa que la red obtiene un error de clasificación de 0.53 % versus un 1.04 % del Random Forests. Usando las herramientas propuestas, se monitorea el flujo de información en las representaciones internas de Deep-HiTS. Además se entrena una red Deep-HiTS con arquitectura simplificada con el método propuesto basado en teoría de la información.
Los experimentos verifican el cumplimiento de la desigualdad de procesamiento de información y el aumento de la suficiencia durante el aprendizaje. Los valores de suficiencia medidos sobre versiones reducidas de las representaciones reflejan la construcción jerárquica de características en las redes profundas. En el caso de Deep-HiTS, las propiedades medidas permiten cuantificar la dificultad del problema y muestran cómo fluye la información a través de la red. Los experimentos de aprendizaje muestran que los algoritmos propuestos permiten entrenar modelos efectivamente, aunque con un desempeño subóptimo. Varias mejoras posibles para el algoritmo de entrenamiento propuesto se describen en trabajo futuro. / Programa de formación de capital humano avanzado de CONICYT, a través de la Beca de Magíster Nacional 2016 número 22162464
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/170542 |
Date | January 2019 |
Creators | Reyes Jainaga, Ignacio Alfredo |
Contributors | Estévez Valencia, Pablo, Cabrera Vives, Guillermo, Silva Sánchez, Jorge, Zegers Fernández, Pablo |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0023 seconds