Return to search

Análisis de archivos Logs semi-estructurados de ambientes Web usando tecnologías Big-Data

Magíster en Tecnologías de la Información / Actualmente el volumen de datos que las empresas generan es mucho más grande del
que realmente pueden procesar, por ende existe un gran universo de información que se
pierde implícito en estos datos. Este proyecto de tesis logró implementar tecnologías Big
Data capaces de extraer información de estos grandes volúmenes de datos existentes en
la organización y que no eran utilizados, de tal forma de transformarlos en valor para el
negocio.
La empresa elegida para este proyecto se dedicada al pago de cotizaciones previsionales
de forma electrónica por internet. Su función es ser el medio por el cual se recaudan las
cotizaciones de los trabajadores del país. Cada una de estas cotizaciones es informada,
rendida y publicada a las instituciones previsionales correspondientes (Mutuales, Cajas de
Compensación, AFPs, etc.). Para realizar su función, la organización ha implementado a
lo largo de sus 15 años una gran infraestructura de alto rendimiento orientada a servicios
web. Actualmente esta arquitectura de servicios genera una gran cantidad de archivos
logs que registran los sucesos de las distintas aplicaciones y portales web. Los archivos
logs tienen la característica de poseer un gran tamaño y a la vez no tener una estructura
rigurosamente definida. Esto ha causado que la organización no realice un eficiente
procesamiento de estos datos, ya que las actuales tecnologías de bases de datos
relaciones que posee no lo permiten. Por consiguiente, en este proyecto de tesis se buscó
diseñar, desarrollar, implementar y validar métodos que sean capaces de procesar
eficientemente estos archivos de logs con el objetivo de responder preguntas de negocio
que entreguen valor a la compañía.
La tecnología Big Data utilizada fue Cloudera, la que se encuentra en el marco que la
organización exige, como por ejemplo: Que tenga soporte en el país, que esté dentro de
presupuesto del año, etc. De igual forma, Cloudera es líder en el mercado de soluciones
Big Data de código abierto, lo cual entrega seguridad y confianza de estar trabajando
sobre una herramienta de calidad. Los métodos desarrollados dentro de esta tecnología
se basan en el framework de procesamiento MapReduce sobre un sistema de archivos
distribuido HDFS.
Este proyecto de tesis probó que los métodos implementados tienen la capacidad de
escalar horizontalmente a medida que se le agregan nodos de procesamiento a la
arquitectura, de forma que la organización tenga la seguridad que en el futuro, cuando los
archivos de logs tengan un mayor volumen o una mayor velocidad de generación, la
arquitectura seguirá entregando el mismo o mejor rendimiento de procesamiento, todo
dependerá del número de nodos que se decidan incorporar.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/140417
Date January 2016
CreatorsVillalobos Luengo, César Alexis
ContributorsHogan, Aidan, Gutiérrez Gallardo, Claudio, Pérez Rojas, Jorge, Reyes Covarrubias, Cecilia
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0119 seconds