Global ETD Search

1	Desarrollo de un Sistema de Replicación y Distribución de Consultas de Bases de Datos Infobright Poillot Cartes, Ronald Elias January 2012 (has links) La Inteligencia de Negocios (BI) y la Minería de Datos (DM) son áreas que han tenido un importante crecimiento en los últimos diez años. Estas disciplinas ayudan en la toma de decisiones de las compañías, entregando valiosa información extraída desde los datos de la empresa mediante complejos procedimientos. Resulta indispensable para los proveedores de servicios en estas áreas el contar con los datos disponibles la mayor cantidad de tiempo posible, para no incurrir en quiebres importantes de su continuidad operacional. El objetivo de la presente memoria fue crear un sistema básico de alta disponibilidad que incluye replicación y distribución de consultas a Bases de Datos, el cual pretende disminuir los riesgos asociados al downtime de los servidores de datos de la empresa Penta Analytics. Esta compañía utiliza Infobright como motor de almacenamiento de datos, el cual está orientado a Bases de Datos de tipo analítica y que actualmente no cuenta con una solución de alta disponibilidad que abarque ambos temas. La solución fue diseñada en base a tres componentes principales: un sistema de replicación de datos, un sistema de distribución de consultas y una tabla de estados de replicación. Para la replicación se desarrolló una aplicación ad-hoc programada en lenguaje Java, mientras que la distribución de consultas fue creada en base a una aplicación llamada MySQL-Proxy, que fue adaptada para funcionar con un clúster de Bases de Datos analíticas. La tabla de replicación resguarda el estado de actualización de cada componente del sistema, estado que debe ser consistente ante cualquier escenario. Como resultado se obtuvo un sistema que mejora los tiempos de respaldo de datos y de respuestas a consultas a Bases de Datos. La solución para la distribución de consultas es escalable y paralelizable, mientras que el sistema de replicación escala sólo verticalmente y requiere modificación de código para agregar paralelismo y escalabilidad horizontal. Este desarrollo constituye una innovación como solución de alta disponibilidad para este tipo de Bases de Datos. En base a la presente memoria se muestra un conjunto de posibles mejoras y trabajos futuros, como por ejemplo mejorar los algoritmos de selección de servidor en la distribución de consultas u optimizar el transporte de datos entre servidores del sistema de replicación. Computación Minería de datos Bases de datos Replicación de datos MySQL-Proxy Infobright
2	Análisis y comparación entre el motor de bases de datos orientado a columnas Infobright y el framework de aplicaciones distribuidas Hadoop en escenarios de uso de bases de datos analíticas Silva Balocchi, Erika Fernanda January 2014 (has links) Ingeniera Civil en Computación / Business Intelligence es la habilidad para transformar datos en información, y la información en conocimiento, de forma que se pueda optimizar la toma de decisiones en los negocios. Debido al aumento exponencial en la cantidad de datos disponibles en los ultimos años y a la complejidad de estos, las herramientas tradicionales de bases de datos y business intelligence pueden no dar a basto, suponiendo numerosos riesgos para las empresas. El objetivo de la presente memoria fue analizar el uso del framework de aplicaciones distribuidas Hadoop en comparación a la solución actual de Penta Analytics, buscando hacer un mejor uso de la infraestructura y aumentando la disponibilidad de los datos a medida que el volumen de estos crece. Actualmente esta compañía utiliza un motor de bases de datos analíticas llamado Infobright, que permite la ejecución de consultas de manera eficiente dada su estructura columnar, pero a nivel de un único servidor, limitando las capacidades de manejo de datos y uso eficiente de todos los servidores. Para realizar la comparación se tomaron en cuenta dos casos de procesamiento de datos reales; consultas OLAP y ETL, además de tres casos de consultas estándar. Para cada uno de estos casos se realizaron tres variantes según el volumen a procesar para evaluar el rendimiento según crecían los datos. La solución Hadoop fue desarrollada en un cluster en la nube, con tres servidores (un maestro y dos esclavos). En el sistema de archivos del cluster se almacenó la información a procesar y se realizaron los sets de consultas mediante dos herramientas Hadoop: Hive e Impala. Los resultados obtenidos arrojaron que Hive presenta tiempo superiores a Impala e Infobright, esto debido al overhead que implica lanzar las tareas map y reduce, sin embargo es el único que ofrece tolerancia ante el fallo de un nodo. Por otro lado Impala presenta la menor latencia, con un tiempo de respuesta mucho menor a Infobright, no obstante presenta la mayor utilización de memoria. A partir de los resultados se pudo observar que Hive se comporta mejor en trabajos pesados tipo ETL donde la robustez prime sobre el tiempo, e Impala aplica mejor en consultas ligeras donde prime la velocidad. Se pudo concluir que la combinación de distintas herramientas en un ambiente con tecnología Hadoop pueden ofrecer un buen desempeño, además de mejor utilización de máquinas y eventual tolerancia a fallos. Sin embargo hay que tomar en cuenta la curva de aprendizaje implicada. Bases de datos Administración de bases de datos Minería de datos Infobright Hadoop

Search results

Desarrollo de un Sistema de Replicación y Distribución de Consultas de Bases de Datos Infobright

Análisis y comparación entre el motor de bases de datos orientado a columnas Infobright y el framework de aplicaciones distribuidas Hadoop en escenarios de uso de bases de datos analíticas