Global ETD Search

51	Arquitectura para la gestión de datos en un campus inteligente Villegas-Ch, William 24 January 2020 (has links) En la actualidad, las tecnologías de la información y comunicación (TIC) se han convertido en herramientas invaluables en el desarrollo de la sociedad. Estas tecnologías están presentes en las empresas, la medicina, la educación, etc. Prácticamente la sociedad ha llegado a un punto en que el principal asistente en cada una de las actividades son las TIC. Esto ha permitido la globalización de todas las áreas donde estas son aplicadas. Las ventajas del uso de las TIC han permitido mejorar y automatizar los procesos en todo nivel, sea en una empresa, una ciudad, una universidad, un hogar, etc. Para hacerlo, las tecnologías se ajustan a las necesidades del usuario y son capaces de interactuar con él, incluso, están en capacidad de interactuar entre sí sin la intervención de un humano. ¿Pero cómo lo hacen y para qué? Las nuevas tecnologías ahora integran varios sistemas y plataformas que están en la capacidad de adquirir información de las personas y sus entornos, analizar esta información y tomar decisiones con base en los resultados del análisis. Estas decisiones se ven plasmadas, por ejemplo, en la mejora de las ventas de una empresa o en la mejora de los procesos de manufactura. Como estos, existen muchos ejemplos que son resultado de numerosas investigaciones que tienen como objetivo mejorar la calidad de vida de las personas en ecosistemas sostenibles. Uno de estos ecosistemas que ha adquirido gran importancia recientemente son las ciudades inteligentes. El valor de las ciudades inteligentes se basa en satisfacer las necesidades de los miembros de su comunidad en armonía con la naturaleza. Esto involucra una mejor administración de los servicios como el transporte, la generación y consumo energético, la seguridad, la gobernabilidad, etc. Sin embargo, transformar una ciudad común en una ciudad inteligente requiere de muchos esfuerzos y recursos, tanto económicos como humanos. Ante este problema, es necesario contar con escenarios similares que incluso sirvan como un banco de pruebas para la implementación de tecnologías y que su implementación en entornos más grandes sea efectiva y con los recursos adecuados. Las universidades, como generadoras de conocimiento, son las llamadas a realizar los procesos de implementación, pruebas y generación de nuevas tecnologías. Su ambiente, administración y organigrama estructural, sumada a extensas áreas que conforman sus campus, permite compararlas con pequeñas ciudades. Esto permite establecer una línea base donde se apliquen todos los componentes necesarios para transformarlos en campus inteligentes (smart campus). Los campus inteligentes buscan mejorar la calidad de la educación a través de la convergencia de nuevas tecnologías. Es importante establecer que un campus universitario pone a disposición de los estudiantes y los miembros de la comunidad todas las condiciones para garantizar la calidad de la educación. Los campus inteligentes, al igual que las ciudades inteligentes, basan sus entornos en satisfacer las necesidades de sus miembros; para esto, es necesario crear procesos o sistemas que adquieran información sobre ellos. Es por esto, que el Internet de las cosas (IoT, acrónimo en inglés de Internet of Things) se convierte en uno de los componentes necesarios para la transformación de un campus tradicional. La información recolectada necesariamente debe convertirse en conocimiento para ejecutar acciones con base en este conocimiento. Estas acciones responden a una toma de decisiones efectiva y eficiente que satisfaga las necesidades de las personas. Para realizar el análisis de datos es necesario contar con una arquitectura que gestione un gran volumen de datos independientemente de su formato. La tecnología que ofrece estas capacidades es el big data, su integración al campus inteligente genera una estructura lo suficientemente robusta para soportar toda la carga del IoT y el análisis de datos requerido por los usuarios. Estas tecnologías, en compañía de la computación en la nube (cloud computing), permiten a los miembros del campus inteligente desarrollar sus actividades en total armonía con los recursos y la naturaleza. Este trabajo de investigación está enfocado en proponer una arquitectura para la gestión de datos en un campus universitario. Este enfoque trata todas las variables que influyen en la educación universitaria. Descubrir estas variables, tratarlas y establecer sus relaciones entre sí, requiere de la integración de las tecnologías mencionadas incluso con modelos de inteligencia artificial que permitan tomar acciones sobre los resultados del análisis de datos. Campus inteligentes Gestión de datos Hadoop Lenguajes y Sistemas Informáticos
52	Avaliação do Star Schema Benchmark aplicado a bancos de dados NoSQL distribuídos e orientados a colunas / Evaluation of the Star Schema Benchmark applied to NoSQL column-oriented distributed databases systems Scabora, Lucas de Carvalho 06 May 2016 (has links) Com o crescimento do volume de dados manipulado por aplicações de data warehousing, soluções centralizadas tornam-se muito custosas e enfrentam dificuldades para tratar a escalabilidade do volume de dados. Nesse sentido, existe a necessidade tanto de se armazenar grandes volumes de dados quanto de se realizar consultas analíticas (ou seja, consultas OLAP) sobre esses dados volumosos de forma eficiente. Isso pode ser facilitado por cenários caracterizados pelo uso de bancos de dados NoSQL gerenciados em ambientes paralelos e distribuídos. Dentre os desafios relacionados a esses cenários, destaca-se a necessidade de se promover uma análise de desempenho de aplicações de data warehousing que armazenam os dados do data warehouse (DW) em bancos de dados NoSQL orientados a colunas. A análise experimental e padronizada de diferentes sistemas é realizada por meio de ferramentas denominadas benchmarks. Entretanto, benchmarks para DW foram desenvolvidos majoritariamente para bancos de dados relacionais e ambientes centralizados. Nesta pesquisa de mestrado são investigadas formas de se estender o Star Schema Benchmark (SSB), um benchmark de DW centralizado, para o banco de dados NoSQL distribuído e orientado a colunas HBase. São realizadas propostas e análises principalmente baseadas em testes de desempenho experimentais considerando cada uma das quatro etapas de um benchmark, ou seja, esquema e carga de trabalho, geração de dados, parâmetros e métricas, e validação. Os principais resultados obtidos pelo desenvolvimento do trabalho são: (i) proposta do esquema FactDate, o qual otimiza consultas que acessam poucas dimensões do DW; (ii) investigação da aplicabilidade de diferentes esquemas a cenários empresariais distintos; (iii) proposta de duas consultas adicionais à carga de trabalho do SSB; (iv) análise da distribuição dos dados gerados pelo SSB, verificando se os dados agregados pelas consultas OLAP estão balanceados entre os nós de um cluster; (v) investigação da influência de três importantes parâmetros do framework Hadoop MapReduce no processamento de consultas OLAP; (vi) avaliação da relação entre o desempenho de consultas OLAP e a quantidade de nós que compõem um cluster; e (vii) proposta do uso de visões materializadas hierárquicas, por meio do framework Spark, para otimizar o desempenho no processamento de consultas OLAP consecutivas que requerem a análise de dados em níveis progressivamente mais ou menos detalhados. Os resultados obtidos representam descobertas importantes que visam possibilitar a proposta futura de um benchmark para DWs armazenados em bancos de dados NoSQL dentro de ambientes paralelos e distribuídos. / Due to the explosive increase in data volume, centralized data warehousing applications become very costly and are facing several problems to deal with data scalability. This is related to the fact that these applications need to store huge volumes of data and to perform analytical queries (i.e., OLAP queries) against these voluminous data efficiently. One solution is to employ scenarios characterized by the use of NoSQL databases managed in parallel and distributed environments. Among the challenges related to these scenarios, there is a need to investigate the performance of data warehousing applications that store the data warehouse (DW) in column-oriented NoSQL databases. In this context, benchmarks are widely used to perform standard and experimental analysis of distinct systems. However, most of the benchmarks for DW focus on relational database systems and centralized environments. In this masters research, we investigate how to extend the Star Schema Benchmark (SSB), which was proposed for centralized DWs, to the distributed and column-oriented NoSQL database HBase. We introduce proposals and analysis mainly based on experimental performance tests considering each one of the four steps of a benchmark, i.e. schema and workload, data generation, parameters and metrics, and validation. The main results described in this masters research are described as follows: (i) proposal of the FactDate schema, which optimizes queries that access few dimensions of the DW; (ii) investigation of the applicability of different schemas for different business scenarios; (iii) proposal of two additional queries to the SSB workload; (iv) analysis of the data distribution generated by the SSB, verifying if the data aggregated by OLAP queries are balanced between the nodes of a cluster; (v) investigation of the influence caused by three important parameters of the Hadoop MapReduce framework in the OLAP query processing; (vi) evaluation of the relationship between the OLAP query performance and the number of nodes of a cluster; and (vii) employment of hierarchical materialized views using the Spark framework to optimize the processing performance of consecutive OLAP queries that require progressively more or less aggregated data. These results represent important findings that enable the future proposal of a benchmark for DWs stored in NoSQL databases and managed in parallel and distributed environments. Banco de dados NoSQL Data warehouse Data warehouse Hadoop MapReduce Hadoop MapReduce HBase HBase NoSQL Star Schema Benchmark Star Schema Benchmark
53	Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop / Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop Brito, Jaqueline Joice 12 December 2017 (has links) The era of Big Data is here: the combination of unprecedented amounts of data collected every day with the promotion of open source solutions for massively parallel processing has shifted the industry in the direction of data-driven solutions. From recommendation systems that help you find your next significant one to the dawn of self-driving cars, Cloud Computing has enabled companies of all sizes and areas to achieve their full potential with minimal overhead. In particular, the use of these technologies for Data Warehousing applications has decreased costs greatly and provided remarkable scalability, empowering business-oriented applications such as Online Analytical Processing (OLAP). One of the most essential primitives in Data Warehouses are the Star Joins, i.e. joins of a central table with satellite dimensions. As the volume of the database scales, Star Joins become unpractical and may seriously limit applications. In this thesis, we proposed specialized solutions to optimize the processing of Star Joins. To achieve this, we used the Hadoop software family on a cluster of 21 nodes. We showed that the primary bottleneck in the computation of Star Joins on Hadoop lies in the excessive disk spill and overhead due to network communication. To mitigate these negative effects, we proposed two solutions based on a combination of the Spark framework with either Bloom filters or the Broadcast technique. This reduced the computation time by at least 38%. Furthermore, we showed that the use of full scan may significantly hinder the performance of queries with low selectivity. Thus, we proposed a distributed Bitmap Join Index that can be processed as a secondary index with loose-binding and can be used with random access in the Hadoop Distributed File System (HDFS). We also implemented three versions (one in MapReduce and two in Spark) of our processing algorithm that uses the distributed index, which reduced the total computation time up to 88% for Star Joins with low selectivity from the Star Schema Benchmark (SSB). Because, ideally, the system should be able to perform both random access and full scan, our solution was designed to rely on a two-layer architecture that is framework-agnostic and enables the use of a query optimizer to select which approaches should be used as a function of the query. Due to the ubiquity of joins as primitive queries, our solutions are likely to fit a broad range of applications. Our contributions not only leverage the strengths of massively parallel frameworks but also exploit more efficient access methods to provide scalable and robust solutions to Star Joins with a significant drop in total computation time. / A era do Big Data chegou: a combinação entre o volume dados coletados diarimente com o surgimento de soluções de código aberto para o processamento massivo de dados mudou para sempre a indústria. De sistemas de recomendação que assistem às pessoas a encontrarem seus pares românticos à criação de carros auto-dirigidos, a Computação em Nuvem permitiu que empresas de todos os tamanhos e áreas alcançassem o seu pleno potencial com custos reduzidos. Em particular, o uso dessas tecnologias em aplicações de Data Warehousing reduziu custos e proporcionou alta escalabilidade para aplicações orientadas a negócios, como em processamento on-line analítico (Online Analytical Processing- OLAP). Junções Estrelas são das primitivas mais essenciais em Data Warehouses, ou seja, consultas que realizam a junções de tabelas de fato com tabelas de dimensões. Conforme o volume de dados aumenta, Junções Estrela tornam-se custosas e podem limitar o desempenho das aplicações. Nesta tese são propostas soluções especializadas para otimizar o processamento de Junções Estrela. Para isso, utilizamos a família de software Hadoop em um cluster de 21 nós. Nós mostramos que o gargalo primário na computação de Junções Estrelas no Hadoop reside no excesso de operações escrita do disco (disk spill) e na sobrecarga da rede devido a comunicação excessiva entre os nós. Para reduzir estes efeitos negativos, são propostas duas soluções em Spark baseadas nas técnicas Bloom filters ou Broadcast, reduzindo o tempo total de computação em pelo menos 38%. Além disso, mostramos que a realização de uma leitura completa das tables (full table scan) pode prejudicar significativamente o desempenho de consultas com baixa seletividade. Assim, nós propomos um Índice Bitmap de Junção distribuído que é implementado como um índice secundário que pode ser combinado com acesso aleatório no Hadoop Distributed File System (HDFS). Nós implementamos três versões (uma em MapReduce e duas em Spark) do nosso algoritmo de processamento baseado nesse índice distribuído, os quais reduziram o tempo de computação em até 77% para Junções Estrelas de baixa seletividade do Star Schema Benchmark (SSB). Como idealmente o sistema deve ser capaz de executar tanto acesso aleatório quanto full scan, nós também propusemos uma arquitetura genérica que permite a inserção de um otimizador de consultas capaz de selecionar quais abordagens devem ser usadas dependendo da consulta. Devido ao fato de consultas de junção serem frequentes, nossas soluções são pertinentes a uma ampla gama de aplicações. A contribuições desta tese não só fortalecem o uso de frameworks de processamento de código aberto, como também exploram métodos mais eficientes de acesso aos dados para promover uma melhora significativa no desempenho Junções Estrela. Big Data Big Data Cloud Computing Computação em Nuvem Data Warehouse Data Warehouse Hadoop Hadoop Junção Estrela Star Join
54	Adaptação de algoritmos de processamento de dados ambientais para o contexto de Big Data Campos, Guilherme Falcão da Silva 23 November 2015 (has links) Submitted by Jordan (jordanbiblio@gmail.com) on 2017-05-04T14:04:39Z No. of bitstreams: 1 DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) / Approved for entry into archive by Jordan (jordanbiblio@gmail.com) on 2017-05-04T15:41:39Z (GMT) No. of bitstreams: 1 DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) / Made available in DSpace on 2017-05-04T15:41:39Z (GMT). No. of bitstreams: 1 DISS_2015_Guilherme Falcão da Silva Campos.pdf: 3678965 bytes, checksum: 16184b756c14ab6fc7eb19e95ff445d4 (MD5) Previous issue date: 2015-11-23 / Pesquisas ambientais dependem de dados de sensores para a criação das séries temporais referentes às variáveis analisadas. A quantidade de dados tende a aumentar, cada vez mais, à medida que novos sensores são criados e instalados. Com o passar do tempo os conjuntos de dados se tornam massivos, requerendo novas formas de armazenamento e processamento. Este trabalho busca meios de se contornar esses problemas utilizando uma solução tecnológica capaz de armazenar e processar grandes quantidades de dados. A solução tecnológica utilizada é o Apache Hadoop, uma ferramenta voltada a problemas de Big Data. Com a finalidade de avaliar a ferramenta foram utilizados diferentes conjuntos de dados e adaptados diferentes algoritmos usados na análise de séries temporais. Foram implementados analises de séries caóticas e não caóticas. As implementações foram a transformada de wavelet, uma busca por similaridade usando a função de distância Euclidiana, cálculo da dimensão box-counting e o cálculo da dimensão de correlação. Essas implementações foram adaptadas para utilizar o paradigma de processamento distribuído MapReduce. / Environmental research depend on sensor generated data to create time series regarding the variables that are being analyzed. The amount of data tends to increase as more and more sensors are created and installed. After some time the datasets become huge and requires new ways to process and store the data. This work seeks to find ways to avoid these issues using a technological solution able to store and process large amounts of data. The solution used is Apache Hadoop, a tool which purpose is to solve Big Data problems. In order to evaluate the tool were used different datasets and time series analysis algorithms. The analysis of chaotic and non-chaotic time series were implemented. These implementations were: the wavelet transform, similarity search using Euclidean distance function, the calculus of the box-counting dimension and the calculus of the correlation dimension. Those implementations were adapted for the MapReduce parallel processing paradigm. CNPQ::CIENCIAS EXATAS E DA TERRA::FISICA MapReduce Hadoop Wavelets Dimensão fractal Dados ambientais MapReduce Hadoop Wavelets Fractal dimension Environmental data
55	Nouveaux algorithmes pour la détection de communautés disjointes et chevauchantes basés sur la propagation de labels et adaptés aux grands graphes / New algorithms for disjoint and overlapping community detection based on label propagation and adapted to large graphs Attal, Jean-Philippe 19 January 2017 (has links) Les graphes sont des structures mathématiques capable de modéliser certains systèmes complexes.Une des nombreuses problématiques liée aux graphes concerne la détection de communautés qui vise à trouver une partition en sommet d'un graphe en vue d'en comprendre la structure. A titre d'exemple, en représentant des contratsd'assurances par des noeuds et leurs degrés de similarité par une arête,détecter des groupes de noeuds fortement connectésconduit à détecter des profils similaires, et donc a voir des profils à risques.De nombreux algorithmes ont essayé de répondreà ce problème.Une des méthodes est la propagation de labels qui consiste à ce quechaque noeud puisse recevoir un label par un vote majoritaire de ses voisins.Bien que cette méthode soit simple à mettre en oeuvre,elle présente une grande instabilité due au non déterminisme del'algorithme et peut dans certains cas ne pas détecter de structures communautaires.La première contribution de cette thèse sera de i) proposerune méthode de stabilisation de la propagation de labelstout en appliquant des barrages artificiels pour limiter les possibles mauvaises propagations.Les réseaux complexes ont également comme caractéristique que certains noeuds puissent appartenir à plusieurs communautés, on parle alors de recouvrements. C'est en ce sens que la secondecontribution de cette thèse portera sur ii) la créationd'un algorithme auquel seront adjointes des fonctions d'appartenancespour détecter de possibles recouvrements via des noeuds candidats au chevauchement.La taille des graphes est également une notion à considérer dans la mesure où certains réseaux peuvent contenir plusieursmillions de noeuds et d'arêtes.Nous proposons iii) une version parallèleet distribuée de la détection de communautés en utilisant la propagation de labels par coeur.Une étude comparative sera effectuée pour observerla qualité de partitionnement et de recouvrement desalgorithmes proposés. / Graphs are mathematical structures amounting to a set of nodes (objects or persons) in which some pairs are in linked with edges. Graphs can be used to model complex systems.One of the main problems in graph theory is the community detection problemwhich aims to find a partition of nodes in the graph to understand its structure.For instance, by representing insurance contracts by nodes and their relationship by edges,detecting groups of nodes highly connected leads to detect similar profiles and to evaluate risk profiles. Several algorithms are used as aresponse to this currently open research field.One of the fastest method is the label propagation.It's a local method, in which each node changes its own label according toits neighbourhood.Unfortunately, this method has two major drawbacks. The first is the instability of the method. Each trialgives rarely the same result.The second is a bad propagation which can lead to huge communities without sense (giant communities problem).The first contribution of the thesis is i) proposing a stabilisation methodfor the label propagation with artificial dams on edges of some networks in order to limit bad label propagations. Complex networks are also characterized by some nodes which may belong to several communities,we call this a cover.For example, in Protein–protein interaction networks, some proteins may have several functions.Detecting these functions according to their communities could help to cure cancers. The second contribution of this thesis deals with the ii)implementation of an algorithmwith functions to detect potential overlapping nodes .The size of the graphs is also to be considered because some networks contain several millions of nodes and edges like the Amazon product co-purchasing network.We propose iii) a parallel and a distributed version of the community detection using core label propagation.A study and a comparative analysis of the proposed algorithms will be done based on the quality of the resulted partitions and covers. Grands graphes Algorithmes parallèles Détection de communautés MapReduce Hadoop Chevauchement Big graphs Parallel Algorithms Community detection MapReduce Hadoop Overlapping
56	Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop / Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop Jaqueline Joice Brito 12 December 2017 (has links) The era of Big Data is here: the combination of unprecedented amounts of data collected every day with the promotion of open source solutions for massively parallel processing has shifted the industry in the direction of data-driven solutions. From recommendation systems that help you find your next significant one to the dawn of self-driving cars, Cloud Computing has enabled companies of all sizes and areas to achieve their full potential with minimal overhead. In particular, the use of these technologies for Data Warehousing applications has decreased costs greatly and provided remarkable scalability, empowering business-oriented applications such as Online Analytical Processing (OLAP). One of the most essential primitives in Data Warehouses are the Star Joins, i.e. joins of a central table with satellite dimensions. As the volume of the database scales, Star Joins become unpractical and may seriously limit applications. In this thesis, we proposed specialized solutions to optimize the processing of Star Joins. To achieve this, we used the Hadoop software family on a cluster of 21 nodes. We showed that the primary bottleneck in the computation of Star Joins on Hadoop lies in the excessive disk spill and overhead due to network communication. To mitigate these negative effects, we proposed two solutions based on a combination of the Spark framework with either Bloom filters or the Broadcast technique. This reduced the computation time by at least 38%. Furthermore, we showed that the use of full scan may significantly hinder the performance of queries with low selectivity. Thus, we proposed a distributed Bitmap Join Index that can be processed as a secondary index with loose-binding and can be used with random access in the Hadoop Distributed File System (HDFS). We also implemented three versions (one in MapReduce and two in Spark) of our processing algorithm that uses the distributed index, which reduced the total computation time up to 88% for Star Joins with low selectivity from the Star Schema Benchmark (SSB). Because, ideally, the system should be able to perform both random access and full scan, our solution was designed to rely on a two-layer architecture that is framework-agnostic and enables the use of a query optimizer to select which approaches should be used as a function of the query. Due to the ubiquity of joins as primitive queries, our solutions are likely to fit a broad range of applications. Our contributions not only leverage the strengths of massively parallel frameworks but also exploit more efficient access methods to provide scalable and robust solutions to Star Joins with a significant drop in total computation time. / A era do Big Data chegou: a combinação entre o volume dados coletados diarimente com o surgimento de soluções de código aberto para o processamento massivo de dados mudou para sempre a indústria. De sistemas de recomendação que assistem às pessoas a encontrarem seus pares românticos à criação de carros auto-dirigidos, a Computação em Nuvem permitiu que empresas de todos os tamanhos e áreas alcançassem o seu pleno potencial com custos reduzidos. Em particular, o uso dessas tecnologias em aplicações de Data Warehousing reduziu custos e proporcionou alta escalabilidade para aplicações orientadas a negócios, como em processamento on-line analítico (Online Analytical Processing- OLAP). Junções Estrelas são das primitivas mais essenciais em Data Warehouses, ou seja, consultas que realizam a junções de tabelas de fato com tabelas de dimensões. Conforme o volume de dados aumenta, Junções Estrela tornam-se custosas e podem limitar o desempenho das aplicações. Nesta tese são propostas soluções especializadas para otimizar o processamento de Junções Estrela. Para isso, utilizamos a família de software Hadoop em um cluster de 21 nós. Nós mostramos que o gargalo primário na computação de Junções Estrelas no Hadoop reside no excesso de operações escrita do disco (disk spill) e na sobrecarga da rede devido a comunicação excessiva entre os nós. Para reduzir estes efeitos negativos, são propostas duas soluções em Spark baseadas nas técnicas Bloom filters ou Broadcast, reduzindo o tempo total de computação em pelo menos 38%. Além disso, mostramos que a realização de uma leitura completa das tables (full table scan) pode prejudicar significativamente o desempenho de consultas com baixa seletividade. Assim, nós propomos um Índice Bitmap de Junção distribuído que é implementado como um índice secundário que pode ser combinado com acesso aleatório no Hadoop Distributed File System (HDFS). Nós implementamos três versões (uma em MapReduce e duas em Spark) do nosso algoritmo de processamento baseado nesse índice distribuído, os quais reduziram o tempo de computação em até 77% para Junções Estrelas de baixa seletividade do Star Schema Benchmark (SSB). Como idealmente o sistema deve ser capaz de executar tanto acesso aleatório quanto full scan, nós também propusemos uma arquitetura genérica que permite a inserção de um otimizador de consultas capaz de selecionar quais abordagens devem ser usadas dependendo da consulta. Devido ao fato de consultas de junção serem frequentes, nossas soluções são pertinentes a uma ampla gama de aplicações. A contribuições desta tese não só fortalecem o uso de frameworks de processamento de código aberto, como também exploram métodos mais eficientes de acesso aos dados para promover uma melhora significativa no desempenho Junções Estrela. Big Data Computação em Nuvem Data Warehouse Hadoop Junção Estrela Big Data Cloud Computing Data Warehouse Hadoop Star Join
57	Avaliação do Star Schema Benchmark aplicado a bancos de dados NoSQL distribuídos e orientados a colunas / Evaluation of the Star Schema Benchmark applied to NoSQL column-oriented distributed databases systems Lucas de Carvalho Scabora 06 May 2016 (has links) Com o crescimento do volume de dados manipulado por aplicações de data warehousing, soluções centralizadas tornam-se muito custosas e enfrentam dificuldades para tratar a escalabilidade do volume de dados. Nesse sentido, existe a necessidade tanto de se armazenar grandes volumes de dados quanto de se realizar consultas analíticas (ou seja, consultas OLAP) sobre esses dados volumosos de forma eficiente. Isso pode ser facilitado por cenários caracterizados pelo uso de bancos de dados NoSQL gerenciados em ambientes paralelos e distribuídos. Dentre os desafios relacionados a esses cenários, destaca-se a necessidade de se promover uma análise de desempenho de aplicações de data warehousing que armazenam os dados do data warehouse (DW) em bancos de dados NoSQL orientados a colunas. A análise experimental e padronizada de diferentes sistemas é realizada por meio de ferramentas denominadas benchmarks. Entretanto, benchmarks para DW foram desenvolvidos majoritariamente para bancos de dados relacionais e ambientes centralizados. Nesta pesquisa de mestrado são investigadas formas de se estender o Star Schema Benchmark (SSB), um benchmark de DW centralizado, para o banco de dados NoSQL distribuído e orientado a colunas HBase. São realizadas propostas e análises principalmente baseadas em testes de desempenho experimentais considerando cada uma das quatro etapas de um benchmark, ou seja, esquema e carga de trabalho, geração de dados, parâmetros e métricas, e validação. Os principais resultados obtidos pelo desenvolvimento do trabalho são: (i) proposta do esquema FactDate, o qual otimiza consultas que acessam poucas dimensões do DW; (ii) investigação da aplicabilidade de diferentes esquemas a cenários empresariais distintos; (iii) proposta de duas consultas adicionais à carga de trabalho do SSB; (iv) análise da distribuição dos dados gerados pelo SSB, verificando se os dados agregados pelas consultas OLAP estão balanceados entre os nós de um cluster; (v) investigação da influência de três importantes parâmetros do framework Hadoop MapReduce no processamento de consultas OLAP; (vi) avaliação da relação entre o desempenho de consultas OLAP e a quantidade de nós que compõem um cluster; e (vii) proposta do uso de visões materializadas hierárquicas, por meio do framework Spark, para otimizar o desempenho no processamento de consultas OLAP consecutivas que requerem a análise de dados em níveis progressivamente mais ou menos detalhados. Os resultados obtidos representam descobertas importantes que visam possibilitar a proposta futura de um benchmark para DWs armazenados em bancos de dados NoSQL dentro de ambientes paralelos e distribuídos. / Due to the explosive increase in data volume, centralized data warehousing applications become very costly and are facing several problems to deal with data scalability. This is related to the fact that these applications need to store huge volumes of data and to perform analytical queries (i.e., OLAP queries) against these voluminous data efficiently. One solution is to employ scenarios characterized by the use of NoSQL databases managed in parallel and distributed environments. Among the challenges related to these scenarios, there is a need to investigate the performance of data warehousing applications that store the data warehouse (DW) in column-oriented NoSQL databases. In this context, benchmarks are widely used to perform standard and experimental analysis of distinct systems. However, most of the benchmarks for DW focus on relational database systems and centralized environments. In this masters research, we investigate how to extend the Star Schema Benchmark (SSB), which was proposed for centralized DWs, to the distributed and column-oriented NoSQL database HBase. We introduce proposals and analysis mainly based on experimental performance tests considering each one of the four steps of a benchmark, i.e. schema and workload, data generation, parameters and metrics, and validation. The main results described in this masters research are described as follows: (i) proposal of the FactDate schema, which optimizes queries that access few dimensions of the DW; (ii) investigation of the applicability of different schemas for different business scenarios; (iii) proposal of two additional queries to the SSB workload; (iv) analysis of the data distribution generated by the SSB, verifying if the data aggregated by OLAP queries are balanced between the nodes of a cluster; (v) investigation of the influence caused by three important parameters of the Hadoop MapReduce framework in the OLAP query processing; (vi) evaluation of the relationship between the OLAP query performance and the number of nodes of a cluster; and (vii) employment of hierarchical materialized views using the Spark framework to optimize the processing performance of consecutive OLAP queries that require progressively more or less aggregated data. These results represent important findings that enable the future proposal of a benchmark for DWs stored in NoSQL databases and managed in parallel and distributed environments. Banco de dados NoSQL Data warehouse Hadoop MapReduce HBase Star Schema Benchmark Data warehouse Hadoop MapReduce HBase NoSQL Star Schema Benchmark
58	Hudi on Hops : Incremental Processing and Fast Data Ingestion for Hops Gebretsadkan Kidane, Netsanet January 2019 (has links) In the era of big data, data is flooding from numerous data sources and many companies have been utilizing different types of tools to load and process data from various sources in a data lake. The major challenges where different companies are facing these days are how to update data into an existing dataset without having to read the entire dataset and overwriting it to accommodate the changes which have a negative impact on the performance. Besides this, finding a way to capture and track changed data in a big data lake as the system gets complex with large amounts of data to maintain and query is another challenge. Web platforms such as Hopsworks are also facing these problems without having an efficient mechanism to modify an existing processed results and pull out only changed data which could be useful to meet the processing needs of an organization. The challenge of accommodating row level changes in an efficient and effective manner is solved by integrating Hudi with Hops. This takes advantage of Hudi’s upsert mechanism which uses Bloom indexing to significantly speed up the ability of looking up records across partitions. Hudi indexing maps a record key into the file id without scanning over every record in the dataset. In addition, each successful data ingestion is stored in Apache Hudi format stamped with commit timeline. This commit timeline is needed for the incremental processing mainly to pull updated rows since a specified instant of time and obtain change logs from a dataset. Hence, incremental pulls are realized through the monotonically increasing commit time line. Similarly, incremental updates are realized over a time column (key expression) that allows Hudi to update rows based on this time column. HoodieDeltaStreamer utility and DataSource API are used for the integration of Hudi with Hops and Feature store. As a result, this provided a fabulous way of ingesting and extracting row level updates where its performance can further be enhanced by the configurations of the shuffle parallelism and other spark parameter configurations since Hudi is a spark based library. / I dag är stora data mängder vanligt förekommande bland företag. Typiskt så flödar datan från många datakällor och det är populärt bland företag att använda olika typer av verktyg för att läsa och bearbeta data i en data lake. En av de stora utmaningarna som företag står inför idag är att kunna uppdatera stora mängder data på ett effektivt sätt. Tidigare lösningar för att uppdatera stora mängder data är baserat på att skriva över datan, vilket är en ineffektiv metod. En ytterligare utmaning med stora data mängder är problemet av att bokföra ändringar till datan på ett effektivt sätt. Hopsworks är en webbplattform som lagrar och bearbetrar stora mängder data och står således inför dessa utmaningar. I denna avhandling så presenteras en lösning på problemet med att uppdatera stora datamängder på ett effektivt sätt. Lösningen är baserad på att integrera Hudi med Hops. Genom att integrera Hudi med Hops så kan Hops utnyttja Hudis mekanism för effektiv uppdatering av data. Mekanismen som används i Hudi för att uppdatera stora mängder dataär baserad på Bloom-indexering samt logg-baserad lagring av data. Hudi indexerar datan för att snabba upp uppdateringsoperationer. Dessutom så stödjer Hudi att varje uppdatering bokförs till en loggfil, vilket i praktiken fungerar som en tidslinje över datan. Genom att använda tidslinjen så stödjer Hudi att läsa stora datamängder inkrementellt, samt att inspektera datan vid specifika tidpunkter. I denna avhandling så beskrivs hur HoodieDeltaStreamer-verktyget samt Hudis DataSource API används för integrera Hudi med Hops Feature Store. Tack vare denna integration så möjligörs en mer effektiv och användbar uppdatering av stora datamängder i Hops. Hudi Hadoop Hops Upsert SQL Spark Kafka Hudi Hadoop Hops Upsert SQL Spark Kafka Computer and Information Sciences Data- och informationsvetenskap
59	Экосистема анализа больших данных hadoop : магистерская диссертация / Ecosystem of analysis of big data hadoop Харин, А. В., Kharin, A. V. January 2017 (has links) Технологии хранения и анализа огромного количества информации разного типа являются актуальным направлением информационных технологий для всех компаний на сегодняшний день. Целью данной диссертационной работы является создание учебного пособия для студентов, разработчиков или простого человека, который хочет расширить свой кругозор, по экосистеме анализа данных «Hadoop». Данная научно–исследовательская работа представляет из себя учебное пособие по теме: «Экосистема анализа больших данных Hadoop». Эта система считается одной из основополагающих технологий «Big Data». / Currently, the technological methods of saving and analyzing of large amounts of information of different kinds are at the forefront of information technology development for most companies. The goal of the thesis is to create an instructional manual for students, web developers, and laypeople aiming to expand their tech savvy, about the ecosystem of big data analysis Hadoop. This research paper is a manual on “the Ecosystem of Big Data Analysis Hadoop.” This system is considered to be one of the groundbreaking technologies of “Big Data.” БОЛЬШИЕ ДАННЫЕ НАУКА О ДАННЫХ ЭКОСИСТЕМА HADOOP MASTER'S THESIS THE SCIENCE OF DATA BIG DATA ECOSYSTEM HADOOP
60	Методология запуска Apache Spark в различных менеджерах контейнеров (Hadoop, Kubernetes) : магистерская диссертация / Methodology for running Apache Spark in various container managers (Hadoop, Kubernetes) Краубаев, А. С., Kraubaev, A. S. January 2023 (has links) Цель работы – разработка методики для студентов, разработчиков и инженер по работе с данными, которые заинтересованы расширить свой кругозор, по запуску Apache Spark в кластерной среде «Hadoop» и «Kubernetes». Объектом исследования – данной работы являются практика применения методологии запуска Apache Spark в кластерной среде Kubernetes, Hadoop. Результаты работы: практика применения контейнеризации и кластерной среды Kubernetes, чтобы ознакомить с методологией запуска «Apache Spark». Выпускная квалификационная работа выполнена в текстовом редакторе. Microsoft Word и предоставлена в твердой копии. / The goal of the work is to develop a methodology for students, developers and data engineers who are interested in expanding their horizons on running Apache Spark in the Hadoop and Kubernetes cluster environment. The object of research - this work is the practice of applying the methodology for launching Apache Spark in the Kubernetes and Hadoop cluster environment. Results of the work: practice of using containerization and the Kubernetes cluster environment to familiarize yourself with the methodology for launching Apache Spark. The final qualifying work was completed in a text editor. Microsoft Word and provided in hard copy. HADOOP KUBERNETES APACHE SPARK КОНТЕЙНЕРИЗАЦИЯ КЛАСТЕРНАЯ СРЕДА MASTER'S THESIS HADOOP KUBERNETES APACHE SPARK CONTAINERIZATION CLUSTER ENVIRONMENT

Search results