Global ETD Search

181	Impacto das rajadas no desempenho de serviços executados em ambientes em nuvens / The impact of bursts in the performance of services executed in cloud environments Adriana Molina Centurion 26 May 2015 (has links) Esta tese apresenta a caracterização de desempenho dos serviços executados em um ambiente em nuvem, quando são consideradas rajadas de diferentes origens, intensidades e variabilidades nas cargas de trabalho. Os resultados mostram que a presença de rajadas no processo de chegada das requisições e/ou nas demandas de serviço, ocasiona uma considerável degradação no desempenho dos serviços e, portanto, devem ser consideradas nos modelos de cargas de trabalhos e nas atividades voltadas para avaliação de desempenho em computação em nuvem. Considerando-se a grande influência das rajadas, é proposta e validada uma metodologia que permite monitorar uma carga de trabalho e determinar a ocorrência de rajadas tanto nas taxas de chegadas de requisições quanto nas demandas de serviços. A metodologia utilizada na condução deste trabalho consta de diferentes modelos de cargas de trabalho com rajadas de diferentes variabilidades e intensidades, desenvolvidos e integrados à arquitetura CloudSim-BEQoS proposta nesta tese. Utilizando-se essa arquitetura é possível executar um conjunto de experimentos que possibilitam a obtenção dos resultados que caracterizam o desempenho dos serviços quando são criadas condições de rajadas nas cargas de trabalho submetidas à nuvem. / This thesis presents the performance characterization of the services executed in a cloud environment, when bursts are considered from different sources, intensity and variability in the workload. The results show that the presence of bursts in the arrival process of requests and/or in service demands, causes a significant degradation in the performance of services and therefore should belong to the models of workloads and in the activities considered for performance evaluation in cloud computing. Considering the great influence of bursts, a methodology to monitor a workload and predict the occurrence of bursts in both the rates of request arrivals and the service demands is proposed and validated. The methodology used in the conduction of this work consists in different types of workloads with bursts of different variability and intensity, developed and integrated into the CloudSim-BEQoS architecture proposed in this thesis. By using this architecture it is possible to execute a set of experiments that enable the achievement of the results that characterize the performance of services when bursts conditions are created in the workload submitted to the cloud. Avaliação de desempenho Cargas de trabalho Computação em nuvem Fenômeno de rajadas Cloud computing Performance evaluation Phenomenon of bursts Workload
182	Extensão da geração de carga do Bench4Q para benchmark de desempenho em regime transiente / Extension of the load generation for Bench4Q benchmark performance transient regime Flavio Luiz dos Santos de Souza 08 April 2016 (has links) Este trabalho de mestrado apresenta o desenvolvimento de uma extensão no benchmark Bench4Q. A extensão proposta é uma nova funcionalidade para o benchmark. O referido framework é utilizado para gerar carga sintética para um sistema e-commerce acoplado ao benchmark. Seu principal emprego na literatura tem sido em avaliação de desempenho sob carga estacionária. Contudo, recentes pesquisas tem apresentado interesse no estudo de arquiteturas adaptativas de autogerenciamento de recursos, o que implica em responder às perturbações e atender os requisitos de desempenho em regime transiente propostos para o sistema. No entanto, este benchmark não abrange os estados transiente do sistema. O presente trabalho tem por objetivo estender o benchmark Bench4Q acrescentando-lhe capacidade de excitar a resposta transiente do sistema mediante as perturbações da carga de trabalho. Para isso, o software foi acrescido de funcionalidade capaz de gerenciar a modulação da carga de trabalho. Os experimentos foram executados em um ambiente multicamadas que apresentou resultados compatíveis ao objetivo, representando contribuições para a área de avaliação de desempenho. A motivação da pesquisa, inserção em outros trabalhos em andamento e direções futuras são introduzidas. / This master thesis introduces the development of an extension for the Bench4Q benchmark. The referred framework is utilized to generate sinthetic workload for a companion e-commerce benchmark. The software package Bench4q is a benchmark for cloud computing applications which simulates various aspects of conventional architectures and workloads in this kind of environment. It is mainly referenced in the literature in works on performance evaluation under stationary load. Recent research works have broaden its interest to the study of adaptive architectures of resource self-management, what implies in responding to disturbances and meeting performance requirements in transient regime. This work aims at extending Bench4q adding it capabilities to excite the transient response of the system by means of applying disturbances during execution time. To this end, the piece of software shall be enriched with functionalities for generating non-stationary workload and programmed disturbances. Experients have been carried out in a multi-layer enviroment and have yielded positive result, representing contributions to the state of the art. The motivation of this piece of work, insertion in other ongoing research and directions are introduced. Avaliação de Desempenho Benchmark Computação em nuvem Modelagem. Benchmark Cloud computing Model. Performance Evaluation
183	A data-driven solution for root cause analysis in cloud computing environments. / Uma solução guiada por dados de análise de causa raiz em ambiente de computação em nuvem. Rosangela de Fátima Pereira 05 December 2016 (has links) The failure analysis and resolution in cloud-computing environments are a a highly important issue, being their primary motivation the mitigation of the impact of such failures on applications hosted in these environments. Although there are advances in the case of immediate detection of failures, there is a lack of research in root cause analysis of failures in cloud computing. In this process, failures are tracked to analyze their causal factor. This practice allows cloud operators to act on a more effective process in preventing failures, resulting in the number of recurring failures reduction. Although this practice is commonly performed through human intervention, based on the expertise of professionals, the complexity of cloud-computing environments, coupled with the large volume of data generated from log records generated in these environments and the wide interdependence between system components, has turned manual analysis impractical. Therefore, scalable solutions are needed to automate the root cause analysis process in cloud computing environments, allowing the analysis of large data sets with satisfactory performance. Based on these requirements, this thesis presents a data-driven solution for root cause analysis in cloud-computing environments. The proposed solution includes the required functionalities for the collection, processing and analysis of data, as well as a method based on Bayesian Networks for the automatic identification of root causes. The validation of the proposal is accomplished through a proof of concept using OpenStack, a framework for cloud-computing infrastructure, and Hadoop, a framework for distributed processing of large data volumes. The tests presented satisfactory performance, and the developed model correctly classified the root causes with low rate of false positives. / A análise e reparação de falhas em ambientes de computação em nuvem é uma questão amplamente pesquisada, tendo como principal motivação minimizar o impacto que tais falhas podem causar nas aplicações hospedadas nesses ambientes. Embora exista um avanço na área de detecção imediata de falhas, ainda há percalços para realizar a análise de sua causa raiz. Nesse processo, as falhas são rastreadas a fim de analisar o seu fator causal ou seus fatores causais. Essa prática permite que operadores da nuvem possam atuar de modo mais efetivo na prevenção de falhas, reduzindo-se o número de falhas recorrentes. Embora essa prática seja comumente realizada por meio de intervenção humana, com base no expertise dos profissionais, a complexidade dos ambientes de computação em nuvem, somada ao grande volume de dados oriundos de registros de log gerados nesses ambientes e à ampla inter-dependência entre os componentes do sistema tem tornado a análise manual inviável. Por esse motivo, torna-se necessário soluções que permitam automatizar o processo de análise de causa raiz de uma falha ou conjunto de falhas em ambientes de computação em nuvem, e que sejam escaláveis, viabilizando a análise de grande volume de dados com desempenho satisfatório. Com base em tais necessidades, essa dissertação apresenta uma solução guiada por dados para análise de causa raiz em ambientes de computação em nuvem. A solução proposta contempla as funcionalidades necessárias para a aquisição, processamento e análise de dados no diagnóstico de falhas, bem como um método baseado em Redes Bayesianas para a identificação automática de causas raiz de falhas. A validação da proposta é realizada por meio de uma prova de conceito utilizando o OpenStack, um arcabouço para infraestrutura de computação em nuvem, e o Hadoop, um arcabouço para processamento distribuído de grande volume de dados. Os testes apresentaram desempenhos satisfatórios da arquitetura proposta, e o modelo desenvolvido classificou corretamente com baixo número de falsos positivos. Análise de Causa Raiz Computação em nuvem Redes Bayesianas Bayesian networks Cloud computing Root cause analysis
184	Otimização de alocação de máquinas virtuais em datacenter heterogêneo de sistema de computação em nuvem / Rodrigues, João Antonio Magri. January 2019 (has links) Orientador: Aleardo Manacero Junior / Banca: Rafael Pasquini / Banca: Rodolfo Ipolito Meneguetti / Resumo: Computação em nuvem pode ser deﬁnida como uma tecnologia de oferta de serviços de computação por meio da Internet, utilizando virtualização de máquinas. A virtualização é um procedimento em que se estabelece um ambiente virtual para execução de tarefas consumindo parte dos recursos de uma máquina real. Desse modo, o desempenho de um sistema de computação em nuvem depende da eﬁciência da alocação de máquinas virtuais em máquinas reais, atendendo restrições e metas diversas. Neste trabalho se propõe uma nova abordagem para alocação de máquinas virtuais que tem como objetivo otimizar o número de máquinas físicas ativas e o tráfego na rede do sistema, tratando situações de conﬂito e balanço entre estes dois objetivos em sistemas heterogêneos.A solução proposta é baseada em uma modiﬁcação do algoritmo para particionamento de grafos de Kernighan-Lin para tratar os custos de comunicação, além de heurísticas para a minimização do número de máquinas físicas. O texto apresenta um levantamento bibliográﬁco a respeito de computação em nuvem, o estado da arte relacionado ao problema de alocação de máquinas virtuais, a implementação do algoritmo e sua avaliação. O algoritmo proposto é avaliado contra uma heurística convencional e um algoritmo do estado da arte em diversos cenários. Os resultados obtidos mostram que, apesar da diﬁculdade de conciliação entre estes dois objetivos em se tratando de sistemas heterogêneos, as soluções obtidos pela abordagem desenvolvida são de boa qualidade / Abstract: Cloud computing is a term referring to a computing service technology offered through the Internet using machine virtualization, which is a process where a virtual environment is deployed to run an application, consuming part of the real machine resources. Therefore, the performance of a cloud computing system depends on the efﬁciency of the virtual machines placement in real machines, given certain goals and constraints. This work aims to present a new approach for virtual machine placement that optimizes the number of active physical machines and network trafﬁc in its datacenter, as well as evaluate the conﬂict between these goals in heterogeneous systems. The proposed approach is based in a modiﬁcation of the Kernighan-Lin algorithm for graph partitioning to deal with communication costs, and heuristics to minimize the number of physical machines.The text presents a conceptual review about cloud computing,the state of art of the virtual machine placement problem, the algorithm implementation and its evaluation. The proposed algorithm is evaluated against a conventional heuristic and a state of art algorithm in various scenarios. The results reveal the hardness to balance the two deﬁned goals in heterogeneous systems as well as the quality of the solution achieved by the proposed approach / Mestre Ciência da computação. Computação em nuvem. Sistemas de computação virtual. Virtual computer systems
185	Adoção tecnológica: fatores de decisão de adoção da internet das coisas em ambiente empresarial / Technology adoption: decision factors for the adoption of the internet of things in a business environment Lobo, Flávio Destri 28 January 2016 (has links) A Internet das Coisas, ou Internet of Things (IoT), representa um novo paradigma de integração de várias tecnologias e soluções de comunicação e encontra aplicações em muitos domínios diferentes, tais como ambientes inteligentes (residencial e comercial), automação industrial, saúde, agricultura de alta precisão, gerenciamento inteligente de energia (smart grids, conservação de energia em edifícios), transporte e logística, setor automotivo em geral, cidades inteligentes e muitas outras áreas. A realização da visão de IoT ainda necessita de mais investimentos em pesquisa e desenvolvimento devido à sua novidade e complexidade. Além das questões técnicas, a adoção em larga escala também é dificultada pela falta de clareza dos fatores determinantes na decisão de adoção destas tecnologias. A questão- problema que esse trabalho de pesquisa busca elucidar é o desafio da adoção de inovações baseadas na Internet das Coisas, mais especificamente fatores que afetam a decisão de adoção. O tema adoção de inovação é relevante para quem desenvolve a inovação e deseja que ela seja adotada e para quem tem que decidir se adota ou não uma inovação. Como a taxa de adoção é influenciada por fatores e decisões tanto do lado de quem fornece quando do lado de quem adota uma determinada inovação tecnológica, o trabalho se baseia em estudos que buscam integrar as diversas variáveis afim de refletir a natureza sistêmica deste processo. O modelo proposto pode ser aplicado tanto para quem adota quanto para quem fornece a inovação, integrando questões externas e internas à empresa, bem como questões da tecnologia IoT em si e do fornecedor. A pesquisa utiliza o modelo proposto em três estudos de caso com o objetivo de identificar e analisar os fatores de decisão de adoção da Internet das Coisas nas respectivas empresas, e apresenta sugestões de como aplicar o modelo na avaliação e eventual seleção de inovações tecnológicas, tanto do ponto de vista de quem fornece quanto de quem adota a inovação. / The Internet of things (IoT) represents a new paradigm of integration of various technologies and communication solutions, and finds applications in many different domains, such as intelligent environments (residential and commercial), industrial automation, health, high precision agriculture, intelligent power management (smart grids, energy conservation in buildings), transport and logistics, the automotive industry in general, smart cities and many other areas. The realization of the vision of IoT still requires more investment in research and development because of its novelty and complexity. Beyond the technical issues, large-scale adoption is also hampered by the lack of clarity of the determining factors in the decision of adoption of these technologies. The problem this research seeks to elucidate is the challenge of adopting innovations based on the Internet of things, more specifically factors that affect the adoption decision. The theme adoption of innovation is relevant to those who develop an innovation and want it to be adopted as well as for those who have to decide whether to adopt an innovation or not. As the adoption rate is influenced by factors and decisions that lie both on the side of the supplier as well as the adopter of a particular technological innovation, this work is based on studies that seek to integrate variables from both sides in order to reflect the systemic nature of this process. The proposed model can be applied to both suppliers and adopters of the technological innovation, integrating factors that are external and internal to the company, as well as factors of the IoT technology and factors of the supplier. This research used the proposed model in three case studies in order to identify and analyze the factors of decision of adoption of the Internet of things in each company, and offers suggestions of how to apply the model in the evaluation and eventual selection of technological innovations, both from the point of view of suppliers as well as adopters of the innovation. Adoção Adoption Computação em nuvem Internet das coisas Internet of things IoT IoT Redes e comunicação de dados
186	Método de análise para adoção de computação em nuvem: estudo de casos em organizações de grande porte. / Analysis method for cloud computing adoption: cases study in large organizations. Milian, Eduardo Zied 19 November 2014 (has links) A Computação em Nuvem (CN) tem potencial para transformar grande parte do setor de Tecnologia da Informação (TI). Sua evolução ao longo dos últimos anos, certamente é tida como um dos maiores avanços na história da computação. Ela vem ganhando espaço significativo como um modelo bem sucedido ao prometer economia, facilidade de uso e maior flexibilidade no controle de como os recursos são usados, a qualquer momento e em qualquer lugar, para entregar a capacidade computacional desejada. A proposta de valor capturada pelo modelo da CN é que os recursos não ficam mais ociosos a maior parte do tempo, sendo agora quase totalmente utilizados (com menores custos unitários). Esta pesquisa tem por objetivo compreender como são tomadas as decisões para aquisição, contratação e operação dos serviços de CN em organizações de grande porte atuando no Brasil. Para alcançar este objetivo foi elaborado um Método de Análise para adoção da CN a partir de elementos extraídos da literatura. Fatores associados à adoção da CN como vantagens, desafios, riscos e barreiras e capacidades essenciais dos gestores para atingir objetivos de negócios (BOB), desempenhar a gestão da função TI (MNG), dispor dos atributos da qualidade dos serviços (QAS) e tomar decisões de arquitetura (ARC), consideradas essenciais para a operação das áreas de TI das organizações, estão entre estes elementos. O trabalho também investigou como a CN pode contribuir para o alinhamento estratégico da TI ao negócio destas organizações. A metodologia utilizada é o estudo de casos múltiplos, com a aplicação do Método de Análise em quatro organizações, onde foram entrevistados os principais executivos da área de TI capazes de influenciar decisões para adotar ou aprofundar a adoção da nuvem. Os resultados obtidos mostraram a viabilidade e a aplicabilidade do Método de Análise. Ao mapear os fatores associados à adoção, o processo de decisão pode ser mais bem compreendido, possibilitando às organizações melhor estruturar o processo de aprovação e de adoção propriamente dito. Também pôde ser observado nos casos estudados de que forma se deu a contribuição da adoção da nuvem para o alinhamento estratégico da TI ao negócio. / Cloud Computing (CC) is potentially able to change a major part of Information Technology (IT) industry. Its evolution over the past few years is certainly one of the greatest advancements in the history of computing. Cloud Computing has been gaining ground as a successful model as it promises economic savings, easiness of use and greater flexibility in the control of resource use, anytime and anywhere, while delivering the required computing power. CC model value proposition is that resources are no longer idle most of the time, as they are almost used to the fullest (with lower unit costs). The purpose of this research is to understand how the decisions are made for the purchase, hiring and operation of CC services in large organizations operating in Brazil. In order to achieve this objective, we prepared an Analysis Method to adopt CC based on elements found in literature. Such elements are those factors associated to the adoption of CC such as advantages, challenges, risks and barriers and core capabilities for managers to achieve business objectives (BOB), perform management of IT function (MNG), provide quality of services (QAS) and manage architecture decisions (ARC), considered essential for operation of IT areas of organizations. The study also investigated how CC can contribute with IT strategic alignment with business of these organizations. The methodology employed is multiple cases study, applying the Analysis Method in four organizations, through interviews with main IT executives capable of influencing decisions to adopt or increase cloud adoption. The results obtained show feasibility and applicability of Analysis Method. By mapping factors associated with adoption, the decision making process may be better understood, allowing organizations to better structure approval process and the adoption itself. In cases studied it is possible to note how the adoption of cloud computing contributes with strategic alignment of IT with business. Cloud computing Computação em nuvem IT management Software as a service (SaaS) Software como serviço (SaaS) Tecnologia da informação
187	Desenvolvimento de mecanismos para auxiliar no estudo e seleção de técnicas de armazenamento distribuído de arquivos em ambientes de computação multinuvem / Development of mechanisms to ease the study and selection of distributed file storage techniques in muticloud computing envieronments Libardi, Rafael Mira de Oliveira 11 November 2015 (has links) O armazenamento de arquivos e dados está seguindo um paradigma de mudança para a Internet utilizando a nuvem. Porém, este processo ainda gera algumas dúvidas em relação à segurança e a disponibilidade dos arquivos. Este projeto de mestrado propõe criar uma camada de abstração entre diversos servidores de armazenamento público, sem infraestrutura adicional, e possibilitar ao usuário comum um método de armazenamento distribuído, com maior redundância e segurança se comparada às abordagens atuais de armazenamento. Outro aspecto importante deste projeto foi criar uma ferramenta que seja flexível o suficiente para ser fácil de ser utilizada por outros pesquisadores para avaliar novas técnicas de armazenamento e seleção automática de estratégias de dispersão. Este projeto foi feito utilizando conceitos de dispersão de arquivos e de mecanismos de seleção automática utilizando atributos de QoS. A primeira contribuição foi um protótipo denominado FlexSky que implementa os mecanismos de dispersão utilizados. Devido a quantidade grande de parâmetros para se escolher no processo de dispersão, foi necessário desenvolver um mecanismo que reduzisse a quantidade de parâmetros para que um usuário comum consiga utilizar a ferramenta. Este mecanismo foi a segunda contribuição (MSSF), no qual foi criado um modelo baseado em otimização linear inteira para realizar a seleção automática de estratégias de armazenamento multinuvem. Para se avaliar as contribuições foram propostos testes qualitativos de usabilidade da ferramenta e teste quantitativos de desempenho dos processos da ferramenta. Os resultados sugerem que a ferramenta FlexSky facilitou o estudo destes mecanismos de dispersão e possibilita uma avaliação de desempenho deles. Jà o MSSF consegue a partir de atributos de QoS escolher uma estratégia ótima que maximize os parâmetros desejados do processo de dispersão para diversos casos considerando diferentes quantidades de módulos e de provedores. / Data and file storage is moving to the Internet using the cloud approach. However, this process still creates issues related to security and availability. This project creates an abstraction layer among several public storage servers, without the need for additional infrastructure, enabling regular users to use a distributed storage method with increased redundancy and security comparing to current techniques. Another important aspect of this project was to create a tool flexible enough to be easy for other researchers to evaluate new dispersal techniques. The first contribution was a prototype named FlexSky, which implements the studied dispersal mechanisms. Due to the big amount of parameters to choose from during the dispersal process, it was needed to develop a mechanism to reduce the amount of user input parameters so a regular user can use the tool. This mechanism was the second contribution (MSSF) and it is composed of a model based on integer linear optimization that automatically selects multicloud dispersal strategies. The evaluation phase was composed of qualitative usability tests and quantitative performance tests. The results suggests that the FlexSky tool made the study of dispersal mechanisms easier and enables to evaluate their performance. MSSF results shown that using QoS attributes, MSSF can choose an optimal dispersal strategy which maximizes and minimizes the required QoS attributes considering several modules and providers. Armazenamento de arquivos Avaliação de desempenho Cloud computing Computação em nuvem Data dispersal Dispersão de dados File storage Performance evaluation
188	Uma arquitetura de nuvem em comunidade para aplicações de tempo real. / A community cloud architecture for real-time applications. Ös, Marcelo Dutra 30 November 2015 (has links) A Computação em Nuvem é um paradigma de computação distribuída que vem sendo utilizado extensivamente em vários campos de interesse nos últimos anos, desde aplicações web comuns até a aplicações de alta-performance computacional. O modelo de pagamento pelo uso e a isonomia dos métodos de acesso transformaram o ambiente de Computação em Nuvem em uma alternativa extremamente popular e atrativa tanto para universidades como para empresas privadas. Entre os modelos de implantação adotados atualmente destaca-se o de nuvem em comunidade, onde várias entidades que possuem interesses em comum constroem, mantém e compartilham a mesma infraestrutura de serviços em nuvem. O modelo computacional em nuvem também pode ser atrativo para aplicações que tenham como requisito o processamento em tempo real, principalmente pela capacidade de manipulação de grandes volumes de dados e pela propriedade de elasticidade, que é a inserção ou remoção de recursos computacionais dinamicamente de acordo com a demanda. Nesta tese, são identificados os requisitos para a construção de um ambiente em nuvem em comunidade para aplicações de tempo real. A partir destes requisitos e de uma revisão bibliográfica baseada em nuvem e sistemas distribuídos de tempo real, é desenvolvida a proposta de uma arquitetura de nuvem em comunidade de tempo real. Um estudo de caso de compra e venda de ações em bolsa de valores é apresentado como uma aplicação viável para este modelo, sendo que um algoritmo de escalonamento de tempo real para este ambiente é proposto. Por fim, é desenvolvido nesta tese um simulador cujo objetivo é demonstrar em termos quantitativos quais as melhorias de desempenho atingidas com esta arquitetura. / Cloud Computing is a distributed computing paradigm which is being extensively applied to many fields of interest in the last few years, ranging from ordinary web applications to highperformance computing. The pay-per-use model and ubiquitous access methods have made Cloud Computing an interesting and popular alternative for both enterprises and universities. Among the deployment models adopted, one of the most prominent is the community cloud, where several entities who share similar interests build, maintain and use the same infrastructure of cloud services. The cloud computing paradigm can be attractive to applications whose requirements are the processing in real-time too, mainly because of its capacity of handling huge amounts of data as for the property of elasticity, which is the dynamic and automatic insertion or removal of computing resources on-demand. In this thesis, the requirements of a community cloud for real-time applications are identified. Based on these requirements and on a bibliographical review of the research fields of real-time distributed systems and real-time clouds, it is developed a proposal for a real-time community cloud architecture. A case study of a trading real-time application at a stock exchange is presented as a feasible application for this model. Also, a real-time scheduling algorithm is proposed for this environment. A simulator is built in order to demonstrate the quantitative improvements this architecture brings. Algoritmos de escalonamento Aplicações financeiras Cloud computing Computação em nuvem Real-time applications Scheduling algorithms Stock exchanges Tempo-real (Aplicações)
189	Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop / Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop Brito, Jaqueline Joice 12 December 2017 (has links) The era of Big Data is here: the combination of unprecedented amounts of data collected every day with the promotion of open source solutions for massively parallel processing has shifted the industry in the direction of data-driven solutions. From recommendation systems that help you find your next significant one to the dawn of self-driving cars, Cloud Computing has enabled companies of all sizes and areas to achieve their full potential with minimal overhead. In particular, the use of these technologies for Data Warehousing applications has decreased costs greatly and provided remarkable scalability, empowering business-oriented applications such as Online Analytical Processing (OLAP). One of the most essential primitives in Data Warehouses are the Star Joins, i.e. joins of a central table with satellite dimensions. As the volume of the database scales, Star Joins become unpractical and may seriously limit applications. In this thesis, we proposed specialized solutions to optimize the processing of Star Joins. To achieve this, we used the Hadoop software family on a cluster of 21 nodes. We showed that the primary bottleneck in the computation of Star Joins on Hadoop lies in the excessive disk spill and overhead due to network communication. To mitigate these negative effects, we proposed two solutions based on a combination of the Spark framework with either Bloom filters or the Broadcast technique. This reduced the computation time by at least 38%. Furthermore, we showed that the use of full scan may significantly hinder the performance of queries with low selectivity. Thus, we proposed a distributed Bitmap Join Index that can be processed as a secondary index with loose-binding and can be used with random access in the Hadoop Distributed File System (HDFS). We also implemented three versions (one in MapReduce and two in Spark) of our processing algorithm that uses the distributed index, which reduced the total computation time up to 88% for Star Joins with low selectivity from the Star Schema Benchmark (SSB). Because, ideally, the system should be able to perform both random access and full scan, our solution was designed to rely on a two-layer architecture that is framework-agnostic and enables the use of a query optimizer to select which approaches should be used as a function of the query. Due to the ubiquity of joins as primitive queries, our solutions are likely to fit a broad range of applications. Our contributions not only leverage the strengths of massively parallel frameworks but also exploit more efficient access methods to provide scalable and robust solutions to Star Joins with a significant drop in total computation time. / A era do Big Data chegou: a combinação entre o volume dados coletados diarimente com o surgimento de soluções de código aberto para o processamento massivo de dados mudou para sempre a indústria. De sistemas de recomendação que assistem às pessoas a encontrarem seus pares românticos à criação de carros auto-dirigidos, a Computação em Nuvem permitiu que empresas de todos os tamanhos e áreas alcançassem o seu pleno potencial com custos reduzidos. Em particular, o uso dessas tecnologias em aplicações de Data Warehousing reduziu custos e proporcionou alta escalabilidade para aplicações orientadas a negócios, como em processamento on-line analítico (Online Analytical Processing- OLAP). Junções Estrelas são das primitivas mais essenciais em Data Warehouses, ou seja, consultas que realizam a junções de tabelas de fato com tabelas de dimensões. Conforme o volume de dados aumenta, Junções Estrela tornam-se custosas e podem limitar o desempenho das aplicações. Nesta tese são propostas soluções especializadas para otimizar o processamento de Junções Estrela. Para isso, utilizamos a família de software Hadoop em um cluster de 21 nós. Nós mostramos que o gargalo primário na computação de Junções Estrelas no Hadoop reside no excesso de operações escrita do disco (disk spill) e na sobrecarga da rede devido a comunicação excessiva entre os nós. Para reduzir estes efeitos negativos, são propostas duas soluções em Spark baseadas nas técnicas Bloom filters ou Broadcast, reduzindo o tempo total de computação em pelo menos 38%. Além disso, mostramos que a realização de uma leitura completa das tables (full table scan) pode prejudicar significativamente o desempenho de consultas com baixa seletividade. Assim, nós propomos um Índice Bitmap de Junção distribuído que é implementado como um índice secundário que pode ser combinado com acesso aleatório no Hadoop Distributed File System (HDFS). Nós implementamos três versões (uma em MapReduce e duas em Spark) do nosso algoritmo de processamento baseado nesse índice distribuído, os quais reduziram o tempo de computação em até 77% para Junções Estrelas de baixa seletividade do Star Schema Benchmark (SSB). Como idealmente o sistema deve ser capaz de executar tanto acesso aleatório quanto full scan, nós também propusemos uma arquitetura genérica que permite a inserção de um otimizador de consultas capaz de selecionar quais abordagens devem ser usadas dependendo da consulta. Devido ao fato de consultas de junção serem frequentes, nossas soluções são pertinentes a uma ampla gama de aplicações. A contribuições desta tese não só fortalecem o uso de frameworks de processamento de código aberto, como também exploram métodos mais eficientes de acesso aos dados para promover uma melhora significativa no desempenho Junções Estrela. Big Data Big Data Cloud Computing Computação em Nuvem Data Warehouse Data Warehouse Hadoop Hadoop Junção Estrela Star Join
190	Uma solução para o desenvolvimento de aplicações distribuídas visando o gerenciamento automático de recursos no cenário de computação em nuvem. / A solution for distributed applications and services development aiming to automatic resource management in cloud computing. Goya, Walter Akio 07 October 2014 (has links) Na segunda metade dos anos 2000, foram desenvolvidos projetos de pesquisa para o desenvolvimento de plataformas visando facilitar a criação de aplicativos para o ambiente de nuvem. A partir de estudos sobre as soluções de elasticidade para nuvens de computação desenvolvidas, observou-se a concentração de soluções de elasticidade com foco no gerenciamento de recursos de processamento e armazenamento para aplicações do tipo cliente-servidor. Porém, no caso das aplicações de distribuição de conteúdo, os recursos de rede que são limitados e também devem ser gerenciados de forma a evitar desperdícios. Devido a estas características, é interessante o desenvolvimento de uma plataforma aberta para a criação de aplicações distribuídas que auxiliem o gerenciamento de recursos e elasticidade no contexto de computação em nuvem. Esta dissertação apresenta o Trade Wind, uma solução que permite o desenvolvimento de aplicações e serviços distribuídos para o gerenciamento automático de recursos e elasticidade em nuvens de computação. A solução é composta por um modelo de desenvolvimento de soluções elásticas, um modelo de composição de aplicações a partir da implementação de funcionalidades e serviços, uma arquitetura e um middleware. Para a avaliação e validação da solução proposta foi implementado um protótipo de testes e uma aplicação de distribuição de fluxos de vídeo em tempo real, com redução automática de fluxos redundantes. Os resultados obtidos validaram o funcionamento da aplicação de prova de conceito adaptada para o funcionamento em conjunto com o Trade Wind, assim como sua funcionalidade adicional de fornecimento de fluxos de vídeo em multicanais. A aplicação de redução de fluxos redundantes provou reduzir pela metade o consumo de banda no cenário de teste configurado, tendo potencial de maior economia no caso de aumento do número de fluxos redundantes. / Research projects have started working on cloud computing platforms to help cloud applications to be developed in an easiest manner, from year 2000 on. Studies about cloud computing elasticity solutions showed many works were focusing in processing and storage resource management for client-server applications. However, only a small number of research works explore the potential of application contexts regarding network resource management (e.g., content distribution applications). Therefore it is interesting to develop an open platform for distributed applications development helping to manage resources and elasticity in clouds. This dissertation presents Trade Wind, a solution to help the development of distributed applications and services for cloud computing resource and elasticity management. The solution is composed by an elastic application development model, an application compostion model from features and services development, an architecture and a middleware. In order to evaluate and validate the suggested solution, it was developed a test prototype implementing an application for real time video streams distribution utilizing an automatic redundant streams reduction feature. The results collected from the test executions validate Trade Wind solution running the adapted proof of concept application. The tests also showed the multichannel feature added working in a adequate manner. The redundant streams reduction application has proven to reduce bandwidth consumption by the half in the configured test scenarios. And it also has potential to save more bandwidth resources in a scenario with higher number of redundant video streams. Aplicações distribuídas Automatic resource management Cloud computing Computação em nuvem Distributed applications Gerenciamento automático de recursos Middleware Middleware

Search results