Global ETD Search

1	Um sistema de arquivos com blocos distribuídos e acesso a informações de localidade de dados. / A file system with distributed blocks and access to data locality information. Sugawara Júnior, Ricardo Ryoiti 30 April 2014 (has links) Muitos sistemas recentes de processamento paralelo e distribuído trabalham com acesso intensivo a dados, combinando facilidades de computação e armazenamento de dados para a construção de sistemas de grande escala, com custos reduzidos. Nesses sistemas, a interligação de um grande número de nós resulta na divisão sucessiva da capacidade de transferência, tornando a movimentação de dados um importante fator de limitação de desempenho. Ao se escalonar as tarefas computacionais em nós próximos dos dados, melhorias significativas no desempenho podem ser obtidas. Entretanto, a informação sobre a localidade dos dados não está facilmente acessível para o programador. Seu uso requer a interação com rotinas internas dos sistemas de arquivos, ou exige a adoção de um modelo de programação específico, normalmente associado a uma plataforma de execução já preparada para escalonar tarefas com aproveitamento da localidade dos dados. Este trabalho desenvolve a proposta de um mecanismo e interface para prover acesso a informações de localidade, além de permitir o controle da distribuição de novos dados. As operações de consulta e controle são realizadas por meio de arquivos e diretórios especiais, adicionados de forma transparente a um sistema de arquivos com blocos de dados distribuídos, apropriado para a execução em ambientes de processamento paralelo. O sistema é denominado parfs e permite obter as informações de localidade com operações de leitura e escrita em arquivos comuns, sem a necessidade do uso de bibliotecas ou modelos de programação específicos. Testes foram realizados para avaliar a proposta. Utilizando o escalonamento seletivo de operações de acesso a dados, baseado na informação de localidade, foram obtidos ganhos significativos de desempenho nessas operações. / Many recent data intensive parallel processing systems are built with cost effective hardware and combine compute and storage facilities. In such systems, interconnecting large numbers of nodes results in bandwidth-bisecting networks, making data movement an important performance limiting factor. By distributing jobs near data, significant performance improvements can be achieved. However, data locality information is not easily available to the programmer. It requires interaction with file system internals, or the adoption of custom programming and run-time frameworks providing embedded locality-aware job scheduling. This document develops a proposal of a mechanism and an interface to provide locality information and new data placement control. The query and control tasks are performed through special file and directories transparently added to a distributed file system, suitable for parallel processing environments. The file system is called parfs and allows the use of locality by read and write operations over regular files, with no need of libraries or specific programming models. Tests were conducted to assess the feasibility of the proposal. Through selective scheduling of data operations, based on locality information, significant performance gains were obtained in such operations. Distributed systems File systems Locality principle Princípio da localidade Sistema de arquivos Sistemas distribuídos
2	Um sistema de arquivos com blocos distribuídos e acesso a informações de localidade de dados. / A file system with distributed blocks and access to data locality information. Ricardo Ryoiti Sugawara Júnior 30 April 2014 (has links) Muitos sistemas recentes de processamento paralelo e distribuído trabalham com acesso intensivo a dados, combinando facilidades de computação e armazenamento de dados para a construção de sistemas de grande escala, com custos reduzidos. Nesses sistemas, a interligação de um grande número de nós resulta na divisão sucessiva da capacidade de transferência, tornando a movimentação de dados um importante fator de limitação de desempenho. Ao se escalonar as tarefas computacionais em nós próximos dos dados, melhorias significativas no desempenho podem ser obtidas. Entretanto, a informação sobre a localidade dos dados não está facilmente acessível para o programador. Seu uso requer a interação com rotinas internas dos sistemas de arquivos, ou exige a adoção de um modelo de programação específico, normalmente associado a uma plataforma de execução já preparada para escalonar tarefas com aproveitamento da localidade dos dados. Este trabalho desenvolve a proposta de um mecanismo e interface para prover acesso a informações de localidade, além de permitir o controle da distribuição de novos dados. As operações de consulta e controle são realizadas por meio de arquivos e diretórios especiais, adicionados de forma transparente a um sistema de arquivos com blocos de dados distribuídos, apropriado para a execução em ambientes de processamento paralelo. O sistema é denominado parfs e permite obter as informações de localidade com operações de leitura e escrita em arquivos comuns, sem a necessidade do uso de bibliotecas ou modelos de programação específicos. Testes foram realizados para avaliar a proposta. Utilizando o escalonamento seletivo de operações de acesso a dados, baseado na informação de localidade, foram obtidos ganhos significativos de desempenho nessas operações. / Many recent data intensive parallel processing systems are built with cost effective hardware and combine compute and storage facilities. In such systems, interconnecting large numbers of nodes results in bandwidth-bisecting networks, making data movement an important performance limiting factor. By distributing jobs near data, significant performance improvements can be achieved. However, data locality information is not easily available to the programmer. It requires interaction with file system internals, or the adoption of custom programming and run-time frameworks providing embedded locality-aware job scheduling. This document develops a proposal of a mechanism and an interface to provide locality information and new data placement control. The query and control tasks are performed through special file and directories transparently added to a distributed file system, suitable for parallel processing environments. The file system is called parfs and allows the use of locality by read and write operations over regular files, with no need of libraries or specific programming models. Tests were conducted to assess the feasibility of the proposal. Through selective scheduling of data operations, based on locality information, significant performance gains were obtained in such operations. Princípio da localidade Sistema de arquivos Sistemas distribuídos Distributed systems File systems Locality principle
3	Os desafios na implementação do sistema de arquivos na Universidade Federal de Juiz de Fora: o caso da CAP/PROGEPE Andrade, Felipe Henrique Alves de 24 August 2017 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-12-07T17:28:57Z No. of bitstreams: 1 felipehenriquealvesdeandrade.pdf: 1074903 bytes, checksum: 5c92d58ca7f3543be228caa1dfc05438 (MD5) / Approved for entry into archive by Renata Lopes (renatasil82@gmail.com) on 2017-12-22T16:36:52Z (GMT) No. of bitstreams: 1 felipehenriquealvesdeandrade.pdf: 1074903 bytes, checksum: 5c92d58ca7f3543be228caa1dfc05438 (MD5) / Made available in DSpace on 2017-12-22T16:36:52Z (GMT). No. of bitstreams: 1 felipehenriquealvesdeandrade.pdf: 1074903 bytes, checksum: 5c92d58ca7f3543be228caa1dfc05438 (MD5) Previous issue date: 2017-08-24 / A presente dissertação foi desenvolvida no âmbito do Mestrado Profissional em Gestão e Avaliação da Educação Pública (PPGP) do Centro de Políticas Públicas e Avaliação da Educação da Universidade Federal de Juiz de Fora (CAEd/UFJF). O caso de gestão estudado discute os caminhos e implicações práticas na adoção de uma política de arquivos universitária dedicada a pensar a gestão de documentos produzidos e recebidos pela UFJF, assumindo como recorte de análise a Coordenação de Administração de Pessoal (CAP) e, em certo grau, a Pró-Reitoria de Gestão de Pessoas (PROGEPE) à qual ela pertence. Nesse cenário, anunciamse desafios postos pelo contexto da expansão planejada e executada no bojo do Programa de Apoio a Planos de Reestruturação e Expansão das Universidades Federais (REUNI). Com isso em mente, define-se como objetivo geral para este estudo promover o diagnóstico sobre o desenvolvimento e implementação do Sistema de Arquivos da UFJF (SIARQ-UFJF) e a política de arquivos adotada pela mesma, de maneira a revelar as falhas dos procedimentos escolhidos que resultam na precarização da gestão e preservação de documentos da vida funcional dos servidores no âmbito da CAP, cenário primordial onde deu-se esta pesquisa. Assim, com o objetivo de identificar os elementos que constituem tais problemas, abordamse autores relacionados ao eixo teórico de arquivologia e política de arquivos universitária. Nesse sentido, destacam-se as contribuições de teóricos como Theodore Schellenberg, Heloísa Bellotto, Jean-Yves Rousseau e Carol Couture, dentre outros. O debate teórico se amplia com a análise de diretrizes e documentos veiculados pela UFJF que esclareçam em que medida estão ocorrendo as discussões sobre a implantação de uma gestão documental universitária. A metodologia de pesquisa adotada é de natureza quali-quantitativa, com uso do viés do caso de gestão, utilizando como instrumentos a aplicação de questionários em servidores da CAP e a realização de entrevistas com gestores da PROGEPE e de outros setores que possuem relevância no cenário das políticas estratégicas dedicadas à gestão documental. A presente pesquisa permitiu concluir, conforme se verificará no decorrer do texto, que ocorre uma configuração inconclusa da política de arquivos a nível institucional, em atendimento aos postulados teóricos e metodológicos recomendados, bem como falta de priorização do trabalho de gestão documental por parte de gestores e detentores do poder decisório, refletindo na ausência de esforços sérios e comprometidos no avanço da implementação da política de arquivos. Em virtude disso, apresenta-se ao final desta dissertação um Plano de Ação Educacional (PAE) composto de recomendações e ações visando fortalecer as práticas de gestão documental na CAP e imbuir seus servidores com conhecimentos e responsabilidades nesse respeito. / This dissertation was developed under the Professional Master in Management and Evaluation of Public Education (PPGP) of the Center for Public Policies and Education Evaluation of the Federal University of Juiz de Fora (CAEd/UFJF). The management case studied discusses the practical ways and implications of adopting a university archives policy dedicated to thinking about the management of documents produced and received by the UFJF, taking as an analysis subject the Coordination of Personnel Administration (CAP) and, in a certain way of degree, the Pro-Rector's Office of People Management (PROGEPE) to which it belongs. In this scenario, there are challenges posed by the context of the planned and executed expansion made possible by the Federal University Restructuring and Expansion Plans Support Program (REUNI). With this in mind, it is defined as general objective for this study to promote the diagnosis about the development and implementation of the Archives System of the UFJF (SIARQ-UFJF) and the archives policy adopted by it, in order to reveal the failures of the chosen procedures that result in the precariousness of the management and preservation of documents belonging to the professional life of the public servants within the scope of the CAP, the priomordial scenario where this research was given. Thus, in order to identify the elements that constitute such problems, this work approaches the authors related to the theoretical axis of archivology and university archives policy. In this sense, the contributions of theorists such as Theodore Schellenberg, Heloísa Bellotto, Jean-Yves Rousseau and Carol Couture, among others, stand out. The theoretical debate expands with the analysis of guidelines and documents conveyed by the UFJF that clarify the extent to which discussions are taking place regarding the implementation of a university documents management. The research methodology adopted is of a qualitative and quantitative nature, using the bias of the management case, using as instruments the application of surveys in CAP's servants and interviews with managers of PROGEPE and other sectors that have relevance in the scenario of the strategic policies dedicated to the documents management. This research led to the conclusion, as it will be verified throughout the text, that there is an unfinished configuration of the archives policy at institutional level, in compliance with the recommended theoretical and methodological postulates, also lack of prioritization on document management work by managers and holders of the decision-making power, reflecting in the absence of serious and committed efforts to advance the implementation of the archives policy. As a result of this, an Educational Action Plan (PAE) composed of recommendations and actions is presented at the end of this dissertation, aiming to strengthen the document management practices in the CAP and imbue its employees with knowledge and responsibilities in this regard. CNPQ::CIENCIAS HUMANAS::EDUCACAO Gestão documental Sistema de arquivos Política de arquivos Documents management Archives system Archives policy
4	Uma arquitetura hierárquica baseada em sistema de arquivos para monitoramento de pacotes de rede no sistema operacional GNU/Linux / A hierarchical architecture based on the file system for monitoring network packets on GNU / Linuxoperating system Leal, Beraldo Costa 14 October 2013 (has links) Capturar e analisar pacotes de dados que trafegam pelas redes são tarefas essenciais para os administradores de redes. Estas tarefas ajudam na detecção de anomalias nos sistemas e na verificação do estado atual da rede. Existem várias aplicações que desempenham este papel para o sistema operacional GNU/Linux. Estes programas também exportam informações para os usuários e outras aplicações de várias maneiras. Entretanto, não exportam estas informações de forma hierárquica. Esta pesquisa propõe uma arquitetura alternativa aos sistemas atuais. Nossa arquitetura exporta pacotes de dados em uma estrutura hierárquica de arquivos e diretórios. Além disso, por se tratar de uma arquitetura modular, filtros adicionais, desenvolvidos por terceiros, podem ser adicionados ao sistema. A arquitetura proposta acompanha uma implementação de referência: o sistema de arquivos virtuais netsfs (Network Statistics File System), que funciona em espaço de núcleo (kernel space). A arquitetura e o sistema de arquivos netsfs, propostos nesta pesquisa, apresentam um método alternativo para exibir os pacotes de redes. Os resultados mostraram uma aparente melhoria no que diz respeito à vazão da rede. / Capturing and analyzing data packets flowing across networks are essential tasks for network administrators. These tasks help to detect anomalies in the systems and check the current status of a network. There are software applications for the GNU/Linux operating system which perform such tasks. These tools also export their information to users and other applications in different ways. However, current systems do not export this information in a hierarchical manner. This research introduces an alternative architecture to current systems. Our architecture exports data packets in a hierarchical structure of directories and files. Furthermore, since this is a modular architecture, additional third-party filters can be developed and loaded into the system. The proposed architecture comes with a reference implementation: the pseudo file system netsfs (Network Statistics File System), in kernel space. The architecture and the pseudo file system netsfs, developed in this research, introduce an alternative method to display data packets. Results show an apparent improvement regarding network throughput file system GNU GNU kernel kernel linux linux netsfs netsfs network núcleo operational systems packets pacotes redes sistema de arquivos sistema operacional TCP/IP TCP/IP
5	Sistemas de arquivos paralelos: alternativas para a redução do gargalo no acesso ao sistema de arquivos / Parallel File Systems: alternatives to reduce the bottleneck in accessing the file system Carvalho, Roberto Pires de 23 September 2005 (has links) Nos últimos anos, a evolução dos processadores e redes para computadores de baixo custo foi muito maior se comparada com o aumento do desempenho dos discos de armazenamento de dados. Com isso, muitas aplicações estão encontrando dificuldades em atingir o pleno uso dos processadores, pois estes têm de esperar até que os dados cheguem para serem utilizados. Uma forma popular para resolver esse tipo de empecílio é a adoção de sistemas de arquivos paralelos, que utilizam a velocidade da rede local, além dos recursos de cada máquina, para suprir a deficiência de desempenho no uso isolado de cada disco. Neste estudo, analisamos alguns sistemas de arquivos paralelos e distribuídos, detalhando aqueles mais interessantes e importantes. Por fim, mostramos que o uso de um sistema de arquivos paralelo pode ser mais eficiente e vantajoso que o uso de um sistema de arquivos usual, para apenas um cliente. / In the last years, the evolution of the data processing power and network transmission for low cost computers was much bigger if compared to the increase of the speed of getting the data stored in disks. Therefore, many applications are finding difficulties in reaching the full use of the processors, because they have to wait until the data arrive before using. A popular way to solve this problem is to use a parallel file system, which uses the local network speed to avoid the performance bottleneck found in an isolated disk. In this study, we analyze some parallel and distributed file systems, detailing the most interesting and important ones. Finally, we show the use of a parallel file system can be more efficient than the use of a usual local file system, for just one client. acesso concorrente afs afs availability bridge bridge ceft-pvfs ceft-pvfs coda coda computação distribuída computação paralela concurrent access disco magnético disco rígido disponibilidade distributed computing distributed file system escalabilidade fail over file replication file service file system file system bottleneck gargalo no sistema de arquivos gfs gfs hard disk ide ide latência latency magnetic disk nfs nfs nfsp nfsp parallel computing parallel file system pio pio pvfs pvfs pvfs2 pvfs2 replicação de arquivos sad scalability scsi scsi security segurança serviço de arquivos sistema de arquivos sistema de arquivos distribuídos sistema de arquivos paralelos sprite sprite sva sva tolerância a falhas
6	Sistemas de arquivos paralelos: alternativas para a redução do gargalo no acesso ao sistema de arquivos / Parallel File Systems: alternatives to reduce the bottleneck in accessing the file system Roberto Pires de Carvalho 23 September 2005 (has links) Nos últimos anos, a evolução dos processadores e redes para computadores de baixo custo foi muito maior se comparada com o aumento do desempenho dos discos de armazenamento de dados. Com isso, muitas aplicações estão encontrando dificuldades em atingir o pleno uso dos processadores, pois estes têm de esperar até que os dados cheguem para serem utilizados. Uma forma popular para resolver esse tipo de empecílio é a adoção de sistemas de arquivos paralelos, que utilizam a velocidade da rede local, além dos recursos de cada máquina, para suprir a deficiência de desempenho no uso isolado de cada disco. Neste estudo, analisamos alguns sistemas de arquivos paralelos e distribuídos, detalhando aqueles mais interessantes e importantes. Por fim, mostramos que o uso de um sistema de arquivos paralelo pode ser mais eficiente e vantajoso que o uso de um sistema de arquivos usual, para apenas um cliente. / In the last years, the evolution of the data processing power and network transmission for low cost computers was much bigger if compared to the increase of the speed of getting the data stored in disks. Therefore, many applications are finding difficulties in reaching the full use of the processors, because they have to wait until the data arrive before using. A popular way to solve this problem is to use a parallel file system, which uses the local network speed to avoid the performance bottleneck found in an isolated disk. In this study, we analyze some parallel and distributed file systems, detailing the most interesting and important ones. Finally, we show the use of a parallel file system can be more efficient than the use of a usual local file system, for just one client. acesso concorrente afs bridge ceft-pvfs coda computação distribuída computação paralela disco magnético disco rígido disponibilidade escalabilidade gargalo no sistema de arquivos gfs ide latência nfs nfsp pio pvfs pvfs2 replicação de arquivos sad scsi segurança serviço de arquivos sistema de arquivos sistema de arquivos distribuídos sistema de arquivos paralelos sprite sva tolerância a falhas afs availability bridge ceft-pvfs coda concurrent access distributed computing distributed file system fail over file replication file service file system file system bottleneck gfs hard disk ide latency magnetic disk nfs nfsp parallel computing parallel file system pio pvfs pvfs2 scalability scsi security sprite sva
7	Uma arquitetura hierárquica baseada em sistema de arquivos para monitoramento de pacotes de rede no sistema operacional GNU/Linux / A hierarchical architecture based on the file system for monitoring network packets on GNU / Linuxoperating system Beraldo Costa Leal 14 October 2013 (has links) Capturar e analisar pacotes de dados que trafegam pelas redes são tarefas essenciais para os administradores de redes. Estas tarefas ajudam na detecção de anomalias nos sistemas e na verificação do estado atual da rede. Existem várias aplicações que desempenham este papel para o sistema operacional GNU/Linux. Estes programas também exportam informações para os usuários e outras aplicações de várias maneiras. Entretanto, não exportam estas informações de forma hierárquica. Esta pesquisa propõe uma arquitetura alternativa aos sistemas atuais. Nossa arquitetura exporta pacotes de dados em uma estrutura hierárquica de arquivos e diretórios. Além disso, por se tratar de uma arquitetura modular, filtros adicionais, desenvolvidos por terceiros, podem ser adicionados ao sistema. A arquitetura proposta acompanha uma implementação de referência: o sistema de arquivos virtuais netsfs (Network Statistics File System), que funciona em espaço de núcleo (kernel space). A arquitetura e o sistema de arquivos netsfs, propostos nesta pesquisa, apresentam um método alternativo para exibir os pacotes de redes. Os resultados mostraram uma aparente melhoria no que diz respeito à vazão da rede. / Capturing and analyzing data packets flowing across networks are essential tasks for network administrators. These tasks help to detect anomalies in the systems and check the current status of a network. There are software applications for the GNU/Linux operating system which perform such tasks. These tools also export their information to users and other applications in different ways. However, current systems do not export this information in a hierarchical manner. This research introduces an alternative architecture to current systems. Our architecture exports data packets in a hierarchical structure of directories and files. Furthermore, since this is a modular architecture, additional third-party filters can be developed and loaded into the system. The proposed architecture comes with a reference implementation: the pseudo file system netsfs (Network Statistics File System), in kernel space. The architecture and the pseudo file system netsfs, developed in this research, introduce an alternative method to display data packets. Results show an apparent improvement regarding network throughput GNU kernel linux netsfs núcleo pacotes redes sistema de arquivos sistema operacional TCP/IP file system GNU kernel linux netsfs network operational systems packets TCP/IP
8	Energy savings and performance improvements with SSDs in the Hadoop Distributed File System / Economia de energia e aumento de desempenho usando SSDs no Hadoop Distributed File System Polato, Ivanilton 29 August 2016 (has links) Energy issues gathered strong attention over the past decade, reaching IT data processing infrastructures. Now, they need to cope with such responsibility, adjusting existing platforms to reach acceptable performance while promoting energy consumption reduction. As the de facto platform for Big Data, Apache Hadoop has evolved significantly over the last years, with more than 60 releases bringing new features. By implementing the MapReduce programming paradigm and leveraging HDFS, its distributed file system, Hadoop has become a reliable and fault tolerant middleware for parallel and distributed computing over large datasets. Nevertheless, Hadoop may struggle under certain workloads, resulting in poor performance and high energy consumption. Users increasingly demand that high performance computing solutions address sustainability and limit energy consumption. In this thesis, we introduce HDFSH, a hybrid storage mechanism for HDFS, which uses a combination of Hard Disks and Solid-State Disks to achieve higher performance while saving power in Hadoop computations. HDFSH brings, to the middleware, the best from HDs (affordable cost per GB and high storage capacity) and SSDs (high throughput and low energy consumption) in a configurable fashion, using dedicated storage zones for each storage device type. We implemented our mechanism as a block placement policy for HDFS, and assessed it over six recent releases of Hadoop with different architectural properties. Results indicate that our approach increases overall job performance while decreasing the energy consumption under most hybrid configurations evaluated. Our results also showed that, in many cases, storing only part of the data in SSDs results in significant energy savings and execution speedups / Ao longo da última década, questões energéticas atraíram forte atenção da sociedade, chegando às infraestruturas de TI para processamento de dados. Agora, essas infraestruturas devem se ajustar a essa responsabilidade, adequando plataformas existentes para alcançar desempenho aceitável enquanto promovem a redução no consumo de energia. Considerado um padrão para o processamento de Big Data, o Apache Hadoop tem evoluído significativamente ao longo dos últimos anos, com mais de 60 versões lançadas. Implementando o paradigma de programação MapReduce juntamente com o HDFS, seu sistema de arquivos distribuídos, o Hadoop tornou-se um middleware tolerante a falhas e confiável para a computação paralela e distribuída para grandes conjuntos de dados. No entanto, o Hadoop pode perder desempenho com determinadas cargas de trabalho, resultando em elevado consumo de energia. Cada vez mais, usuários exigem que a sustentabilidade e o consumo de energia controlado sejam parte intrínseca de soluções de computação de alto desempenho. Nesta tese, apresentamos o HDFSH, um sistema de armazenamento híbrido para o HDFS, que usa uma combinação de discos rígidos e discos de estado sólido para alcançar maior desempenho, promovendo economia de energia em aplicações usando Hadoop. O HDFSH traz ao middleware o melhor dos HDs (custo acessível por GB e grande capacidade de armazenamento) e SSDs (alto desempenho e baixo consumo de energia) de forma configurável, usando zonas de armazenamento dedicadas para cada dispositivo de armazenamento. Implementamos nosso mecanismo como uma política de alocação de blocos para o HDFS e o avaliamos em seis versões recentes do Hadoop com diferentes arquiteturas de software. Os resultados indicam que nossa abordagem aumenta o desempenho geral das aplicações, enquanto diminui o consumo de energia na maioria das configurações híbridas avaliadas. Os resultados também mostram que, em muitos casos, armazenar apenas uma parte dos dados em SSDs resulta em economia significativa de energia e aumento na velocidade de execução Armazenamento híbrido Computação verde Discos de estado sólido Distributed file systems Eficiência energética Energy efficiency Green computing Hadoop Hadoop HDFS HDFS Hybrid storage Parallel file systems Sistema de arquivos distribuído Sistemas de arquivos paralelo Solid-state disk SSDs SSDs
9	Energy savings and performance improvements with SSDs in the Hadoop Distributed File System / Economia de energia e aumento de desempenho usando SSDs no Hadoop Distributed File System Ivanilton Polato 29 August 2016 (has links) Energy issues gathered strong attention over the past decade, reaching IT data processing infrastructures. Now, they need to cope with such responsibility, adjusting existing platforms to reach acceptable performance while promoting energy consumption reduction. As the de facto platform for Big Data, Apache Hadoop has evolved significantly over the last years, with more than 60 releases bringing new features. By implementing the MapReduce programming paradigm and leveraging HDFS, its distributed file system, Hadoop has become a reliable and fault tolerant middleware for parallel and distributed computing over large datasets. Nevertheless, Hadoop may struggle under certain workloads, resulting in poor performance and high energy consumption. Users increasingly demand that high performance computing solutions address sustainability and limit energy consumption. In this thesis, we introduce HDFSH, a hybrid storage mechanism for HDFS, which uses a combination of Hard Disks and Solid-State Disks to achieve higher performance while saving power in Hadoop computations. HDFSH brings, to the middleware, the best from HDs (affordable cost per GB and high storage capacity) and SSDs (high throughput and low energy consumption) in a configurable fashion, using dedicated storage zones for each storage device type. We implemented our mechanism as a block placement policy for HDFS, and assessed it over six recent releases of Hadoop with different architectural properties. Results indicate that our approach increases overall job performance while decreasing the energy consumption under most hybrid configurations evaluated. Our results also showed that, in many cases, storing only part of the data in SSDs results in significant energy savings and execution speedups / Ao longo da última década, questões energéticas atraíram forte atenção da sociedade, chegando às infraestruturas de TI para processamento de dados. Agora, essas infraestruturas devem se ajustar a essa responsabilidade, adequando plataformas existentes para alcançar desempenho aceitável enquanto promovem a redução no consumo de energia. Considerado um padrão para o processamento de Big Data, o Apache Hadoop tem evoluído significativamente ao longo dos últimos anos, com mais de 60 versões lançadas. Implementando o paradigma de programação MapReduce juntamente com o HDFS, seu sistema de arquivos distribuídos, o Hadoop tornou-se um middleware tolerante a falhas e confiável para a computação paralela e distribuída para grandes conjuntos de dados. No entanto, o Hadoop pode perder desempenho com determinadas cargas de trabalho, resultando em elevado consumo de energia. Cada vez mais, usuários exigem que a sustentabilidade e o consumo de energia controlado sejam parte intrínseca de soluções de computação de alto desempenho. Nesta tese, apresentamos o HDFSH, um sistema de armazenamento híbrido para o HDFS, que usa uma combinação de discos rígidos e discos de estado sólido para alcançar maior desempenho, promovendo economia de energia em aplicações usando Hadoop. O HDFSH traz ao middleware o melhor dos HDs (custo acessível por GB e grande capacidade de armazenamento) e SSDs (alto desempenho e baixo consumo de energia) de forma configurável, usando zonas de armazenamento dedicadas para cada dispositivo de armazenamento. Implementamos nosso mecanismo como uma política de alocação de blocos para o HDFS e o avaliamos em seis versões recentes do Hadoop com diferentes arquiteturas de software. Os resultados indicam que nossa abordagem aumenta o desempenho geral das aplicações, enquanto diminui o consumo de energia na maioria das configurações híbridas avaliadas. Os resultados também mostram que, em muitos casos, armazenar apenas uma parte dos dados em SSDs resulta em economia significativa de energia e aumento na velocidade de execução Armazenamento híbrido Computação verde Discos de estado sólido Eficiência energética Hadoop HDFS Sistema de arquivos distribuído Sistemas de arquivos paralelo SSDs Distributed file systems Energy efficiency Green computing Hadoop HDFS Hybrid storage Parallel file systems Solid-state disk SSDs

Search results