The amount of digital data produce in the last years has increased significantly. MapRe-
duce framework such as Hadoop have been widely used for processing big data on top of
cloud resources. In spite of these advances, contemporary systems are complex and dy-
namic which makes them hard to configure in order to improve application performance.
Software auto-tuning is a solution to this problem as it helps developers and system ad-
ministrators to handle hundreds of system parameters. For example, current work in
the literature use machine learning algorithms for Hadoop automatic configuration to
improve performance. However, these solutions use single machine learning algorithms,
thus making unfeasible to compare these solutions with each other to understand which
approach is best suited given an application and its input. In addition, current work is
intrusive or expose operational details for developers and/or system administrators. This
work proposes a transparent, modular and hybrid approach to improve the performance
of Hadoop applications. The approach proposes an architecture and implementation of
transparent software that automatically configures the Hadoop. Furthermore, this ap-
proach proposes a hybrid solution that combines genetic algorithms with various machine
learning techniques as separate modules. A research prototype was implemented and eval-
uated proving that the proposed approach can significantly reduce the execution time of
applications Hadoop WordCount and Terasort autonomously. Furthermore, the approach
converges quickly to the most suitable configuration application with low overhead. / Nas últimas décadas, a quantidade de dados gerados no mundo tem aumentado de maneira
significativa. A Computação em Nuvem juntamente com o modelo de programação Map-
Reduce, através do arcabouço Hadoop, têm sido utilizados para o processamento desses
dados. Contudo, os sistemas contemporâneos ainda são complexos e dinâmicos, tornando-se
difíceis de se configurar. A configuração automática de software é uma solução para esse
problema, ajudando os programadores e administradores gerir a complexidade desses sistemas.
Por exemplo, há soluções na literatura que utilizam aprendizado de máquina para
a configuração automática do Hadoop com o intuito de melhorar o desempenho das suas
aplicações. Apesar desses avanços, as soluções atuais para configurar automaticamente
o Hadoop utilizam soluções muito específicas, aplicando algoritmos de aprendizagem de
máquinas isoladamente. Assim, esses algoritmos não são comparados entre si para entender
qual abordagem é mais adequada para a configuração automática do Hadoop. Além
disso, essas soluções são intrusivas, ou seja, expõem detalhes operacionais para programadores
e/ou administradores de sistemas. Esse trabalho tem por objetivo propor uma
abordagem transparente, modular e híbrida para melhorar o desempenho de aplicações
Hadoop. A abordagem propõe uma arquitetura e implementação de software transparente
que configura automaticamente o Hadoop. Além disso, a abordagem propõe uma solução
híbrida que combina Algoritmos Genéticos e várias técnicas de aprendizado de máquina
(machine learning) implementadas em módulos separados. Um protótipo de pesquisa foi
implementado a avaliado mostrando que a abordagem proposta consegue diminuir significativamente o tempo de execução das aplicações Hadoop WordCount e Terasort. Além
disso, a abordagem consegue convergir rapidamente para a configuração mais adequada
de cada aplicação, alcançando baixos níveis de custos adicionais (overhead).
Identifer | oai:union.ndltd.org:IBICT/oai:www.repositorio.ufal.br:riufal/1719 |
Date | 29 September 2015 |
Creators | Alves, Nathália de Meneses |
Contributors | Freitas, André Lage, http://lattes.cnpq.br/3203407648310274, Machado, Aydano Pamponet, http://lattes.cnpq.br/9314020351211705, Ramos Filho, Heitor Soares, http://lattes.cnpq.br/4978869867640619, Brasileiro, Francisco Vilar, http://lattes.cnpq.br/5957855817378897 |
Publisher | Universidade Federal de Alagoas, Brasil, Programa de Pós-Graduação em Informática, UFAL |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UFAL, instname:Universidade Federal de Alagoas, instacron:UFAL |
Rights | info:eu-repo/semantics/openAccess |
Relation | bitstream:http://www.repositorio.ufal.br:8080/bitstream/riufal/1719/2/license.txt, bitstream:http://www.repositorio.ufal.br:8080/bitstream/riufal/1719/1/Uma+abordagem+n%C3%A3o+intrusiva+e+autom%C3%A1tica+para+configura%C3%A7%C3%A3o+do+Hadoop.pdf |
Page generated in 0.0021 seconds