Return to search

Uma abordagem não intrusiva e automática para configuração do Hadoop / An approach non intrusive and automation for Hadoop configuration

The amount of digital data produce in the last years has increased significantly. MapRe-
duce framework such as Hadoop have been widely used for processing big data on top of

cloud resources. In spite of these advances, contemporary systems are complex and dy-
namic which makes them hard to configure in order to improve application performance.

Software auto-tuning is a solution to this problem as it helps developers and system ad-
ministrators to handle hundreds of system parameters. For example, current work in

the literature use machine learning algorithms for Hadoop automatic configuration to

improve performance. However, these solutions use single machine learning algorithms,

thus making unfeasible to compare these solutions with each other to understand which

approach is best suited given an application and its input. In addition, current work is

intrusive or expose operational details for developers and/or system administrators. This

work proposes a transparent, modular and hybrid approach to improve the performance

of Hadoop applications. The approach proposes an architecture and implementation of

transparent software that automatically configures the Hadoop. Furthermore, this ap-
proach proposes a hybrid solution that combines genetic algorithms with various machine

learning techniques as separate modules. A research prototype was implemented and eval-
uated proving that the proposed approach can significantly reduce the execution time of

applications Hadoop WordCount and Terasort autonomously. Furthermore, the approach

converges quickly to the most suitable configuration application with low overhead. / Nas últimas décadas, a quantidade de dados gerados no mundo tem aumentado de maneira
significativa. A Computação em Nuvem juntamente com o modelo de programação Map-
Reduce, através do arcabouço Hadoop, têm sido utilizados para o processamento desses
dados. Contudo, os sistemas contemporâneos ainda são complexos e dinâmicos, tornando-se
difíceis de se configurar. A configuração automática de software é uma solução para esse
problema, ajudando os programadores e administradores gerir a complexidade desses sistemas.
Por exemplo, há soluções na literatura que utilizam aprendizado de máquina para
a configuração automática do Hadoop com o intuito de melhorar o desempenho das suas
aplicações. Apesar desses avanços, as soluções atuais para configurar automaticamente
o Hadoop utilizam soluções muito específicas, aplicando algoritmos de aprendizagem de
máquinas isoladamente. Assim, esses algoritmos não são comparados entre si para entender
qual abordagem é mais adequada para a configuração automática do Hadoop. Além
disso, essas soluções são intrusivas, ou seja, expõem detalhes operacionais para programadores
e/ou administradores de sistemas. Esse trabalho tem por objetivo propor uma
abordagem transparente, modular e híbrida para melhorar o desempenho de aplicações
Hadoop. A abordagem propõe uma arquitetura e implementação de software transparente
que configura automaticamente o Hadoop. Além disso, a abordagem propõe uma solução
híbrida que combina Algoritmos Genéticos e várias técnicas de aprendizado de máquina
(machine learning) implementadas em módulos separados. Um protótipo de pesquisa foi
implementado a avaliado mostrando que a abordagem proposta consegue diminuir significativamente o tempo de execução das aplicações Hadoop WordCount e Terasort. Além
disso, a abordagem consegue convergir rapidamente para a configuração mais adequada
de cada aplicação, alcançando baixos níveis de custos adicionais (overhead).

Identiferoai:union.ndltd.org:IBICT/oai:www.repositorio.ufal.br:riufal/1719
Date29 September 2015
CreatorsAlves, Nathália de Meneses
ContributorsFreitas, André Lage, http://lattes.cnpq.br/3203407648310274, Machado, Aydano Pamponet, http://lattes.cnpq.br/9314020351211705, Ramos Filho, Heitor Soares, http://lattes.cnpq.br/4978869867640619, Brasileiro, Francisco Vilar, http://lattes.cnpq.br/5957855817378897
PublisherUniversidade Federal de Alagoas, Brasil, Programa de Pós-Graduação em Informática, UFAL
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFAL, instname:Universidade Federal de Alagoas, instacron:UFAL
Rightsinfo:eu-repo/semantics/openAccess
Relationbitstream:http://www.repositorio.ufal.br:8080/bitstream/riufal/1719/2/license.txt, bitstream:http://www.repositorio.ufal.br:8080/bitstream/riufal/1719/1/Uma+abordagem+n%C3%A3o+intrusiva+e+autom%C3%A1tica+para+configura%C3%A7%C3%A3o+do+Hadoop.pdf

Page generated in 0.002 seconds