Return to search

Framework para execução adaptativa e tolerante a falhas de workflows em grid

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2010. / Submitted by Luiza Moreira Camargo (luizaamc@gmail.com) on 2011-06-20T17:36:29Z
No. of bitstreams: 1
2010_FelipePontesGuimarães.pdf: 3025286 bytes, checksum: 90ebea4efc3733e40b3ce19f7925beda (MD5) / Approved for entry into archive by Guilherme Lourenço Machado(gui.admin@gmail.com) on 2011-06-21T13:43:47Z (GMT) No. of bitstreams: 1
2010_FelipePontesGuimarães.pdf: 3025286 bytes, checksum: 90ebea4efc3733e40b3ce19f7925beda (MD5) / Made available in DSpace on 2011-06-21T13:43:47Z (GMT). No. of bitstreams: 1
2010_FelipePontesGuimarães.pdf: 3025286 bytes, checksum: 90ebea4efc3733e40b3ce19f7925beda (MD5) / A computação em Grid proporciona a seus usuários o compartilhamento de recursos autônomos e heterogêneos para solucionar problemas computacionais de grande complexidade. Em um Grid, os recursos possuem autonomia, logo podem entrar e sair do mesmo conforme suas necessidades. A computação em Grid é frequentemente usada para executar worflows científicos, que são uma rede de passos necessários à análise de grande volume de dados. Geralmente, a execução de workflows científicos é demorada, podendo levar vários minutos, várias horas ou mesmo dias. Ao se associar essas duas características - um ambiente dinâmico e workflows de longa duração - surge um problema: não há como se impedir que os recursos saiam do Grid durante a execução de tarefas de um workflow, causando assim um erro na execução. Não se pode, no entanto, permitir que tais erros inviabilizem a execução do workflow. Para contornar esse problema existem técnicas de tolerância a falhas, que procuram garantir que, mesmo em face de falhas na execução de algumas tarefas, o workflow como um todo será executado corretamente. Vários trabalhos lidam com técnicas de tolerância a falhas para workflows em Grid e várias técnicas diferentes já existem. No entanto, nenhuma das abordagens estudadas considera, em conjunto, as preferências do usuário e a situação atual do Grid. A presente dissertação de mestrado propõe e avalia um framework de execução adaptativa tolerante a falhas que permite ao usuário definir as regras pelas quais a seleção das técnicas de tolerância a falhas será realizada em tempo de execução e também permite a adição de novas técnicas de tolerância a falhas. Os resultados experimentais obtidos em um Grid com 5 máquinas mostram que o framework proposto de fato permite a definição de regras pelo usuário e a inclusão de novas técnicas de tolerância a falhas. Além disso, a sobrecarga no tempo de execução dos workflows foi baixo: cerca de 2%, na plataforma avaliada. ___________________________________________________________________________________ ABSTRACT / Grid computing allows its users to share autonomous and heterogeneous resources to solve highly complex computational problems. It creates an extremely dynamic environment, in which the resources may enter or leave at any given moment according to their needs. One of the major uses of Grid computing is the execution of scientific workflows, a set of necessary steps for analyzing great amounts of data. The execution time of these workflows may vary from several minutes to days. Once we combine these two characteristics - a dynamic environment and long execution times - a problem arises, since there is no mechanism to prevent resources from leaving the Grid during the execution of a task belonging to a workflow, thus introducing an error in the execution. However, the ocurrence of these errors must not make unfeasible the workflow execution. To deal with this issue fault tolerance techniques have been proposed. They allow for correct workflow execution even when facing errors during a number of faults in intermediary tasks. Many published papers deal with fault tolerance techniques for workflow execution in the Grid, but none of the studied approaches consider both the user preferences and the current status of the Grid. The current Master's Thesis proposes and evaluates a framework that provides adaptive fault tolerant execution for workflows in Grids allowing the user to define the rules by which the fault tolerance techniques will be chosen at runtime. Moreover, it allows the addition of new fault tolerance techniques. The experimental results obtained from a 5-machine Grid show that the framework is able to allow the user to set the rules and add new fault tolerance techniques at the cost of a very low overhead in the execution time: around 2% in the evalution platform.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/8528
Date14 October 2010
CreatorsGuimarães, Felipe Pontes
ContributorsMelo, Alba Cristina Magalhães Alves de
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0062 seconds