1 |
[en] WORKLOAD BALANCING STRATEGIES FOR PARALLEL BLAST EVALUATION ON REPLICATED DATABASES AND PRIMARY FRAGMENTS / [pt] ESTRATÉGIAS DE BALANCEAMENTO DE CARGA PARA AVALIAÇÃO PARALELA DO BLAST COM BASES DE DADOS REPLICADAS E FRAGMENTOS PRIMÁRIOSDANIEL XAVIER DE SOUSA 07 April 2008 (has links)
[pt] Na área de biologia computacional a busca por informações
relevantes em meio a volumes de dados cada vez maiores é
uma atividade fundamental.
Dentre outras, uma tarefa importante é a execução da
ferramenta BLAST (Basic Local Alignment Search Tool), que
possibilita comparar biosseqüências a fim de se descobrir
homologias entre elas e inferir as demais
informações pertinentes. Um dos problemas a serem
resolvidos no que diz respeito ao custo de execução do
BLAST se refere ao tamanho da base de dados, que vem
aumentando consideravelmente nos últimos anos. Avaliar o
BLAST com estrat´egias paralelas e distribuídas com apoio
de agrupamento de computadores tem sido uma das estratégias
mais utilizadas para obter ganhos de desempenho. Nesta
dissertação, é realizada uma alocação física
replicada da base de dados (de seqüências), onde cada
réplica é fragmentada
em partes distintas, algumas delas escolhidas como
primárias. Dessa
forma, é possível mostrar que se aproveitam as principais
vantagens das estratégias de execução sobre bases
replicadas e fragmentadas convencionais,
unindo flexibilidade e paralelismo de E/S. Associada a essa
alocação particular da base, são sugeridas duas formas de
balanceamento dinâmico da carga de trabalho. As abordagens
propostas são realizadas de maneira não
intrusiva no código BLAST. São efetuados testes de
desempenho variados que demonstram não somente a eficácia
no equilíbrio de carga como também
eficiência no processamento como um todo. / [en] A fundamental task in the area of computational biology is
the search
for relevant information within the large amount of
available data.
Among others, it is important to run tools such as BLAST -
Basic Local
Alignment Search Tool - effciently, which enables the
comparison of
biological sequences and discovery of homologies and other
related information.
However, the execution cost of BLAST is highly dependent on
the
database size, which has considerably increased. The
evaluation of BLAST
in distributed and parallel environments like PC clusters
has been largely
investigated in order to obtain better performances. This
work reports a
replicated allocation of the (sequences) database where
each copy is also
physically fragmented, with some fragments assigned as
primary. This way
we show that it is possible to execute BLAST with some nice
characteristics
of both replicated and fragmented conventional strategies,
like flexibility
and I/O parallelism. We propose two dynamic workload
balancing strategies
associated with this data allocation. We have adopted a non-
intrusive
approach, i.e., the BLAST code remains unchanged. These
methods are implemented
and practical results show that we achieve not only a
balanced
workload but also very good performances.
|
2 |
[en] A STUDY ON EVALUATION OF IMPLEMENTATION OF BLAST IN A DISTRIBUTED ENVIRONMENT / [pt] UM ESTUDO SOBRE AVALIAÇÃO DA EXECUÇÃO DO BLAST EM AMBIENTES DISTRIBUÍDOSPAULO ROBERTO GOMES 12 July 2016 (has links)
[pt] Ferramentas BLAST são normalmente utilizadas para efetuar comparações entre sequências de DNA, RNA e proteínas. No entanto, face ao crescimento exponencial das bases biológicas, existe uma preocupação quanto ao desempenho do BLAST, mesmo considerando os equipamentos de grande capacidade computacional hoje existente. Considerando tal fato, algumas ferramentas capazes de executar o BLAST em ambientes distribuídos, tais como clusters e grids, vêm sendo desenvolvidas de modo a acelerar consideravelmente a sua execução. No entanto, até o presente momento, não foi constatado, na literatura existente, nenhum estudo com o objetivo de comprar o desempenho entre essas ferramentas. A avaliação de desempenho dessas ferramentas é normalmente efetuada de forma isolada, considerando apenas o tempo de execução (elapsed time), em situações diversas, como, por exemplo, variando o número de nós em que a ferramenta BLAST é executada.. Almejando uma investigação mais detalhada, principalmente no que diz respeito a avaliação de desempenho do BLAST em ambientes distribuídos, a presente dissertação tem como um dos seus objetivos efetuar um estudo detalhado sobre como comparar o desempenho do BLAST em um ambiente distribuído, considerando para tal, a avaliação de três ferramentas BLAST, dentre elas balaBLAST, desenvolvida no Laborátorio de Bioinformática da PUC-RIO. O segundo objetivo é verificar a eficácia do balanceamento de carga efetuada pela ferramenta balaBLAST. / [en] BLAST tools are typically used to make comparisons between sequences of DNA, RNA and proteins. However, given the exponential growth of the biological databases, there is concern about the performance of BLAST, even considering the equipment of large computing power that exists today. Considering this fact, some tools to run BLAST in distributed environments such as clusters and grids, have been developed to greatly accelerate its performance. However, until now, has not been found in existing literature, no study in order to compare the performance between these tools. The performance evaluation of these tools is usually done in isolation, considering only the execution time (elapsed time) in different situations, for example, varying the number of nodes in the tool BLAST runs. Craving a more detailed investigation, especially with regard to performance evalution of BLAST in distributed environments, this dissertation has as one of your goals make a detailed study to compare the performance of BLAST in a distributed enviroment, considering for such the evaluation of three tools BLAST, among them the balaBLAST developed in the Bioinformatics Laboratory of PUC-Rio. The second objective is to verify the effectiveness of load balancing performed by the tool balaBLAST.
|
Page generated in 0.025 seconds