Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006. / Submitted by Diogo Trindade Fóis (diogo_fois@hotmail.com) on 2009-11-24T10:46:45Z
No. of bitstreams: 1
2006_Edward de Oliveira Ribeiro.pdf: 1709738 bytes, checksum: 915e695fb5277b397e2455f5ea396348 (MD5) / Approved for entry into archive by Carolina Campos(carolinacamposmaia@gmail.com) on 2010-01-11T16:46:22Z (GMT) No. of bitstreams: 1
2006_Edward de Oliveira Ribeiro.pdf: 1709738 bytes, checksum: 915e695fb5277b397e2455f5ea396348 (MD5) / Made available in DSpace on 2010-01-11T16:46:22Z (GMT). No. of bitstreams: 1
2006_Edward de Oliveira Ribeiro.pdf: 1709738 bytes, checksum: 915e695fb5277b397e2455f5ea396348 (MD5)
Previous issue date: 2006-03-27 / Uma área promissora para o projeto e desenvolvimento de sistemas distribuídos tem sido a Bioinformática, um campo de pesquisa interdisciplinar que usa conhecimentos de Ciência da Computação, Matemática e Estatística para resolver problemas de Biologia Molecular. Entretanto, apesar do amplo desenvolvimento e uso de tecnologias distribuídas no comércio, indústria e meio acadêmico, os sistemas distribuídos baseados no modelo Peer-to-Peer (P2P) ainda permanecem relativamente inexplorados no campo científico. Nesta dissertação, propomos uma nova arquitetura distribuída para a execução de aplicações em Bioinformática, particularmente o BLAST (Basic Local Alignment Search Tool), utilizando o modelo P2P. O BLAST é uma família de ferramentas que identifica a similaridade entre seqüências de DNA ou RNA fornecidas pelo usuário e seqüências existentes em bancos de dados de aminoácidos e nucleotídeos. Neste trabalho, projetamos e desenvolvemos um framework, baseado na plataforma P2P JXTA, para distribuir o processamento do BLAST entre dois ou mais domínios remotos utilizando um algoritmo de escalonamento de tarefas do tipo "alternância circular" (round robin) em uma rede privada virtual. O sistema conta ainda com um mecanismo de presença para anunciar o estado (ativo/inativo) dos Peers, e a flexibilidade de adicionar e remover serviços de forma dinâmica, isto é, sem a necessidade de reiniciar a aplicação. Os resultados do processamento do BLAST foram armazenados em um diretório FTP através de uma conexão segura. O banco de dados utilizado pelo BLAST foi o nr, o maior banco de dados de nucleotídeos disponível no National Center for Biotechnology Information (NCBI). Analisamos os ganhos reais de execução de arquivos contendo seqüências de DNA em 10 máquinas, distribuídas entre três domínios remotos, de forma a verificar a aplicabilidade da abordagem P2P em um ambiente de testes real, e o impacto que as limitações de memória RAM de cada máquina exerce sobre o tempo de execução total do sistema. Os bons resultados obtidos motivam novas melhorias no modelo atual, como inclusão de novos algoritmos de escalonamento de tarefas ou mecanismos de tolerância a falhas, além do uso desta arquitetura em projetos reais de Bioinformática. ___________________________________________________________________________________________ ABSTRACT / A rewarding area for the project and design of distributed systems has been Bioinformatics, an interdisciplinary research field that uses knowledge from Computer Science, Mathematics and Statistics to solve problems in Molecular Biology. Nevertheless, in spite of the development and use of distributed technologies in business, industry and academia, distributed systems based on the Peer-to- Peer (P2P) model are still relatively unexplored in the scientific field. In this dissertation, we propose a new distributed architecture to the execution of Bioinformatics applications, particularly the BLAST (Basic Local Alignment Search Tool), using a P2P computing model. The BLAST is a suite of tools that verify the similarity between DNA or RNA sequences issued by the user and the sequences stored in nucleotides and aminoacids databases. In this work, we designed and developed a framework, based on JXTA P2P platform, to distribute BLAST processing among two or more remote sites according to a round robin task-scheduling algorithm in a virtual private network. The system has also a presence mechanism to advertise the status of the Peers (online/offline), and the flexibility to dynamically add or remove services, that is, without restarting the application. The results of the BLAST processing were stored in a FTP directory through a secure connection. The database used by BLAST was nr, the largest nucleotide database available at the National Center for Biotechnology Information (NCBI). We analyzed the real gains of the execution of DNA sequence files in 10 machines, distributed among three remote sites, to verify the applicability of the P2P approach in a real testbed environment, and the impact that RAM memory limitations of each machine has over the total execution time of the system. The good results obtained motivate us new improvements in the current model, like the inclusion of new task scheduling algorithms or fault tolerance mechanisms, and the use of this architecture in real Bioinformatics projects.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.unb.br:10482/3093 |
Date | 27 March 2006 |
Creators | Ribeiro, Edward de Oliveira |
Contributors | Walter, Maria Emília Machado Telles |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Repositório Institucional da UnB, instname:Universidade de Brasília, instacron:UNB |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0074 seconds