21 |
Sistema Aldeia : programação paralela e distribuída em Java sobre Infiniband e DECKRighi, Rodrigo da Rosa January 2005 (has links)
Esse trabalho de dissertação está incluído no contexto das pesquisas realizadas no Grupo de Processamento Paralelo e Distribuído da UFRGS. Ele aborda as áreas da computação de alto desempenho, interfaces simples de programação e de sistemas de interconexão de redes velozes. A máquina paralela formada por agregados (clusters) tem se destacado por apresentar os recursos computacionais necessários às aplicações intensivas que necessitam de alto desempenho. Referente a interfaces de programação, Java tem se mostrado uma boa opção para a escrita de aplicações paralelas por oferecer os sistemas de RMI e de soquetes que realizam comunicação entre dois computadores, além de todas as facilidades da orientação a objetos. Na área a respeito de interconexão de rede velozes está emergindo como uma tentativa de padronização a nova tecnologia Infiniband. Ela proporciona uma baixa latência de comunicação e uma alta vazão de dados, além de uma série de vantagens implementadas diretamente no hardware. É neste contexto que se desenvolve o presente trabalho de dissertação de mestrado. O seu tema principal é o sistema Aldeia que reimplementa a interface bastante conhecida de soquetes Java para realizar comunicação assíncrona em agregados formados por redes de sistema. Em especial, o seu foco é redes configuradas com equipamentos Infiniband. O Aldeia objetiva assim preencher a lacuna de desempenho do sistema padrão de soquetes Java, que além de usar TCP/IP possui um caráter síncrono. Além de Infiniband, o Aldeia também procura usufruir dos avanços já realizados na biblioteca DECK, desenvolvida no GPPD da UFRGS. Com a sua adoção, é possível realizar comunicação com uma interface Java sobre redes Myrinet, SCI, além de TCP/IP. Somada a essa vantagem, a utilização do DECK também proporciona a propriedade de geração de rastros para a depuração de programas paralelos escritos com o Aldeia. Uma das grandes vantagens do Aldeia está na sua capacidade de transmitir dados assincronamente. Usando essa técnica, cálculos da aplicação podem ser realizados concorrentemente com as operações pela rede. Por fim, os canais de dados do Aldeia substituem perfeitamente aqueles utilizados para a serialização de objetos. Nesse mesmo caminho, o Aldeia pode ser integrado à sistemas que utilizem a implementação de soquetes Java, agora para operar sobre redes de alta velocidade. Palavras-chave: Arquitetura Infiniband, agregado de computadores, linguagem de programação Java, alto desempenho, interface de programação.
|
22 |
TFPS : um sistema de pré-processamento de traces para auxiliar na visualização de programas paralelos / TFPS - a traces preprocessing system to aid in parallel programs visualizationStringhini, Denise January 1997 (has links)
O trabalho apresenta o projeto e o desenvolvimento de uma ferramenta para visualização lógica da execução de programas paralelos, a TFPS de Trace File Preprocessor System, cujo objetivo é a analise de desempenho de tais programas. 0 projeto é baseado no pré-processamento de arquivos de traces de execução dos programas. A idéia básica consiste em aproveitar as informações fornecidas pela monitoração. Estas informações, que em geral são utilizadas apenas para dirigir animação post-mortem destes programas, neste caso são utilizadas também na montagem das janelas de visualização. Assim, são descritos o pré-processador e a montagem das janelas de visualização. O primeiro, e responsável principalmente pela leitura e analise das informações contidas no arquivo de trace e pela geração de um arquivo de saída com todas as informações necessárias a montagem das janelas. Estas foram concebidas levando em consideração o tipo de informação que pode ser obtido de um arquivo de trace. Desta forma, foi possível aproximar o conteúdo das janelas de visualização o máximo possível do programa paralelo em analise. Com o objetivo de demonstrar esta aproximação foi construído um protótipo tanto para o pré-processador quanto para a ferramenta de visualização. Ambos os protótipos são descritos neste trabalho. / This study presents the project and development of a logical visualization tool for parallel programs. the TFPS of Trace File Preprocessor System, whose goal is the performance analysis of such programs. The project is based on the preprocessing of trace files of programs' execution. The basic idea consists in making use of the information given by the monitoring process. This information, whose general application is only to drive the post-mortem animation of these programs, is in this case also used to create the visualization displays. Thus, the preprocessor and the creation of visualization displays are described. The first is mainly responsible for reading and analyzing the information present in the trace file and for generating an output file with all information necessary for creating the views. The latter was conceived by taking into consideration the type of information that can be obtained from a trace file. Therefore it was possible to make the content of the visualization displays close to the parallel program that is being analyzed. A prototype of the preprocessor as well as of the visualization tool was built up in order to demonstrate the described approach. Both prototypes are described in this study.
|
23 |
Particionador paralelo de grafos utilizando algoritmos heurísticos para aplicação em simuladores paralelos de reservatórios de petróleoSilva, Leonardo Rogério Binda da 14 March 2014 (has links)
Made available in DSpace on 2016-08-29T15:39:01Z (GMT). No. of bitstreams: 1
tese_7557_Leonardo Rogério Binda da Silva.pdf: 4189335 bytes, checksum: 9b77cb2bc79d6f88555dd532f0f4d83a (MD5)
Previous issue date: 2014-03-14 / O petróleo é atualmente o combustível mais utilizado no mundo. Recuperá-lo com a maior viabilidade econômica possível é uma busca incessante das companhias produtoras. Nesse cenário, a simulação numérica de reservatórios utilizando computadores paralelos de memória distribuída (clusters) desponta como uma importante ferramenta. Esses aplicativos manipulam malhas de pontos discretizados que representam o domínio do reservatório de petróleo. Uma etapa importante da simulação utilizando clusters é o particionamento dessa malha para que cada um dos nós processadores possa executar seus cálculos sobre uma porção da mesma. As malhas de domínio podem ser representadas por grafos. Particionar malhas, então, torna-se um problema de particionamento de grafos. Caso o número de vértices do grafo que representa a malha seja muito elevado, particionadores seriais podem apresentar problemas de desempenho. Particionadores de grafos utilizando clusters surgem como alternativas interessantes nessa situação, minimizando os tempos gastos nos particionamentos. Trata da implementação de um particionador paralelo de grafos para ser utilizado em clusters baseado nas Heurísticas de particionamento propostas e implementadas de maneira serial por Bonatto (2010). O particionador paralelo foi desenvolvido utilizando a linguagem de programação Java e a biblioteca de passagem de mensagens MPJ Express. Tipos abstratos de dados eficientes foram propostos e implementados para que o desempenho fosse otimizado. O particionador de grafos paralelo realizou o corte de diversos grafos, obtendo em sua grande maioria cortes menores do que os encontrados pelo particionador serial de Bonatto (2010) e por programas como o METIS e o CHACO. Melhorias ao particionador serial de Bonatto (2010) foram propostas. Análises de speedup e eficiência paralela foram realizadas para constatar os ganhos de tempos obtidos com a paralelização das heurísticas.
|
24 |
Metaheurísticas de busca local para o problema de sequenciamento de tarefas em máquinas paralelas não relacionadas com tempo de preparação dependente da sequência.Silva, Cristiano Luís Turbino de França e January 2014 (has links)
Submitted by Maurílio Figueiredo (maurilioafigueiredo@yahoo.com.br) on 2014-06-30T19:54:20Z
No. of bitstreams: 2
license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5)
DISSERTAÇÃO_MetaheurísticasBuscaLocal.pdf: 5158364 bytes, checksum: 9ff1b731ffa05dadf988172a590814c1 (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2014-07-07T13:15:13Z (GMT) No. of bitstreams: 2
license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5)
DISSERTAÇÃO_MetaheurísticasBuscaLocal.pdf: 5158364 bytes, checksum: 9ff1b731ffa05dadf988172a590814c1 (MD5) / Made available in DSpace on 2014-07-07T13:15:13Z (GMT). No. of bitstreams: 2
license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5)
DISSERTAÇÃO_MetaheurísticasBuscaLocal.pdf: 5158364 bytes, checksum: 9ff1b731ffa05dadf988172a590814c1 (MD5)
Previous issue date: 2014 / Este trabalho apresenta uma proposta e a avaliação computacional de quatro métodos
de busca local estocástica para o problema de sequenciamento de tarefas em máquinas paralelas não relacionadas com tempo de preparação dependente da sequência (UPMSP - unrelated parallel machine scheduling problem with sequence dependent setup times). As quatro abordagens metaheurísticas que são analisadas para o UPMSP baseam-se em: Simulated Annealing (SA), Iterated Local Search (ILS),
Late Acceptance Hill Climbing (LAHC) e Step Counting Hill Climbing (SCHC). A estrutura das vizinhancas, bem como os parâmetros dos algoritmos, foram amplamente testados e analisados, sendo possível verificar como os parâmetros afetam o comportamento de cada algoritmo implementado e pesquisar os melhores parâmetros. As comparações dos resultados obtidos foram realizadas com os resultados apresentados por Vallada e Ruiz (2011), proponentes do conjunto de 50 instâncias consideradas e, mais recentemente, por Haddad (2012). O método que obteve o melhor resultado nessas 50 instâncias foi testado para todas as 1.000 instâncias grandes, apresentadas por Vallada e Ruiz (2011), melhorando em 96,6% (966 instâncias) a melhor solução conhecida encontrada por esses últimos autores.
__________________________________________________________________________________________ / ABSTRACT: This paper presents a proposal and a computational review of four methods of stochastic local search to the unrelated parallel machine scheduling problem with sequence dependent setup times (UPMSP). The four metaheuristics approaches that are analyzed for the UPMSP are based in: Simulated Annealing (SA), Iterated Local Search (ILS), Late Acceptance Hill Climbing (LAHC) and Step Counting Hill Climbing (SCHC). The structure of neighborhoods, as well as the parameters of the algorithms, were widely tested and analyzed, being possible verify how the parameters affect the behavior of each algorithm implemented and search the best parameters. The comparisons of the results were accomplished with the results presented by Vallada and Ruiz (2011), who proposed the set of 50 instances considered, and, more recently, by Haddad (2012). The method that got the best result in these 50 instances was tested for every 1.000 large instances, presented by Vallada and Ruiz (2011), improving in 96.6% (966 instances) the best known solution found by this last authors
|
25 |
Programação paralela aplicada ao método N-Scheme para solução de problemas com o método de elementos finitosEyng, Juliana January 2012 (has links)
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2012. / Made available in DSpace on 2013-06-25T20:11:15Z (GMT). No. of bitstreams: 1
314945.pdf: 1997869 bytes, checksum: 76f7b83832de93d3722fe16068281abc (MD5) / Nesta tese é proposta uma nova técnica para resolução de problemas estáticos com o método de elementos finitos denominada N-Scheme. O método resolve problemas de elementos finitos sem a montagem do sistema matricial Ax=b. A técnica calcula os potenciais nos nós incógnitos de uma maneira muito mais simples que a técnica convencional. A montagem e a solução do sistema matricial são consideradas em um único procedimento e as operações são similares ao método de Gauss-Seidel com sobre-relaxação (ou Successive Over Relaxation - SOR) que fornece boa convergência. Contudo, o tempo computacional do método N-Scheme é maior quando comparado com a implementação do método clássico de elementos finitos, como o ICCG (Incomplete Choleski Conjugate Gradient). Uma possível forma de melhorar o tempo computacional do método N-Scheme é aplicar técnicas de programação paralela. Estudos realizados recentemente mostraram que o método dos Gradientes Conjugados aplicado juntamente com o método N-Scheme reduz o tempo computacional significativamente. Assim, o trabalho de pesquisa da tese tem como objetivo principal mostrar que o novo método N-Scheme associado com as técnicas de programação paralela oferecem ainda melhores tempos computacionais na resolução de problemas em elementos finitos envolvendo malhas 3D.<br> / Abstract : In this thesis a new technique for solving static problems with the finite element method is called N-Scheme. The method solves finite elements problems without assembling the matrix system Ax=b. It calculates the node potential unknowns in a much simpler way than the traditional technique of finite elements. The assembling and solution of the matrix system are considered in a single procedure and operations are similar to the Gauss-Seidel method with over-relaxation (or Successive Over Relaxation # SOR) providing good convergence. However, the computational time of N-Scheme method is larger when compared with the classical implementation of finite element method, such as ICCG (Incomplete Choleski Conjugate Gradient). One possible way to improve the computational time of the N-Scheme method is to apply parallel programming techniques. Recently, studies have shown that the Conjugate Gradient method applied in conjunction with the N-Scheme reduces the computational time significantly. Thus, this thesis aims to show that the new N-Scheme method associated with parallel programming techniques offers a still better computational time to solve problems involving finite element 3D meshes.
|
26 |
Análise do efeito de entropia em computação quântica: simulações em ambiente paraleloMoretti, Rafael Henrique [UNESP] 27 February 2015 (has links) (PDF)
Made available in DSpace on 2015-09-17T15:25:29Z (GMT). No. of bitstreams: 0
Previous issue date: 2015-02-27. Added 1 bitstream(s) on 2015-09-17T15:48:46Z : No. of bitstreams: 1
000846680_20160701.pdf: 68569 bytes, checksum: 3d6e053b24d4ca9caa9a50165bb615cd (MD5) Bitstreams deleted on 2016-06-15T18:56:30Z: 000846680_20160701_sub.pdf, 000846680_sub.pdf,. Added 1 bitstream(s) on 2016-06-15T18:57:10Z : No. of bitstreams: 1
000846680_20160701.pdf: 169837 bytes, checksum: c2078ccda666da39cc5ae2f7a2313e77 (MD5) Bitstreams deleted on 2016-07-01T13:02:16Z: 000846680_20160701.pdf,. Added 1 bitstream(s) on 2016-07-01T13:03:15Z : No. of bitstreams: 1
000846680.pdf: 1186537 bytes, checksum: ab98f46152afe327512cb3dbd41ac088 (MD5) / O crescente desenvolvimento tecnológico tem trazido a humanidade grandes benefícios, nas mais diversas áreas. De modo a dar continuidade a esse desenvolvimento, novas frentes de pesquisas vêm surgindo, em busca do domínio dessas tecnologias emergentes. Os limites físicos da computação clássica, baseada nos fenômenos eletromagnéticos, estão sendo alcançados e a computação quântica surge como uma possível solução para esses limites, bem como para apresentar um novo panorama para a computação, devido ao seu grande potencial. A fim de buscar um maior entendimento dos fenômenos que envolvem a computação quântica em uma transmissão de dados, em específico o fenômeno do emaranhamento, no presente trabalho apresenta-se um levantamento teórico sobre mecânica quântica, informação, computação e entropias quânticas, bem como computação paralela e MPI, propondo-se uma simulação com implementação em ambiente paralelo sobre o efeito da entropia de emaranhamento dos fótons em uma transmissão de dados. Além disso, realiza-se a comparação com a implementação em um ambiente de um único processador / The increasing technological development has brought great bene ts to humanity, in several areas. In order to continue this development, new research areas are emerging to reach new technologies. The physical limits of classical computing, based on electromagnetic phenomena are being achieved and quantum computing emerges as a possible solution to these limits, as well as to introduce a new scenario for computing, due to its great potential. In order to get a better understanding of phenomena involving quantum computing in a data transmission, in particular the phenomenon of entanglement, this work presents a theoretical quantum mechanics, information, computing and quantum entropies, as well as parallel computing and MPI, proposing a simulation with implementation in parallel environment on the e ect of the entropy of entanglement of photons in data transmission and comparison with implementation in a single processor environment
|
27 |
Um framework para processamento paralelo de algoritmos de aumento de resolução de vídeosFreitas, Pedro Garcia 19 February 2013 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2013. / Submitted by Luiza Silva Almeida (luizaalmeida@bce.unb.br) on 2013-07-22T15:55:22Z
No. of bitstreams: 1
2013_PedroGarciaFreitas.pdf: 26321002 bytes, checksum: 43198c842ebe82fc257908e2dcf98b7b (MD5) / Approved for entry into archive by Leandro Silva Borges(leandroborges@bce.unb.br) on 2013-07-23T20:36:47Z (GMT) No. of bitstreams: 1
2013_PedroGarciaFreitas.pdf: 26321002 bytes, checksum: 43198c842ebe82fc257908e2dcf98b7b (MD5) / Made available in DSpace on 2013-07-23T20:36:47Z (GMT). No. of bitstreams: 1
2013_PedroGarciaFreitas.pdf: 26321002 bytes, checksum: 43198c842ebe82fc257908e2dcf98b7b (MD5) / O aumento dimensional de sinais visuais consiste na alteração do tamanho de uma imagem ou de um vídeo para dimensões espaciais maiores, utilizando técnicas de processa- mento digital de sinais. Geralmente, esse aumento é feito com a utilização de técnicas de interpolação. Contudo, essas técnicas de interpolação produzem distorções nas imagens au- mentadas. Tais distorções ocorrem porque a imagem aumentada possui apenas as amostras da imagem original, de dimensões menores, que são insu cientes para reconstrução exata do sinal, o que gera efeitos de aliasing. Assim sendo, as técnicas de interpolação apenas estimam os coe cientes não-amostrados do sinal, o que muitas vezes produz resultados insatisfatórios para muitas aplicações, necessitando de outras técnicas para reconstituir os coe cientes não-amostrados com maior precisão. Para melhorar a aproximação de uma imagem estimada com relação à imagem origi- nal, existem técnicas que reconstroem os coe cientes não-amostrados. Essas técnicas são chamadas de super-resolução. Elas consistem em aumentar a resolução utilizando, geral- mente, informações de outras imagens em baixa ou alta-resolução para estimar a informação faltante na imagem que se deseja ampliar. Super-resolução é um processo computacionalmente intenso, onde a complexidade dos algoritmos são, geralmente, de ordem exponencial no tempo em função do bloco ou do fa- tor de ampliação. Portanto, quando essas técnicas são aplicadas para vídeos, é necessário que o algoritmo seja extremamente rápido. O problema é que os algoritmos mais com- putacionalmente e cientes, nem sempre são aqueles que produzem os melhores resultados visuais. Sendo assim, este trabalho propõe um framework para melhorar o desempenho de diversos algoritmos de super-resolução através de estratégias de processamento seletivo e paralelo. Para isso, nesta dissertação são examinadas as propriedades dos resultados produzidos pelos algoritmos de super-resolução e os resultados produzidos utilizando-se técnicas de interpolação. Com essas propriedades, é encontrado um critério para classi car as regiões em que os resultados produzidos sejam visualmente equivalentes, não importando o método utilizado para ampliação. Nessas regiões de equivalência utiliza-se um algoritmo de interpolação, que é muito mais veloz do que os computacionalmente complexos de super-resolução. Assim, consegue-se reduzir o tempo de processamento sem prejudicar a qualidade visual do vídeo ampliado. Além dessa abordagem, este trabalho também propõe uma estratégia de divisão de dados entre diferentes tarefas para que a operação de aumento de resolução seja realizada de forma paralela. Um resultado interessante do modelo proposto é que ele desacopla a abstração de distribuição de carga da função de aumento dimensional. Em outras palavras, diferentes métodos de super-resolução podem explorar os recursos do framework sem que para isso seus algoritmos precisem ser modi cados para obtenção do paralelismo. Isso torna o framework portável, escalável e reusável por diferentes métodos de super-resolução. ______________________________________________________________________________ ABSTRACT / The magni cation of visual signals consists of changing the size of an image or a video to larger spatial dimensions, using digital signal processing techniques. Usually, this mag- ni cation is done using numerical interpolation methods. However, these interpolation methods tend to produce some distortions in the increased images. Such distortions oc- cours because the interpolated image is reconstructed using only the original image samples, which are insu cients for the accurate signal reconstruction, generating aliasing e ects. These interpolation techniques only approximate the non-sampled signal coe cients, pro- ducing unsatisfactory results for many applications. Thus, for these applications, others techniques to estimate the non-sampled coe cients are needed. To improve the estimation accuracy of an image with respect to the original, the super- resolution techniques are used to reconstruct the non-sampled coe cients. Generally, these super-resolution techniques enhance the increased image using information of other images to estimate the missing information. Super-resolution is a computationally intensive process, where the algorithms com- plexity are, generally, exponential in time as function of the block size or magni cation factor. Therefore, when these techniques are applied for videos, it is required that the super-resolution algorithm be extremely fast. However, more computationally e cient algorithms are not always those that produce the best visual results. Therefore, this work proposes a framework to improve the performance of various super- resolution algorithms using selective processing and parallel processing strategies. Thus, this dissertation examines the properties of the results produced by the super-resolution algorithms and the results produced by using interpolation techniques. From these proper- ties, is achieved a criterion to classify regions wherein the results produced are equivalent (using both super-resolution or interpolation). In these regions of equivalence, the in- terpolation algorithms are used to increase the dimensions. In the anothers regions, the super-resolution algorithms are used. As interpolation algorithms are faster than the com- putationally complex super-resolution algorithms, the idea is decrease the processing time without a ecting the visual quality of ampli ed video. Besides this approach, this paper also proposes a strategy to divide the data among various processes to perform the super-resolution operation in parallel. An interesting re- sult of the proposed model is the decoupling of the super-resolution algorithm and the parallel processing strategy. In other words, di erent super-resolution algorithms can ex- plore the features of the proposed framework without algorithmic modi cations to achieve the parallelism. Thus, the framework is portable, scalable and can be reusable by di erent super-resolution methods.
|
28 |
TFPS : um sistema de pré-processamento de traces para auxiliar na visualização de programas paralelos / TFPS - a traces preprocessing system to aid in parallel programs visualizationStringhini, Denise January 1997 (has links)
O trabalho apresenta o projeto e o desenvolvimento de uma ferramenta para visualização lógica da execução de programas paralelos, a TFPS de Trace File Preprocessor System, cujo objetivo é a analise de desempenho de tais programas. 0 projeto é baseado no pré-processamento de arquivos de traces de execução dos programas. A idéia básica consiste em aproveitar as informações fornecidas pela monitoração. Estas informações, que em geral são utilizadas apenas para dirigir animação post-mortem destes programas, neste caso são utilizadas também na montagem das janelas de visualização. Assim, são descritos o pré-processador e a montagem das janelas de visualização. O primeiro, e responsável principalmente pela leitura e analise das informações contidas no arquivo de trace e pela geração de um arquivo de saída com todas as informações necessárias a montagem das janelas. Estas foram concebidas levando em consideração o tipo de informação que pode ser obtido de um arquivo de trace. Desta forma, foi possível aproximar o conteúdo das janelas de visualização o máximo possível do programa paralelo em analise. Com o objetivo de demonstrar esta aproximação foi construído um protótipo tanto para o pré-processador quanto para a ferramenta de visualização. Ambos os protótipos são descritos neste trabalho. / This study presents the project and development of a logical visualization tool for parallel programs. the TFPS of Trace File Preprocessor System, whose goal is the performance analysis of such programs. The project is based on the preprocessing of trace files of programs' execution. The basic idea consists in making use of the information given by the monitoring process. This information, whose general application is only to drive the post-mortem animation of these programs, is in this case also used to create the visualization displays. Thus, the preprocessor and the creation of visualization displays are described. The first is mainly responsible for reading and analyzing the information present in the trace file and for generating an output file with all information necessary for creating the views. The latter was conceived by taking into consideration the type of information that can be obtained from a trace file. Therefore it was possible to make the content of the visualization displays close to the parallel program that is being analyzed. A prototype of the preprocessor as well as of the visualization tool was built up in order to demonstrate the described approach. Both prototypes are described in this study.
|
29 |
Sistema Aldeia : programação paralela e distribuída em Java sobre Infiniband e DECKRighi, Rodrigo da Rosa January 2005 (has links)
Esse trabalho de dissertação está incluído no contexto das pesquisas realizadas no Grupo de Processamento Paralelo e Distribuído da UFRGS. Ele aborda as áreas da computação de alto desempenho, interfaces simples de programação e de sistemas de interconexão de redes velozes. A máquina paralela formada por agregados (clusters) tem se destacado por apresentar os recursos computacionais necessários às aplicações intensivas que necessitam de alto desempenho. Referente a interfaces de programação, Java tem se mostrado uma boa opção para a escrita de aplicações paralelas por oferecer os sistemas de RMI e de soquetes que realizam comunicação entre dois computadores, além de todas as facilidades da orientação a objetos. Na área a respeito de interconexão de rede velozes está emergindo como uma tentativa de padronização a nova tecnologia Infiniband. Ela proporciona uma baixa latência de comunicação e uma alta vazão de dados, além de uma série de vantagens implementadas diretamente no hardware. É neste contexto que se desenvolve o presente trabalho de dissertação de mestrado. O seu tema principal é o sistema Aldeia que reimplementa a interface bastante conhecida de soquetes Java para realizar comunicação assíncrona em agregados formados por redes de sistema. Em especial, o seu foco é redes configuradas com equipamentos Infiniband. O Aldeia objetiva assim preencher a lacuna de desempenho do sistema padrão de soquetes Java, que além de usar TCP/IP possui um caráter síncrono. Além de Infiniband, o Aldeia também procura usufruir dos avanços já realizados na biblioteca DECK, desenvolvida no GPPD da UFRGS. Com a sua adoção, é possível realizar comunicação com uma interface Java sobre redes Myrinet, SCI, além de TCP/IP. Somada a essa vantagem, a utilização do DECK também proporciona a propriedade de geração de rastros para a depuração de programas paralelos escritos com o Aldeia. Uma das grandes vantagens do Aldeia está na sua capacidade de transmitir dados assincronamente. Usando essa técnica, cálculos da aplicação podem ser realizados concorrentemente com as operações pela rede. Por fim, os canais de dados do Aldeia substituem perfeitamente aqueles utilizados para a serialização de objetos. Nesse mesmo caminho, o Aldeia pode ser integrado à sistemas que utilizem a implementação de soquetes Java, agora para operar sobre redes de alta velocidade. Palavras-chave: Arquitetura Infiniband, agregado de computadores, linguagem de programação Java, alto desempenho, interface de programação.
|
30 |
MASA-OpenCL : comparação paralela de sequências biológicas longas em GPUFigueirêdo Júnior, Marco Antônio Caldas de 05 August 2015 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2016-02-04T15:52:54Z
No. of bitstreams: 1
2015_MarcoAntônioCaldasdeFigueirêdoJúnior.pdf: 2211162 bytes, checksum: 999b7a9af378fd239a06877f9dbd003b (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-02-04T15:56:38Z (GMT) No. of bitstreams: 1
2015_MarcoAntônioCaldasdeFigueirêdoJúnior.pdf: 2211162 bytes, checksum: 999b7a9af378fd239a06877f9dbd003b (MD5) / Made available in DSpace on 2016-02-04T15:56:38Z (GMT). No. of bitstreams: 1
2015_MarcoAntônioCaldasdeFigueirêdoJúnior.pdf: 2211162 bytes, checksum: 999b7a9af378fd239a06877f9dbd003b (MD5) / A comparação de sequências biológicas é uma tarefa importante executada com frequência na análise genética de organismos. Algoritmos que realizam este procedimento utilizando um método exato possuem complexidade quadrática de tempo, demandando alto poder computacional e uso de técnicas de paralelização. Muitas soluções têm sido propostas para tratar este problema em GPUs, mas a maioria delas são implementadas em CUDA, restringindo sua execução a GPUs NVidia. Neste trabalho, propomos e avaliamos o MASA-OpenCL, solução desenvolvida em OpenCL capaz de executar a comparação paralela de sequências biológicas em plataformas heterogêneas de computação. O MASA-OpenCL foi testado em diferentes modelos de CPUs e GPUs, avaliando pares de sequências de DNA cujos tamanhos variam entre 10 KBP (milhares de pares de bases) e 47 MBP (milhões de pares de bases), com desempenho superior a outras soluções existentes baseadas em CUDA. A solução obteve um máximo de 179,2 GCUPS (bilhões de células atualizadas por segundo) em uma GPU AMD R9 280X. Até onde temos conhecimento, esta é única solução implementada em OpenCL que realiza a comparação de sequências longas de DNA, e o desempenho alcançado é, até o momento, o melhor já obtido com uma única GPU. ______________________________________________________________________________________________ ABSTRACT / The comparison of biological sequences is an important task performed frequently in the genetic analysis of organisms. Algorithms that perform biological comparison using an exact method require quadratic time complexity, demanding high computational power and use of parallelization techniques. Many solutions have been proposed to address this problem on GPUs, but most of them are implemented in CUDA, restricting its execution to NVidia GPUs. In this work, we propose and evaluate MASA-OpenCL, which is developed in OpenCL and capable of performing parallel comparison of biological sequences in heterogeneous computing platforms. The application was tested in different families of CPUs and GPUs, evaluating pairs of DNA sequences whose sizes range between 10 KBP (thousands of base pairs) and 47 MBP (millions of base pairs) with superior performance to other existing solutions based on CUDA. Our solution achieved a maximum of 179.2 GCUPS (billions of cells updated per second) on an AMD R9 280X GPU. As far as we know, this is the only solution implemented in OpenCL that performs long DNA sequence comparison, and the achieved performance is, so far, the best ever obtained on a single GPU.
|
Page generated in 0.0328 seconds