1 |
Suporte a simulação distribuída em SystemCCantanhede, Roberto Silva January 2007 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2007. / Submitted by Larissa Ferreira dos Angelos (ferreirangelos@gmail.com) on 2010-01-12T13:35:53Z
No. of bitstreams: 1
2007_RobertoSilvaCatanhede.pdf: 904030 bytes, checksum: 50f929f665821f0d1a60f501a490e944 (MD5) / Approved for entry into archive by Joanita Pereira(joanita) on 2010-01-12T19:04:10Z (GMT) No. of bitstreams: 1
2007_RobertoSilvaCatanhede.pdf: 904030 bytes, checksum: 50f929f665821f0d1a60f501a490e944 (MD5) / Made available in DSpace on 2010-01-12T19:04:10Z (GMT). No. of bitstreams: 1
2007_RobertoSilvaCatanhede.pdf: 904030 bytes, checksum: 50f929f665821f0d1a60f501a490e944 (MD5)
Previous issue date: 2007 / A contínua evolução tecnológica da microeletrônica viabiliza a integração de sistemas cada vez mais complexos em dispositivos semicondutores. Os sistemas integrados monolí- ticos (SoC - Systems on Chip) atuais permitem a integração de processadores, memórias e módulos dedicados analógicos, digitais e de radio-freqüência em uma única pastilha de silício. A simulação de tais sistemas é uma etapa fundamental no desenvolvimento de um SoC, pois permite a verificação de sua funcionalidade antes do detalhamento de sua im- plementação. A disponibilização de modelos simuláveis dos elementos de processamento de um SoC já nas primeiras etapas do projeto é igualmente fundamental para acelerar o processo de desenvolvimento do software embarcado, permitindo que o código produzido possa ser executado e testado de forma concorrente ao projeto do hardware. A redução do tempo de simulação afeta diretamente o ciclo de projeto do SoC, visto que impacta tanto no desenvolvimento do hardware quanto no do software embarcado. Um dos fatores limitantes na aceleração da simulação é a utilização de sistemas monoproces- sados. Tipicamente, uma descrição de um SoC é compilada e executa em um computador monoprocessado que simula por software o paralelismo do hardware. Uma forma de se atingir o objetivo de acelerar a simulação de sistemas em silício é a executação concorrente dos módulos do sistema. Assim, em vez dos módulos serem simulados em um único pro- cessador, eles podem ser distribuídos entre nodos de um cluster de computadores, sendo simulados com paralelismo real. O objetivo deste trabalho é o estudo da introdução de processamento concorrente em sistemas integrados descritos em SystemC. Essa linguagem atingiu, ao longo dos últimos anos, o status de padrão para descrições em nível de sistema. Baseia-se em C++, in- troduzindo conceitos de orientação a objetos na descrição do hardware. Neste trabalho é proposta a paralelização da simulação de sistemas descritos em SystemC pela distribuição de módulos entre processos de um sistema multiprocessado. A comunicação entre módu- los SystemC se realiza através de filas não bloqueantes, sendo a troca de mensagens entre processos implementada através do protocolo TCP/IP. Como estudo de caso para simulação concorrente foi estudado e descrito em SystemC um algoritmo de segmentação de imagens, que serve como base para métodos para deteção de movimento em seqüências de imagens a ser implementado em um SoC para redes de sensores em desenvolvimento no contexto do projeto NAMITEC. Apresenta-se o algoritmo de segmentação e os resultados de sua simulação em SystemC. _______________________________________________________________________________________ ABSTRACT / The ever increasing evolution of microelectronics allows the integration of more and more complex systems in semiconductor devices. Present day System on Chip (SoC) may integrate processors, memories, analog, mixed-signals, digital and RF modules in a single chip. The simulation of a SoC is a fundamental step in system design, since it permits the verification of its funcionality before dwelling on the details of the hardware design. The availability of simulation models for the processing elements early in the design process is also important for the embedded software development, which may then occur concurrently to hardware design. The reduction of simulation time have a direct impact on the design cycle time, affecting both the hardware and the software development. The use of monoprocessor platforms for simulation is a limiting factor in the searchof simulation speed up. Tipically, the SoC description is compiled and executed in a single process, where the hardware paralelism is simulated by software. One possible way to reduce simulation time is the parallel execution of the hardware models. Instead of being simulated in a single process, the modules may be distributed among nodes of a cluster which execute them in parallel. The goal of this work is to study the introduction of concurrent processing in the simulation of SoC described in SystemC. This languagem attained the status of a standard for system level modeling last years. It is based on C++, introducing object oriented concepts in the hardware modeling. The poposal of this work is to paralelize the simulation by distributing SystemC modules among different processes in a multiprocessor system. The communication among those modules is performmed through non-blocking fifos and is implemented over the TCP/IP protocol. A case study was developed for verification purposes. It consists in the implementation of a image segmentation algorithm to be used as support for image detection in video sequences, as part of the research project NAMITEC which targets the development of a SoC for sensor networks. The image segmentation algorithm and the simulation results in SystemC are presented.
|
2 |
Middleware para coordenar tolerância a falhas e elasticidade em clusters de alto desempenho com produtores e consumidores baseados em filas de mensagensTeixeira, Eduardo Henrique Ferreira Mendes 07 July 2014 (has links)
Dissertação (mestrado)—Universidade de Brasília, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2014. / Submitted by Ana Cristina Barbosa da Silva (annabds@hotmail.com) on 2014-12-09T17:05:06Z
No. of bitstreams: 1
2014_EduardoHenriqueFerreiraMendesTeixeira.pdf: 2232673 bytes, checksum: aff74f93e1003d1ade958b064f26c6b3 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-12-15T13:56:38Z (GMT) No. of bitstreams: 1
2014_EduardoHenriqueFerreiraMendesTeixeira.pdf: 2232673 bytes, checksum: aff74f93e1003d1ade958b064f26c6b3 (MD5) / Made available in DSpace on 2014-12-15T13:56:38Z (GMT). No. of bitstreams: 1
2014_EduardoHenriqueFerreiraMendesTeixeira.pdf: 2232673 bytes, checksum: aff74f93e1003d1ade958b064f26c6b3 (MD5) / Este trabalho propôs e avaliou um middleware com suporte à tolerância a falhas e à elasticidade em um cluster de alto desempenho. Para isso, foi construída uma arquitetura elástica para se adaptar dinamicamente ao crescimento da fila de requisições, para que as mensagens não se
acumulem, e tolerante a falhas para que eventuais paradas do sistema, por queda ou falha dos serviços, não impactem na operacionalidade do cluster. Assim sendo, o middleware desenvolvido foi capaz de diminuir o número de servidores necessários para processar as filas de mensagens, liberando recursos da infraestrutura do cluster para uso como failover do sistema distribuído ou em outras aplicações. Consequentemente, a qualidade dos serviços prestados melhorou, devido a diminuição dos tempos de atualização do sistema por conta de manutenções evolutivas e corretivas. ______________________________________________________________________________ ABSTRACT / This work proposed and evaluated a middleware with support for fault tolerance and elasticity in a high performance cluster. For this purpose, it was constructed an elastic architecture to dynamically adapt to growth in the request queue, so that messages do not accumulate. Also the architeture provides fault-tolerance to system outages, in the cases of failure of service, so these failures do not impact on the operation of the cluster. The middleware developed was able to decrease the number of servers needed to process the message queue, freeing infrastructure resources of the cluster for use as a failover of the distributed system or in other applications. Consequently, the quality of service has improved due to shortened time to update the system on behalf of progressive and corrective maintenance.
|
3 |
Implementação do AES na Plataforma CUDA / Implementation of AES on the CUDA plataformCarvalho, Marcel Augustus Barbosa 17 September 2012 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, 2012. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2013-01-10T14:28:38Z
No. of bitstreams: 1
2012_MarcelAugustusBarbosaCarvalho.pdf: 5402804 bytes, checksum: e0c180253be0a43f7a97beb3533f195b (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-01-31T13:47:09Z (GMT) No. of bitstreams: 1
2012_MarcelAugustusBarbosaCarvalho.pdf: 5402804 bytes, checksum: e0c180253be0a43f7a97beb3533f195b (MD5) / Made available in DSpace on 2013-01-31T13:47:09Z (GMT). No. of bitstreams: 1
2012_MarcelAugustusBarbosaCarvalho.pdf: 5402804 bytes, checksum: e0c180253be0a43f7a97beb3533f195b (MD5) / Compute Unified Device Architecture (CUDA) é uma plataforma de computação paralela de propósito geral que tira proveito das unidades de processamento gráfico (GPU) NVIDIA para resolver problemas computacionais que possam ser paralelizáveis. No campo da criptografia já foram realizados esforços no uso de GPUs com algoritmos criptográficos simétricos e assimétricos e mais recentemente com as funções de hash. Este trabalho realiza uma revisão das implementações anteriores do AES sobre GPUs e implementa o algoritmo AES para cifração e decifração com chaves de 128, 192 e 256 bits no modo ECB com padding, com variações no uso dos recursos disponíveis nas GPUs CUDA. Como resultado nal chegou-se a implementação em CUDA cuja con guração de recursos levou a ganhos no tempo total de cifração/decifração de até 32,7 vezes comparados à versão em CPU usada como referência. _______________________________________________________________________________________ ABSTRACT / Compute Unified Device Architecture (CUDA) is a platform for general purpose parallel computing that takes advantage of NVIDIA Graphic Processing Units (GPU) to solve arallelizable
computational problems. In the eld of the cryptography e orts have been made in the use of GPUs with asymmetric and symmetric cryptographic algorithms more recently with hash functions. This paper conducts
a review of previous implementations of AES on GPU and implements the AES algorithm for
encryption and decryption with keys of 128, 192 and 256 bits in ECB mode with padding, with variations in the use of available resources in CUDA GPUs. As a nal result, a CUDA implementation was obtained with a resource con guration providing
gains in total time of encryption / decryption of up to 32,7 times compared to the used CPU version.
|
4 |
Resolução da equação Laplace ao sistema multiprocessador ACP /Xavier, José Rodolfo Ferreira. January 1990 (has links)
Orientador: Gerson Francisco / Mestre
|
5 |
Fickett-CUDAlign : comparação paralela de sequências biológicas com estratégia multi-bloco de faixas ajustáveisSilva, Gabriel Heleno Gonçalves da 22 March 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graducação em Informática, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-05-06T16:17:35Z
No. of bitstreams: 1
2016_GabrielHelenoGonçalvesdaSilva.pdf: 2295730 bytes, checksum: c2d410a25e9d24795e425e4c29970712 (MD5) / Rejected by Raquel Viana(raquelviana@bce.unb.br), reason: A pedido do cliente. on 2016-05-12T17:27:55Z (GMT) / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-05-12T17:33:17Z
No. of bitstreams: 1
2016_GabrielHelenoGonçalvesdaSilva.pdf: 2295730 bytes, checksum: c2d410a25e9d24795e425e4c29970712 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-05-16T17:20:02Z (GMT) No. of bitstreams: 1
2016_GabrielHelenoGonçalvesdaSilva.pdf: 2295730 bytes, checksum: c2d410a25e9d24795e425e4c29970712 (MD5) / Made available in DSpace on 2016-05-16T17:20:02Z (GMT). No. of bitstreams: 1
2016_GabrielHelenoGonçalvesdaSilva.pdf: 2295730 bytes, checksum: c2d410a25e9d24795e425e4c29970712 (MD5) / A comparação de sequências biológicas é uma operação importante na Bioinformática, que é realizada frequentemente. Os algoritmos exatos para comparação de sequências obtêm o resultado ótimo calculando uma ou mais matrizes de programação dinâmica.Estes algoritmos têm complexidade de tempo O(mn), onde m e n são os tamanhos das sequências. Fickettpropôs um algoritmo que é capaz de reduzir a complexidade paraO(kn), onde k é a faixa decomputação e representa a quantidade de diagonais da matrizefetivamente calculadas. Nessa dissertação de mestrado, propomos e avaliamos oFickett-CUDAlign, uma estratégia paralela que divide a comparação de sequências emmúltiplas comparações de subsequências e calcula uma faixa de Fickett apropriada paracada comparação de sequência (bloco). Com estaabordagem, nós reduzimos potencialmenteo número de células calculadas, quando comparada ao Fickett, que usa uma únicafaixa para toda a comparação. Nossa estratégia multi-bloco ajustável foi programada emC/C++ e pthreadse foi integrada ao estágio 4 do CUDAlign, uma ferramenta do estadoda arte para comparações ótimas de sequências biológicas. O Fickett-CUDAlign foi usadopara comparar sequências reais de DNA cujo tamanho variou de 10KBP (Milhares dePares de Base) a 47MBP (Milhões de Pares de Base),alcançando um speedup de 59,60xna comparação 10MBP x 10MBP, quando comparado aoestágio 4 do CUDAlign. Nestecaso, o tempo de execução foi reduzido de 53,56 segundos para 0,90 segundo. ________________________________________________________________________________________________ ABSTRACT / Biological sequence comparison is an important task in Bioinformatics, which is frequently performed. The exact algorithms for sequence comparison obtain the optimal result by calculating one or more dynamic programming matrices. These algorithms have O(mn) time complexity, where m and n are the sizes of the sequences. Fickett proposed an algorithm which is able to reduce time complexity to O(kn), where k is the computation band and represents the amount of matrix diagonals actually calculated. In this MSc Dissertation, we propose and evaluate Fickett-CUDAlign, a parallel strategy that splits a pairwise sequence comparison in multiple comparisons of subsequences and calculates an appropriate Fickett band to each subsequence comparison (block). With this approach, we potentially reduce the number of cells calculated, when compared to Fickett, which uses a unique band to the whole comparison. Our adjustable multi-block strategy was programmed in C/C++ and pthreads and was integrated to the stage 4 of CUDAlign, a state-of-the-art tool for optimal biological sequence comparison. Fickett-CUDAlign was used to compare real DNA sequences whose sizes ranged from 10KBP (Thousands of Base Pairs) to 47MBP (Millions of Base Pairs), reaching a speedup of 59.60x in the 10MBP x 10MBP comparison, when compared to CUDAlign’s stage 4. In this case, the execution time was reduced from 53.56 seconds to 0.90 second.
|
6 |
Um processador reconfigurável com janela de instruções dinâmica e banco de registradores distribuído / A reconfigurable processor with dynamic instruction window and dis- tributed registers bankCampos, Néliton Antônio 28 March 2016 (has links)
Submitted by Reginaldo Soares de Freitas (reginaldo.freitas@ufv.br) on 2016-09-08T16:24:04Z
No. of bitstreams: 1
texto completo.pdf: 1727272 bytes, checksum: e85dcc7cf2c1c5cf2071c4ee9f3926fb (MD5) / Made available in DSpace on 2016-09-08T16:24:04Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1727272 bytes, checksum: e85dcc7cf2c1c5cf2071c4ee9f3926fb (MD5)
Previous issue date: 2016-03-28 / A demanda por desempenho computacional é crescente, visto que a variedade das aplicações exige soluções com arquiteturas heterogêneas. A necessidade de conciliar alto desempenho com eficiência energética desafia os desenvolvedores, pelos quais a alternativa mais utilizada é o paralelismo. O presente trabalho é baseado nas CGRAs (Coarse-Grained Reconfigurable Architectures) e nos processadores VLIW (Very Large Instruction Word), que são arquiteturas paralelas em nível de instrução. Muitos dos processadores VLIW atuais possuem uma janela fixa de instruções, que degrada a utilização da memória. Além disso, o banco de registradores dos processadores VLIW limita o tamanho máximo da janela, afetando a exploração do paralelismo. Este trabalho apresenta uma fusão entre a CGRA e o VLIW em um único processador com janela variável de instruções e registradores distribuídos. A janela variável aproveita os possíveis espaços vazios no final das linhas de memória, melhorando a ocupação; e os registradores e interconexões da CGRA substituem o banco de registradores centralizado de alto custo. O trabalho em questão comprova a viabilidade da proposta com dois estudos de caso. Os resultados das simulações desses exemplos no compilador VEX apresentam um ganho médio de 4,61× em ocupação de memória. / The demand for compute performance is increasing, as the variety of applications requires solutions with heterogeneous architectures. The need to combine high per- formance with energy efficiency challenges developers, in which the most widely used alternative is the parallelism. This work is based on CGRAs (Coarse-Grained Recon- figurable Architectures) and VLIW (Very Large Instruction Word) processors, which are instruction-level parallel architectures. Many of the current VLIW processors have a fixed instruction window, which degrades the memory usage. Additionally, the register file of the VLIW processor limits the maximum size of the window, affecting the parallelism exploitation. This work presents a fusion of the CGRA and the VLIW in a single processor with variable instruction window and distributed registers. The variable window takes advantage from the possible empty spaces at the end of memory lines, improving the occupation; the CGRA registers and interconnections replace the high cost and centralized registers bank. The present work proves the feasibility of the proposal with two case studies. Simulation results of these examples in the VEX compiler have an average gain of 4.61× in memory occupation.
|
7 |
Resolução da equação Laplace ao sistema multiprocessador ACPXavier, José Rodolfo Ferreira [UNESP] January 1990 (has links) (PDF)
Made available in DSpace on 2016-01-13T13:27:46Z (GMT). No. of bitstreams: 0
Previous issue date: 1990. Added 1 bitstream(s) on 2016-01-13T13:31:38Z : No. of bitstreams: 1
000027383.pdf: 7075799 bytes, checksum: ac9bae7686c3401852cbbf63a8f69407 (MD5)
|
8 |
Aceleração do cálculo de autovalores usando CUDA : uma aplicação em heteroestruturas semicondutorasSantos, Marcelo Brandão Monteiro dos 08 November 2014 (has links)
Dissertação (mestrado)–Universidade de Brasília, Programa de Pós-Graduação em Ciência de Materiais, 2014. / Submitted by Ana Cristina Barbosa da Silva (annabds@hotmail.com) on 2015-05-25T17:32:14Z
No. of bitstreams: 1
2014_MarceloBrandaoMonteirodosSantos.pdf: 925373 bytes, checksum: 6e6756083a9498314c7cf79b37d8492b (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2015-05-25T18:45:40Z (GMT) No. of bitstreams: 1
2014_MarceloBrandaoMonteirodosSantos.pdf: 925373 bytes, checksum: 6e6756083a9498314c7cf79b37d8492b (MD5) / Made available in DSpace on 2015-05-25T18:45:40Z (GMT). No. of bitstreams: 1
2014_MarceloBrandaoMonteirodosSantos.pdf: 925373 bytes, checksum: 6e6756083a9498314c7cf79b37d8492b (MD5) / Inicialmente projetadas para processamento de gráficos, as placas gráficas (GPUs) evoluíram para processadores paralelos de propósito geral de alto desempenho. Usando unidades de processamento gráfico (GPUs), da NVIDIA, adaptamos métodos (algoritmos) computacionais de linguagem C para linguagem CUDA. Resolvemos a equação de Schrödinger pelo método de diferenças finitas, usando o método da Bissecção com sequência de Sturm para um poço quântico simétrico de heteroestruturas de GaAs/AlGaAs com a finalidade de acelerar a busca do autovalores. Comparamos o tempo gasto entre os algoritmos usando a GPU, a CPU e a rotina DSTEBZ da biblioteca Lapack. Dividimos o problema em duas fases, a de isolamento, calculada na CPU, e a de extração, calculada na GPU, na fase de extração o método em GPU foi cerca de quatro vezes mais rápido que o método na CPU. O método híbrido, isolamento na CPU e extração na GPU foi cerca de quarenta e seis vezes mais rápido que a rotina DSTEBZ. ______________________________________________________________________________________________ ABSTRACT / Initially designed for graphics processing, the (GPU) graphics cards have evolved into general purpose parallel processors for high performance. Using graphics processing units (GPUs), NVIDIA, adapt computing methods (algorithms) C language for CUDA language. We solve the Schrödinger equation by the finite difference method, using the Bisection method with Sturm sequence for a symmetric quantum well heterostructures of GaAs / AlGaAs. In order to accelerate the search for eigenvalues. We compared the time spent between algorithms using the GPU, CPU and DSTEBZ routine LAPACK library. The problem divided into two phases, the insulation calculated in the CPU and extracting calculated in the GPU, in phase extraction method GPU was about four times faster than the method in the CPU. The hybrid method, isolating on the CPU and extraction on the GPU was about forty-six times faster than DSTEBZ routine.
|
9 |
Modelo para estimar performance de um Cluster HadoopBrito, José Benedito de Souza 09 July 2014 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2014. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2014-12-02T12:56:55Z
No. of bitstreams: 1
2014_JoseBeneditoSouzaBrito.pdf: 4169418 bytes, checksum: 0acba0fc24656f44b12166c01ba2dc3c (MD5) / Approved for entry into archive by Patrícia Nunes da Silva(patricia@bce.unb.br) on 2014-12-02T13:25:34Z (GMT) No. of bitstreams: 1
2014_JoseBeneditoSouzaBrito.pdf: 4169418 bytes, checksum: 0acba0fc24656f44b12166c01ba2dc3c (MD5) / Made available in DSpace on 2014-12-02T13:25:34Z (GMT). No. of bitstreams: 1
2014_JoseBeneditoSouzaBrito.pdf: 4169418 bytes, checksum: 0acba0fc24656f44b12166c01ba2dc3c (MD5) / O volume, a variedade e a velocidade dos dados apresenta um grande desa o para
extrair informações úteis em tempo hábil, sem gerar grandes impactos nos demais processamentos existentes nas organizações, impulsionando a utilização de clusters para armazenamento e processamento, e a utilização de computação em nuvem. Este cenário é
propício para o Hadoop, um framework open source escalável e e ciente, para a execução de cargas de trabalho sobre Big Data. Com o advento da computação em nuvem um cluster com o framework Hadoop pode ser alocado em minutos, todavia, garantir que o Hadoop tenha um desempenho satisfatório para realizar seus processamentos apresenta vários desa os, como as necessidades de ajustes das con gurações do Hadoop às cargas de trabalho, alocar um cluster apenas com os recursos necessários para realizar determinados processamentos e de nir os recursos necessários para realizar um processamento em um
intervalo de tempo conhecido. Neste trabalho, foi proposta uma abordagem que busca otimizar o framework Hadoop para determinada carga de trabalho e estimar os recursos computacionais necessário para realizar um processamento em determinado intervalo de tempo. A abordagem proposta é baseada na coleta de informações, base de regras para ajustes de con gurações do Hadoop, de acordo com a carga de trabalho, e simulações. A simplicidade e leveza do modelo permite que a solução seja adotada como um facilitador para superar os desa os apresentados pelo Big Data, e facilitar a de nição inicial de um cluster para o Hadoop, mesmo por usuários com pouca experiência em TI. O modelo proposto
trabalha com o MapReduce para de nir os principais parâmetros de con guração
e determinar recursos computacionais dos hosts do cluster para atender aos requisitos desejados de tempo de execução para determinada carga de trabalho. _______________________________________________________________________________ ABSTRACT / The volume, variety and velocity of data presents a great challenge to extracting useful information in a timely manner, without causing impacts on other existing processes in organizations, promoting the use of clusters for storage and processing, and the use of cloud computing. This a good scenario for the Hadoop an open source framework scalable
and e cient for running workloads on Big Data. With the advent of cloud computing
one cluster with Hadoop framework can be allocated in minutes, however, ensure that the Hadoop has a good performance to accomplish their processing has several challenges, such as needs tweaking the settings of Hadoop for their workloads, allocate a cluster with the necessary resources to perform certain processes and de ne the resources required to perform processing in a known time interval. In this work, an approach that seeks
to optimize the Hadoop for a given workload and estimate the computational resources required to realize a processing in a given time interval was proposed. The approach is based on collecting information, based rules for adjusting Hadoop settings for certain workload and simulations. The simplicity and lightness of the model allows the solution be
adopted how a facilitator to overcome the challenges presented by Big Data, and facilitate the use of the Hadoop, even by users with little IT experience. The proposed model works with the MapReduce to de ne the main con guration parameters and determine the computational resources of nodes of cluster, to meet the desired runtime for a given workload requirements.
|
10 |
Avaliação de desempenho de método para a resolução da evolução temporal de sistemas auto-gravitantes em dois paradigmas de programação paralela : troca de mensagens e memória compartilhadaPassos, Lorena Brasil Cirillo 07 December 2006 (has links)
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006. / Submitted by Fernanda Weschenfelder (nandaweschenfelder@gmail.com) on 2009-11-03T16:07:34Z
No. of bitstreams: 1
Dissertacao_Lorena Brasil Cirilo Passos_20061207_CIC.pdf: 1280461 bytes, checksum: 5d78db2dd313197338c3e8ca3e9e811f (MD5) / Approved for entry into archive by Gomes Neide(nagomes2005@gmail.com) on 2010-02-08T18:32:57Z (GMT) No. of bitstreams: 1
Dissertacao_Lorena Brasil Cirilo Passos_20061207_CIC.pdf: 1280461 bytes, checksum: 5d78db2dd313197338c3e8ca3e9e811f (MD5) / Made available in DSpace on 2010-02-08T18:32:57Z (GMT). No. of bitstreams: 1
Dissertacao_Lorena Brasil Cirilo Passos_20061207_CIC.pdf: 1280461 bytes, checksum: 5d78db2dd313197338c3e8ca3e9e811f (MD5)
Previous issue date: 2006-12-07 / Nesta dissertação, é apresentada a avaliação de desempenho de uma implementação paralela de um algoritmo seqüencial do integrador simplético para simular a evolução temporal de sistemas auto-gravitantes. Este algoritmo foi paralelizado e posteriormente implementado na linguagem C, utilizando-se dois paradigmas de programação paralela: a
troca de mensagens empregando-se a biblioteca MPICH 1.2.6 e a memória compartilhada distribuída com o middleware JIAJIA. Um cluster homogêneo de PCs foi o ambiente em que os testes de execução dos
programas foram realizados. Um ambiente heterogêneo também foi utilizado para a
realização de medidas de desempenho com um balanceamento empírico de carga, uma vez
que a montagem deste tipo de sistema paralelo é prática freqüente entre usuários que necessitam de um maior poder computacional. Para quantificar o desempenho da execução paralela das duas implementações
distintas, foram realizados as medições dos tempos de execução e os cálculos dos speedups
obtidos. Para mensurar o tempo de execução, foi inserida em cada um dos códigos-fonte a
instrução assembly rdtsc que fornece ciclos de clock contabilizados em um registrador de
hardware. Para o caso da implementação MPI, também foram realizadas medições de tempo de execução por meio da porta paralela utilizando-se a ferramenta PM2P. _______________________________________________________________________________ ABSTRACT / In this work it is presented the performance evaluation of a parallel implementation for the sympletic integrator to simulate the temporal evolution of a self-gravitating system. The algorithm of the sympletic integrator was parallelized and the source code was written in the C programming language. Two parallel programming paradigms were employed: message passing, using the MPICH 1.2.6 library specification, and distributed shared memory, using the JIAJIA middleware. A homogeneous cluster of PCs was used to run the program tests. Due to the fact that users that need greater computational power tend to build heterogeneous computational environments, we also used a heterogeneous parallel system to take the performance measures using an empirical load balancing. To quantify the parallel execution performance of the programs, execution time measures were taken and the speedups achieved were calculated. To measure the execution time, it was inserted into the source codes the assembly instruction rdtsc, which counts the clock cycles in hardware register. For the MPI implementation version, execution time measures made by the parallel port were also taken using a tool called PM2P.
|
Page generated in 0.162 seconds