Global ETD Search

11	NUMA-ICTM: uma versão paralela do ICTM explorando estratégias de alocação de memória para máquinas NUMA Castro, Márcio Bastos January 2009 (has links) Made available in DSpace on 2013-08-07T18:42:49Z (GMT). No. of bitstreams: 1 000409723-Texto+Completo-0.pdf: 1712848 bytes, checksum: 000c7fa44ec53b2d15786685a9544bc3 (MD5) Previous issue date: 2009 / In Geophysics, the appropriate subdivision of a region into segments is extremely important. ICTM (Interval Categorizer Tesselation Model) is an application that categorizes geographic regions using information extracted from satellite images. The categorization of large regions is a computational intensive problem, what justifies the proposal and development of parallel solutions in order to improve its applicability. Recent advances in multiprocessor architectures lead to the emergence of NUMA (Non-Uniform Memory Access) machines, which combine the efficiency and scalability of MPP (Massively Parallel Processing) machines with the programming facility of the SMP (Symmetric Multiprocessors) machines. In this work, NUMA-ICTM is presented: a parallel solution of ICTM for NUMA machines exploiting memory placement strategies. First, ICTM is parallelized using only OpenMP. After, the OpenMP solution is improved using the MAI (Memory Affinity Interface) library, which allows a control of memory allocation in NUMA machines. The results show that the optimization of memory allocation leads to significant performance gains over the pure OpenMP parallel solution. / Na Geofísica, a subdivisão apropriada de uma região em segmentos é extremamente importante. O ICTM (Interval Categorizer Tesselation Model) é uma aplicação capaz de categorizar regiões geográficas utilizando informações extraídas de imagens de satélite. O processo de categorização de grandes regiões é considerado um problema computacionalmente intensivo, o que justifica a proposta e desenvolvimento de soluções paralelas com intuito de aumentar sua aplicabilidade. Recentes avanços em arquiteturas multiprocessadas caminham em direção a arquiteturas do tipo NUMA (Non-uniform Memory Access), as quais combinam a eficiência e escalabilidade das máquinas MPP (Massively Parallel Processing) com a facilidade de programação das máquinas SMP (Symmetric Multiprocessors). Neste trabalho, é apresentada a NUMA-ICTM: uma solução paralela do ICTM para máquinas NUMA explorando estratégias de alocação de memória. Primeiramente, o ICTM é paralelizado utilizando-se somente OpenMP. Posteriormente, esta solução é otimizada utilizando-se a interfade MAI (Memory Affinity Interface), a qual proporciona um melhor controle sobre a alocação de dados em memória em máquinas NUMA. Os resultados mostram que esta otimização permite importantes ganhos de desempenho sobre a solução paralela que utiliza somente OpenMP. INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO ARQUITETURA DE COMPUTADOR
12	Uma Biblioteca para programação paralela por troca de mensagens de clusters baseados na tecnologia SCI Oliveira, Fábio Abreu Dias de January 2001 (has links) A presente Dissertação propõe uma biblioteca de comunicação de alto desempenho, baseada em troca de mensagens, especificamente projetada para explorar eficientemente as potencialidades da tecnologia SCI (Scalable Coherent Interface). No âmago da referida biblioteca, a qual se denominou DECK/SCI, acham-se três protocolos de comunicação distintos: um protocolo de baixa latência e mínimo overhead, especializado na troca de mensagens pequenas; um protocolo de propósito geral; e um protocolo de comunicação que emprega uma técnica de zero-copy, também idealizada neste Trabalho, no intuito de elevar a máxima largura de banda alcançável durante a transmissão de mensagens grandes. As pesquisas desenvolvidas no decurso da Dissertação que se lhe apresenta têm por mister proporcionar um ambiente para o desenvolvimento de aplicações paralelas, que demandam alto desempenho computacional, em clusters que se utilizam da tecnologia SCI como rede de comunicação. A grande motivação para os esforços envidados reside na consolidação dos clusters como arquiteturas, a um só tempo, tecnologicamente comparáveis às máquinas paralelas dedicadas, e economicamente viáveis. A interface de programação exportada pelo DECK/SCI aos usuários abarca o mesmo conjunto de primitivas da biblioteca DECK (Distributed Execution Communication Kernel), concebida originalmente com vistas à consecução de alto desempenho sobre a tecnologia Myrinet. Os resultados auferidos com o uso do DECK/SCI revelam a eficiência dos mecanismos projetados, e a utilização profícua das características de alto desempenho intrínsecas da rede SCI, haja visto que se obteve uma performance muito próxima dos limites tecnológicos impostos pela arquitetura subjacente. Outrossim, a execução de uma clássica aplicação paralela, para fins de validação, testemunha que as primitivas e abstrações fornecidas pelo DECK/SCI mantêm estritamente a mesma semântica da interface de programação do original DECK. Arquitetura de computadores Sci Cluster Redes : Alto desempenho
13	Certificação de componentes em uma plataforma de nuvens computacionais para serviços de computação de alto desempenho. / Certification of components in a cloud-based platform for high performance computing services. Dantas, Allberson Bruno de Oliveira January 2017 (has links) DANTAS, Allberson Bruno de Oliveira. Certificação de componentes em uma plataforma de nuvens computacionais para serviços de computação de alto desempenho. 2017. 214 f. Tese (Doutorado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2017. / Submitted by Gláucia Helena da Silveira Mota (glaucia@lia.ufc.br) on 2017-10-23T17:57:00Z No. of bitstreams: 1 2017_tese_abodantas.pdf: 3345763 bytes, checksum: 7d9c19651fdf5919fcc10ab432a72eeb (MD5) / Approved for entry into archive by Jairo Viana (jairo@ufc.br) on 2017-11-03T16:48:46Z (GMT) No. of bitstreams: 1 2017_tese_abodantas.pdf: 3345763 bytes, checksum: 7d9c19651fdf5919fcc10ab432a72eeb (MD5) / Made available in DSpace on 2017-11-03T16:48:46Z (GMT). No. of bitstreams: 1 2017_tese_abodantas.pdf: 3345763 bytes, checksum: 7d9c19651fdf5919fcc10ab432a72eeb (MD5) Previous issue date: 2017 / The development of correct and safe High Performance Computing (HPC) applications is a challenge for developers, since such applications generally use parallelism and run on heterogeneous parallel computing platforms. The Doctoral Thesis proposed in this document is aimed at presenting an architecture of a component certification mechanism for cloud computing platforms of high performance computing services. In particular, this mechanism is proposed within the context of the HPC Shelf platform, allowing the construction of certified components for functional and non-functional properties, which can be used to compose applications for expert users. Two particular certifier components are proposed using the certification mechanism introduced in this Thesis: SWC2 (Scientific Workflow Certifier Component) e C4 (Computation Component Certifier Component). SWC2 components are used to verify formal properties of workflows in HPC Shelf. In turn, C4 components are employed to verify formal properties on computation components. There are still tactical components, which expose the services of software formal verification infrastructures and can be orchestrated, by certifiers, by means of the TCOL (Tactical Component Orchestration Language) language, also proposed in this work. It is expected to contribute to the state-of-the-art in the following points: in cloud computing, by providing the first cloud infrastructure focused on software formal verification using exclusively high performance computing techniques; in component-oriented platforms, by providing nondisruptive components that can certify others in a reflexive way; enabling the creation of the so-called parallel certification systems, which are formed by the orchestration of provers to verify formal properties; in scientific workflows, by extracting the main verifiable patterns in these workflows; and in high performance computing applications, by providing a study on which software formal verification tools are able to verify their properties. / O desenvolvimento de aplicações de Computação de Alto Desempenho (CAD) corretas e seguras é um desafio para desenvolvedores, uma vez que tais aplicações geralmente utilizam paralelismo e executam em plataformas heterogêneas de computação paralela. A Tese de Doutorado proposta neste documento dispõe-se a apresentar a arquitetura de um mecanismo de certificação de componentes para plataformas de nuvens computacionais de serviços de computação de alto desempenho. Em particular, esse mecanismo é proposto no contexto da plataforma HPC Shelf, permitindo a construção de componentes certificados quanto a propriedades funcionais e não funcionais, os quais podem ser utilizados para compor aplicações para usuários especialistas. Dois componentes certificadores particulares são propostos utilizando o mecanismo de certificação introduzido na Tese: SWC2 (Scientific Workflow Certifier Component) e C4 (Computation Component Certifier Component). Componentes SWC2 são utilizados para verificar propriedades formais em workflows na HPC Shelf. Já os componentes C4 são empregados para verificar propriedades formais em componentes de computação. Existem ainda componentes táticos, que expõem serviços de infraestruturas de verificação formal de software e podem ser orquestrados, por certificadores, através da linguagem TCOL (Tactical Component Orchestration Language), também proposta nesse trabalho. Espera-se contribuir com o estado da arte nos seguintes pontos: em nuvens computacionais, fornecendo a primeira infraestrutura em nuvem voltada à verificação formal de software utilizando exclusivamente técnicas de CAD; em plataformas orientadas a componentes, provendo componentes não disruptivos que podem certificar outros de forma reflexiva; possibilitando a criação dos chamados sistemas de certificação paralela, os quais são formados por orquestrações de provadores para verificar propriedades formais; em workflows científicos, extraindo os principais padrões verificáveis desses workflows; e em aplicações de CAD, fornecendo um estudo sobre quais ferramentas de verificação formal de software se aplicam na verificação de suas propriedades. Computação de alto desempenho Métodos formais Componentes de software
14	"Modelagem Paralela em C+CUDA de Sistema Neural de Visão Estereoscópica". CARVALHO, C. A. 31 August 2009 (has links) Made available in DSpace on 2016-08-29T15:33:09Z (GMT). No. of bitstreams: 1 tese_2809_.pdf: 2366315 bytes, checksum: 58149b82c1db73f2e15308dca84634dc (MD5) Previous issue date: 2009-08-31 / "Os sistemas biológicos que viabilizam os sentidos dos seres vivos, especialmente dos seres humanos, tem sido objeto de estudo desde a antiguidade. O advento da computação, a partir do século XX, propiciou ferramentas para que tais sistemas pudessem ser simulados, desde que compreendidos. Vários pesquisadores tem trabalhado no sentido de elaborar modelos cada vez mais próximos dos sistemas naturais, e sua reprodução em ambientes naturais ou computacionais simulados permite a verificação de sua eficácia. A visão, um dos mais poderosos sentidos humanos, é um dos mais investigados devido, principalmente, ao grande número de aplicações de sistemas de visão artificial. Sua modelagem tem avançado com velocidade, mas sua eficiência esbarra, muitas vezes, na disponibilidade de recursos computacionais para o processamento, uma vez que o cérebro possui bilhões de neurônios envolvidos na viabilização do sentido da visão. Neste trabalho foram investigados mecanismos de paralelização do código de modelo matemático-computacional, desenvolvido na UFES em trabalho anterior, da arquitetura neural humana envolvida com a percepção da profundidade (reconstrução do ambiente 3D externo internamente ao computador) por meio da visão estéreo. Durante a investigação, foi identificada a oportunidade do uso de C+CUDA (Compute Unified Device Architecture) para o desenvolvimento de versão paralela do modelo original de percepção da profundidade por meio da visão estéreo. A nova versão C+CUDA do modelo roda em GPUs (Graphics Processing Units) e, no ambiente de desenvolvimento utilizado, alcançou desempenho 57,4 vezes superior à versão seqüencial original. Speedups desta magnitude demonstram os benefícios da computação paralela e de alto desempenho e a importância que a nova tecnologia de GPUs tem no cenário atual com o aumento de desempenho obtido, a aplicação que rodava em 16,9 segundos (uma reconstrução 3D) passou a rodar em 0,27 segundos, o que viabiliza aplicações de tempo real em robótica, por exemplo." Computação de Alto Desempenho Visão Artificial CUDA
15	Uma Biblioteca para programação paralela por troca de mensagens de clusters baseados na tecnologia SCI Oliveira, Fábio Abreu Dias de January 2001 (has links) A presente Dissertação propõe uma biblioteca de comunicação de alto desempenho, baseada em troca de mensagens, especificamente projetada para explorar eficientemente as potencialidades da tecnologia SCI (Scalable Coherent Interface). No âmago da referida biblioteca, a qual se denominou DECK/SCI, acham-se três protocolos de comunicação distintos: um protocolo de baixa latência e mínimo overhead, especializado na troca de mensagens pequenas; um protocolo de propósito geral; e um protocolo de comunicação que emprega uma técnica de zero-copy, também idealizada neste Trabalho, no intuito de elevar a máxima largura de banda alcançável durante a transmissão de mensagens grandes. As pesquisas desenvolvidas no decurso da Dissertação que se lhe apresenta têm por mister proporcionar um ambiente para o desenvolvimento de aplicações paralelas, que demandam alto desempenho computacional, em clusters que se utilizam da tecnologia SCI como rede de comunicação. A grande motivação para os esforços envidados reside na consolidação dos clusters como arquiteturas, a um só tempo, tecnologicamente comparáveis às máquinas paralelas dedicadas, e economicamente viáveis. A interface de programação exportada pelo DECK/SCI aos usuários abarca o mesmo conjunto de primitivas da biblioteca DECK (Distributed Execution Communication Kernel), concebida originalmente com vistas à consecução de alto desempenho sobre a tecnologia Myrinet. Os resultados auferidos com o uso do DECK/SCI revelam a eficiência dos mecanismos projetados, e a utilização profícua das características de alto desempenho intrínsecas da rede SCI, haja visto que se obteve uma performance muito próxima dos limites tecnológicos impostos pela arquitetura subjacente. Outrossim, a execução de uma clássica aplicação paralela, para fins de validação, testemunha que as primitivas e abstrações fornecidas pelo DECK/SCI mantêm estritamente a mesma semântica da interface de programação do original DECK. Arquitetura de computadores Sci Cluster Redes : Alto desempenho
16	Resolução paralela verificada de sistemas de equações lineares: uma abordagem para eficiência energética utilizando DVFS Lara, Viviane Linck January 2013 (has links) Made available in DSpace on 2016-02-05T01:03:11Z (GMT). No. of bitstreams: 1 000477172-Texto+Completo-0.pdf: 10477924 bytes, checksum: 092f88ba6468650374664bacdbcdb4df (MD5) Previous issue date: 2013 / Solving Systems of Linear Equations is important in several domains. In many cases, it is necessary to employ verified computing to achieve reliable results. With the support of High Performance Computing (HPC), solve efficiently huge linear systems with Verified Computing has become possible. Recently, HPC researchers have started to investigate solutions focused not only in performance but also in energy efficiency as well. In this context, the main goal of this work is to propose the use of DVFS (Dynamic Voltage and Frequency Scaling) technique to change the CPU frequency during the execution of a solver that employs Verified Computing. Furthermore, this works intends to present a case study aiming at verifying if the use of DVFS can provide a reduction on energy consumption without perfomance and accuracy being compromised. Initially, a study about the FastPILSS solver was carried out to evaluate its accuracy, performance and energy consumption over several different input matrices. After that, we observed that the use of DVFS does not affect accuracy. Analysing the results, no reduction in energy consumption using the powersave governor was observed if compared to the energy consumption using the performance governor. This occurs due to the significant increase in execution time. When the frequency was changed in isolated steps of the solver algorithm, it was possible to reduce up to 3,29% the energy consumption for dense matrices during the approximate inverse calculation. / A resolução de Sistemas de Equações Lineares Algébricas (SELAs) é importante em diversos domínios do conhecimento. Em muitos casos, o uso de Computação Verificada é necessário para garantir que os resultados sejam confiáveis. Com o auxílio da Computação de Alto Desempenho, a resolução mais eficiente de SELAs de grande porte com o uso da Computação Verificada tornou-se possível. Atualmente, a área de Alto Desempenho tem buscado soluções que considerem, além do desempenho, a eficiência energética. Nesse sentido, o objetivo do trabalho é utilizar a técnica DVFS (Dynamic Voltage and Frequency Scaling) para modificar a frequência do processador na execução de um solver de SELAs de Alto Desempenho com verificação do resultado. Além disso, realizar um estudo de caso que permita avaliar se o uso de DVFS reduz o consumo de energia, bem como avaliar de que maneira o desempenho e a exatidão podem ser comprometidos. Inicialmente, foi realizado um estudo de caso sobre o solver FastPILSS, analisando exatidão, desempenho e consumo de energia. Depois disso, verificou-se que a utilização de DVFS não afetou a exatidão. Com a análise dos resultados, observou-se que não houve redução do consumo de energia ao utilizar o governador em powersave se comparado ao consumo de energia com o governador em performance. Esse comportamento pode ser atribuído ao significativo aumento no tempo de execução. Ao realizar a alteração de frequência em pontos isolados no algoritmo do solver, observou-se que tendo como entrada matrizes do tipo densas durante a realização do cálculo da inversa aproximada, obtém-se redução de no máximo 3,29% no consumo de energia. INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO ENERGIA ELÉTRICA - CONSERVAÇÃO
17	Middleware para coordenar tolerância a falhas e elasticidade em clusters de alto desempenho com produtores e consumidores baseados em filas de mensagens Teixeira, Eduardo Henrique Ferreira Mendes 07 July 2014 (has links) Dissertação (mestrado)—Universidade de Brasília, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2014. / Submitted by Ana Cristina Barbosa da Silva (annabds@hotmail.com) on 2014-12-09T17:05:06Z No. of bitstreams: 1 2014_EduardoHenriqueFerreiraMendesTeixeira.pdf: 2232673 bytes, checksum: aff74f93e1003d1ade958b064f26c6b3 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-12-15T13:56:38Z (GMT) No. of bitstreams: 1 2014_EduardoHenriqueFerreiraMendesTeixeira.pdf: 2232673 bytes, checksum: aff74f93e1003d1ade958b064f26c6b3 (MD5) / Made available in DSpace on 2014-12-15T13:56:38Z (GMT). No. of bitstreams: 1 2014_EduardoHenriqueFerreiraMendesTeixeira.pdf: 2232673 bytes, checksum: aff74f93e1003d1ade958b064f26c6b3 (MD5) / Este trabalho propôs e avaliou um middleware com suporte à tolerância a falhas e à elasticidade em um cluster de alto desempenho. Para isso, foi construída uma arquitetura elástica para se adaptar dinamicamente ao crescimento da fila de requisições, para que as mensagens não se acumulem, e tolerante a falhas para que eventuais paradas do sistema, por queda ou falha dos serviços, não impactem na operacionalidade do cluster. Assim sendo, o middleware desenvolvido foi capaz de diminuir o número de servidores necessários para processar as filas de mensagens, liberando recursos da infraestrutura do cluster para uso como failover do sistema distribuído ou em outras aplicações. Consequentemente, a qualidade dos serviços prestados melhorou, devido a diminuição dos tempos de atualização do sistema por conta de manutenções evolutivas e corretivas. ______________________________________________________________________________ ABSTRACT / This work proposed and evaluated a middleware with support for fault tolerance and elasticity in a high performance cluster. For this purpose, it was constructed an elastic architecture to dynamically adapt to growth in the request queue, so that messages do not accumulate. Also the architeture provides fault-tolerance to system outages, in the cases of failure of service, so these failures do not impact on the operation of the cluster. The middleware developed was able to decrease the number of servers needed to process the message queue, freeing infrastructure resources of the cluster for use as a failover of the distributed system or in other applications. Consequently, the quality of service has improved due to shortened time to update the system on behalf of progressive and corrective maintenance. Computação de alto desempenho Processamento paralelo (Computação)
18	Estratégia distribuída híbrida em cluster multicore heterogêneo para alinhamento múltiplo de sequencias biológicas com o dialign-tx Macedo, Emerson de Araújo 25 October 2010 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2010. / Submitted by samara castro (sammy_roberta7@hotmail.com) on 2011-01-18T17:40:29Z No. of bitstreams: 1 2010_EmersondeAraujoMacedo.pdf: 1706327 bytes, checksum: 1c50b4ee04f9e253ff36c9dad8d53b03 (MD5) / Approved for entry into archive by Luanna Maia(luanna@bce.unb.br) on 2011-01-19T12:13:59Z (GMT) No. of bitstreams: 1 2010_EmersondeAraujoMacedo.pdf: 1706327 bytes, checksum: 1c50b4ee04f9e253ff36c9dad8d53b03 (MD5) / Made available in DSpace on 2011-01-19T12:13:59Z (GMT). No. of bitstreams: 1 2010_EmersondeAraujoMacedo.pdf: 1706327 bytes, checksum: 1c50b4ee04f9e253ff36c9dad8d53b03 (MD5) / O Alinhamento Múltiplo de Sequências (AMS) é um problema importante em Bioinformática, permitindo a interpretação de árvores filogenéticas, a identificação de domínios e padrões conservados e a predição de estruturas secundárias. Como o AMS é um problema NP-Difícil, heurísticas são utilizadas. O programa DIALIGN-TX implementa uma heurística iterativa para calcular o AMS em três fases. A fase 1 calcula todas as comparações par a par das sequências de entrada, exigindo a maior parcela do tempo de execução para o cálculo do AMS. Esta fase possui grande potencial para execução em paralelo, pois as comparações par a par são independentes entre si. Os clusters multicore heterogêneos surgem da expansão gradual de ambientes compostos por clusters multicore homogêneos. Para explorar as características multicore e heterogênea desse sistema em cluster, é intuitivo que o emprego de um modelo de programação híbrido com trocas de mensagens e memória compartilhada seja mais apropriado, bem como de uma estratégia de alocação de tarefas que permita lidar com as diferentes capacidades de processamento de seus nós. A presente dissertação propõe e avalia um estratégia distribuída híbrida para que a ferramenta DIALIGN-TX seja executada num cluster multicore heterogêneo. A estratégia proposta foi implementada em um cluster multicore heterogêneo com três nós com capacidades de processamento e velocidades de clock diferentes. Foi utilizado um modelo híbrido de programação com troca de mensagens para a comunicação entre os nós e memória compartilhada para comunicação entre os cores de um mesmo nó. Foram implementadas três novas estratégias de alocação de tarefas, chamadas Hybrid Fixed (HFixed), Hybrid Self-Scheduling (HSS) e Hybrid Weighted Factoring (HWF). Os resultados obtidos mostraram que a solução proposta consegue reduzir de maneira bastante significativa o tempo de execução da fase 1 do AMS do DIALIGN-TX. Além disso, mostraram que a escolha de uma política de alocação de tarefas adequada é de fundamental importância para o desempenho da solução. __________________________________________________________________________________________ ABSTRACT / The Multiple Sequence Alignment (MSA) is an important problem in Bioinformatics, allowing interpretation of phylogenetic trees, identification of domains and conserved motifs and prediction of secondary structures. As the MSA is an NP-Hard problem, heuristics are used. The DIALIGN-TX program implements an iterative heuristic to calculate the MSA in three phases. Phase 1 calculates all pairwise comparisons of the input sequences, requiring the largest portion of execution time for the calculation of MSA. This phase has great potential for parallel execution, since its pairwise comparisons are independent from each other. The heterogeneous multicore clusters arise from the gradual expansion of environments composed of homogeneous multicore clusters. To explore the multicore and heterogenous characteristics of that cluster system, it is intuitive that the use of a hybrid programming model with message passing and shared memory is more appropriate, as well as a task allocation strategy for addressing the different computation powers in its nodes. This dissertation proposes and evaluates a hybrid distributed strategy that allows DIALIGN-TX to be executed in a heterogeneous multicore cluster. The proposed strategy was implemented in a heterogeneous multicore cluster with three nodes with diferent processing capabilities and clock speeds. A hybrid programming model with message passing for communication among nodes and shared memory for communication among cores of the same node was used. Moreover, three new strategies for task allocation were implemented: Hybrid Fixed (HFixed), Hybrid Self-Scheduling (HSS) and Hybrid Weighted Factoring (HWF). The results showed that the proposed solution can reduce quite significantly the execution time of the first phase of the MSA of DIALIGN-TX. Furthermore, they also showed that choosing an appropriate task allocation centeringpolicy has fundamental importance for the performance of the solution. Biologia computacional Computação de alto desempenho Bioinformática
19	Desenvolvimento de uma plataforma com uma arquitetura escalável para multiplicação de matrizes densas em sistemas reconfiguráveis de alto desempenho Holanda Tavares Charamba Dutra, Bruno 31 January 2011 (has links) Made available in DSpace on 2014-06-12T16:01:18Z (GMT). No. of bitstreams: 2 arquivo7574_1.pdf: 3964838 bytes, checksum: 9d67d7eca014312def012c15ef291b50 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / O surgimento de novas gerações de FPGAs (Field Program Gate Array) de larga escala, com uma maior densidade de elementos lógicos e de memória interna, motivou a comunidade científica e a indústria a investir no desenvolvimento de plataformas reconfiguráveis de alto desempenho que utilizam FPGAs como co-processadores. Com os microprocessadores atuais atingindo seus limites de freqüência de operação e tendo o desempenho limitado pela baixa largura de banda no acesso a memória, os dispositivos lógicos programáveis, como os FPGAs, surgem como uma alternativa para o processamento de aplicações que requerem alto desempenho, uma vez que possuem uma grande quantidade de pinos que podem ser conectados a interfaces de memória externas além de possibilitar a exploração do paralelismo inerente das implementações em linguagens de descrição de hardware. Além do ganho de desempenho possível, os FPGAs dissipam uma quantidade potência bastante inferior comparada aos processadores de propósito geral produzindo uma relação desempenho por potência dissipada muito mais favorável quando comparado aos microprocessadores. Dentre as várias aplicações que exigem computação de alto desempenho a comunidade científica tem concentrado esforços para acelerar funções da biblioteca BLAS (Basic Linear Algebra Subprogram) que consiste em uma biblioteca open-source de operações básicas de álgebra linear. Uma das operações mais importantes desta biblioteca é multiplicação de matrizes que está presente em aplicações de diferentes áreas. Neste trabalho foi desenvolvida uma plataforma de alto de desempenho que utiliza um FPGA como co-processador para multiplicação de matrizes densas. A plataforma foi desenvolvida de forma a ser escalável podendo processar matrizes de diferentes tamanhos. Além disso, outra característica importante da plataforma é o fato de ter sido desenvolvida com o intuito de abstrair todos os detalhes de hardware para o usuário. O desempenho da plataforma foi comparado com implementações otimizadas do algoritmo de multiplicação de matrizes executando em um processador de propósito geral Computação de alto desempenho FPGA Plataforma Multiplicação de matrizes
20	Desenvolvimento de uma plataforma reconfigurável para modelagem 2D, em sísmica, utilizando FPGAS ROCHA, Rodrigo Camarotti Ferreira da 31 January 2010 (has links) Made available in DSpace on 2014-06-12T16:01:24Z (GMT). No. of bitstreams: 2 arquivo8463_1.pdf: 12319126 bytes, checksum: b5a8c52d8e0b6baad317795923ed8e8d (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A exploração sísmica é uma técnica exploratória, que tem como objetivos localizar depósitos de minerais, hidrocarbonetos (ex: petróleo e gás natural), e sítios arqueológicos, capturando informações geológicas do ambiente que comporta estes elementos. A maioria das companhias de petróleo apoia‐se na interpretação sísmica para definir os lugares de exploração dos poços. Os métodos sísmicos utilizados na exploração sísmica têm como objetivo gerar uma imagem do terreno que se tem interesse. Esses métodos geralmente requerem sistemas com alto poder computacional, devido à quantidade massiva de dados e de computações necessária para a resolução dos mesmos. A Migração Reversa no Tempo (Reverse Time Migration ‐ RTM) é um método sísmico que resolve a equação de onda assumindo que seus campos de pressão podem se propagar da fonte de ondas sísmicas para os hidrofones, estágio denominado de modelagem, e dos hidrofones para a fonte de ondas sísmicas, o que é definido como migração. O RTM consegue gerar boas imagens em terrenos bastante complexos, porém seu custo computacional é bastante elevado. Sua utilização vem aumentando nos últimos anos, devido a grande melhora no desempenho das CPUs e o surgimento de ambientes de computação paralela, como clusters, GPU, e FPGA. Esta dissertação irá explorar a possibilidade de utilização de FPGAs para realizar a aceleração do problema de modelagem sísmica em 2D, primeiro passo computacional do método RTM. Para realizar essa exploração foi desenvolvida uma plataforma reconfigurável baseada em FPGA que utiliza uma plataforma da GiDEL, denominada PROCe‐III. O sistema a ser apresentado como proposta adota um modelo co‐design, tendo a unidade de software representada por uma CPU e, um FPGA, representando o componente de hardware, como um coprocessador FPGA computação de alto desempenho Exploração sísmica RTM.

Search results