Spelling suggestions: "subject:"arquiteturas paralelas"" "subject:"arquiteturas paralelas""
11 |
Sistema de visão computacional sobre processadores com arquitetura multi núcleos. / System of computational vision over multicore architecture processors.Hiramatsu, Roberto Kenji 20 May 2008 (has links)
Esta tese apresenta um estudo sobre a implementação de sistema de detecção e reconhecimento de faces no processador CELL na plataforma CBE, utilizando um sistema Playstation 3. Inicialmente, diversas abordagens para reconhecimento e detecção de faces são estudadas, bem como arquiteturas de processador multi núcleos. São apresentadas três implementação, sendo a segunda implementação premiada com quarto colocado no IBM CELL UNIVERSITY CHALLENGE 2007 para desenvolvimento de programas para plataforma Cell BE. A terceira implementação apresenta os resultados interessantes relacionados a vetorização do processamento dos dados da detecção de objetos e os recursos adotados para obter o melhor desempenho. / This thesis presents a study of face detection implementation on CBE plataform and employ the system with Playstation 3 hardware. Several approaches for face detection and recognition are studied as well as multicore processor architetures. We implemented three versions of system. First implementation was a naive reference implementation with worst performance. Second implementation granted fourth prize in IBM CELL UNIVERSITY CHALLENGE 2007 that incentive development on CBE plataform. Third implementation had most interesting results with vectorized approaches on code of object detection.
|
12 |
Gerenciamento de tags na arquitetura ChipCflow - uma máquina a fluxo de dados dinâmica / Tag management in ChipCflow architecture - a dynamic dataflow machineSilva, Bruno de Abreu 15 April 2011 (has links)
Nos últimos anos, percebeu-se uma crescente busca por softwares e arquiteturas alternativas. Essa busca acontece porque houve avanços na tecnologia do hardware e estes avanços devem ser complementados por inovações nas metodologias de projetos, testes e verificação para que haja um uso eficaz da tecnologia. Muitos dos softwares e arquiteturas alternativas, geralmente partem para modelos que exploram o paralelismo das aplicações, ao contrário do modelo de von Neumann. Dentre as arquiteturas alternativas de alto desempenho, tem-se a arquitetura a fluxo de dados. Nesse tipo de arquitetura, o processo de execução de programas é determinado pela disponibilidade dos dados. Logo, o paralelismo está embutido na própria natureza do sistema. O modelo a fluxo de dados possui a vantagem de expressar o paralelismo de maneira intrínseca, eliminando a necessidade de o programador explicitar em seu código os trechos onde deve haver paralelismo. As arquiteturas a fluxo de dados voltaram a ser um tema de pesquisa devido aos avanços do hardware, em particular, os avanços da Computação Reconfigurável e os FPGAs (Field-Programmable Gate Arrays). O projeto ChipCflow é uma ferramenta para execução de algoritmos usando o modelo a fluxo de dados dinâmico em FPGA. Este trabalho apresenta o formato para os tagged-tokens do ChipCflow, os operadores de manipulação das tags dos tokens e suas implementações a fim de que se tenha a PROVA-DE-CONCEITOS para tais operadores na arquitetura ChipCflow / The alternative architectures and softwares researches have been growing in the last years. These researches are happening due to the advance of hardware technology and such advances must be complemented by improvements on design methodologies, test and verification techniques in order to use technology effectively. Many of the alternative architectures and softwares, in general, explore the parallelism of applications, differently to von Neumann model. Among high performance alternative architectures, there is the Dataflow Architecture. In this kind of architecture, the execution of programs is determined by data availability, thus the parallelism is intrinsic in these systems. The dataflow architectures become again a highlighted research area due to hardware advances, in particular, the advances of Reconfigurable Computing and FPGAs (Field-Programmable Gate Arrays). ChipCflow project is a tool for execution of algorithms using dynamic dataflow graph in FPGA. The main goal in this module of the ChipCflow project is to define the tagged-token format, the iterative operators that will manipulate the tags of tokens and to implement them
|
13 |
Um ambiente de multiprojeção totalmente imersivo baseado em aglomerados de computadores. / A complete immersive multiprojection environment based in computer clusters.Soares, Luciano Pereira 24 June 2005 (has links)
Nas últimas décadas a tecnologia de realidade virtual tem sido cada vez mais utilizada em várias aplicações na sociedade. Particularmente a partir do início da década de 90, observamos o advento da realidade virtual baseada em multiprojeções, com o surgimento do paradigma de construção de sistemas de realidade virtual totalmente imersivos como por exemplo o CAVE. Esta tese tem por objetivo apresentar pesquisas e desenvolvimentos relacionados com a implementação do primeiro sistema de multiprojeção totalmente imersivo baseado em aglomerado de computadores convencionais, sistema este denominado de CAVERNA Digital. O trabalho aqui apresentado é composto por um panorama atual do estado da arte das tecnologias de realidade virtual baseadas em multiprojeção. O conceito de aglomerados de computadores convencionais para realidade virtual, ou especificamente VRCluster é apresentado, bem como uma taxonomia de organização interna dos VRClusters. O sistema de multiprojeção da CAVERNA Digital é apresentado, descrevendo em detalhe as opções dos inúmeros subsistemas como projetores, telas, subsistema de vídeo, dispositivos de interação e outros. Outra contribuição desta tese é pela inovação de uma plataforma de visualização interativa voltada para ambientes de realidade virtual imersivos, plataforma esta denominada de JINX, baseada no padrão aberto X3D. Aspectos relacionados com a operação destes sistemas de realidade virtual avançados são apresentados como é o caso das interface de gerenciamento de ambientes imersivos denominado de SIRIUS e do núcleo de gerenciamento de ambientes imersivos denominado de ZEUS. Por fim vários testes de desempenho são realizados para a validação da integração dos inúmeros recursos utilizados na CAVERNA Digital. / In the last decades, virtual reality technology has been increasingly used in many applications for the society. Particularly in the beginning of 90s, we can observe the advent of virtual reality based in multi-projections, leading to the construction paradigm of CAVE like virtual reality systems. The goal of this thesis is to present the research and developments related to the construction of the first multi projection completely immersive system based on commodity computer clusters called CAVERNA Digital. The work here presented is composed by an updated panorama of the state-of-art multi-projection virtual reality technologies. The concept of commodity computer clusters for virtual reality, or specifically VRCluster is shown, as well as the taxonomy for internal organization of the VRClusters. The CAVERNA Digital multi-projection system is shown, including details of the options of uncountable subsystems, like projectors, screens, video, and interaction devices, among others. This thesis contributes with another innovation: the visualization platform, called JINX, based on the open standard X3D. Aspects related to the operation of these advanced virtual reality systems are presented, which is the case of the user interface for immersive environments called SIRIUS and the management core for immersive environments called ZEUS. Finally, various performance tests were conducted to validate the integration of the uncountable resources used in the CAVERNA Digital.
|
14 |
Contribuição ao controle experimental de robôs paralelos. / Contribution to the experimental control of parallel robots.Hartmann, Vítor Neves 06 July 2018 (has links)
Existe um crescente aumento nos gastos mundiais em inovação, com maior participação de áreas como a computação, a eletrônica, a saúde, a área automotiva e a área industrial. Mecanismos diferenciados, assimétricos, tais como o estudado neste trabalho, necessitam de maiores investigações, como a realização de ensaios normatizados. Para se contribuir com esse cenário propõe-se a análise de um sistema robótico, de arquitetura paralela, para experimentos de múltiplas finalidades. O presente trabalho aborda desde a construção de uma máquina paralela de topologia assimétrica, passando por seu controle, até a obtenção de informações sobre essa nova arquitetura. A sua construção é dividida em cinco subsistemas, que se interrelacionam: o mecânico, o elétrico, o de atuação, o de controle e o de interface. Sete estratégias de controle foram comparadas de acordo com os seguintes critérios: a exatidão na trajetória, o comprimento controlável, a dispersão das trajetórias em diferentes períodos de tempo, e o consumo de energia. Os resultados foram gerados por meio de registro, em folha de papel, da trajetória do efetuador da máquina. As curvas geradas foram digitalizadas e comparadas entre si. Os resultados mostraram que os controles dinâmicos podem permitir o funcionamento adequado da máquina, sendo possível, inclusive, velocidades maiores que as observadas no controle descentralizado PID. Neste trabalho em particular, o maior desafio observado foi o valor da menor frequência natural amortecida, que se mostrou baixo e resultou em baixos esforços de controle. Em ordem decrescente, os tipos de controle que apresentaram melhores resultados foram o PID descentralizado, o controle por torque computado com feedforward, e o controle por modos deslizantes, também com feedforward. / There is a steady increase in global spending on innovation, with an increased share of areas such as computing, electronics, health, automotive and industrial area. Differentiated, asymmetric mechanisms, such as the one proposed in this work, need further investigations, such as standardized tests. To contribute to this scenario the analysis of a robotic system, with parallel architecture and for multi-purpose experiments, is proposed. This work covers the construction of a parallel machine with asymmetric topology, its control, and the collection of information on this new architecture. Its construction is divided into five sub-systems, which are interrelated: the mechanical, the electrical, the actuation, the control and its interface. Seven control strategies were compared, according to four criteria. The chosen criteria are the following: track accuracy, stability range, dispersion of the paths at different periods and energy consumption. The results were generated by recording, on a sheet of paper, the trajectory of the machine\'s end-effector. The plots were digitalized and compared. The results showed that the dynamic controls can allow the machine to behave appropriately, even at speeds higher than those with the decentralized PID. The main challenge in this case was the lowest damped frequency, with a low value that resulted in low control efforts. In decreasing order, the best results were achieved with the decentralized PID, the feedforward computed torque control and the feedforward sliding modes control.
|
15 |
Investigação de técnicas fotônicas de chaveamento aplicadas em arquiteturas paralelas. / Research about photonic techniques in parallel architectures.Martins, João Eduardo Machado Perea 20 March 1998 (has links)
Este trabalho apresenta um estudo sobre redes ópticas de interconexão aplicadas em arquiteturas paralelas, onde são propostos, simulados e analisados alguns modelos de redes. Essa é uma importante pesquisa, pois, as redes de interconexão influenciam diretamente o custo e desempenho das arquiteturas paralelas de computadores. O primeiro modelo de rede óptica proposto é chamado de SCF (Sistema Circular com Filas). Esse e um sistema sem colisões, onde há um canal exclusivo para controle de comunicação e cada nó possui um canal exclusivo para recepção de dados. Esse sistema tem um desempenho com alta taxa de vazão, alto nível de utilização e pequenas filas. Para a simulação da rede SCF foi desenvolvido um simulador dedicado, cuja adaptação para a simulação de outros modelos de redes, propostos nesse trabalho, foi facilmente realizada. Neste trabalho também foram propostos, simulados e analisados três modelos diferentes de chaves ópticas de distribuição para arquitetura paralela do tipo Dataflow. Os resultados dessas simulações mostram que componentes ópticos relativamente simples podem ser utilizados no desenvolvimento de sistemas de alto desempenho. / This work presents a study about optical interconnection network applied to parallel computer architectures, where is proposed, simulated and analyzed some models of optical interconnection networks. It is an important research because the interconnection networks influence directly the cost and performance of parallel computer architectures. The first optical interconnection network model proposed in this work is called SCF (Sistema Circular com Filas). It is a system without collisions, where there is a dedicated channel for communication control and each node has a fixed channel for data reception. The system has a performance with high throughput, high utilization leve1 and small queue size. For the SCF simulation was developed a dedicated simulator, whose adjust to simulate others optical interconnection network, proposed in this work, was easily performed. In this work also were proposed, simulated and analyzed three different models of optical distributing network for Dataflow computer architecture, whose results shows that single optical devises can ensure the development of high performance systems.
|
16 |
Uma contribuição para o desenvolvimento de uma máquina fresadora de arquitetura paralela. / A contribution to the development of a milling machine with parallel architecture.Vitor Neves Hartmann 19 April 2011 (has links)
Tradicionalmente, em aplicações industriais predominam robôs cujas arquiteturas correspondem a estruturas cinemáticas seriais, ou seja, seus atuadores e peças movidas são dispostos em série, um após o outro, formando uma única cadeia cinemática aberta, de modo a posicionar o órgão terminal, a parte do robô que comumente contém uma garra ou um eletrodo de solda. Esses robôs apresentam desempenho insatisfatório em aplicações que demandem precisão, rigidez, alta freqüência natural e baixo tempo de ciclo. Sendo assim, tanto a comunidade acadêmica como a industrial têm manifestado um interesse crescente pela utilização de outro tipo de estrutura cinemática, denominada paralela, que se caracteriza pela presença de várias cadeias cinemáticas independentes, atuando de forma paralela e simultânea sobre o órgão terminal. Essa arquitetura não-convencional apresenta, potencialmente, uma série de vantagens, como: alta rigidez, leveza, rapidez, precisão e alta capacidade de carga. No entanto, existe uma série de problemas abertos que necessitam de uma investigação mais profunda, de modo a garantir que essa mudança de tendência venha a ser implementada com eficácia. O objetivo desta pesquisa é contribuir para o desenvolvimento de uma máquina fresadora de arquitetura paralela que seja promissora quanto à sua simplicidade construtiva, bem como a precisão de posicionamento da ferramenta, se comparada com os robôs paralelos tradicionais. Esses dois requisitos simplicidade e precisão serão alcançados mediante o emprego de uma estrutura modular e a utilização de uma barra de ancoragem ativa, de forma que a estrutura final apresente três atuadores operando em conjunto. Sendo assim, serão empregados três membros, todos ativos, formando uma estrutura cinemática redundante com mobilidade igual a dois. A avaliação do comportamento da arquitetura proposta para a fresadora será realizada por meio de simulações, com o mapeamento dos erros estáticos, de modo a identificar a sua precisão de posicionamento ao longo dos seus eixos de movimentação. / Traditionally, in industrial activities, there is a preference over robots whose architectures correspond to serial kinematic structures, i.e., its actuators and moving parts are arranged in series, one after another, forming a single open kinematic chain, in order to position the body terminal, the part of the robot that commonly contain a claw or a welding electrode. However, these robots have poor performance in applications that require precision, rigidity, high natural frequency and low cycle time. Due to these factors, both academic and industrial communities have expressed a growing interest in the use of another type of kinematic structure, called parallel, which is characterized by the presence of several independent kinematic chains, operating in parallel and simultaneously on the terminal organ. This unconventional architecture has potentially a number of advantages, such as high stiffness, lightness, speed, precision and high load capacity. However, there are a number of open problems that need further investigation in order to ensure that this trend change will be implemented effectively. The objective of this research is to contribute for the development of a parallel milling machine that presents a promising behavior in terms of precision and simplicity in construction, compared with the traditional parallel robots. Both requirements simplicity and precision will be achieved with the utilization of a modular structure and the introduction of an active docking bar, so that the final structure has three actuators working simultaneously. Thus, three members will be used, all active, forming a kinematic redundant structure with mobility equal to two. The expected behavior of the proposed architecture for the milling machine is evaluated through simulations, with the mapping of static errors that allow the identification of its positioning accuracy along the motion axes.
|
17 |
Um ambiente de multiprojeção totalmente imersivo baseado em aglomerados de computadores. / A complete immersive multiprojection environment based in computer clusters.Luciano Pereira Soares 24 June 2005 (has links)
Nas últimas décadas a tecnologia de realidade virtual tem sido cada vez mais utilizada em várias aplicações na sociedade. Particularmente a partir do início da década de 90, observamos o advento da realidade virtual baseada em multiprojeções, com o surgimento do paradigma de construção de sistemas de realidade virtual totalmente imersivos como por exemplo o CAVE. Esta tese tem por objetivo apresentar pesquisas e desenvolvimentos relacionados com a implementação do primeiro sistema de multiprojeção totalmente imersivo baseado em aglomerado de computadores convencionais, sistema este denominado de CAVERNA Digital. O trabalho aqui apresentado é composto por um panorama atual do estado da arte das tecnologias de realidade virtual baseadas em multiprojeção. O conceito de aglomerados de computadores convencionais para realidade virtual, ou especificamente VRCluster é apresentado, bem como uma taxonomia de organização interna dos VRClusters. O sistema de multiprojeção da CAVERNA Digital é apresentado, descrevendo em detalhe as opções dos inúmeros subsistemas como projetores, telas, subsistema de vídeo, dispositivos de interação e outros. Outra contribuição desta tese é pela inovação de uma plataforma de visualização interativa voltada para ambientes de realidade virtual imersivos, plataforma esta denominada de JINX, baseada no padrão aberto X3D. Aspectos relacionados com a operação destes sistemas de realidade virtual avançados são apresentados como é o caso das interface de gerenciamento de ambientes imersivos denominado de SIRIUS e do núcleo de gerenciamento de ambientes imersivos denominado de ZEUS. Por fim vários testes de desempenho são realizados para a validação da integração dos inúmeros recursos utilizados na CAVERNA Digital. / In the last decades, virtual reality technology has been increasingly used in many applications for the society. Particularly in the beginning of 90s, we can observe the advent of virtual reality based in multi-projections, leading to the construction paradigm of CAVE like virtual reality systems. The goal of this thesis is to present the research and developments related to the construction of the first multi projection completely immersive system based on commodity computer clusters called CAVERNA Digital. The work here presented is composed by an updated panorama of the state-of-art multi-projection virtual reality technologies. The concept of commodity computer clusters for virtual reality, or specifically VRCluster is shown, as well as the taxonomy for internal organization of the VRClusters. The CAVERNA Digital multi-projection system is shown, including details of the options of uncountable subsystems, like projectors, screens, video, and interaction devices, among others. This thesis contributes with another innovation: the visualization platform, called JINX, based on the open standard X3D. Aspects related to the operation of these advanced virtual reality systems are presented, which is the case of the user interface for immersive environments called SIRIUS and the management core for immersive environments called ZEUS. Finally, various performance tests were conducted to validate the integration of the uncountable resources used in the CAVERNA Digital.
|
18 |
Sistema de visão computacional sobre processadores com arquitetura multi núcleos. / System of computational vision over multicore architecture processors.Roberto Kenji Hiramatsu 20 May 2008 (has links)
Esta tese apresenta um estudo sobre a implementação de sistema de detecção e reconhecimento de faces no processador CELL na plataforma CBE, utilizando um sistema Playstation 3. Inicialmente, diversas abordagens para reconhecimento e detecção de faces são estudadas, bem como arquiteturas de processador multi núcleos. São apresentadas três implementação, sendo a segunda implementação premiada com quarto colocado no IBM CELL UNIVERSITY CHALLENGE 2007 para desenvolvimento de programas para plataforma Cell BE. A terceira implementação apresenta os resultados interessantes relacionados a vetorização do processamento dos dados da detecção de objetos e os recursos adotados para obter o melhor desempenho. / This thesis presents a study of face detection implementation on CBE plataform and employ the system with Playstation 3 hardware. Several approaches for face detection and recognition are studied as well as multicore processor architetures. We implemented three versions of system. First implementation was a naive reference implementation with worst performance. Second implementation granted fourth prize in IBM CELL UNIVERSITY CHALLENGE 2007 that incentive development on CBE plataform. Third implementation had most interesting results with vectorized approaches on code of object detection.
|
19 |
Máquina de cláusulas : arquitetura e modelo de execução de cláusulas Prolog / Clause machines : architecture and prolog clauses execution modelBins Filho, Jose Carlos January 1990 (has links)
Este trabalho define um modelo de execução para cláusulas Prolog, a partir do modelo abstrato de Máquinas de Cláusulas, e o Projeto de uma arquitetura paralela que suporte o modelo proposto. São também introduzidos alguns aspectos sobre as linguagens Lógicas e as máquinas Prolog visto que estes elementos estão relacionados intimamente tanto com o modelo quanto com a arquitetura propostos. Na proposta do modelo de execução são definidos uma representação para os elementos do modelo abstrato (predicados, arcos e clausulas) e um conjunto de algoritmos que permitem a operacionalização do modelo de forma a que tanto o paralelismo como a concorrência inerentes ao modelo abstrato sejam exploradas de forma integral. Na proposta da arquitetura são, primeiramente, discutidas algumas opções de arquitetura básica e, posteriormente, descrita a arquitetura escolhida tanto a nível de blocos bem como dos seus componentes principais, a saber: interface de mem6ria, processador e rede de interconexão. Para cada um destes componentes são descritas as principais instruções e são apresentados os algoritmos que as implementam. Junto com a descrição da arquitetura é definida uma estrutura de dados que permite a implementação da representação descrita no modelo de execuqao e é definido também o algoritmo de unificação que percorre a estrutura proposta. Na validação é feito o cálculo da largura de banda máxima alcançada pela arquitetura proposta, calculo este baseado no algoritmo de unificação descrito. E também feita uma avaliação do ganho de performance da arquitetura proposta em relação a um processador bem como é justificado o numero de processadores escolhidos comparando a performance alcançada na arquitetura proposta com a performance alcançada por conjuntos maiores e menores de processadores. Por fim na conclusa o são feitos comentários sobre os objetivos atingidos e sobre possíveis extensões a este trabalho. / The present work defines a execution model for Prolog clauses based on the clause machines abstract model and then proposes a parallel architecture for the execution model. Some topics about Logic languages and Prolog machines were therefore introduced because they are closely related with, both, the model and the architecture proposed. In the execution model the representation of the abstract model elements (predicates, arcs and clauses) and the set of algoritms that allow the operation of the model were defined so that the parallelism of the model can be integraly achieved. In the architecture proposal, first some options for the basic architecture were discussed and then the chosen architecture is describeb at block level as much as at its components level. The most importants components reported are the memory interface, the processor and the interconection net, for each one of them the possible instructions were describeb as well as their algoritms. Together with the especification of the architecture, the data estructure that allows the implementation of the execution model representation and the concerning unification algorit that scans the proposed representation were especified too. In the validation the thoughtput permited by the proposal architecture is calculated based on the unification algoritm earlier described. Besides that the performance gain compared with an architecture with only one processor was estimated, as much as the confrontation of the performance of lesser and greater sets of processors elements were made in order to validate the chossen number. At last, in the conclusion, some coments about the fulfilled goals and about eventual extends for the work.
|
20 |
Automatic task and data mapping in shared memory architectures / Mapeamento automático de processos e dados em arquiteturas de memória compartilhadaDiener, Matthias January 2015 (has links)
Arquiteturas paralelas modernas têm hierarquias de memória complexas, que consistem de vários níveis de memórias cache privadas e compartilhadas, bem como Non-Uniform Memory Access (NUMA) devido a múltiplos controladores de memória por sistema. Um dos grandes desafios dessas arquiteturas é melhorar a localidade e o balanceamento de acessos à memória de tal forma que a latência média de acesso à memória é reduzida. Dessa forma, o desempenho e a eficiência energética de aplicações paralelas podem ser melhorados. Os acessos podem ser melhorados de duas maneiras: (1) processos que acessam dados compartilhados (comunicação entre processos) podem ser alocados em unidades de execução próximas na hierarquia de memória, a fim de melhorar o uso das caches. Esta técnica é chamada de mapeamento de processos. (2) Mapear as páginas de memória que cada processo acessa ao nó NUMA que ele está sendo executado, assim, pode-se reduzir o número de acessos a memórias remotas em arquiteturas NUMA. Essa técnica é conhecida como mapeamento de dados. Para melhores resultados, os mapeamentos de processos e dados precisam ser realizados de forma integrada. Trabalhos anteriores nesta área executam os mapeamentos separadamente, o que limita os ganhos que podem ser alcançados. Além disso, a maioria dos mecanismos anteriores exigem operações caras, como traços de acessos à memória, para realizar o mapeamento, além de exigirem mudanças no hardware ou na aplicação paralela. Estes mecanismos não podem ser considerados soluções genéricas para o problema de mapeamento. Nesta tese, fazemos duas contribuições principais para o problema de mapeamento. Em primeiro lugar, nós introduzimos um conjunto de métricas e uma metodologia para analisar aplicações paralelas, a fim de determinar a sua adequação para um melhor mapeamento e avaliar os possíveis ganhos que podem ser alcançados através desse mapeamento otimizado. Em segundo lugar, propomos um mecanismo que executa o mapeamento de processos e dados online. Este mecanismo funciona no nível do sistema operacional e não requer alterações no hardware, os códigos fonte ou bibliotecas. Uma extensa avaliação com múltiplos conjuntos de carga de trabalho paralelos mostram consideráveis melhorias em desempenho e eficiência energética. / Reducing the cost of memory accesses, both in terms of performance and energy consumption, is a major challenge in shared-memory architectures. Modern systems have deep and complex memory hierarchies with multiple cache levels and memory controllers, leading to a Non-Uniform Memory Access (NUMA) behavior. In such systems, there are two ways to improve the memory affinity: First, by mapping tasks that share data (communicate) to cores with a shared cache, cache usage and communication performance are improved. Second, by mapping memory pages to memory controllers that perform the most accesses to them and are not overloaded, the average cost of accesses is reduced. We call these two techniques task mapping and data mapping, respectively. For optimal results, task and data mapping need to be performed in an integrated way. Previous work in this area performs the mapping only separately, which limits the gains that can be achieved. Furthermore, most previous mechanisms require expensive operations, such as communication or memory access traces, to perform the mapping, require changes to the hardware or to the parallel application, or use a simple static mapping. These mechanisms can not be considered generic solutions for the mapping problem. In this thesis, we make two contributions to the mapping problem. First, we introduce a set of metrics and a methodology to analyze parallel applications in order to determine their suitability for an improved mapping and to evaluate the possible gains that can be achieved using an optimized mapping. Second, we propose two automatic mechanisms that perform task mapping and combined task/data mapping, respectively, during the execution of a parallel application. These mechanisms work on the operating system level and require no changes to the hardware, the applications themselves or their runtime libraries. An extensive evaluation with parallel applications from multiple benchmark suites as well as real scientific applications shows substantial performance and energy efficiency improvements that are significantly higher than simple mechanisms and previous work, while maintaining a low overhead.
|
Page generated in 0.0804 seconds