Global ETD Search

1	Hardware-based approach to support mixed-critical workload execution in multicore processors Green, Bruno Naspolini January 2015 (has links) Made available in DSpace on 2016-05-07T12:04:18Z (GMT). No. of bitstreams: 1 000478485-Texto+Completo-0.pdf: 5399784 bytes, checksum: 68454c801dfde629ebad948323993992 (MD5) Previous issue date: 2015 / The use of multicore processors in general-purpose real-time embedded systems has experienced a huge increase in the recent years. Unfortunately, critical applications are not benefiting from this type of processors as one could expect. The major obstacle is that we may not predict and provide any guarantee on real-time properties of software running on such platforms. The shared memory bus is among the most critical resources, which severely degrades the timing predictability of multicore software due to the access contention between cores. To counteract this problem, we present in this work a new approach that supports mixed-criticality workload execution in a multicore processor-based embedded system. It allows any number of cores to run less-critical tasks concurrently with the critical core, which is running the critical task. The approach is based on the use of a dedicated Hard Deadline Enforcer (HDE) implemented in hardware, which allows the execution of any number of cores (running less-critical workloads) concurrently with the critical core (executing the critical workload).From the best of our knowledge, compared to existing techniques, the proposed approach allows the exploitation of the maximum performance offered by a multiprocessing system while guaranteeing critical task schedulability. Additionally, the proposed approach presents the same design complexity as any other approach devoted to perform timing analysis for single core processor, no matter the number of cores are used in the embedded system on the design. If current techniques were used, the design complexity to perform timing analysis would increase dramatically as long as the number of cores in the embedded system increases. A case-study based on a dual-core version of the LEON3 processor was implemented to demonstrate the applicability and assertiveness of the approach. Several critical application codes were compiled to this processor, which was mapped into a Xilinx Spartan 3E FPGA. Experimental results demonstrate that the proposed approach is very effective on combining system high-performance with critical task schedulability within timing deadline. / O uso de processadores multicore em sistemas embarcados em tempo real de propósito geral tem experimentado um enorme aumento nos últimos anos. Infelizmente, aplicações críticas não se beneficiam deste tipo de processadores como se poderia esperar. O principal obstáculo é que não podemos prever e fornecer qualquer garantia sobre as propriedades em tempo real do software em execução nessas plataformas. O barramento de memória compartilhada está entre os recursos mais críticos, que degrada severamente a previsibilidade temporal do software multicore devido à contenção de acesso entre os núcleos. Para combater este problema, apresentamos neste trabalho uma nova abordagem que suporta a execução de carga de trabalho de criticidade mista em um sistema embarcado baseado em processadores multicore. Permitindo que qualquer número de núcleos execute tarefas menos críticas concorrentemente com o núcleo crítico que executa a tarefa crítica. A abordagem baseia-se na utilização de um Hard Deadline Enforcer (HDE) implementado em hardware, que permite a execução de qualquer número de núcleos (executando cargas de trabalho menos críticas) simultaneamente com o núcleo crítico (executando a carga crítica). A partir do melhor de nosso conhecimento, em comparação com as técnicas existentes, a abordagem proposta permite a exploração do desempenho máximo oferecido por um sistema multicore, garantindo a escalonabilidade da tarefa crítica. Além disso, a abordagem proposta apresenta a mesma complexidade de projeto, como qualquer outra abordagem dedicada a análise temporal para processadores de núcleo único, não importando o número de núcleos que são utilizados no sistema incorporado ao design. Caso técnicas atuais fossem utilizadas, a complexidade do projeto para análise temporal de sistemas de múltiplos núcleos aumentaria dramaticamente conforme o aumento do número de núcleos do sistema embarcado. Foi implementado um estudo de caso baseado em uma versão dual-core do processador LEON3 para demonstrar a aplicabilidade e assertividade da abordagem. Vários códigos de aplicações críticas foram compilados para este processador, que foi mapeado na FPGA Spartan 3E da Xilinx. Resultados experimentais demonstram que a abordagem proposta é muito eficaz na obtenção da alta performance do sistema respeitando o deadline da tarefa crítica. MULTIPROCESSADORES PROCESSAMENTO DE ALTO DESEMPENHO INFORMÁTICA
2	Hardware-based approach to support mixed-critical workload execution in multicore processors Green, Bruno Naspolini 23 December 2015 (has links) Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-05-06T16:26:38Z No. of bitstreams: 1 DIS_BRUNO_NASPOLINI_GREEN_COMPLETO.pdf: 5399784 bytes, checksum: 68454c801dfde629ebad948323993992 (MD5) / Made available in DSpace on 2016-05-06T16:26:38Z (GMT). No. of bitstreams: 1 DIS_BRUNO_NASPOLINI_GREEN_COMPLETO.pdf: 5399784 bytes, checksum: 68454c801dfde629ebad948323993992 (MD5) Previous issue date: 2015-12-23 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / The use of multicore processors in general-purpose real-time embedded systems has experienced a huge increase in the recent years. Unfortunately, critical applications are not benefiting from this type of processors as one could expect. The major obstacle is that we may not predict and provide any guarantee on real-time properties of software running on such platforms. The shared memory bus is among the most critical resources, which severely degrades the timing predictability of multicore software due to the access contention between cores. To counteract this problem, we present in this work a new approach that supports mixed-criticality workload execution in a multicore processor-based embedded system. It allows any number of cores to run less-critical tasks concurrently with the critical core, which is running the critical task. The approach is based on the use of a dedicated Hard Deadline Enforcer (HDE) implemented in hardware, which allows the execution of any number of cores (running less-critical workloads) concurrently with the critical core (executing the critical workload). From the best of our knowledge, compared to existing techniques, the proposed approach allows the exploitation of the maximum performance offered by a multiprocessing system while guaranteeing critical task schedulability. Additionally, the proposed approach presents the same design complexity as any other approach devoted to perform timing analysis for single core processor, no matter the number of cores are used in the embedded system on the design. If current techniques were used, the design complexity to perform timing analysis would increase dramatically as long as the number of cores in the embedded system increases. A case-study based on a dual-core version of the LEON3 processor was implemented to demonstrate the applicability and assertiveness of the approach. Several critical application codes were compiled to this processor, which was mapped into a Xilinx Spartan 3E FPGA. Experimental results demonstrate that the proposed approach is very effective on combining system high-performance with critical task schedulability within timing deadline. / O uso de processadores multicore em sistemas embarcados em tempo real de prop?sito geral tem experimentado um enorme aumento nos ?ltimos anos. Infelizmente, aplica??es cr?ticas n?o se beneficiam deste tipo de processadores como se poderia esperar. O principal obst?culo ? que n?o podemos prever e fornecer qualquer garantia sobre as propriedades em tempo real do software em execu??o nessas plataformas. O barramento de mem?ria compartilhada est? entre os recursos mais cr?ticos, que degrada severamente a previsibilidade temporal do software multicore devido ? conten??o de acesso entre os n?cleos. Para combater este problema, apresentamos neste trabalho uma nova abordagem que suporta a execu??o de carga de trabalho de criticidade mista em um sistema embarcado baseado em processadores multicore. Permitindo que qualquer n?mero de n?cleos execute tarefas menos cr?ticas concorrentemente com o n?cleo cr?tico que executa a tarefa cr?tica. A abordagem baseia-se na utiliza??o de um Hard Deadline Enforcer (HDE) implementado em hardware, que permite a execu??o de qualquer n?mero de n?cleos (executando cargas de trabalho menos cr?ticas) simultaneamente com o n?cleo cr?tico (executando a carga cr?tica). A partir do melhor de nosso conhecimento, em compara??o com as t?cnicas existentes, a abordagem proposta permite a explora??o do desempenho m?ximo oferecido por um sistema multicore, garantindo a escalonabilidade da tarefa cr?tica. Al?m disso, a abordagem proposta apresenta a mesma complexidade de projeto, como qualquer outra abordagem dedicada a an?lise temporal para processadores de n?cleo ?nico, n?o importando o n?mero de n?cleos que s?o utilizados no sistema incorporado ao design. Caso t?cnicas atuais fossem utilizadas, a complexidade do projeto para an?lise temporal de sistemas de m?ltiplos n?cleos aumentaria dramaticamente conforme o aumento do n?mero de n?cleos do sistema embarcado. Foi implementado um estudo de caso baseado em uma vers?o dual-core do processador LEON3 para demonstrar a aplicabilidade e assertividade da abordagem. V?rios c?digos de aplica??es cr?ticas foram compilados para este processador, que foi mapeado na FPGA Spartan 3E da Xilinx. Resultados experimentais demonstram que a abordagem proposta ? muito eficaz na obten??o da alta performance do sistema respeitando o deadline da tarefa cr?tica. MULTIPROCESSADORES PROCESSAMENTO DE ALTO DESEMPENHO INFORM?TICA ENGENHARIAS
3	NUMA-ICTM: uma versão paralela do ICTM explorando estratégias de alocação de memória para máquinas NUMA Castro, Márcio Bastos January 2009 (has links) Made available in DSpace on 2013-08-07T18:42:49Z (GMT). No. of bitstreams: 1 000409723-Texto+Completo-0.pdf: 1712848 bytes, checksum: 000c7fa44ec53b2d15786685a9544bc3 (MD5) Previous issue date: 2009 / In Geophysics, the appropriate subdivision of a region into segments is extremely important. ICTM (Interval Categorizer Tesselation Model) is an application that categorizes geographic regions using information extracted from satellite images. The categorization of large regions is a computational intensive problem, what justifies the proposal and development of parallel solutions in order to improve its applicability. Recent advances in multiprocessor architectures lead to the emergence of NUMA (Non-Uniform Memory Access) machines, which combine the efficiency and scalability of MPP (Massively Parallel Processing) machines with the programming facility of the SMP (Symmetric Multiprocessors) machines. In this work, NUMA-ICTM is presented: a parallel solution of ICTM for NUMA machines exploiting memory placement strategies. First, ICTM is parallelized using only OpenMP. After, the OpenMP solution is improved using the MAI (Memory Affinity Interface) library, which allows a control of memory allocation in NUMA machines. The results show that the optimization of memory allocation leads to significant performance gains over the pure OpenMP parallel solution. / Na Geofísica, a subdivisão apropriada de uma região em segmentos é extremamente importante. O ICTM (Interval Categorizer Tesselation Model) é uma aplicação capaz de categorizar regiões geográficas utilizando informações extraídas de imagens de satélite. O processo de categorização de grandes regiões é considerado um problema computacionalmente intensivo, o que justifica a proposta e desenvolvimento de soluções paralelas com intuito de aumentar sua aplicabilidade. Recentes avanços em arquiteturas multiprocessadas caminham em direção a arquiteturas do tipo NUMA (Non-uniform Memory Access), as quais combinam a eficiência e escalabilidade das máquinas MPP (Massively Parallel Processing) com a facilidade de programação das máquinas SMP (Symmetric Multiprocessors). Neste trabalho, é apresentada a NUMA-ICTM: uma solução paralela do ICTM para máquinas NUMA explorando estratégias de alocação de memória. Primeiramente, o ICTM é paralelizado utilizando-se somente OpenMP. Posteriormente, esta solução é otimizada utilizando-se a interfade MAI (Memory Affinity Interface), a qual proporciona um melhor controle sobre a alocação de dados em memória em máquinas NUMA. Os resultados mostram que esta otimização permite importantes ganhos de desempenho sobre a solução paralela que utiliza somente OpenMP. INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO ARQUITETURA DE COMPUTADOR
4	Resolução paralela verificada de sistemas de equações lineares: uma abordagem para eficiência energética utilizando DVFS Lara, Viviane Linck January 2013 (has links) Made available in DSpace on 2016-02-05T01:03:11Z (GMT). No. of bitstreams: 1 000477172-Texto+Completo-0.pdf: 10477924 bytes, checksum: 092f88ba6468650374664bacdbcdb4df (MD5) Previous issue date: 2013 / Solving Systems of Linear Equations is important in several domains. In many cases, it is necessary to employ verified computing to achieve reliable results. With the support of High Performance Computing (HPC), solve efficiently huge linear systems with Verified Computing has become possible. Recently, HPC researchers have started to investigate solutions focused not only in performance but also in energy efficiency as well. In this context, the main goal of this work is to propose the use of DVFS (Dynamic Voltage and Frequency Scaling) technique to change the CPU frequency during the execution of a solver that employs Verified Computing. Furthermore, this works intends to present a case study aiming at verifying if the use of DVFS can provide a reduction on energy consumption without perfomance and accuracy being compromised. Initially, a study about the FastPILSS solver was carried out to evaluate its accuracy, performance and energy consumption over several different input matrices. After that, we observed that the use of DVFS does not affect accuracy. Analysing the results, no reduction in energy consumption using the powersave governor was observed if compared to the energy consumption using the performance governor. This occurs due to the significant increase in execution time. When the frequency was changed in isolated steps of the solver algorithm, it was possible to reduce up to 3,29% the energy consumption for dense matrices during the approximate inverse calculation. / A resolução de Sistemas de Equações Lineares Algébricas (SELAs) é importante em diversos domínios do conhecimento. Em muitos casos, o uso de Computação Verificada é necessário para garantir que os resultados sejam confiáveis. Com o auxílio da Computação de Alto Desempenho, a resolução mais eficiente de SELAs de grande porte com o uso da Computação Verificada tornou-se possível. Atualmente, a área de Alto Desempenho tem buscado soluções que considerem, além do desempenho, a eficiência energética. Nesse sentido, o objetivo do trabalho é utilizar a técnica DVFS (Dynamic Voltage and Frequency Scaling) para modificar a frequência do processador na execução de um solver de SELAs de Alto Desempenho com verificação do resultado. Além disso, realizar um estudo de caso que permita avaliar se o uso de DVFS reduz o consumo de energia, bem como avaliar de que maneira o desempenho e a exatidão podem ser comprometidos. Inicialmente, foi realizado um estudo de caso sobre o solver FastPILSS, analisando exatidão, desempenho e consumo de energia. Depois disso, verificou-se que a utilização de DVFS não afetou a exatidão. Com a análise dos resultados, observou-se que não houve redução do consumo de energia ao utilizar o governador em powersave se comparado ao consumo de energia com o governador em performance. Esse comportamento pode ser atribuído ao significativo aumento no tempo de execução. Ao realizar a alteração de frequência em pontos isolados no algoritmo do solver, observou-se que tendo como entrada matrizes do tipo densas durante a realização do cálculo da inversa aproximada, obtém-se redução de no máximo 3,29% no consumo de energia. INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO ENERGIA ELÉTRICA - CONSERVAÇÃO
5	Algoritmos de escalonamento para grades computacionais voltados à eficiência energética Teodoro, Silvana January 2013 (has links) Made available in DSpace on 2013-08-07T18:42:54Z (GMT). No. of bitstreams: 1 000448653-Texto+Completo-0.pdf: 3845852 bytes, checksum: 42fed21d426d0772e6f918691f47833c (MD5) Previous issue date: 2013 / Recent advances in High Performance Computing have opened a wide range of new research opportunities. Modern parallel and distributed architectures present each time more and more processing units seeking for a higher computational power. At the same time, the gain of performance obtained with those platforms is followed by an increase in energy consumption. In this scenario, researches in energy efficient high performance environments have emerged as a way to find the causes of excessive energy consumption and propose alternative solutions. Nowadays, one of the most representative high performance platforms is the computational grid which is used in many scientific and academic projects all over the world. In this work, we propose the use of energy-aware scheduling algorithms to efficiently manage the energy consumption in computational grids trying to avoid excessive performance losses. Our solution is based on: (i) an efficient management of idle resources; (ii) a clever use of active resources; (iii) the development of a procedure to accurately estimate the energy consumed in a given platform; (iv) the proposal of several new energy-aware scheduling algorithms for computational grids. We evaluate our approach using the SimGrid simulation environment and we compared our algorithms against five traditional scheduling algorithms for computational grids that are not energy-aware and one new algorithm recently proposed in the literature that deals with energy consumption issues. Our results show that in some experimental scenarios using our algorithms it is possible to achieve up to 221,03% of reduction in the energy consumption combined with 34,60% of performance loss. This example confirms our assumption that it is possible to significantly decrease the energy consumption on a grid platform without compromising proportionally the performance. / Os recentes avanços da Computação de Alto Desempenho abrem um largo espectro de possibilidades para as pesquisas na área. Arquiteturas paralelas e distribuídas modernas apresentam cada vez mais capacidade de processamento em busca de um maior poder computacional. Ao mesmo tempo, o ganho de desempenho obtido com as plataformas é seguido por um aumento do consumo de energia. Neste cenário, pesquisas sobre eficiência energética em ambientes de alto desempenho têm surgido como uma forma de encontrar as causas e propor soluções para o consumo excessivo de energia. Atualmente, uma das mais representativas plataformas de alto desempenho é a grade computacional, que é usada em muitos projetos científicos e acadêmicos em todo mundo. Neste trabalho, propomos o uso de algoritmos de escalonamento de tarefas energeticamente eficientes para a gestão do consumo de energia em grades computacionais sem causar perdas significativas de desempenho.A solução é baseada em: (i) gestão eficiente de recursos ociosos; (ii) uso inteligente de recursos ativos; (iii) desenvolvimento de um mecanismo para estimar com precisão a energia consumida por uma determinada plataforma; (iv) proposta de novos algoritmos de escalonamento energeticamente eficientes para grades computacionais. A abordagem criada foi avaliada utilizando o ambiente de simulação SimGrid. Comparamos nossos algoritmos com cinco algoritmos de escalonamento tradicionais para grades computacionais, que não consideram questões de energia, e um algoritmo recentemente proposto na literatura que lida com questões de consumo de energia. Os resultados mostram, em alguns cenários, uma redução no consumo de energia de 221,03%, combinada com uma perda de desempenho de 34,60%, com o uso de um dos algoritmos desenvolvidos neste trabalho. Este exemplo confirma a nossa hipótese de que é possível reduzir significativamente o consumo de energia em uma grade computacional sem comprometer de forma proporcional o desempenho. INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO ALGORITMOS (PROGRAMAÇÃO) ENERGIA ELÉTRICA - CONSERVAÇÃO
6	Estratégias de paralelização para renderização de documentos XSL-FO com uso da ferramenta FOP Zambon, Rogério Timmers January 2006 (has links) Made available in DSpace on 2013-08-07T18:43:07Z (GMT). No. of bitstreams: 1 000387162-Texto+Completo-0.pdf: 6010910 bytes, checksum: 801b7923a4a58c8368c1c2595915b829 (MD5) Previous issue date: 2006 / High volume print jobs are getting more common due to the growing demand for personalized documents. In this context, VDP (Variable Data Printing) has become a useful tool for mar- keters who need to customize messages for each customer in promotion materials or marketing campaigns. VDP allows the creation of documents based on a template with variable and static portions. The rendering engine must be capable of transforming the variable portion into a resulting composed format, or PDL (Page Description Language) such as PDF (Portable Do- cument Format), PS (PostScript) or SVG (Scalable Vector Graphics). The amount of variable content in a document is dependant on the publication layout. In addition, the features and the amount of the content to be rendered may vary according to the data loaded from the database. Therefore, the rendering process is invoked repeatedly and it can quickly become a bottleneck, especially in a production environment, compromising the entire document generation. In this scenario, high performance techniques appear to be an interesting alternative to increase the rendering phase throughput. This paper introduces a portable and scalable parallel solution for the Apache's rendering tool FOP (Formatting Objects Processor) which is used to render variable content expressed in XSL-FO (eXtensible Stylesheet Language-Formatting Objects). / Grandes volumes de trabalho para impressão são cada vez mais comuns devido ao aumento da demanda por documentos personalizados. Neste contexto, Impressão de Dados Variáveis (Variable Data Printing - VDP) tornou-se uma ferramenta muito útil para profissionais de marketing que necessitam personalizar mensagens para cada cliente em materiais promocionais e campanhas de publicidade. VDP permite a criação de documentos baseados em um modelo (template) contendo partes estáticas e variáveis. A ferramenta de renderização deve ser capaz de transformar a parte variável em um formato composto, ou PDL (Page Description Language) tais como PDF (Portable Document Format), PS (PostScript) ou SVG (Scalable Vector Graphics). A quantidade de conteúdo variável em um documentoé totalmente dependente do modelo (layout) da publicação definido por um profissional da área. Além disso, o conteúdo variável a ser renderizado pode variar de acordo com os dados lidos do banco de dados. Desta forma, este processoé chamado repetidamente e pode tornar-se facilmente um gargalo, especialmente em um ambiente de produção comprometendo inteiramente a geração de um documento. Neste cenário, técnicas de alto desempenho aparecem como uma interessante alternativa para aumentar o rendimento da fase de renderização. Este trabalho introduz uma solução paralela portável e escalável para a ferramenta de renderização chamada FOP (Formatting Objects Processor), a qual é usada para renderizar o conteúdo variável expresso em linguagem XSL-FO (eXtensible Stylesheet Language-Formatting Obects). INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO
7	Programação Paralela de Alto Nível e Eficiente sobre Arquiteturas Distribuídas Heron de Carvalho Junior, Francisco January 2003 (has links) Made available in DSpace on 2014-06-12T15:53:01Z (GMT). No. of bitstreams: 2 arquivo4840_1.pdf: 2733371 bytes, checksum: e244212f7a4deffc77acea2d00797916 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2003 / Mudanças paradigmáticas tem sido observadas no contexto da computação de alto desempenho a partir da última década. A consolidação das arquiteturas distribuídas, bem como o avanço no estado-da-arte das tecnologias de processadores e interconexão em redes, culminou no aparecimento dos clusters, redes de convencionais de computadores capazes de rivalizar com supercomputadores em seu nicho de aplicações a um custo inferior em ordens de magnitude. Recentemente, com o avanço no estado-da-arte das tecnologias de interconexão de redes de longa distância, vislumbrou-se o uso da infra-estrutura destas para construção de supercomputadores de escala virtualmente infinita, conceito que ficou conhecido como grid computing. Pesquisas em todo o mundo visam viabilizar o uso destas arquiteturas para supercomputação, com resultados promissores. Clusters e Grids são hoje consideradas as tecnologias que ditarão o futuro da computação de alto desempenho. Sua maior implicação reside na miríade de novas aplicações para supercomputação, extrapolando os limites da computação meramente científica. Entretanto, estas tem se caracterizado por um maior nível de complexidade estrutural e escala, exigindo ferramentas de mais alto nível para o seu desenvolvimento. O paradigma de programação paralela designa os alicerces à implementação eficiente de aplicações sobre clusters e grids. Entretanto, a dificuldade inerente à construção de programas paralelos e a inexistência de ferramentas de alto nível que auxiliem a esta tarefa, principalmente voltadas a programas de larga escala, levaram a comunidade científica ao consenso da necessidade em investirem-se esforços no desenvolvimento de modelos avançados de programação paralela, ermitindo que programas serem formalmente validados e adaptados às modernas técnicas de engenharia modular de programas. O modelo # de programação paralela, produto desta tese de doutorado, surge como uma alternativa aos mecanismos eficientes convencionais de desenvolvimento de programas paralelos sobre arquiteturas distribuídas, tendo sido desenvolvido segundo um conjunto de premissas induzidas pelo contexto que se criou com o surgimento e disseminação das tecnologias associadas a cluster e grid computing. O modelo surge com s\'olidas fundações em modelos formais baseados em redes de Petri, permitindo a análise de propriedades e avaliação de desempenho de programas usando ferramentas pré-existentes adaptadas a esse disseminado formalismo. Implementa-se a linguagem Haskell#, a qual adere ao modelo #, usando Haskell para descrever computações. O uso de Haskell permite a ortogonalização transparente entre os meios de coordenação e computação de um programa #. Complementa ainda o arcabouço de análise formal de programas #, extendo-o no nível de computação, devido a existência de ferramental adequado ao tratamento formal de linguagens funcionais puras e não-estritas Processamento de Alto Desempenho Programação Paralela Engenharia de Programas Redes de Petri
8	Anahy-DVM: um módulo para escalonamento distribuído / Anahy-DVM: a module for distributed scheduling Cardozo Junior, Marcelo Augusto 14 March 2006 (has links) Made available in DSpace on 2015-03-05T13:56:58Z (GMT). No. of bitstreams: 0 Previous issue date: 14 / Hewlett-Packard Brasil Ltda / Atualmente o uso de aglomerados de computadores para fins de alto desempenho tem aumentado. Contudo, a programação desse tipo de arquitetura não é trivial. Pois,além de desenvolver a aplicação, detectar e explicitar a concorrência nela existente, o programador também é responsável por implementar o escalonamento de sua aplicação para efetivamente usar o paralelismo dos aglomerados. Existem ferramentas que se propõem a solucionar esses problemas; a ferramenta de programação Anahy é uma destas. Este trabalho se propõe a implementar um módulo para Anahy com fins de provêla de suporte à execução em ambientes dotados de memória distribuída. Para isso seu núcleo executivo foi estendido para que se possa ter acesso as estruturas de dados imprescindíveis à distribuição da carga computacional. Também será necessário desenvolver um mecanismo de comunicação entre os nós do aglomerado para que estes troquem as informações necessárias para o andamento da computação. Por fim, o módulo desenvolvido é avaliado através do / Lately, the usage of computer clusters has increased. However, programming for this class of architecture is non trivial. This happens due the fact that, besides programming the application, detecting and specifying its concurrency, the programmer is also responsible for coding the scheduler of the application so it can use computer clusters efficiently. There are programming tools that propose solutions for these problems, one of these tools is Anahy. This work proposes an extension for Anahy runtime in order to provide support for distributed memory environments. In order to achieve this objective, the execution core of Anahy is extended so the necessary data structures can be accessed by this module. It is also necessary to develop a comunication mechanism among the nodes of the cluster so they can exchange the necessary information to complete the computation. Finally, the module is evaluated using a synthetic application. Through this evaluation, the module is analyzed relating to its usability in the Ciências Exatas e da Terra ambiente de execução escalonamento processamento de alto desempenho execution environment high performance computing scheduling
9	NUMA-ICTM : uma vers?o paralela do ICTM explorando estrat?gias de aloca??o de mem?ria para m?quinas NUMA Castro, M?rcio Bastos 16 January 2009 (has links) Made available in DSpace on 2015-04-14T14:49:04Z (GMT). No. of bitstreams: 1 409723.pdf: 1712848 bytes, checksum: 000c7fa44ec53b2d15786685a9544bc3 (MD5) Previous issue date: 2009-01-16 / Na Geof?sica, a subdivis?o apropriada de uma regi?o em segmentos ? extremamente importante. O ICTM (Interval Categorizer Tesselation Model) ? uma aplica??o capaz de categorizar regi?es geogr?ficas utilizando informa??es extra?das de imagens de sat?lite. O processo de categoriza??o de grandes regi?es ? considerado um problema computacionalmente intensivo, o que justifica a proposta e desenvolvimento de solu??es paralelas com intuito de aumentar sua aplicabilidade. Recentes avan?os em arquiteturas multiprocessadas caminham em dire??o a arquiteturas do tipo NUMA (Non-uniform Memory Access), as quais combinam a efici?ncia e escalabilidade das m?quinas MPP (Massively Parallel Processing) com a facilidade de programa??o das m?quinas SMP (Symmetric Multiprocessors). Neste trabalho, ? apresentada a NUMA-ICTM: uma solu??o paralela do ICTM para m?quinas NUMA explorando estrat?gias de aloca??o de mem?ria. Primeiramente, o ICTM ? paralelizado utilizando-se somente OpenMP. Posteriormente, esta solu??o ? otimizada utilizando-se a interfade MAI (Memory Affinity Interface), a qual proporciona um melhor controle sobre a aloca??o de dados em mem?ria em m?quinas NUMA. Os resultados mostram que esta otimiza??o permite importantes ganhos de desempenho sobre a solu??o paralela que utiliza somente OpenMP INFORM?TICA PROCESSAMENTO DE ALTO DESEMPENHO ARQUITETURA DE COMPUTADOR
10	Estrat?gias de paraleliza??o para renderiza??o de documentos XSL-FO com uso da ferramenta FOP Zambon, Rog?rio Timmers 27 January 2006 (has links) Made available in DSpace on 2015-04-14T14:49:44Z (GMT). No. of bitstreams: 1 387162.pdf: 6010910 bytes, checksum: 801b7923a4a58c8368c1c2595915b829 (MD5) Previous issue date: 2006-01-27 / Grandes volumes de trabalho para impress?o s?o cada vez mais comuns devido ao aumento da demanda por documentos personalizados. Neste contexto, Impress?o de Dados Vari?veis (Variable Data Printing - VDP) tornou-se uma ferramenta muito ?til para profissionais de marketing que necessitam personalizar mensagens para cada cliente em materiais promocionais e campanhas de publicidade. VDP permite a cria??o de documentos baseados em um modelo (template) contendo partes est?ticas e vari?veis. A ferramenta de renderiza??o deve ser capaz de transformar a parte vari?vel em um formato composto, ou PDL (Page Description Language) tais como PDF (Portable Document Format), PS (PostScript) ou SVG (Scalable Vector Graphics). A quantidade de conte?do vari?vel em um documento? totalmente dependente do modelo (layout) da publica??o definido por um profissional da ?rea. Al?m disso, o conte?do vari?vel a ser renderizado pode variar de acordo com os dados lidos do banco de dados. Desta forma, este processo? chamado repetidamente e pode tornar-se facilmente um gargalo, especialmente em um ambiente de produ??o comprometendo inteiramente a gera??o de um documento. Neste cen?rio, t?cnicas de alto desempenho aparecem como uma interessante alternativa para aumentar o rendimento da fase de renderiza??o. Este trabalho introduz uma solu??o paralela port?vel e escal?vel para a ferramenta de renderiza??o chamada FOP (Formatting Objects Processor), a qual ? usada para renderizar o conte?do vari?vel expresso em linguagem XSL-FO (eXtensible Stylesheet Language-Formatting Obects). INFORM?TICA XSL (LINGUAGEM DE MARCA??O DE DOCUMENTO) PROCESSAMENTO DE ALTO DESEMPENHO

Search results