Global ETD Search

91	Profiling and reducing micro-architecture bottlenecks at the hardware level / BLAP : um caracterizador de blocos básicos de arquitetura Moreira, Francis Birck January 2014 (has links) A maior parte dos mecanismos em processadores superescalares atuais usam granularidade de instrução para criar ou caracterizar especulações, tais como predição de desvios ou prefetchers. No entanto, muitas das características das instruções podem ser obtidas ao analisar uma granularidade mais grossa, o bloco básico de código, aumentando a quantidade de código coberta em um espaço similar de armazenamento. Adicionalmente, códigos podem ser analisados mais precisamente e prover uma variedade maior de informação ao observar diferentes tipos de instruções e suas relações. Devido a estas vantagens, a análise no nível de blocos pode fornecer mais oportunidades para mecanismos que necessitam desta informação. Por exemplo, é possível integrar informações de desvios mal previstos e acessos a memória para gerar informações mais precisas de quais acessos a memória oferecem melhor desempenho ao serem priorizados. Nesta tese propomos o Block-Level Architecture Profiler (BLAP) (Block Level Architecture Profiler), um mecanismo em hardware que caracteriza gargalos no nível microarquitetural, tal como loads delinquentes, desvios de difícil previsão e contenção nas unidades funcionais. O BLAP trabalha no nível de bloco básico, apenas detectando e fornecendo informações que podem ser usada para otimizar tais gargalos. Um mecanismo para a remoção de prefetches e uma política de controlador de memória DRAM foram criados para usar a informação criada pelo BLAP e demonstrar seu potencial. Juntos, estes mecanismos são capazes de melhorar o desempenho do sistema em até 17.39% (3.9% em média). Nosso método mostrou também ganhos médios de 13.14% quando avaliado com uma pressão na memória mais alta devido a prefetchers mais agressivos. / Most mechanisms in current superscalar processors use instruction granularity information for speculation, such as branch predictors or prefetchers. However, many of these characteristics can be obtained at the basic block level, increasing the amount of code that can be covered while requiring less space to store the data. Moreover, the code can be profiled more accurately and provide a higher variety of information by analyzing different instruction types inside a block. Because of these advantages, block-level analysis can offer more opportunities for mechanisms that use this information. For example, it is possible to integrate information about branch prediction and memory accesses to provide precise information for speculative mechanisms, increasing accuracy and performance. We propose a BLAP, an online mechanism that profiles bottlenecks at the microarchitectural level, such as delinquent memory loads, hard-to-predict branches and contention for functional units. BLAP works at the basic block level, providing information that can be used to reduce the impact of these bottlenecks. A prefetch dropping mechanism and a memory controller policy were developed to use the profiled information provided by BLAP. Together, these mechanisms are able to improve performance by up to 17.39% (3.90% on average). Our technique showed average gains of 13.14% when evaluated under high memory pressure due to highly aggressive prefetch. Processamento paralelo Processamento distribuido System architecture Program profiling Hardware design
92	Aspectos de desempenho da computação paralela em Clusters e Grids para processamento de imagens de Oliveira Mattos, Giorgia 31 January 2008 (has links) Made available in DSpace on 2014-06-12T17:35:12Z (GMT). No. of bitstreams: 2 arquivo5391_1.pdf: 5090704 bytes, checksum: 8579bb353f3397d7c9f8d6e90e505f32 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / O processo de digitalização de documentos de maneira automática geralmente resulta em imagens com características indesejáveis como orientação errada, inclinação incorreta das linhas do texto e até mesmo a presença de ruídos causados pelo estado de conservação, integridade física e presença ou ausência de poeira no documento e partes do scanner. O simples processamento de cada imagem é efetuado em poucos segundos, a sua transcrição ou busca de palavras-chave para indexação necessita vários segundos de processamento. O lote produzido por um único scanner de linha de produção pode levar dias para ser filtrado, dependendo da capacidade de processamento do computador utilizado. Faz-se necessário distribuir tal tarefa para que o processamento das imagens acompanhe a taxa de digitalização. Esta tese analisa a viabilidade da computação paralela em cluster e grades para o processamento de grandes quantidades de imagens de documentos digitalizados. Diferentes cenários de configuração de computadores e de distribuição de tarefas foram analisados, sob o ponto de vista do processamento das tarefas e do tráfego de rede gerado durante o processamento Processamento paralelo Clusters Grades Processamento de imagens Balanceamento de carga
93	Usando objetos ativos para a unificação da rede de gerencia de telecomunicações com a rede inteligente Souza, Kleber Xavier Sampaio de 27 February 1996 (has links) Orientador: Ivanil Sebastião Bonatti / Tese (doutorado) - Universidade Estadual Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-21T03:46:20Z (GMT). No. of bitstreams: 1 Souza_KleberXavierSampaiode_D.pdf: 8780456 bytes, checksum: 479a505e0aef8ae02521f765066f0d36 (MD5) Previous issue date: 1996 / Resumo: Neste trabalho, a Plataforma Distribuída de Agregados de Atores é proposta para a implementação de serviços de gerência na Rede de Gerência de Telecomunicações (TMN), em um ambiente de rede de alta velocidade, como o Modo de Transferência Assíncrono 1 (ATM). As principais contribuições desta pesquisa são: a análise dos requisitos necessários à gerência de redes de alta velocidade, e a proposição de um modelo baseado em filas com prioridades: Extensão deste modelo para aplicação à Rede TMN, anexando mecanismos de transparência necessários à integração dos vários componentes funcionais da arquitetura TMN: Demonstração da adequação do modelo estendido à implementação de serviços em redes inteligentes (IN), confirmando a tendência de integração entre TMN e IN; Proposição da aplicação da Teoria de Atores na implementação do modelo proposto, mediante extensão da teoria básica incluindo: filas de eventos prioritários, conceito de Agregados (para Transparência de Localização) e mecanismo de Transparência de Acesso, usando a linguagem ASN.1; e a construção de um núcleo de suporte à implementação de Agregados de Atores, utilizando facilidades de "threads" de controle, ambiente ISODE (ISSO Development Environment) e a linguagem de programação C++ / Abstract: ln this work, the Distributed Actor Aggregates PIatform is proposed to impIement services in the TeIecommunications Management Network (TMN) in high speed network environment, such as synchronous Transfer Mode (ATM). The main contributions of this thesis are: the requirements analysis of management in high speed networks, and the proposition of a model based on priority queues; Extension of the model for application to TMN Networks, adding transparency mechanisms necessary to integrate TMN functional components; Demonstration of the adequacy of the extended model to impIement lntelligent Network (lN) services, confirming the tendency of the unification of TMN and lN; Proposition of the application of Actor Theory in the impIementation of the proposed model, by extending the basic theory to include: priority event queues, the Aggregates concept (for Location Transparency) and a mechanism of Access Transparency, using ASN. language; and the construction of a supporting kernel for the impIementation of Actor Aggregates, using control threads facilities, the lSODE package and the C++ programming language / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica Rede digital de serviços integrados Processamento paralelo (Computadores) Telemática
94	Predição do desempenho de programas paralelos por simulação do grafo de execução Manacero Junior, Aleardo 07 August 1997 (has links) Orientador: Andre L. Morelato França / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-22T21:03:59Z (GMT). No. of bitstreams: 1 ManaceroJunior_Aleardo_D.pdf: 9426763 bytes, checksum: ebcfb5b39f21c096cc81e04234c4c74a (MD5) Previous issue date: 1997 / Resumo: O desenvolvimento de programas para ambientes de programação paralela exige do projetista uma atenção especial quanto ao desempenho obtido pelo conjunto programa-máquina. Os custos elevados de processamento fazem com que seja necessário obter o melhor desempenho possível para reduzir custos e tempos de processamento. O problema passa a ser como definir medidas de desempenho e como realizar as medições para verificar se o sistema é eficiente ou não. Existem diversas ferramentas de análise ou predição de desempenho, que procuram fornecer ao usuário dados sobre o programa, Para auxiliar o projetista a localizar pontos críticos do mesmo e fazer acertos para melhorar o desempenho do sistema. Infelizmente a maioria dessas ferramentas trabalha com grandes aproximações no modelo do ambiente paralelo, fazendo com que os resultados obtidos não sejam totalmente precisos. Além disso, quando essas ferramentas fazem uso de medidas experimentais para a realização da análise, elas acabam introduzindo erros experimentais pela necessidade de inserir código adicional ao programa analisado. Neste trabalho é apresentada uma nova metodologia para realizar medidas de desempenho sem a necessidade de código adicional ao programa e, além disso, sem a necessidade de usar a máquina alvo do programa durante todo o processo. A metodologia faz a reescrita do código executável para um grafo de execução... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: The process of writing a new code for a parallel programming environment demands from its designer a lot of attention on the performance achieved by the pair program-machine. The high processing costs justify the efforts to reduce processing time and costs, which leads to the problem of defining performance metrics and approaches to measure the system performance. Several performance analysis and prediction tools are available to help designers in such a task. With those tools the designer can locate critical points in the code and look for solutions to improve the program's performance. Unfortunately, most of those tools make so many approximations in the parallel environment model, that make themselves somewhat inaccurate. Moreover method of measurement usually adopted get performance data through an instrumented program's run. This approach affects the measures since additional code is inserted into the program under analysis. This work introduces a new method to make such measurements without including additional code nor requiring runs on the target parallel machine. The proposed approach is to rewrite the executable code into an execution graph, which is a directed graph that keeps the information about the processing time of each machine instruction included in the code under analysis... Note: The complete abstract is available with the full electronic digital thesis or dissertations / Doutorado / Doutor em Engenharia Elétrica Desempenho Processamento paralelo (Computadores) Simulação (Computadores) Programas de computador
95	Avaliação de algoritmos de ordenação em sistemas paralelos Dantas, Anna Catharina da Costa 19 December 1997 (has links) Orientador: Ivan Luiz Marques Ricarte / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T14:35:54Z (GMT). No. of bitstreams: 1 Dantas_AnnaCatharinadaCosta_M.pdf: 9497760 bytes, checksum: 097a379f20e9653f453d5fe6e9bcd664 (MD5) Previous issue date: 1997 / Resumo: A classificação ou ordenação de dados tem assumido grandes proporções no âmbito do processamento de informações, tanto devido a sua importância na análise de desempenho quanto pelo fato de ser utilizado como processo intermediário em diversas aplicações. Os primeiros estudos sobre ordenação se deram a partir dos algoritmos seqüenciais. Entretanto, o tamanho crescente das aplicações tratadas vem impondo maior demanda de tempo de execução e memória, provocando uma necessidade de evolução. Para tentar minimizar os efeitos de complexidade dos algoritmos seqüenciais de ordenação, diversos algoritmos paralelos vêm sendo propostos. A combinação entre a tecnologia disponibilizada pelo processamento paralelo e a eficiência dos algoritmos de ordenação produz algoritmos paralelos de ordenação com alto poder de computação. Esse trabalho avalia alguns dos algoritmos paralelos de ordenação interna disponíveis na literatura, aplicáveis ou adaptados a multicomputadores MIMD de memória distribuída, interconectados por redes locais. Alguns benchmarks com diferentes características de distribuição de probabilidade foram implementados para validar os resultados apresentados, obtidos a partir da execução paralela suportada por bibliotecas de comunicação por troca de mensagens / Abstract: Data sorting has assumed large proportions in the field of information processing, even because of its importance in performance analysis and also because of its use as an intermediate process for several applications. The first researches about sorting have been undertaken trough serial algorithms. However, the increasing size of treated applications has imposed demand on execution time and memory, leading to evolution necessities. In order to minimize complexity effects of serial sorting algorithms, many parallel algorithms have been proposed. The combination between technology made available by parallel processing and efficiency of sorting algorithms produces parallel sorting algorithms with high computation power. This work evaluates some parallel internal sorting algorithms available in actual literature, applicable to or adapted for distributed memory MIMD multicomputers, interconnected by local works. Some benchmarks with different features of probability distribution have been complemented to validate presented results. Such results have been obtained from parallel execution supported by libraries that provide communication by message-passing / Mestrado / Mestre em Engenharia Elétrica Processamento paralelo (Computadores) Algoritmos paralelos Programação paralela (Computação)
96	Conexões e transporte paralelo: uma abordagem computacional Roberto Ferreira Júnior, Nivan 31 January 2010 (has links) Made available in DSpace on 2014-06-12T18:33:59Z (GMT). No. of bitstreams: 2 arquivo971_1.pdf: 558824 bytes, checksum: 22662ca8e835c524c3da0b796e348e0a (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Nesta dissertação estudamos os conceitos de Conexão, Transporte Paralelo e Grupo de Holonomia. As conexões são definidas de forma algébrica. Um exemplo importante é a conexão de Levi-Civita. Demonstramos que o módulo das seções de um fibrado vetorial, admite uma conexão. A Conexão, determina o Transporte Paralelo ao longo de um caminho c. Se c é um caminho fechado, obtemos o grupo de Holonomia. Neste trabalho, há uma preocupação com os aspectos computacionais, assim, comentários sobre a implementa ção do cálculo dos conceitos apresentados em softwares de computação algébrica estão presentes em todo o texto Geometria diferencial Conexões Fibrados Vetoriais Transporte Paralelo Grupos de Holonomia
97	Metodo Zvus Gauss paralelo para calculo de fluxo de potencia trifasico em redes assimetricas de distribuição de energia eletric Vieira Junior, Jose Carlos de Melo 05 November 1999 (has links) Orientador: Andre Luiz Morelato França / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T12:31:34Z (GMT). No. of bitstreams: 1 VieiraJunior_JoseCarlosdeMelo_M.pdf: 5365638 bytes, checksum: f688423ce4052a2673b051df020a4828 (MD5) Previous issue date: 1999 / Resumo: Este trabalho propõe um método paralelo para o cálculo do fluxo de potência trifásico em redes assimétricas de distribuição de energia elétrica, baseado no método Zbus Gauss. A modelagem dos diversos componentes da rede é desenvolvida utilizando-se quantidades de fase e a forma I = YV, na qual as fases abc são desacopladas por meio de injeções compensadoras de corrente. Esse desacoplamento por fase permite o uso de computação paralela para resolver o problema, pois as equações referentes a cada fase podem ser solucionadas separadamente. A modelagem inclui representação de linhas assimétricas, transformadores trifásicos com perdas, capacitores, cogeradores e cargas desbalanceadas. Para testar seu desempenho, o método foi implementado em máquinas seriais, no computador paralelo nCUBE2 e numa rede de estações de trabalho com PVM, tendo sido comparado ao método Zbus Gauss convencional utilizando vários sistemas de distribuição reais. Observou-se um ganho de até 2,82 com três processadores em relação ao método convencional serial. O programa desenvolvido pode ser útil na operação e planejamento de redes trifásicas de distribuição permitindo analisá-las sob diversos aspectos: perdas nas linhas e transformadores, configurações radial e reticulada, desbalanceamento das cargas, variação do arregamento, influência das conexões dos enrolamentos dos transformadores e efeitos da presença de cogeradores e capacitores / Abstract: This work proposes a parallel three-phase power flow method for asymmetrical distribution systems, based on the Zbus Gauss method. Ali the elements of the distribution systems are modeled using per phase quantities and the I = YV formo Moreover, the component models are phase decoupled by using compensation current injections, making the method suitable for parallel computing, since the equations of each phase can be solved independently. The modeling includes asymmetricallines, three-phase lossy transformers, capacitors, cogenerators and unbalanced loads. In order to evaluate its performance, the method was implemented in serial machines, in the parallel computer nCUBE2, in a workstation network with PVM, and the results were compared with that showed by the serial Zbus Gauss method using several real distribution networks. It was observed a speedup of 2.82 using three processors in comparison with the serial Zbus Gauss method. The developed program can be applied to three-phase distribution systems operation and planning analysis, allowing some important characteristics to be studied: transformers and lines losses, radial and meshed configurations, unbalanced loads, loading variation, effects of transformers winding connections and effects of cogenerators and shunt capacitors / Mestrado / Mestre em Engenharia Elétrica Energia elétrica - Distribuição Redes elétricas Processamento paralelo (Computadores)
98	[en] TOOTISYS: A TOOL FOR PERFORMANCE ANALYSIS OF STRONGLY COUPLED, MULTIPROGRAMMED MULTPROCESSOR SYSTEMS / [pt] TOOTISYS: UMA FERRAMENTA PARA ANÁLISE DESEMPENHO DE SISTEMAS MULTIPROGRAMADOS, MULTIPROCESSADOS E FORTEMENTE ACOPLADOS PAULO HENRIQUE DE ANDRADE PINTO SCHINDLER 26 August 2009 (has links) [pt] A proliferação de arquiteturas paralelas torna cada vez mais necessário o desenvolvimento de métodos e a construção de ferramentas que utilizem estes métodos na análise / predição do desempenho de aplicações (programas) executadas em arquiteturas existentes ou em fase de projeto. Uma classe muito importante de arquiteturas paralelas é a das arquiteturas multiprocessadas. Essa classe permite explorar o paralelismo existente dentro do código dos programas: os programas são divididos em unidades menores (tarefas) que são executadas concorrentemente nos diversos processadores da arquitetura. Esta dissertação apresenta uma ferramenta - Tootisys - para modelagem de arquiteturas multiprocessadas onde os processadores compartilham uma memória global e onde diversos programas são executados ao mesmo tempo. Os programas são restritos ao tipo CPU-bound e são representados através de grafos de tarefas acíclicos e dirigidos. A arquitetura é descrita através dos tempos característicos dos seus processadores e através de uma função que fornece retardo no acesso à memória global. Tootisys permite modelar sistemas que apresentam disputa por processador tanto a nível de tarefas quanto a nível de programas e sistemas onde tarefas múltiplas podem ser executadas simultaneamente em cada processador. O algoritmo utilizado por Tootistys na análise de desempenho de um sistema concorrente é iterativo. Este algoritmo monstrou-se bastante eficiente em termos computacionais tendo apresentado rápida convergência para valores finais em todos os casos analisados. Esta dissertação também apresenta o projeto e a implementação da interface gráfica do Tootisys. A interface construída é uma variação do tipo manipulação direta, possuindo ainda características de interfaces tipo seleção por menu. A interface obtida é eficiente, pouco sujeita a erros cometidos por usuários e fácil de usar, aprender e memorizar. Como esta interface foi implementada em C e segue o padrão X11, espera-se que Tootisys possa ser facilmente adaptado para executar em diversas máquinas. / [en] The proliferation of parallel architectures demands the development of methods and the construction of tools that use these methods in the performance analysis prediction of applications (programs) running in architectures which are already in use or still being designed. A very important class of parallel architecture is called multiprocessors. This class allows the exploration of the parallelism that exist within the program`s code: programs are partitioned into smaller units (tasks) that execute concurrently in the processors of the architecture. This dissertation presents a tool - Tootisys - for modeling multiprocessors where processors share a global memory and where several programs execute at the same time. Programs are restricted to be CPU-bound and are represented by direct acyclic task graphs. The architecture is described by the time parameters of its processors and by a function that gives the delay in the access to the global memory. Tootisys allows the modeling of system where processors are disputed by tasks or programs and where multiple tasks can execute at the same time in each professor. The algorithm used by tootisys in the analysis of a concurrent system is iterative. This algorithm has pointed out to very computationally efficient: it has rapidly converged to final values in all cases studied. This dissertation also presents the graphic interface project of Tootisys and its implementation. Tootisys’s interface is a king of direct manipulation. However, some characteristcs of menu selection interfaces can also be found in it. The designed interface is efficient and minimizes error possibilities. Furthermore, it is easy to use, to learn and to remember. Since this interface was implemented in C and follows the X11 satandard, it is expected that Tootisys can be easily modifield to run in several machines. [pt] SISTEMAS MULTIPROCESSADOS [pt] SISTEMAS MULTIPROGRAMADOS [pt] ARQUITETURA DE COMPUTADOR PARALELO
99	Nivel de Detalle Variable en Mallas Paralelas para Representación de Terrenos en Tiempo Real Biedermann Camposano, Bernd January 2007 (has links) No description available. Computación Triangulaciones Multiresolución Detalle variable Motores gráfcos Procesamiento paralelo
100	Um refinamento da estrutura da camada de aplicação do RM-OSI/ISO e aspectos de sua implementação em um sistema didatico de comunicação Silva, Flavio Morais de Assis 03 May 1993 (has links) Orientador : Edmundo Roberto Mauro Madeira / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Ciencia da Computação / Made available in DSpace on 2018-07-18T10:06:41Z (GMT). No. of bitstreams: 1 Silva_FlavioMoraisdeAssis_M.pdf: 5100707 bytes, checksum: ed89630d5b32e158cf8326ca6ef2fcd6 (MD5) Previous issue date: 1993 / Resumo: Esta dissertação consiste de Uma definição mais precisa de funcionalidades para os componentes da camada de Aplicação do RM-OSI/ISO (Reference Model - Open Systems Interconection / International Organization for Standardization). Esta definição de funcionalidades tem a finalidade de esclarecer os relacionamentos que há entre os componentes desta camada e de servir de uma base conceitual, a partir da qual estruturas para implementações possam ser derivadas. As funcionalidades apresentadas constituem um refinamento da estrutura definida pela ISO para esta camada. Também é apresentada a estrutura geral de implementação dos protocolos para um sistema didático de comunicação, chamado SISDI-0SI (Sistema didático para o Modelo OSI), que segue as padronizações do RM-OSI/ISO. Para este sistema descreve-se, em particular, como as estruturas de dados geradas por um compilador para alinguagem ASN.l são usadas na implementação destes protocolos. A dissertação consiste ainda da descrição de uma implementação do protocolo CCH (Commitment, Concurrency and Recovery), da camada de Aplicação do RM-0SI/ISO. Esta implementação foi feita utilizando-se a linguagem ESTELLE, que é uma Técnica de Descrição Formal definida pela ISSO, e faz parte do SISDI-OSI. A estrutura desta implementação foi feita de acordo com a definição de funcionalidades proposta / Abstract: This thesis consists of a more accurate definition of functionalities for the components of the Application Layer of the RM-OSI/ISO (Reference Model - Open Systems Interconnection / International Organization for Standardization). This definition of functionalities intends to clarify the relationships that exist among the components of this layer and to serve as a basis of concepts, from which structures for implementations could be derived. The presented functionalities are a refinement of the structure defined by ISO for this layer. It also presents the general structure for the implementation of the protocols of a didactic communication system, called SISDI-OSI (Didactic System for OSI Model), which conforms to the standards from RM-OSI/ISO. For this system it is described, particularly, how the data structures generated by a compiler for the ASN language are used in the implementation of these protocols. This thesis also describes an implementation of the CCR (Commitment, Concurrency and Recovery) protocol, from the Application Layer of RM-OSI/ISO. This implementation was done using the language ESTELLE, that is a Formal Description Technique defined by ISO, and takes part in SISDI-OSI. The structure of this implementation was done according to the proposed functionalities / Mestrado / Mestre em Ciência da Computação Redes locais de computação Redes de computadores - Protocolos Processamento paralelo (Computadores)

Search results