Global ETD Search

201	Avaliação do compartilhamento das memórias cache no desempenho de arquiteturas multi-core / Performance evaluation of shared cache memory for multi-core architectures Alves, Marco Antonio Zanata January 2009 (has links) No atual contexto de inovações em multi-core, em que as novas tecnologias de integração estão fornecendo um número crescente de transistores por chip, o estudo de técnicas de aumento de vazão de dados é de suma importância para os atuais e futuros processadores multi-core e many-core. Com a contínua demanda por desempenho computacional, as memórias cache vêm sendo largamente adotadas nos diversos tipos de projetos arquiteturais de computadores. Os atuais processadores disponíveis no mercado apontam na direção do uso de memórias cache L2 compartilhadas. No entanto, ainda não está claro quais os ganhos e custos inerentes desses modelos de compartilhamento da memória cache. Assim, nota-se a importância de estudos que abordem os diversos aspectos do compartilhamento de memória cache em processadores com múltiplos núcleos. Portanto, essa dissertação visa avaliar diferentes compartilhamentos de memória cache, modelando e aplicando cargas de trabalho sobre as diferentes organizações, a fim de obter resultados significativos sobre o desempenho e a influência do compartilhamento da memória cache em processadores multi-core. Para isso, foram avaliados diversos compartilhamentos de memória cache, utilizando técnicas tradicionais de aumento de desempenho, como aumento da associatividade, maior tamanho de linha, maior tamanho de memória cache e também aumento no número de níveis de memória cache, investigando a correlação entre essas arquiteturas de memória cache e os diversos tipos de aplicações da carga de trabalho. Os resultados mostram a importância da integração entre os projetos de arquitetura de memória cache e o projeto físico da memória, a fim de obter o melhor equilíbrio entre tempo de acesso à memória cache e redução de faltas de dados. Nota-se nos resultados, dentro do espaço de projeto avaliado, que devido às limitações físicas e de desempenho, as organizações 1Core/L2 e 2Cores/L2, com tamanho total igual a 32 MB (bancos de 2 MB compartilhados), tamanho de linha igual a 128 bytes, representam uma boa escolha de implementação física em sistemas de propósito geral, obtendo um bom desempenho em todas aplicações avaliadas sem grandes sobrecustos de ocupação de área e consumo de energia. Além disso, como conclusão desta dissertação, mostra-se que, para as atuais e futuras tecnologias de integração, as tradicionais técnicas de ganho de desempenho obtidas com modificações na memória cache, como aumento do tamanho das memórias, incremento da associatividade, maiores tamanhos da linha, etc. não devem apresentar ganhos reais de desempenho caso o acréscimo de latência gerado por essas técnicas não seja reduzido, a fim de equilibrar entre a redução na taxa de faltas de dados e o tempo de acesso aos dados. / In the current context of innovations in multi-core processors, where the new integration technologies are providing an increasing number of transistors inside chip, the study of techniques for increasing data throughput has great importance for the current and future multi-core and many-core processors. With the continuous demand for performance, the cache memories have been widely adopted in various types of architectural designs of computers. Nowadays, processors on the market point out for the use of shared L2 cache memory. However, it is not clear the gains and costs of these shared cache memory models. Thus, studies that address different aspects of shared cache memory have great importance in context of multi-core processors. Therefore, this dissertation aims to evaluate different shared cache memory, modeling and applying workloads on different organizations in order to obtain significant results from the performance and the influence of the shared cache memory multi-core processors. Thus, several types of shared cache memory were evaluated using traditional techniques to increase performance, such as increasing the associativity, larger line size, larger cache memory and also the increase on the cache memory hierarchy, investigating the correlation between the cache memory architecture and the workload applications. The results show the importance of integration between cache memory architecture project and memory physical design in order to obtain the best trade-off between cache memory access time and cache misses. According to the results, within evaluations, due to physical limitations and performance, organizations 1Core/L2 and 2Cores/L2 with total cache size equal to 32MB, using banks of 2 MB, line size equal to 128 bytes, represent a good choice for physical implementation in general purpose systems, obtaining a good performance in all evaluated applications without major extra costs of area occupation and power consumption. Furthermore, as a conclusion in this dissertation is shown that, for current and future integration technologies, traditional techniques for performance gain obtained with changes in the cache memory such as, increase of the memory size, increasing the associativity, larger line sizes etc.. should not lead to real performance gains if the additional latency generated by these techniques was not treated, in order to balance between the reduction of cache miss rate and the data access time. Processamento paralelo Desempenho : Computadores Memoria cache Cache memory Multi-core processor Computer architecture High performance computing
202	Controle de granularidade com threads em programas MPI dinâmicos / Controlling granularity of dynamic mpi programs with threads Lima, João Vicente Ferreira January 2009 (has links) Nos últimos anos, a crescente demanda por alto desempenho tem favorecido o surgimento de arquiteturas e algoritmos cada vez mais eficientes. A popularidade das plataformas distribuídas levanta novas questões no desenvolvimento de algoritmos paralelos tais como comunicação, heterogeneidade e dinamismo de recursos. Estas questões podem resultar em aplicações com carga de trabalho conhecida somente em tempo de execução. A irregularidade do algoritmo ou da entrada de dados também pode influenciar na carga de trabalho da aplicação. Uma aplicação paralela pode solucionar estas questões por meio de algoritmos dinâmicos ao utilizar técnicas de programação que definam o trabalho de uma tarefa e possibilitem a utilização de recursos sob demanda. A granularidade, que é a razão entre processamento e comunicação, considera questões práticas de execução e é um fator importante no desempenho de algoritmos dinâmicos. A implementação de um controle de granularidade é complicada e depende do suporte dos ambientes de programação. Porém, os ambientes de programação possuem interfaces extensas e complicadas que dificultam sua utilização em PAD. Este trabalho propõe a implementação de uma biblioteca (libSpawn) que incorpora um controle de granularidade em aplicações MPI dinâmicas. A biblioteca controla a granularidade ao mapear tarefas entre processos ou threads de acordo com três parâmetros: cores da arquitetura, carga e recursos de sistema. Os tempos obtidos com processos e libSpawn demonstram ganhos significativos em benchmarks sintéticos utilizados por outros ambientes de programação. Não obstante, constata-se carências na implementação atual que produzem tempos anômalos, ainda que estes sejam insignificantes em relação aos tempos com processos. / In the last years, the demand for high performance enables the emergence of more efficient computing platforms and algorithms. The increase of distributed computing platforms rises new challenges for parallel algorithm development like communication, heterogeneity, and resource management. These factors can result in applications whose work load is unknown until runtime. An irregular behavior from algorithm or data can also affect the work load. A parallel application can solve these questions through a programming technique which predicts the work load of a task and offers resource on demand. The granularity, which is the ratio of computation to communication, considers more practical issues, and is an important factor in performance of dynamic algorithms. However, this control is difficult to be designed and the support of a programming tool is needed. Yet, the programming tools have extensive and complicated interfaces which difficult your usage in HPC. This work implements a library (libSpawn) which adds a granularity control on MPI dynamic programs. The library controls the granularity by mapping tasks between processes or threads with three parameters: cores of architecture, load and resources of the operating system. The results obtained between processes and libSpawn show significant gains on synthetic benchmarks from other programming tools. Processamento paralelo Mpi Parallel computing High performance computing Dynamic algorithms Granularity
203	Modelagem e dimensionamento do custo de migração de processos em programas MPI Neves, Marcelo Veiga January 2009 (has links) A migração de processos é importante em programas MPI por vários motivos, tais como permitir re-escalonamento de processos, balanceamento de cargas e tolerância a falhas. Independentemente do tipo do uso da migração, conhecer o custo imposto pela realização desta operação é um problema pertinente. Quando utiliza-se migração para tentar diminuir o tempo de execução de uma aplicação paralela, este custo passa a ser um ponto crítico. Existem algumas soluções para migração de processos em programas MPI disponíveis atualmente. No entanto, ainda não existe um estudo que quantifique o custo destas migrações. Nesse contexto, este trabalho apresenta um estudo para modelar e dimensionar o custo de migração de processos em programasMPI. Primeiramente, o trabalho identificou, analisou, avaliou e, quando necessário, adaptou as principais soluções disponíveis atualmente para migrar processos MPI. Com base nessas soluções, foram criados modelos de custo que poderão ser utilizado para estimar dinamicamente os custos de migração e auxiliar na tomada de decisão em algoritmos de escalonamento. Osmodelos criados foram utilizados para estimar os custos demigração emaplicações paralelas e o resultado foi comparado comos custos demigração reais. Nesta comparação, os valores previsto ficaram bastante próximos dos valores observados no experimento, demonstrando a qualidade das previsões dos modelos propostos. / Process migration is essential for MPI programs for different reasons, such as processes rescheduling, load balancing and fault tolerance. Knowing well the cost necessary for this operation is a pertinent problem, regardless of the type of migration use. Whenever migration is used for improving the performance of parallel applications, its cost becomes a deciding point. Nowadays, there are some solutions to process migration available for MPI programs. However, there is not a study that can quantify the migration cost and its impact on the execution of MPI programs. In this context, this work presents a study for modeling and dimensioning the process migration cost in MPI programs. First, we identified, analyzed, evaluated and, when needed, adapted the main solutions which are presently available to migrate MPI processes. Based in these solutions, we defined cost models. These models can be used to dynamically estimate the migration costs and to guide scheduling decisions. These models were used to predict the migration cost in parallel applications and the result was compared to observed migration costs. In this comparison, the predicted values were very similar to those observed in the experiment. This work still shows an evaluation about the impact of a migration in the execution of real parallel applications in order to verifying the viability of applying this approach to improve the performance. Processamento paralelo Mpi Process migration MPI Cost modeling Dynamic process scheduling Parallel processing
204	Um simulador distribuido para redes neurais artificiais / A distributed neural network simulator Schwingel, Dinamerico January 1995 (has links) Este trabalho analisa o uso de redes de estações de trabalho como uma única máquina a ser utilizada para permitir o processamento de problemas que não poderiam ser computados, aceitavelmente, em apenas um de seus nodos, seja por causa do tempo dispendido ou de recursos físicos necessários, como memória principal. São enfocados dois algoritmos de redes neurais artificiais - Combinatorial Neural Model e Back Propagation - que apresentam os problemas enunciados acima, e uma proposta de um esquema para distribuição dessa classe de algoritmos, levando em consideração as vantagens disponíveis no ambiente em questão, a apresentada. A implementação do modelo proposto, sob a forma de um simulador distribuído baseado no conceito de servidor está descrita no trabalho, assim como as estratégias de paralelização dos algoritmos. Ao final, são apresentados os resultados obtidos, quantitativa e qualitativamente, e uma avaliação mais detalhada da paralelização do algoritmo Back Propagation a exposta. / The use of workstation networks as distributed multicomputers to solve resource demanding problems that cannot be feasibly solved in one node is the main concern of this work. Two different artificial neural network algorithms, Combinatorial Neural Model and Back Propagation, are faced and a scheme for distributing this class of algorithms is presented. The several advantages of the environment are focused in the proposal along with its disadvantages. This work also presents the implementation of the proposed scheme allowing an in loco performance evaluation. At the end results are shown and a more in depth evaluation of the Back Propagation parallelization is presented. Processamento distribuido Redes neurais Processamento paralelo Parallel processing Distributed processing Artificial neural networks
205	MPI2.NET : criação dinâmica de tarefas com orientação a objetos / MPI2.NET: dynamic tasks creation with object orientation Afonso, Fernando Abrahão January 2010 (has links) Message Passing Interface (MPI) é o padrão de facto para o desenvolvimento de aplicações paralelas e de alto desempenho que executem em clusters. O padrão define APIs para as linguagens de programação Fortran, C e C++. Por outro lado a programação orientada a objetos é o paradigma de programação dominante atualmente, onde linguagens de programação como Java e C# têm se tornado muito populares. Isso se deve às abstrações voltadas para facilitar a programação oriundas dessas linguagens de programação, permitindo um ciclo de programação/manutenção mais eficiente. Devido a isso, diversas bibliotecas MPI para essas linguagens emergiram. Dentre elas, pode-se destacar a biblioteca MPI.NET, para a linguagem de programação C#, que possui a melhor relação entre abstração e desempenho. Na computação paralela, o modelo utilizado para o desenvolvimento das aplicações é muito importante, sendo que o modelo Divisão & Conquista é escalável, aplicável a diversos problemas e permite a execução eficiente de aplicações cuja carga de trabalho é desconhecida ou irregular. Para programar utilizando esse modelo é necessário que o ambiente de execução suporte dinamismo, o que não é suportado pela biblioteca MPI.NET. Desse cenário emerge a principal motivação desse trabalho, cujo objetivo é explorar a criação dinâmica de tarefas na biblioteca MPI.NET. Ao final, foi possível obter uma biblioteca com desempenho competitivo em relação ao desempenho das bibliotecas MPI para C++. / Message Passing Interface (MPI) is the de facto standard for the development of high performance applications executing on clusters. The standard defines APIs for the programming languages Fortran C and C++. On the other hand, object oriented programming has become the dominant programming paradigm, where programming languages as Java and C# are becoming very popular. This can be justified by the abstractions contained in these programming languages, allowing a more efficient programming/maintenance cycle. Because of this, several MPI libraries emerged for these programming languages. Among them, we can highlight the MPI.NET library for the C# programming language, which has the best relation between abstraction and performance. In parallel computing, the model used for the development of applications is very important, and the Divide and Conquer model is efficiently scalable, applicable to several problems and allows efficient execution of applications whose workload is unknown or irregular. To program using this model, the execution environment must provide dynamism, which is not provided by the MPI.NET library. From this scenario emerges the main goal of this work, which is to explore dynamic tasks creation on the MPI.NET library. In the end we where able to obtain a library with competitive performance against MPI C++ libraries. Processamento : Alto desempenho Mpi Processamento paralelo Dynamic tasks creation High performance computing MPI Parallel computing
206	Modelos analíticos para interconexão de processadores : avaliação de desempenho de alocação simultânea de recursos / Analytic models for processors interconnections: performance evaluation of simultaneous resource allocation / Modèles analytiques pour les interconnexions de processeurs: evaluation des performances d'allocation simultanée de ressources Fernandes, Paulo Henrique Lemelle January 1990 (has links) On décrit l'application de deux méthodes analytiques à un même problème avec l'utilisation simultanée de ressources, l'évaluation des performances des interconnexions de processeurs du type multistage. On applique d'abord la méthode traditionnelle utilisant les réseaux de files d'attente et les chaînes de Markov. Aprés, on utilise une méthode avec modélisation basée sur les réseaux de Petri et l'extraction à travers des pondérations des résultats déterministes. Les modèles développés par chacun des méthodes sont comparés selon trois aspects distincts: facilité de modélisation, vitesse d'évaluation et précision des résultats. La première méthode employée, la méthode analytique traditionnelle, utilise les réseaux de files d'attente (théorie des réseaux) pour faire la modélisation et l'algorithme de convolution (constante de normalisation) pour faire l'extraction des résultats. La resolution est faire à travers l'approche stochastique traditionnelle avec les formules derivées des chaînes de Markov. La méthode d'évaluation apliquée après est basée sur les dévelopment des modèles en réseaux des Petri temporisées. Cette méthode est composée de deux parties: l'application d'une méthode analytique pure (modéle Q) et l'application des méthode approximatives. Ces méthodes approximatives font la décomposition d'un problème avec comportement variable en plusiers problèmes avec comportement déterministes et probabilitées associées. Les modèles des interconnexions multistage ont été développées avec plusiers degrés de rafinement dans tout les deux méthodes dejà citées. Les modèles de base avec des imprecisions ont été rafinés jusqu'à avoir une description la plus proche possible de la realité (les interconnexions multistage). La comparaison de tout les modèles développés est faite en trois parties pour établir les modèles les plus adequés à l'évaluation des performances des interconnexions multistage. L'adequation doit envisager la facilité de dévelopement du modèle, la vitesse et la précision des résultats. Ces informations sont prises selon la taille du problème (dimension de l'interconnexion), l'enfoque de modélisation (les paramètres à considerer) et les objectify qualitatifs de l'evaluation (ce qu'on veux savoir). / Descreve-se a aplicação de dois métodos analíticos para um mesmo problema com alocação simultânea de recursos: a avaliação de desempenho de interconexões de processadores do tipo multi-estágios. Aplica-se o método analítico tradicional com redes de filas de espera e cadeias de Markov. utiliza - se apos um método com modelagem através de redes de Petri temporizadas e extração através de ponderação de resultados determinísticos. Os modelos desenvolvidos por cada um dos métodos são comparados segundo três diferentes aspectos: facilidade de modelagem, velocidade de extração e acuracidade de resultados. O primeiro método de avaliação empregado, método analítico tradicional, consiste no use de redes de filas de espera (teoria de filas) para a modelagem e do algoritmo de convolução (cálculo da constante de normalização) para a extração de resultados. A abordagem de resolução é clássica (abordagem estocástica) resultando nas formulas derivadas do modelo de cadeias de Markov. O método de avaliação aplicado em seguida esta baseado no desenvolvimento de modelos em redes de Petri temporizadas. Este método se divide na aplicação de um método analítico puro (modelo Q) e na aplicação de métodos aproximativos. Estes métodos aproximativos consistem na decomposição de um problema com comportamento variável em diversos problemas com comportamento determinístico e probabilidades associadas. Os modelos para as interconexões multi-estágios em ambos os métodos já citados são desenvolvidos com diferentes graus de refinamento. Modelos básicos com imprecisões de descrição são refinados ate ser estabelecido um modelo tão próximo quanto possível da realidade descrita (interconexão multiestágios). A comparação de todos os modelos desenvolvidos é feita em três etapas visando estabelecer quais modelos são adequados a avaliação de desempenho de interconexões multi-estágios. A adequação deve considerar aspectos como facilidade de desenvolvimento do modelo, rapidez e precisão na obtenção de resultados. Estas informações são consideradas segundo o tamanho do problema (dimensão da interconexão), o enfoque de modelagem (parâmetros relevantes) e os objetivos qualitativos da avaliacão (o que se pretende descobrir). / This work describes the application of two analytic models to the multistage processor interconnections, a simultaneous resource allocation problem. First, the traditional method based on queueing networks and Markov chains is applied. After, a Petri nets based method with deterministic weigthed results is used. The models developed in each method are compared in three levels: modeling facility, evaluation speed and precision. The first evaluation method used is based on the queueing network classic method (queueing theory) to model and the convolution algorithm (normalization constant calculus) to obtain results. The classic stochastic approach is used through formules derived from Markov chains. The second method used is based on temporised Petri nets models. This method has two parts: the application of a pure analitical method (model Q) and the application of approximatives methods. This approximatives methods decompose a problem with non-fixed behaviour in several weighted problems with deterministic behaviour. The multistage interconnections models are developped with different degrees of accuracy for both methods cited. Basic models without description precision are refined until as accurate as possible model is obtained for the choosen reality (multistage interconnections). The comparison of all developped models is made in three steps aiming the qualitative judgment of the models for multistages performance evaluation. This judgment should consider the dificulty to develop the model, the speed and the precision of the results. These informations are considered taking into account the the problem size (number of elements in the interconnection), the modelling approach (relevant parameters) and the the qualitative evaluation goals (the evaluation purpose). Sistemas operacionais Processamento paralelo Redes : Petri Redes : Filas : Espera Desempenho : Processamento : Dados Modelagem : Desempenho
207	ONNIS-GI: uma rede neural oscilatória para segmentação de imagens implementada em arquitetura maciçamente paralela Fernandes, Dênis January 2004 (has links) A presente tese apresenta a concepção de uma rede neural oscilatória e sua realização em arquitetura maciçamente paralela, a qual é adequada à implementação de chips de visão digitais para segmentação de imagens. A rede proposta, em sua versão final, foi denominada ONNIS-GI (Oscillatory Neural Network for Image Segmentation with Global Inhibition) e foi inspirada em uma rede denominada LEGION (Locally Excitatory Globally Inhibitory Oscillator Network), também de concepção recente. Inicialmente, é apresentada uma introdução aos procedimentos de segmentação de imagens, cujo objetivo é o de situar e enfatizar a importância do tema abordado dentro de um contexto abrangente, o qual inclui aplicações de visão artificial em geral. Outro aspecto abordado diz respeito à utilização de redes neurais artificiais em segmentação de imagens, enfatizando as denominadas redes neurais oscilatórias, as quais têm apresentado resultados estimulantes nesta área. A implementação de chips de visão, integrando sensores de imagens e redes maciçamente paralelas de processadores, é também abordada no texto, ressaltando o objetivo prático da nova rede neural proposta. No estudo da rede LEGION, são apresentados resultados de aplicações originais desenvolvidas em segmentação de imagens, nos quais é verificada sua propriedade de separação temporal dos segmentos. A versão contínua da rede, um arranjo paralelo de neurônios baseados em equações diferenciais, apresenta elevada complexidade computacional para implementação em hardware digital e muitos parâmetros, com procedimento de ajuste pouco prático. Por outro lado, sua arquitetura maciçamente paralela apresenta-se particularmente adequada à implementação de chips de visão analógicos com capacidade de segmentação de imagens. Com base nos bons resultados obtidos nas aplicações desenvolvidas, é proposta uma nova rede neural, em duas versões, ONNIS e ONNIS-GI, as quais suplantam a rede LEGION em diversos aspectos relativos à implementação prática. A estrutura dos elementos de processamento das duas versões da rede, sua implementação em arquitetura maciçamente paralela e resultados de simulações e implementações em FPGA são apresentados, demonstrando a viabilidade da proposta. Como resultado final, conclui-se que a rede ONNIS-GI apresenta maior apelo de ordem prática, sendo uma abordagem inovadora e promissora na solução de problemas de segmentação de imagens, possuindo capacidade para separar temporalmente os segmentos encontrados e facilitando a posterior identificação dos mesmos. Sob o ponto de vista prático, a nova rede pode ser utilizada para implementar chips de visão digitais com arquitetura maciçamente paralela, explorando a velocidade de tais topologias e apresentando também flexibilidade para implementação de procedimentos de segmentação de imagens mais sofisticados. Computação gráfica Processamento : Imagem Redes neurais Segmentacao : Imagem Visao computacional Processamento paralelo
208	RST: Reuse through Speculation on Traces / RST: Reuso Especulativo de Traces Pilla, Mauricio Lima January 2004 (has links) Na presente tese, apresentamos uma nova abordagem para combinar reuso e prvisão de seqüências dinâmicas de instruções, chamada Reuso por Especulação em traces (RST). Esta técnica permite a identificação dinâmica de traces de instruções redundantes ou previsíveis e o reuso (especulativo ou não) desses traces. RST procura resolver a questão de traces que não são reusados por seus valores de entradas de Traces (DTM). Em estudo anteriores, esses traces foram contabilizados como sendo cerca de 69% de todos os traces reusáveis. Uma das maiores vantagens de RST sobre a combinação de um mecanismo de previsão com uma técnica de reuso de valores em que mecanismos não são relacionados é que RST não necessita de tabelas adicionais para o armazenamento dos valores a serem previstos. A aplciação de reuso e previsão de valores pela simples combinação de mecanismos pode necessitar de uma quantidade proibitiva de espaço de armazenamento. No mecanismo RST, os valores já estão presentes na Tabela de Memorização de Traces, não incorrendo em custos adicionais para lê-los se comparado com uma técnica não-especulativa de reuso de traces. O contexto de entrada de cada trace (os valores de entrada de todas as instruções contidas no trace) já armazenam os valores para o teste de reuso, os quais podem ser também utilizados para previsão de valores para o teste de reuso, os quais podem ser também utilizados para previsão de valores. As principais contribuições de nosso trabalho incluem: (i) um framework de reuso especulativo de traces que pode ser modificado para diferentes arquiteturas de processadores; (ii) definição das modificações necessárias em um processador superescalar e superpipeline para implementar nosso mecanismo; (iii) estudo de questões de implementação relacionadas à essa arquitetura; (iv) estudo dos limites de desempenho da nossa técnica; (v) estudo de uma implementação RST limitada por fatores realísticos; e (vi) ferramentas de simulação que podem ser utilizadas em outros estudos, representando um processador superescalar e superpipeline em detalhes. Salientamos que, em uma arquitetura utilizando mecanismos realistas de estimativa de confiança das previsões, nossa técnica RST consegue atingir speedups médios (médias harmônicas) de 1.29 sobre uma arquitetura sem reuso e 1.09 sobre uma técnica não-especulativa de reuso de traces (DTM). / In this thesis, we present a novel approach to combine both reuse and prediction of dynamic sequences of instructions called Reuse through Speculation on Traces (RST). Our technique allows the dynamic identification of instruction traces that are redundant or predictable, and the reuse (speculative or not) of these traces. RST addresses the issue, present on Dynamic Trace Memoization (DTM), of traces not being reused because some of their inputs are not ready for the reuse test. These traces were measured to be 69% of all reusable traces in previous studies. One of the main advantages of RST over just combining a value prediction technique with an unrelated reuse technique is that RST does not require extra tables to store the values to be predicted. Applying reuse and value prediction in unrelated mechanisms but at the same time may require a prohibitive amount of storage in tables. In RST, the values are already stored in the Trace Memoization Table, and there is no extra cost in reading them if compared with a non-speculative trace reuse technique. . The input context of each trace (the input values of all instructions in the trace) already stores the values for the reuse test, which may also be used for prediction. Our main contributions include: (i) a speculative trace reuse framework that can be adapted to different processor architectures; (ii) specification of the modifications in a superscalar, superpipelined processor in order to implement our mechanism; (iii) study of implementation issues related to this architecture; (iv) study of the performance limits of our technique; (v) a performance study of a realistic, constrained implementation of RST; and (vi) simulation tools that can be used in other studies which represent a superscalar, superpipelined processor in detail. In a constrained architecture with realistic confidence, our RST technique is able to achieve average speedups (harmonic means) of 1.29 over the baseline architecture without reuse and 1.09 over a non-speculative trace reuse technique (DTM). Arquiteturas super escalares Processamento paralelo Speculative Trace Reuse Superscalar architectures Parallel processing Value reuse Value prediction
209	Análise da perda de comicidade na tradução de piadas do seriado “El Chavo del 8" em um corpus paralelo da sua dublagem do espanhol do México para o português do Brasil / Analysis of the loss of comicity in the translation of jokes in the "El Chavo del 8" series in a parallel corpus of its dubbing from Mexican Spanish to Brazilian Portuguese Fernández Quiroz, Ariel Marcelo 20 April 2018 (has links) Submitted by Ariel Marcelo Fernández Quiroz (rel.fernandezq@gmail.com) on 2018-07-11T15:45:48Z No. of bitstreams: 1 Dissertação Ariel Fernández.pdf: 5074427 bytes, checksum: 67e509c12de12d41d7b1c49b9590090d (MD5) / Approved for entry into archive by Paula Torres Monteiro da Torres (paulatms@sjrp.unesp.br) on 2018-07-12T12:19:59Z (GMT) No. of bitstreams: 1 quiroz_amf_me_sjrp.pdf: 5074427 bytes, checksum: 67e509c12de12d41d7b1c49b9590090d (MD5) / Made available in DSpace on 2018-07-12T12:19:59Z (GMT). No. of bitstreams: 1 quiroz_amf_me_sjrp.pdf: 5074427 bytes, checksum: 67e509c12de12d41d7b1c49b9590090d (MD5) Previous issue date: 2018-04-20 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / O principal problema da maioria das dublagens de produtos audiovisuais humorísticos são os laugh tracks (sons artificiais de um público rindo), já que toda vez que há trilha sonora de risadas, estas devem coincidir com uma piada para não causar estranheza no público-alvo. Neste trabalho analisaremos, por meio de um corpus paralelo, os problemas de tradução presentes na dublagem de um desses produtos: o seriado “El Chavo del 8” (“Chaves” no Brasil) do espanhol do México para o português do Brasil, com base nas teorias de dublagem fundamentadas por Hurtado Albir (1996); de humor, fundamentadas por Raskin (1987), Bergson (1983), Posada (1995) entre outros; e de técnicas de tradução propostas por Hurtado Albir (2001). Apresentamos uma análise realizada em três etapas: na primeira, criamos um quadro com as minutagens das piadas para cada um dos 18 episódios analisados e uma seção “houve/não houve piada”; na segunda, 12 participantes responderam se houve piada ou não em cada trecho selecionado; finalmente, na terceira etapa, criamos quadros para cada piada nas quais os participantes determinaram que não houve piada e explicamos o motivo dessa perda. Com base na definição dos problemas e nas técnicas de tradução, pretende-se apresentar as possíveis soluções que os tradutores audiovisuais teriam para traduzir as piadas em caso de perda de comicidade. / The main problem with dubbing translation in most humorous audiovisual products is the laugh track, since every time there is a laugh track it must match a joke not to cause any strangeness in the target audience. In this research, we will analyze, through a parallel corpus, the translation problems in the dubbing of the series "El Chavo del 8" ("Chaves" in Brazil) from Mexican Spanish to Brazilian Portuguese, based on theories of audiovisual translation by Hurtado Albir (1996), Humor by Raskin (1987), Bergson (1983) and Posada (1995), and translation strategies by Hurtado Albir (2001).We show an analysis performed in three stages: in the first one, we created tables with the minutes of the jokes in 21 episodes and a “yes / no” joke section; in the second one, 14 participants answered whether or not there was a joke in each selected section; finally, in the third one, we created tables for each joke in which participants determined if there was no joke. Based on the definition of the problems and translation strategies, we intended to offer possible solutions for the audiovisual translators when dealing with jokes. / CNPq:190394/2015-3 Seriado Chaves Dublagem Humor Comicidade Corpus paralelo TV Series “Chaves” Dubbing Humor Comedy Parallel Corpus
210	A via-crúcis das personagens na desconstrução e reconstrução do espaço e do tempo em Ensaio sobre a cegueira. / The way-crucis of the characters in the deconstruction and reconstruction of space and time in Blindness. Lucia Maria de Souza 05 August 2010 (has links) O presente trabalho tem como objetivo examinar e refletir a desconstrução e reconstrução dos elementos espaço-temporais em Ensaio sobre a cegueira. O embasamento teórico desse trabalho, dentre outros, será a concepção de cronotopo apresentada por Mikhail Bakhtin, ao lado de conceitos de não-lugares e lugares antropológicos de Marc-Augé. As pesquisas de Mircea Eliade serão utilizadas para a reflexão de espaços sagrados e profanos e para o exame dos rituais de passagem ou iniciáticos. Tendo em vista a peregrinação feita grupo das sete personagens que protagonizam a trama estabeleceremos um paralelo com a via-crúcis de Jesus apresentada no texto bíblico que trata de um caminho de sofrimento, dor e morte. O percurso da via-crúcis chega ao fim através da metamorfose ocorrida no interior das personagens e que se estende aos espaços projetando uma possível reconstrução espaço-temporal. / The present work has as objective to examine and to reflect the desconstruction and reconstruction of the space-secular elements in Ensaio sobre a cegueira. The theoretical basement of this work, amongst others, will be the conception of cronotopo presented by Mikhail Bakhtin, to the side of concepts of not-places and antropológicos places of Marc Augé. The research of Mircea Eliade will be used for the reflection of sacred and profane spaces and for the examination of the rituals of ticket or iniciáticos. In view of the done peregrination group of the seven personages who carry out the tram we will establish a parallel with the way-crucis of Jesus presented in the Biblical text that deals with a way of suffering, pain and death. The passage of the way-crucis arrives at the end through the occured metamorphosis in the interior of the personages and that a possible reconstruction is extended to the spaces projecting space-time. Desconstrução Espaço-temporal Paralelo Transformação Via-crúcis Desconstruction Parallel Space-time Transformation Way-crucis

Search results