Spelling suggestions: "subject:"arquitetura dde computador."" "subject:"arquitetura dee computador.""
61 |
Arquitetura orientada a serviços para comércio eletrônico no Sistema Brasileiro de TV Digital / Service-oriented architecture for electronic commerce in the Brazilian Digital Television SystemSilva Filho, Manoel Campos da 16 June 2011 (has links)
Dissertação (mestrado)—Universidade de Brasília, Departamento de Engenharia Elétrica, 2011. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2012-04-23T14:44:18Z
No. of bitstreams: 1
2011_ManoelCamposSilvaFilho.pdf: 2748288 bytes, checksum: 009df0008fbe4b4676baeb27158d02f1 (MD5) / Approved for entry into archive by Elzi Bittencourt(elzi@bce.unb.br) on 2012-05-01T15:11:02Z (GMT) No. of bitstreams: 1
2011_ManoelCamposSilvaFilho.pdf: 2748288 bytes, checksum: 009df0008fbe4b4676baeb27158d02f1 (MD5) / Made available in DSpace on 2012-05-01T15:11:02Z (GMT). No. of bitstreams: 1
2011_ManoelCamposSilvaFilho.pdf: 2748288 bytes, checksum: 009df0008fbe4b4676baeb27158d02f1 (MD5) / Esta dissertação descreve uma arquitetura orientada a serviços para provimento de
comércio eletrônico pela TV Digital, por meio do Sistema Brasileiro de TV Digital
(SBTVD), desenvolvida para o sub-sistema Ginga-NCL do middleware Ginga. A arquitetura
proposta utiliza serviços de diferentes provedores (nas áreas de telecomunicações, logística e outros) para compor uma estrutura de T-Commerce. Tais serviços são desenvolvidos considerando aspectos de interoperabilidade, utilizando o protocolo SOAP, para o qual é apresentada uma implementação, juntamente com o HTTP, como base para o desenvolvimento de toda a arquitetura e um dos objetivos principais do projeto. Com a arquitetura elaborada, uma aplicação cliente, desenvolvida em NCL e Lua, é apresentada como prova de conceito do uso das implementações dos protocolos e da arquitetura proposta. Tal aplicação utiliza o framework LuaOnTV para a construção da interface gráfica de usuário para a TV Digital, o qual foi estendido neste trabalho, com as melhorias sendo apresentadas ao longo do mesmo. O trabalho ainda apresenta um conjunto de aplicações desenvolvidas a partir dos frameworks construídos, que complementam as funcionalidades da aplicação de T-Commerce, como leitor de RSS e rastreamento de encomendas. A partir do ambiente de desenvolvimento montado para a construcão das aplicações, contendo a implementação de referência do sub-sistema Ginga-NCL do middleware Ginga, nativamente instalada, foi gerada uma distribuição Linux que permite que tal ambiente seja instalado em qualquer computador ou máquina virtual, para permitir o desenvolvimento de arquitetura semelhante ou extensão da arquitetura proposta. ______________________________________________________________________________ ABSTRACT / This dissertation describes a service-oriented architecture for providing of digital TV electronic commerce, through the Brazilian Digital Television System, developed to the Ginga-NCL sub-system of the Brazilian Ginga middleware. The proposed architecture uses services from distinct providers (at telecommunication, logistics and other areas) to compose a T-Commerce structure. Such services are developed considering interoperability aspects,
using the SOAP protocol, for wich is presented an implementation, together with the HTTP protocol, as a basis for the development of the entire architecture and one of the project main goals. With the architecture designed, a client application, developed in NCL and Lua languages, is presented as a proof of concept of the protocols implementations and proposed archi-
tecture use. Such application uses the LuaOnTV framework to build a Digital TV graphical user interface, wich was extended in this dissertation, with the improvements being presented along it. The work also presents a set of applications developed from the constructed frameworks that complement the T-Commerce application functionalities, such as RSS reader and orders tracking. From the mounted development environment for applications building, containing the reference implementation of the Ginga-NCL sub-system of the Ginga middleware, natively
installed, a Linux distribution was generated that enables such environment to be installed on any computer or virtual machine, to allow the development of similar architecture or extension of the proposed one.
|
62 |
Uso de redes neurais na previsao de desvios em arquiteturas superescalaresRibas, Luiz Vinicius Marra 12 March 2012 (has links)
Os processadores comerciais atuais usam técnicas agressivas para a extração do paralelismo em nível de instrução com o objetivo de atingir maior desempenho. Uma destas técnicas, a previsão de desvios, é usada para antecipar a busca de instruções, manter contínuo o fluxo de instruções no pipeline e aumentar as chances de paralelização de instruções. A maioria dos previsores de desvios utiliza algoritmos triviais aplicados a informações comportamentais sobre os desvios contidas em tabelas atualizadas dinamicamente. Uma nova abordagem tem sido investigada recentemente visando substituir estes algoritmos triviais por redes neurais, com o objetivo de prover maior inteligência aos previsores. Os trabalhos realizados com previsores deste tipo ainda são introdutórios e por isso estudos mais profundos devem ser realizados. O presente trabalho analisa o desempenho da previsão de desvios baseada em rede neural do tipo Perceptron para cinco diferentes modelos de previsores propostos. O modelo UNI realiza a previsão através de um único Perceptron para todas as instruções dos programas. Os modelos TIP e END utilizam vários Perceptrons em tabelas acessadas pelo tipo ou endereço das instruções de desvios, respectivamente. Os modelos DNT e DNE possuem o mecanismo de previsão implementado em dois níveis e são extensões dos respectivos modelos em um nível (TIP e END). Estes modelos foram avaliados sob diferentes tamanhos de históricos de desvios (2 a 64), diferentes números de linhas (64 a 1024) e graus de associatividade (1 a 16) da tabela de Perceptrons, incluindo diferentes tipos de organização do previsor, LOCAL e GLOBAL, definindo a localização do histórico de desvios nos Perceptrons; e LG_AND e LG_OR, que combinam as saídas de LOCAL e GLOBAL segundo sua função lógica. As avaliações mostram que os previsores de dois níveis apresentam melhores resultados que os correspondentes de um nível, que o aumento das linhas da tabela para a mesma associatividade apresenta um ganho de desempenho e que há aumento de desempenho com o aumento da associatividade para o mesmo número de linhas da tabela. Os melhores resultados obtidos foram para programas de ponto flutuante e desvios para frente. As organizações LG_AND e LG_OR não apresentam contribuições representativas na previsão de desvios, ficando os melhores resultados para LOCAL e GLOBAL. De uma forma geral, o presente trabalho mostrou que o uso do Perceptron na previsão de desvio é atrativo e os resultados são equivalentes àqueles obtidos em trabalhos correlatos.
|
63 |
Técnicas de tolerância a falhas aplicadas a redes intra-chipFochi, Vinicius Morais January 2015 (has links)
Made available in DSpace on 2015-06-17T02:04:12Z (GMT). No. of bitstreams: 1
000470587-Texto+Completo-0.pdf: 6163395 bytes, checksum: b88f0389d39c7cc7f197b32966e6fe29 (MD5)
Previous issue date: 2015 / The continuous development of the transistor technology has enabled hundreds of processors to work interconnected by a NoC (network-on-chip). Nanotechnology has enabled the development of complex systems, however, fault vulnerability also increased. The literature presents partial solutions for fault tolerance issues, targeting parts of the system. An important gap in the literature is an integrated method from the router-level fault detection to the correct execution of applications in the MPSoC. The main goal of this dissertation is to present a fault-tolerant method from the physical layer to the transport layer. The MPSoC is modeled at the RTL level using VHDL. This work proposes fault tolerance techniques applied to intra-chip networks. Related work on fault tolerance at a systemic level, router level, link level and routing algorithms are studied. This work presents the research and development of two techniques: (i) protocols to enable the correct communication between task with partial degradation of the link enabling the router to operate even with faulted physical channels; (ii) test recovery method and of the router. This Dissertation considers permanent and transient faults. The HeMPS platform is the reference platform to evaluate the proposed techniques, together with a fault injection campaign where up to five random failures were injected simultaneously at each simulated scenario. Two applications were used to evaluate the proposed techniques, MPEG encoder and a synthetic application, resulting in 2,000 simulated scenarios. The results demonstrated the effectiveness of the proposal, with most scenarios running correctly with routers operating in degraded mode, with an impact on the execution time below 1%, with a router area overhead around 30%. / O contínuo desenvolvimento na tecnologia de transistores possibilitou que centenas de processadores trabalhassem interconectados por NoCs (network-on-chip). A nanotecnologia permitiu o desenvolvimento de complexos sistemas, porém a vulnerabilidade a falhas também aumentou. A literatura apresenta soluções parciais para o tema de tolerância a falhas, tendo como alvo partes do sistema. Uma importante lacuna na literatura é um método integrado para detecção de falhas do nível do roteador até a correta execução das aplicações em MPSoC reais. O objetivo principal desta dissertação é apresentar um método com tolerância a falhas da camada física até a camada de transporte. O MPSoC é modelado em nível de RTL, usando VHDL.O presente trabalho propõe técnicas de tolerância a falhas aplicadas a redes intrachip. São estudadas técnicas de tolerância a falhas em nível sistêmico, nível do roteador, nível de enlace e algoritmos de roteamento tolerante a falhas. Este trabalho apresenta a pesquisa e o desenvolvimento de duas técnicas: (i) protocolos para permitir a correta transmissão dos dados com degradação parcial do enlace, de forma a permitir que o roteador opere mesmo com canais físicos falhos; (ii) método de teste e recuperação do roteador. O modelo de falhas utilizado nesta Dissertação é de falhas permanentes e transientes. Para avaliar as técnicas propostas, foi utilizada a plataforma HeMPS, juntamente com uma campanha de injeção de falhas onde até cinco falhas aleatórias foram injetadas nos canais de comunicação entre os roteadores simultaneamente em cada cenário. Foram utilizadas duas aplicações para avaliar as técnicas: codificador MPEG e uma aplicação sintética, com um total de 2,000 cenários simulados. Os resultados demonstram a efetividade da proposta, com a maioria dos cenários executando corretamente com roteadores operando em modo degradado, com um impacto no tempo de execução abaixo de 1% e um aumente do área de 30% no roteador.
|
64 |
Particionamento e mapeamento de aplicações em MPSoCs baseados em NoCs 3DStefani, Marco Pokorski January 2015 (has links)
Made available in DSpace on 2015-06-30T02:06:09Z (GMT). No. of bitstreams: 1
000471296-Texto+Completo-0.pdf: 2108698 bytes, checksum: 3b45f65685531967cfcb1b4458fc269a (MD5)
Previous issue date: 2015 / Multiprocessor System-on-Chip (MPSoC) based on Network-on-Chip (NoC) incorporates a lot of Processing Elements (PEs) in order to perform applications with high degree of parallelism/concurrence. These applications consist of several communicating tasks that are dynamically mapped into the PEs of the target architecture. When the number of application tasks grows, the complexity of mapping also grows, possibly reducing the effectiveness and/or efficiency of the solution. An approach for the mapping optimization is the introduction of a previous step called partitioning, which allows to organize the tasks interaction through an efficient grouping, reducing the number of mapping alternatives. This paper proposes the Partition Reduce (PR) algorithm, which is a task partitioning approach inspired on MapReduce algorithm, where tasks are partitioned by a deterministic iterative clustering. The PR was analyzed according to its effectiveness and efficiency to minimize the energy consumption caused by the communication in the target architecture and to balance the processing load on the PEs. Experimental results, containing a wide range of complex tasks, show that PR is more effective in generating partitions with low power consumption and efficient load balancing at any level of tasks complexity, when compared with the simulated annealing (SA) algorithm. Moreover, the results show that the algorithm is efficient only for medium or high complexity applications. / Sistema multiprocessado intrachip, em inglês Multiprocessor System-on-Chip (MPSoC), com comunicação baseada em rede intrachip, em inglês Network-on-Chip (NoC), integra grande quantidade de Elementos de Processamento (PEs) com o objetivo de executar aplicações com alto grau de paralelismo/concorrência. Estas aplicações são compostas por diversas tarefas comunicantes, que são mapeadas dinamicamente nos PEs da arquitetura alvo. Quando cresce o número de tarefas da aplicação, a complexidade do mapeamento também cresce, podendo reduzir a eficácia e/ou a eficiência da solução encontrada. Uma abordagem para otimizar o mapeamento é a introdução de uma etapa anterior denominada particionamento, que permite organizar a interação das tarefas através de um agrupamento eficiente, reduzindo o número de alternativas do mapeamento. Esta dissertação propõe o algoritmo Partition Reduce (PR), que é uma abordagem de particionamento de tarefas baseada no algoritmo MapReduce, onde as tarefas são particionadas através de um agrupamento iterativo determinístico. O PR foi analisado quanto a sua eficácia e eficiência para minimizar o consumo de energia causada pela comunicação na arquitetura alvo e para balancear a carga de processamento nos PEs. Resultados experimentais, contendo um conjunto variado de complexidade de tarefas, demonstram que o PR é mais eficiente na geração de partições com baixo consumo de energia e com um balanceamento de carga eficiente para qualquer nível de complexidade de tarefas, quando comparado com o Simulated Annealing (SA). Por outro lado, os resultados mostram que o algoritmo é eficaz apenas para aplicações de média e alta complexidade.
|
65 |
Implementação de técnicas de processamento de imagens no domínio espacial em sistemas reconfiguráveisSilva, Jones Yudi Mori Alves da 27 January 2010 (has links)
Dissertação (mestrado)—Universidade de Brasília, Departamento de Engenharia Mecânica, 2010. / Submitted by Shayane Marques Zica (marquacizh@uol.com.br) on 2011-03-09T19:23:57Z
No. of bitstreams: 1
2010_JonesYudiMoriAlvesdaSilva.pdf: 6670822 bytes, checksum: 70a95dfe04d8b03c82668818886afae2 (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2011-03-31T11:47:04Z (GMT) No. of bitstreams: 1
2010_JonesYudiMoriAlvesdaSilva.pdf: 6670822 bytes, checksum: 70a95dfe04d8b03c82668818886afae2 (MD5) / Made available in DSpace on 2011-03-31T11:47:04Z (GMT). No. of bitstreams: 1
2010_JonesYudiMoriAlvesdaSilva.pdf: 6670822 bytes, checksum: 70a95dfe04d8b03c82668818886afae2 (MD5) / Cada vez mais o mercado exige aplicações de processamento de imagens e vídeos com restrições de tempo real. Novos produtos são lançados quase que diariamente, levando a integração de sistemas a patamares inimagináveis até poucos anos atrás. Dispositivos móveis lidam com aplicativos que exigem um poder de processamento cada vez maior. Nas indústrias, sistemas de visão computacional necessitam extrair a maior quantidade de informações de uma imagem, no menor intervalo de tempo possível, fazendo com que a demanda por processamento seja cada vez maior. O tempo de desenvolvimento de novas arquiteturas é caro e demorado, por vezes não sendo suficiente para atender às novas demandas em um prazo razoável. Paralelamente a isso, as arquiteturas comuns de processamento por vezes não são capazes de processar todas as informações necessárias nos intervalos de tempo desejados. Por esse motivo, novos sistemas processadores vêm sendo desenvolvidos na tentativa de explorar o poder de processamento previsto nas pesquisas sobre computação paralela. Já existem dispositivos móveis com processadores de mais de dois núcleos disponíveis nas lojas, a preços razoavelmente acessíveis. Com o intuito de buscar uma alternativa de projeto que permita um rápido desenvolvimento dos sistemas, com facilidade de testes e baixo custo, este trabalho propõe o estudo dos algoritmos mais comuns de processamento de imagens e a identificação de estruturas que permitam a descrição direta em arquiteturas de hardware desses algoritmos. A metodologia seguida buscou particionar os algoritmos em suas estruturas mais simples, permitindo a identificação dos tipos de paralelismo presentes e a proposicão de arquiteturas que exploram essas diferentes formas de paralelismo em arquiteturas sistólicas simples. Como resultado foram propostas e implementadas arquiteturas diversas para algumas das operações mais comuns de processamento de imagens. Um sistema completo de captura, processamento e visualização de imagens foi implementado, oferecendo uma plataforma de hardware reconfigurável extremamente flexível, permitindo o desenvolvimento e testes de novos algoritmos e arquiteturas. _______________________________________________________________________________ ABSTRACT / Increasingly, the market requires applications of image processing and video with real-time constraints. New products are launched almost daily, leading to systems integration to levels unimaginable even a few years ago. Mobile devices handle applications that require processing power increasing. In industries, computer vision systems need to extract the greatest amount of image information in the shortest possible time, causing the demand for processing is increasing. The development time of new architectures is costly and time consuming, sometimes not enough to meet the new demands in a reasonable time. In parallel, the common processing architectures are often not able to process all the necessary information within the time allowed. Therefore, new processing systems have been developed in an attempt to exploit the processing power provided for research on parallel computing. There are already mobile processors with more than two cores available in stores, priced reasonably accessible. In order to seek an alternative design that allows rapid development of systems with ease and low cost of testing, this paper proposes the most common algorithms of image processing and identification of structures that allow the direct description of architectures hardware of these algorithms. The methodology sought to partition the algorithms in their simpler structures, allowing the identification of the types of parallelism present proposition and architectures that exploit these different forms of parallelism in simple systolic architectures. The results have been proposed and implemented various architectures for some of the most common operations in image processing. A complete system for capturing, processing and displaying images has been implemented, offering a reconfigurable hardware platform extremely flexible, allowing development and testing of new algorithms and architectures.
|
66 |
Arquitetura orientada a serviços para integração de tecnologias aplicadas a um atlas tridimensional interativo da anatomia mamáriaMelo, Jairo Simão Santana 12 1900 (has links)
Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2012. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2013-09-17T10:46:52Z
No. of bitstreams: 1
2012_JairoSimaoSantanaMelo.pdf: 17662415 bytes, checksum: 7b5b7f30c71c82dc9150bcea157f38ee (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-09-18T14:54:44Z (GMT) No. of bitstreams: 1
2012_JairoSimaoSantanaMelo.pdf: 17662415 bytes, checksum: 7b5b7f30c71c82dc9150bcea157f38ee (MD5) / Made available in DSpace on 2013-09-18T14:54:44Z (GMT). No. of bitstreams: 1
2012_JairoSimaoSantanaMelo.pdf: 17662415 bytes, checksum: 7b5b7f30c71c82dc9150bcea157f38ee (MD5) / A Organização Mundial de Saúde (OMS) apresenta anualmente estatísticas de evolução do câncer para as futuras gerações. Especificamente na mulher, o câncer de mama tem maior incidência. Assim sendo, esta condição merece uma atenção maior não só do Governo Federal e órgãos internacionais, mas principalmente dos centros de pesquisas, universidades e empresas, a fim de desenvolver tecnologias que auxiliem no diagnóstico e treinamento médico. Este trabalho aborda a concepção de uma arquitetura de software que permite a integração entre as áreas de Realidade Virtual (RV), Sistemas Tutores Inteligentes (STI) e Ontologia, tendo como domínio inicial de estudo, o ensino da anatomia da mama feminina em ambiente Web, assim como a concepção de ambientes de simulação de procedimentos cirúrgicos do mesmo contexto. Esta integração propõe uma arquitetura que busca auxiliar estudantes da área da saúde no entendimento das estruturas internas e externas da mama em ambiente colaborativo a partir da navegação, visualização e interação do estudante com o conteúdo e do conteúdo com o ambiente tridimensional (3D). O módulo conteúdo é acessível por um módulo de interface existente no domínio do STI presente na arquitetura, que auxiliado pelo módulo que avalia o perfil e pelo módulo tutor que processa as interações do estudante, customiza a informação a ser apresentada ao estudante. Neste ponto, o aprendiz pode requisitar os serviços do módulo 3D para visualizar a estrutura selecionada, caso a seleção seja um procedimento de simulação, por exemplo a Core Biopsy assistida por ultrassom destinada a punção de nódulos mamários, foco desse trabalho, a interface 3D é customizada para esse fim. Esta arquitetura, além do seu caráter inovador em relação ao modo de integração orientado a serviço, distribuído, modular e multiplataforma, baseados em tecnologias de última geração de comunicação, processamento, padrões de projeto e compilação, também permitiu a representação de uma cena gráfica 3D em um padrão não convencional, no qual instâncias de classe em formato de Ontologias armazenam propriedades e relacionamentos que configuram o ambiente 3D. Este contexto de visualização 3D pré-configurado permite a ativação de diferentes módulos de interação e navegação, entre eles: câmeras, malhas 3D, textura, colisão, deformação, iluminação, semântica e interfaces hápticas, sendo este último o mecanismo responsável pela compreensão de detalhes biológicos como dimensões, texturas e propriedades físicas, tais como peso, rigidez e elasticidade. Outro foco do trabalho foi a pesquisa de métodos de deformação híbridos (Físicos e Geométricos) de processamento em tempo real, que agregam maior realismo à simulação. A pesquisa foi submetida a especialistas da área médica, arquitetos de software e professores com conhecimentos correlatos a fim de validar o protótipo, diagrama esquemático da arquitetura e metodologia e tecnologias empregadas nos módulos, assim como a comunicação o desempenho e a interação de componentes. _______________________________________________________________________________________ ABSTRACT / The World Health Organisation (WHO) statistics annually presents the evolution of cancer for future generations. Specifically in women, breast cancer has a higher incidence. Therefore, this condition deserves greater attention not only from the Federal Government and international bodies, but mainly from research centers, universities and companies to develop technologies that help in the diagnosis and medical training. This paper discusses the design of a software architecture that allows integration between the fields of Virtual Reality (VR), Intelligent Tutoring Systems (ITS) and Ontology, with the initial domain of study, teaching the anatomy of the female breast in environment Web, and to design simulation environments surgical procedures the same context. This integration presents an architecture that seeks to assist students in the health field in understanding the internal and external structures of the breast in a collaborative environment from navigation, visualization and interaction with student content and content with the environmentdimensional (3D). The module content is accessible by a module interface with existing STI present in the architecture, which aided by the module which evaluates the profile and the tutor module that processes student interactions, customizes the information being presented to the student . At this point, the student can request service module to visualize the 3D structure selected if the selection procedure is a simulation, for example the Core Biopsy Ultrasound-assisted designed to puncture breast lumps, focus of this work, 3D interface is customized for that purpose. This architecture, in addition to its innovative compared to integration mode service-oriented, distributed, and modular platform, based on the latest technologies of communication, processing, compilation and design patterns also allowed graphical representation of a 3D scene in an unconventional pattern in which class instances in format Ontologies store properties and relationships that make up the 3D environment. This context of pre-configured 3D visualization allows the activation of different interaction and navigation modules, including: cameras, 3D meshes, texture, collision, deformation, lighting, semantic and haptic interfaces, the latter being the mechanism responsible for the understanding of biological details such as dimensions, textures and physical properties such as weight, rigidity and elasticity. Another focus of the study was to research methods of deformation hybrids (Physical and Geometrical) processing in real time, that add greater realism to the simulation. The study was submitted to medical experts, architects software and teachers with knowledge related to validate the prototype, schematic diagram of the architecture and methodology and technologies used in the modules, as well as communication, performance and interaction of components.
|
67 |
Implementação em FPGA de uma biblioteca parametrizável para inversão de matrizes baseada no algoritmo Gauss-Jordan, usando representação em ponto flutuanteArias García, Janier 24 September 2010 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, 2010. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2011-04-12T16:33:59Z
No. of bitstreams: 1
2010_JanierAriasGarcia.pdf: 1477625 bytes, checksum: 49f129291f7b6557c3d4729d552f872f (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2011-05-20T15:41:00Z (GMT) No. of bitstreams: 1
2010_JanierAriasGarcia.pdf: 1477625 bytes, checksum: 49f129291f7b6557c3d4729d552f872f (MD5) / Made available in DSpace on 2011-05-20T15:41:00Z (GMT). No. of bitstreams: 1
2010_JanierAriasGarcia.pdf: 1477625 bytes, checksum: 49f129291f7b6557c3d4729d552f872f (MD5) / As operações computacionais em que se desenvolvem cálculos matriciais são à base, ou melhor, o coração de muitos algoritmos computacionais científicos, por exemplo: processamento de sinais,visão computacional, robótica, entre outros. Esse tipo de algoritmos em que desenvolvem-se cálculos matriciais terminam sendo tarefas computacionalmente custosas, e suas implementações em hardware exigem grandes esforços e tempo. Existe então uma crescente demanda por arquiteturas que permitam cálculos matriciais, proporcionando soluções rápidas e eficientes para este tipo de problema. Este trabalho apresenta diferentes arquiteturas computacionais para inverter matrizes em hardware reconfigurável, FPGA: (a) sequencial, (b) pipeline e (c) Paralelo. Estas arquiteturas usam uma representação de ponto flutuante tanto em precisão simples (32 bits) quanto precisão dupla (64 bits), visando o uso em implementações de baixo consumo de recursos lógicos, na qual
a unidade principal é o componente de processamento para redução Gauss-Jordan. Esse componente consiste de outras pequenas unidades organizadas de tal forma que mantêm a precisão dos resultados sem a necessidade de internamente normalizar e de-normalizar os dados em ponto flutuante. No intuito de gerar arquiteturas de baixo custo, este trabalho propõe o estudo de diferentes formas de abordar o problema, descrevendo em código VHDL estas arquiteturas em que os tamanhos de matrizes são definidos pelos usuários. Os resultados de erro e de tempo
de execução das arquiteturas desenvolvidas foram comparados contra o MatLab, que faz uma
simulação comportamental do código VHDL gerado através do ambiente de simulação ModelSim. A implementação das operações e da própria unidade procura explorar os recursos disponíveis na FPGA Virtex-5. O desempenho e o consumo de recursos são apresentados, comparando as diferentes arquiteturas desenvolvidas entre si e entre outras arquiteturas propostas encontradas
em publicações anteriores. Além disso, é mostrado o decremento no desempenho a medida que o tamanho da matriz aumenta. ______________________________________________________________________________ ABSTRACT / Computer operations demanding matrix calculations are at the heart of many scientific computing algorithms such as: signal processing, computer vision, robotics, among others. Because these algorithms perform matrix calculations, they are often computationally expensive, and
their hardware implementations require much effort and time. So there is a growing demand for architectures that perform matrix calculations, fast and efficiently.
This work presents different computer architectures for matrix inversion in FPGA reconfigurable hardware: (a) sequential, (b) pipeline and (c) Parallel. These architectures use a floating point representation in both single-precision (32 bit) and double precision (64 bits), suitable for use in low cost implementations, and where main component is Gauss-Jordan reduction. This component consists of other small units arranged in such a way that maintains the accuracy of
results without the need of internally normalizing and de-normalizing the floating point data. In order to generate low-cost architectures, this work proposes to study different ways of approaching the problem in VHDL code, and allowing that sizes of matrices be defined by users. All architectures were simulated using MatLab, with a behavioral simulation of VHDL code generated by ModelSim simulation environment. As a result of comparing the error obtained by the architecture, with the inversion performed using MatLab as static estimator. The implementation of operations and the unit seeks to explore the resources available in Virtex-5 FPGA. The performance and resource consumption are presented, comparing the different architectures developed between themselves and with others proposed in previous publications. In addition, it is shown the influence of the array size in the performance.
|
68 |
Desenvolvimento de uma arquitetura paralela para redes neurais artificiais MLP baseada em FPGASPyetro Amaral Ferreira, Antonyus 31 January 2011 (has links)
Made available in DSpace on 2014-06-12T15:59:56Z (GMT). No. of bitstreams: 2
arquivo5807_1.pdf: 6535979 bytes, checksum: f0b7d3e91a58a935a96a4b9790f84fab (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2011 / Este trabalho apresenta a definição de uma arquitetura, baseada em FPGA, para
implementação de Redes Neurais (RNAs) MLP. A arquitetura proposta foi projetada
observando-se critérios limitantes como grande quantidade de entradas, redução do
consumo de área, utilização de pinos, recursos de interconexão e compromisso entre
área/desempenho. Um importante resultado é a utilização de log2m adicionadores
para uma RNA com m entradas. Uma RNA cuja topologia é 256:10:10 atingiu um
speed-up de 36x, comparado com uma implementação convencional em C rodado
em um PC. Uma ferramenta de geração automática do código da RNA em linguagem
HDL também foi desenvolvida
|
69 |
Algoritmos para alocação de recursos em arquiteturas reconfiguraveisMoreano, Nahri Balesdent 11 September 2005 (has links)
Orientador: Guido Costa Souza de Araujo / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-05T22:19:54Z (GMT). No. of bitstreams: 1
Moreano_NahriBalesdent_D.pdf: 800701 bytes, checksum: 14a5d8efe200a7b691c39c5d95f34948 (MD5)
Previous issue date: 2005 / Resumo: Pesquisas recentes na área de arquiteturas reconfiguráveis mostram que elas oferecem um desempenho melhor que os processadores de propósito geral (GPPs - General Purpose Processors), aliado a uma maior flexibilidade que os ASICs (Application Specific Integrated Circuits). Uma mesma arquitetura recongurável pode ser adaptada para implementar aplicações diferentes, permitindo a especialização do hardware de acordo com a demanda computacional da aplicação. Neste trabalho, nos estudamos o projeto de sistemas dedicados baseado em uma arquitetura reconfigurável. Adotamos a abordagem de extensão do conjunto de instruções, na qual o conjunto de instruções de um GPP e acrescido de instruções especializadas para uma aplicação. Estas instruções correspondem a trechos da aplicação e são executadas em um datapath dinamicamente recongurável, adicionado ao hardware do GPP. O tema central desta tese e o problema de compartilhamento de recursos no projeto do datapath reconfigurável. Dado que os trechos da aplicação são modelados como grafos de luxo de dados e controle (Control/Data-Flow Graphs ¿ CDFGs), o problema de combinação de CDFGs consiste em projetar um datapath reconfigurável com área mínima. Nos apresentamos uma demonstração de que este problema e NP-completo. Nossas principais contribuições são dois algoritmos heurísticos para o problema de combinação de CDFGs. O primeiro tem o objetivo de minimizar a área das interconexões do datapath reconfigurável, enquanto que o segundo visa a minimização da área total. Avaliações experimentais mostram que nossa primeira heurística resultou em uma redução media de 26,2% na área das interconexões, em relação ao método mais utilizado na literatura. O erro máximo de nossas soluções foi em media 4,1% e algumas soluções ótimas foram obtidas. Nosso segundo algoritmo teve tempos de execução comparáveis ao método mais rápido conhecido, obtendo uma redução media de 20% na área. Em relação ao melhor método para área conhecido, nossa heurística produziu áreas um pouco menores, alcançando um speed up médio de 2500. O algoritmo proposto também produziu áreas menores, quando comparado a uma ferramenta de síntese comercial / Abstract: Recent work in reconfigurable architectures shows that they ofter a better performance than general purpose processors (GPPs), while offering more exibility than ASICs (Application Specific Integrated Circuits). A reconfigurable architecture can be adapted to implement different applications, thus allowing the specialization of the hardware according to the computational demands. In this work we describe an embedded systems project based on a reconfigurable architecture. We adopt an instruction set extension technique, where specialized instructions for an application are included into the instruction set of a GPP. These instructions correspond to sections of the application, and are executed in a dynamically reconfigurable datapath, added to the GPP's hardware. The central focus of this theses is the resource sharing problem in the design of reconfigurable datapaths. Since the application sections are modeled as control/data-ow graphs (CDFGs), the CDFG merging problem consists in designing a reconfigurable datapath with minimum area. We prove that this problem is NP-complete. Our main contributions are two heuristic algorithms to the CDFG merging problem. The first has the goal of minimizing the reconfigurable datapath interconnection area, while the second minimizes its total area. Experimental evaluation showed that our first heuristic produced an average 26.2% area reduction, with respect to the most used method. The maximum error of our solutions was on average 4.1%, and some optimal solutions were found. Our second algorithm approached, in execution times, the fastest previous solution, and produced datapaths with an average area reduction of 20%. When compared to the best known area solution, our approach produced slightly better areas, while achieving an average speedup of 2500. The proposed algorithm also produced smaller areas, when compared to an industry synthesis tool / Doutorado / Doutor em Ciência da Computação
|
70 |
Alocação global de registradores de endereçamento usando cobertura do grafo de indexação e uma variação da forma SSACintra, Marcelo Silva 11 August 2018 (has links)
Orientador: Guido Costa Souza de Araujo / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-11T23:43:23Z (GMT). No. of bitstreams: 1
Cintra_MarceloSilva_M.pdf: 4931297 bytes, checksum: 7c0c9ec0d753cee26428360bb75ed2bd (MD5)
Previous issue date: 2000 / Resumo: O modo de endereçamento indireto é o modo mais utilizado para acessos a arrays em programas que executam em arquiteturas CISC dedicadas. A razão para isto é que o endereçamento indireto permite o cálculo rápido de endereços usando instruções curtas. Este trabalho propõe uma solução para o problema de alocação de registradores de endereçamento para referências a elementos de arrays em laços, utilizando modo de endereçamento indireto combinado com auto-incremento. O resultado é um algoritmo que minimiza o número de registradores de endereçamento e instruções de redirecionamento requeridas por um programa. Este trabalho propõe uma extensão, para o caso multi-dimensional. de trabalhos anteriores baseados na cobertura do Grafo de Indexação(IG). Este trabalho propõe ainda um algoritmo de alocação global baseado em uma variação de Static Single Assignment Forra e uma heurística para a redução do número de registradores requeridos pela cobertura do IG. Um compilador otimizante pertencente à Conexant Systems Inc. é utilizado para testar estas idéias. Resultados experimentais, usando programas reais, mostraram uma melhoria de desempenho de 11.3% no tempo de execução quando comparado com uma técnica de coloração baseada em prioridade. Devido ao impacto da alocação de registradores na geração de código, esta técnica pode melhorar substancialmente o tamanho do código gerado, reduzindo a dissipação de energia e aumentando o desempenho do sistema. Estas características são extremamente desejáveis para o projeto de computadores portáteis modernos. / Abstract: Indirect addressing is by far the most used addressing mode in programs running in embedded CISC architectures. The reason is that it enables fast address computation combined with short instructions. This work proposes a solution to the problem of allocating address registers to array references within loops, when using indirect addressing combined with auto-increment. The result is an algorithm that minimizes the number of address registers and redirect instructions required by a program. It extends previous work using Indexing Graph(lG) covering to the multidimensional case, and proposes a global allocation algorithm based on a variation of Static Single Assignment Form. This work also presents a heuristic that aims at reducing the number of address registers required by the covering of the IG. An optimizing production compiler from Conexant Systems Inc. is used to test the approach. Experimental results, using real world-programs, showed an 11% performance improvement when compared to a priority-based register coloring technique. Because of the impact of register alocation in code generation, this technique can substantially improve code size, power dissipation and performance, without increasing cost. These are very desirable features for the design of modern portable computers. / Mestrado / Mestre em Ciência da Computação
|
Page generated in 0.0891 seconds