311 |
Intégration d'un système d'exploitation dans le flot de développement logiciel/matérielJulien, Marc January 2008 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
312 |
[en] FPGA APPLICATIONS ON SINGLE PHOTON DETECTION SYSTEMS / [pt] APLICAÇÕES DE FPGA EM SISTEMAS DE DETECÇÃO DE FÓTONS ÚNICOSGUSTAVO CASTRO DO AMARAL 12 March 2015 (has links)
[pt] Apesar da alta sensibilidade alcançada por Fotodetectores comercialmente disponíveis, a implementação de circuitos de gerenciamento é capaz de fortalecer a robustez das medidas, criando um aparato com mais recursos em aplicações específicas. Duas aplicações práticas dessa hipótese são apresentadas em contextos diferentes, Criptografia Quântica e Monitoramento de Fibras Ópticas fazendo uso da plataforma FPGA. / [en] Despite the high sensitivity reached by Photon Detectors so far, the implementation of a background managing system often enforces the robustness of measurements thus creating a resourceful apparatus for specific applications. In this document, the management tools offered by Software Defined Hardware (SDHs) is put to test. By associating the power of FPGAs and Photon Detectors, enhanced measurement stations were assembled. Two different applications, a Bell State Projection Analysis Station and a Photon Counting Optical Time Domain Reflectometry (v-OTDR)Automatic Setup, are presented. Even though both experiments involve the detection of single photons, the background technologies differ drastically.
|
313 |
Exploration d'architectures génériques sur FPGA pour des algorithmes d'imagerie multispectrale / Exploration of generic architectures on FPGA for algorithms of multispectral imagingTan, Junyan 12 June 2012 (has links)
Les architectures multiprocesseur sur puce (MPSoC) basées sur les réseaux sur puce (NoC) constituent une des solutions les plus appropriées pour les applications embarquées temps réel de traitement du signal et de l’image. De part l’augmentation constante de la complexité de ces algorithmes et du type et de la taille des données manipulées, des architectures MPSoC sont nécessaires pour répondre aux contraintes de performance et de portabilité. Mais l’exploration de l’espace de conception de telles architectures devient très coûteuse en temps. En effet, il faut définir principalement le type et le nombre des coeurs de calcul, l’architecture mémoire et le réseau de communication entre tous ces composants. La validation par simulation de haut niveau manque de précision, et la simulation de bas niveau est inadaptée au vu de la taille de l’architecture. L’émulation sur FPGA devient donc inévitable. Dans le domaine de l’image, l’imagerie spectrale est de plus en plus utilisée car elle permet de multiplier les intervalles spectraux, améliorant la définition de la lumière d’une scène pour permettre un accès à des caractéristiques non visibles à l’oeil nu. De nombreux paramètres modifient les caractéristiques de l’algorithme, ce qui influence l’architecture finale. L’objectif de cette thèse est de proposer une méthode pour dimensionner au plus juste l’architecture matérielle et logicielle d’une application d’imagerie multispectrale. La première étape est le dimensionnement du NoC en fonction du trafic sur le réseau. Le développement automatique d’une plateforme d’émulation sur mono ou multi FPGA facilite cette étape et détermine le positionnement des composants de calcul. Ensuite, le dimensionnement des composants de calcul et leurs fonctionnalités sont validés à l’aide de plateformes de simulation existantes, avant la génération du modèle synthétisable sur FPGA. Le flot de conception est ouvert dans le sens qu’il accepte différents NoC à condition d’avoir le modèle source HDL de ce composant. De nombreux résultats mettent en avant les paramètres importants qui ont une influence sur les performances des architectures et du NoC en particulier. Plusieurs solutions sont décrites, commentées et critiquées. Ces travaux nous permettent de poser les premiers jalons d’une plateforme d’émulation complète MPSoC à base de NoC / The Multiprocessor-System-On-Chip (MPSoC) architectures based on the Network-On-Chip (NoC) communication are the one of the most appropriate solution for image and signal processing applications under real time constraints. Due to the ever increasing complexity of these algorithms, the types and sizes of the data manipulated, the MPSoC architectures are necessary to meet the constraints of performance and portability. However exploring the design space of such architecture is time consuming. Indeed, many parameters should be defined such as the type and the number of processing cores, the memory architecture and the communication network between all these components. Validation by high-level simulations has the lack of the precision. Low-level simulation is inadequate for such big size of the architecture. Therefore, the emulation on FPGA becomes inevitable. In image processing, spectral imaging is more and more used. This technology captures light from more frequencies than the human eye increasing the number of wavelengths. Invisible details can be extracted from a scene. The difference between all spectral imaging applications is the number of wavelengths and the precision. Many parameters affect the characteristics of the algorithm, having a huge impact on the final architecture. The objective of this thesis is to propose a method for sizing one of the most accurate hardware and software architecture for multispectral imaging application. The first step is the design of the NoC based on the network traffic. The automatic development of an emulation platform on a single FPGA or multi-FPGAs simplifies this step and determines the positioning of the computational components. Then, the design of computational components and their functions are validated using existing simulation platforms. The synthesizable model of the architecture on FPGA is then generated. The design flow is open. Several NoC structures can be inserted using the source model of this component. The set of results obtained points out the major parameters influencing the performances of architecture and the NoC itself. Several solutions are described and analyzed. These studies allow us to lay the groundwork for a complete MPSoC emulation platform based on NoC
|
314 |
Algoritmos de tempo real para melhoramento de imagens capturadas no espectro do infravermelho projetados para síntese em FPGA / Real-time infrared images enhancement algorithms developed for FPGA synthesisRotava, Lucas 04 December 2015 (has links)
Este trabalho apresenta o desenvolvimento de algoritmos de processamento de imagens para câmeras térmicas, com o objetivo de sintetizá-los em FPGA. Existem diversas aplicações para imagens térmicas nas áreas médica, de segurança e industrial, por isso o conhecimento e o desenvolvimento de câmeras térmicas são de interesse para a academia e para a indústria. Por consequência, o desenvolvimento de algoritmos que tratem as imagens também representa importante papel. Os algoritmos implementados neste trabalho são: correção de não uniformidade (NUC); substituição de pixels defeituosos, ou bad pixels, (BPR); redução da resolução de cor com realce de contraste; e filtro espacial para realçar detalhes da imagem, chamado de filtro de nitidez. Os três primeiros são algoritmos importantes devido à características dos detectores e de câmeras térmicas, já o filtro de nitidez foi proposto para melhorar a visualização de objetos nas imagens. Com os algoritmos simulados em Matlab foram feitas medidas de contraste e de MTF das imagens de saída, e os resultados obtidos para os algoritmos de realce de contraste e de nitidez mostraram que eles são adições importantes ao conjunto de algoritmos básicos para câmeras térmicas, já que, para alguns casos, o realce de contraste aumentou em mais de 50% a medida de contraste da imagem, em comparação com o algoritmo anterior, e o filtro de nitidez proporcionou valores de MTF até duas vezes maiores. Os algoritmos de NUC e BPR apresentaram os resultados esperados, corrigindo a imagem recebida do detector. As imagens utilizadas eram de 640×512 pixels processadas em uma taxa de 30 fps, e dessa forma optou-se pelo FPGA para a síntese dos algoritmos, sendo possível realizar os processamentos paralelamente contando com a característica de alto throughput inerente a estes componentes. Os algoritmos implementados em FPGA apresentaram desempenho superior aos requisitos mínimos de tempo para o sistema utilizado, sendo perfeitamente capazes de processar o vídeo de entrada em tempo real. / This work presents the development of FPGA-synthesizable image processing algorithms to thermal cameras. There are plenty of applications for thermal imaging in medical, security and industrial areas, therefore, the knowledge and the development of thermal cameras are of great interest to both academia and industry. Consequently, the development of algorithms to enhance the images is also important. The implemented algorithms are: nonuniformity correction (NUC); bad pixel replacement (BPR); pixel depth reduction with contrast enhancement; and emboss spatial filter. The three first algorithms are important because of some characteristics of infrared detectors and cameras, and the emboss filter is proposed to improve the visualization of objects in the images. With the algorithms simulated in Matlab, the contrast and MTF were measured in the output images, and the results showed that the contrast enhancement and the emboss filter algorithms are important additions to the infrared cameras basic set of image processing algorithms since, for some cases, the contrast enhancement was able to improve the contrast by 50% and the emboss filter have doubled the MTF. NUC and BPR algorithms had the expected results, correcting the image from the detector. There were used images with resolution of 640×512 at 30 frames per second and, because of this, it was chosen to synthesize the algorithms in an FPGA, this way it is possible to run them in parallel, counting on the high throughput characteristic of the FPGAs. The implemented algorithms have better timing performance than the needed for the system used, being perfectly able to process the input video in real time.
|
315 |
Co-projeto hardware/software para cálculo de fluxo ótico / Software/hardware co-desing for the optical flow calculationLobo, Tiago Mendonça 17 June 2013 (has links)
O cálculo dos vetores de movimento é utilizado em vários processos na área de visão computacional. Problemas como estabelecer rotas de colisão e movimentação da câmera (egomotion) utilizam os vetores como entrada de algoritmos complexos e que demandam muitos recursos computacionais e consequentemente um consumo maior de energia. O fluxo ótico é uma aproximação do campo gerado pelos vetores de movimento. Porém, para aplicações móveis e de baixo consumo de energia se torna inviável o uso de computadores de uso geral. Um sistema embarcado é definido como um computador desenvolvido com um propósito específico referente à aplicação na qual está inserido. O objetivo principal deste trabalho foi elaborar um módulo em sistema embarcado que realiza o cálculo do fluxo ótico. Foi elaborado um co-projeto de hardware e software dedicado e implementados em FPGAs Cyclone II e Stratix IV para a prototipação do sistema. Desta forma, a implementação de um projeto que auxilia a detecção e medição do movimento é importante não só como aplicação isolada, mas para servir de base no desenvolvimento de outras aplicações como tracking, compressão de vídeos, predição de colisão, etc / The motion vectors calculation is used in many processes in the area of computer vision. Problems such as establishing collision routes and the movement of the camera (egomotion) use this vectors as input for complexes algorithms that require many computational and energy resources. The optical flow is an approximation of the field generated by the motion vectors. However, for mobile, low power consumption applications becomes infeasible to use general-purpose computers. An embedded system is defined as a computer designed with a specific purpose related to the application in which it is inserted. The main objective of this work is to implement a hardware and software co-design to assist the optical flow field calculation using the CycloneII and Stratix IV FPGAs. Sad that, it is easily to see that the implementation of a project to help the detection and measurement of the movement can be the base to the development of others applications like tracking, video compression and collision detection
|
316 |
MP-SMO: um algoritmo para a implementação VLSI do treinamento de máquinas de vetores de suporte. / MP-SMO: an algorithm for the VLSI implementation of the support vector machines training.Acosta Hernández, Raúl 02 September 2009 (has links)
Máquinas de aprendizagem, como Redes Neuronais Artificiais (ANNs), Redes Bayesianas, Máquinas de Vetores de Suporte (SVMs) e outras, são aplicadas em problemas de classificação de padrões. Devido ao baixo erro de teste, a SVM possui uma grande quantidade de aplicações, como no reconhecimento de imagens, seleção de genes, classificação de textos, robótica, reconhecimento de escrita a mão e outras. Dos algoritmos desenvolvidos para o treinamento da SVM, o Sequential Minimal Optimization (SMO) é um dos mais rápidos e o mais fácil de implementar em software. Devido a sua importância, várias otimizações para diminuir ainda mais o seu tempo de execução têm sido reportadas. A maioria das implementações do treinamento da SVM foram realizadas em software. Não obstante, a implementação em hardware é necessária em algumas aplicações com restrições: de área, e/ou de energia e/ou de tempo de treinamento, por exemplo, em algumas aplicações portáveis ou móveis. Nas implementações em hardware anteriores a este trabalho, o treinamento da SVM foi realizado com um conjunto de exemplos cuja quantidade é da ordem de somente dezenas, e unicamente uma delas usou o algoritmo SMO. Neste trabalho é apresentada uma modificação do algoritmo SMO, que denominamos algoritmo SMO de Múltiplos Pares (MP-SMO), para a aceleração do treinamento da SVM. A diminuição do tempo de treinamento é obtida realizando a otimização de um ou mais pares de coeficientes, chamados Multiplicadores de Lagrange, em cada iteração. De modo diferente, o algoritmo SMO original otimiza somente um par. O algoritmo MP-SMO apresenta as seguintes características: 1) a otimização de cada par de coeficientes é mantida simples usando a solução analítica do algoritmo SMO original. 2) as heurísticas para a seleção dos múltiplos pares a otimizar são adaptações das soluções anteriores para a seleção de um par por iteração. Testou-se o algoritmo otimizando até dois, três e quatro pares de coeficientes por iteração, e melhores resultados foram obtidos quando comparados com os do algoritmo SMO. Nos testes realizados com sete benchmarks, o tempo de treinamento diminuiu entre 22,5% e 42,8%. A diminuição do tempo de execução do algoritmo SMO em hardware é também abordada nesta dissertação. Os algoritmos SMO e MP-SMO foram completamente implementados em hardware dedicado para o benchmark Tic-tac-toe endgame. Este benchmark é composto por 958 exemplos, uma quantidade superior às usadas nas implementações anteriores. Com o algoritmo MP-SMO pretendeu-se reduzir o número de iterações, como na implementação em software, e poder incluir paralelismo na implementação em hardware. Para diminuir o tempo de execução de cada iteração, arquiteturas dos tipos pipeline e paralela foram usadas. Foram implementadas e testadas em um dispositivo do tipo FPGA (Field Programmable Gate Array) dezesseis diferentes arquiteturas no total, combinando ou não o algoritmo SMO ou o MP-SMO com pipelining e/ou paralelismo. O tempo de treinamento diminuiu no melhor caso para 1,8% do obtido com o algoritmo SMO implementado sem pipelining nem paralelismo, ou seja, diminuiu em mais de 50 vezes. Esta dissertação apresenta também a análise do custo em área e potência decorrente do aumento da velocidade de treinamento. / Learning Machines, like Artificial Neural Networks (ANNs), Bayesian Networks, Support Vector Machines (SVMs) and others are applied in pattern classification problems. As the test error in SVM is small, it has several applications, such as image recognition, gene selection, text classification, robotics, handwritten recognition and others. Among the developed algorithms for the SVM training, the Sequential Minimal Optimization (SMO) is one of the fastest and the simplest to implement in software. Due to its importance, many improvements have been proposed in order to obtain even faster solutions than the original algorithm. Most of the SVM training implementations are in software. However, in some applications with restrictions of: area, and/or power and/or training time, a hardware implementation is necessary, for example, in some mobile or portable applications. In related previous works, the SVMs were trained in hardware using sets of only tens of examples, and in only one implementation the SMO algorithm was employed. In this work, a modified version of the SMO algorithm, named here the Multiple Pairs SMO (MP-SMO) algorithm, for the SVM training acceleration is presented. The training time reduction is obtained optimizing per iteration one or more pairs of coefficients known as Lagrange Multipliers, instead of only one pair as in the original SMO algorithm. The MP-SMO algorithm has the following features: 1) the optimization of each pair is as simple as in the original SMO algorithm because of the use of the same analytical method. 2) the solution for the pairs of coefficients selection can be chosen between two adapted heuristics for the SMO algorithm. The algorithm was tested optimizing up to two, three and four pairs of coefficients per iteration, and the training time was improved, when compared against the SMO algorithm. The tests for seven benchmarks showed an improvement that ranged from 22.5% to 42.8%. The reduction of the training time of the SMO algorithm executed in hardware is also treated in this dissertation. The algorithms SMO and MP-SMO were completely implemented in dedicated hardware for the Tic-tac-toe endgame benchmark. This benchmark is composed of 958 examples, a number greater than the used in the previous hardware implementations. The implementation of the MP-SMO algorithm is intended to reduce the number of iterations, as in the software implementation, and to include parallelism in the hardware implementation. In order to reduce the iteration execution time, the pipeline and parallel architectures were realized. Sixteen different architectures were implemented and tested on a Field Programmable Gate Array (FPGA) device, combining or not the SMO or MP-SMO algorithm with pipelining and/or parallelism. The training time was reduced to 1.8% of that obtained with the SMO algorithm without neither pipelining nor parallelism, that is, more than 50 times. This dissertation also presents an analysis of the area and power cost of the training speed increase.
|
317 |
ChipCflow: tool for convert C code in a static dataflow architecture in reconfigurable hardware / ChipCflow: ferramenta para conversão de código C em uma arquitetura a fluxo de dados estática em harware reconfigurávelSilva, Antonio Carlos Fernandes da 19 February 2015 (has links)
A growing search for alternative architectures and softwares have been noted in the last years. This search happens due to the advance of hardware technology and such advances must be complemented by innovations on design methodologies, test and verification techniques in order to use technology effectively. Alternative architectures and softwares, in general, explores the parallelism of applications, differently to Von Neumann model. Among high performance alternative architectures, there is the Dataflow Architecture. In this kind of architecture, the process of program execution is determined by data availability, thus the parallelism is intrinsic in these systems. The dataflow architectures become again a highlighted search area due to hardware advances, in particular, the advances of Reconfigurable Computing and Field Programmable Gate Arrays (FPGAs). ChipCflow projet is a tool for execution of algorithms using dynamic dataflow graph in FPGA. In this thesis, the development of a code conversion tool to generate aplications in a static dataflow architecture, is described. Also the ChipCflow project where the code conversion tool is part, is presented. The specification of algorithm to be converted is made in C language and converted to a hadware description language, respecting the proposed by ChipCflow project. The results are the proof of concept of converting a high-level language code for dataflow architecture to be used into a FPGA. / Existe uma crescente busca por softwares e arquiteturas alternativas. Essa busca acontece pois houveram avanços na tecnologia do hardware, e estes avanços devem ser complementados por inovações nas metodologias de projetos, testes e verificação para que haja um uso eficaz da tecnologia. Os software e arquiteturas alternativas, geralmente são modelos que exploram o paralelismo das aplicações, ao contrário do modelo de Von Neumann. Dentre as arquiteturas alternativas de alto desempenho, tem-se a arquitetura a fluxo de dados. Nesse tipo de arquitetura, o processo de execução de programas é determinado pela disponibilidade dos dados, logo o paralelismo está embutido na própria natureza do sistema. O modelo a fluxo de dados possui a vantagem de expressar o paralelismo de maneira intrínseca, eliminando a necessidade do programador explicitar em seu código os trechos onde deve haver paralelismo. As arquiteturas a fluxo de dados voltaram a ser uma área de pesquisa devido aos avanços do hardware, em particular, os avanços da Computação Reconfigurável e dos Field Programmable Gate Arrays (FPGAs).Nesta tese é descrita uma ferramenta de conversão de código que visa a geração de aplicações utilizando uma arquitetura a fluxo de dados estática. Também é descrito o projeto ChipCflow, cuja ferramenta de conversão de código, descrita nesta tese, é parte integrante. A especificação do algoritmo a ser convertido é feita em linguagem C e convertida para uma linguagem de descrição de hardware, respeitando o modelo proposto pelo ChipCflow. Os resultados alcançados visam a prova de conceito da conversão de código de uma linguagem de alto nível para uma arquitetura a fluxo de dados a ser configurada em FPGA.
|
318 |
LALP+ : um framework para o desenvolvimento de aceleradores de hardware em FPGAs / LALP+ : a framework for developing FPGA-based hardware acceleratorsOliveira, Cristiano Bacelar de 21 December 2015 (has links)
Considerando a crescente demanda por desempenho em sistemas computacionais, a implementação de algoritmos diretamente em hardware com o uso de FPGAs (Field-programmable Gate Arrays) é uma alternativa que tem apresentado bons resultados. Porém, os desafios de programação envolvidos no uso de FPGAs, de tal forma a explorar eficientemente seus recursos, limita o número de desenvolvedores em função da predominância do paradigma de programação tradicionalmente sequencial, imposto pelas linguagens imperativas. Assim, este trabalho busca desenvolver mecanismos que facilitem o desenvolvimento com FPGAs, otimizando o uso de memória e explorando o paralelismo das operações. Este documento apresenta a tese de doutorado de título LALP+ : um framework para o desenvolvimento de aceleradores de hardware em FPGAs. Dado que a latência para leitura e escrita de dados têm sido um gargalo para algumas aplicações de alto desempenho, este trabalho trata do desenvolvimento de técnicas para geração de arquiteturas de hardware, considerando aspectos relativos ao mapeamento, gerenciamento e acesso à memória em arquiteturas reconfiguráveis. Para isto, o projeto desenvolvido utiliza como base a linguagem LALP, cujo foco é o tratamento de loops com a técnica de loop pipelining. As técnicas descritas nesta tese são empregadas no desenvolvimento do framework LALP+, o qual estende LALP com a implementação de novas características e funcionalidades, de forma a contribuir para o aumento do seu nível de abstração. As arquiteturas criadas utilizando LALP+ foram comparadas às geradas por ferramentas comerciais e acadêmicas, tendo apresentado, em média, um melhor desempenho, com redução do tempo de execução de 10;01, no melhor caso. Espera-se, por meio das contribuições aqui apresentadas, facilitar a implementação de produtos e projetos relacionados a aplicações de computação de alto desempenho que envolvam o uso de arquiteturas reconfiguráveis, promovendo uma maior absorção desta tecnologia. / Considering the demand for high-performance in computer systems, the implementation of algorithms directly in hardware by using FPGAs (Field-programmable Gate Arrays) is an alternative that has shown good results. However, the number of developers is limited due to the challenges faced for efficiently programming FPGAs. In addition to that, developers are more used to the traditional sequential programming paradigm imposed by the imperative languages. This work seeks to develop mechanisms to facilitate the development with FPGAs, by optimizing memory usage and exploiting the parallelism of operations inside a loop. This document presents the doctoral thesis entitled LALP+ : a framework for developing FPGA-based hardware accelerators. Since the latency for reading and writing data have been a bottleneck for high performance applications, this work deals with the development of techniques for generation of hardware architectures, considering aspects related to mapping, management and memory access in reconfigurable architectures, using as basis the LALP language, which focuses on the treatment of loops with the technique of loop pipelining. The techniques described in this thesis are employed in the development of the LALP+ framework, which extends LALP by implementing new features and functionalities, in order to contribute to increase its abstraction level. LALP+ architectures were compared to ones generated by using academical and commercial tools, having presented, on average, better performance, with a execution time speedup of 10;01 for the best case. Thus, it is expected that the hereby presented contributions facilitate the implementation of products and projects related to high-performance computing applications with reconfigurable architectures, contributing for the use of such technology.
|
319 |
Um framework para coprojeto de hardware/software para o módulo da dinâmica do modelo brasileiro de previsão do tempo - BRAMS / A framework for the hardware/software codesign for the dynamic module of the Brazilian model of weather forecast - BRAMSPereira, Erinaldo da Silva 21 December 2018 (has links)
O BRAMS (Brazilian developments on the Regional Atmospheric Modelling System) é o sistema utilizado pelo CPTEC/INPE para previsão climática no Brasil. Este projeto de doutorado contribui para a modernização do código desse sistema a partir da implementação e avaliação de um framework para coprojeto de hardware/software do módulo da dinâmica do modelo climático BRAMS. Foi conduzido um estudo do código do BRAMS para verificar quais trechos poderiam ser acelerados em hardware. Com isso foram desenvolvidos kernels usando Intel OpenCL para serem executados em dispositivos programáveis do tipo FPGA. Este estudo utilizou o suporte e recursos do programa da Intel HARP (Heterogeneous Architecture Research Platform), que disponibilizou uma infraestrutura de computação heterogênea com processadores Xeon com um FPGA Arria 10 integrado. Foram conduzidos dois estudos de caso em que os resultados sugerem que é possível portar uma aplicação climática para uma máquina heterogênea que utiliza CPU e FPGA. Porém, para obter um desempenho satisfatório nessa nova arquitetura faz-se necessário domínio dos recursos disponíveis no Intel OpenCL para programar a máquina heterogênea e a aplicação alvo deve possuir uma estrutura de código que favoreça a execução de tais estruturas. Apesar do desempenho com o FPGA Arria 10 não ter sido superior ao do sistema executando apenas em Intel Xeon, o ganho em eficiência de energia justifica a migração do código para esta nova plataforma. Além disso, o framework desenvolvido possibilitará futuras implementações do BRAMS visando uma arquitetura heterogênea como alvo. / BRAMS (Brazilian developments on the Regional Atmospheric Modelling System) is the system used by CPTEC/INPE for climate forecast in Brazil. This PhD project contributes to the improvement of the code of this system from implementation and evaluation of a hardware/software codesign framework of the dynamics module of the BRAMS climate model. A study of the source code was conducted to verify what parts can be accelerated with hardware. Kernels were developed using Intel OpenCL and they were executed in programmable devices of the type FPGA. This study used resources of the Intel HARP program (Heterogeneous Architecture Research Platform). HARP provided an infrastructure of heterogeneous computation with Xeon processors including an Arria 10 FPGA integrated. The results from three case studies conducted suggest that it is possible to carry a climate application to a heterogeneous machine that uses CPU and FPGA. However, to obtain a satisfactory performance in this new architecture it is necessary to master the available resources in Intel OpenCL to program the heterogeneous machine and the target application must have a code structure that favors the execution of such structures. Although the performance was not higher than the system running only in CPU, the gain in energy efficiency justifies the migration of the code to this new platform.
|
320 |
Projeto de uma VPN(Rede Privada Virtual) baseada em computação reconfigurável e aplicada a robôs móveis / A VPN (Virtual Private Network) design based on reconfigurable computing and applied to mobile robotsMarleta, Marcelo Honorato 11 April 2007 (has links)
Este trabalho apresenta uma implementação de VPN utilizando-se dos circuitos reprogramáveis do tipo FPGA (Field Programmable Gate Array) que são a base da computação reconfigurável. VPNs utilizam criptografia para permitir que a comunicação seja privada entre as partes. Assim, todo o custo computacional decorrente desta prática é executado em nível de hardware, procurando-se atingir um alto desempenho e voltado para as aplicações de sistemas embutidos. O uso desta solução, VPN por hardware, será na interligação de um robô (em desenvolvimento no Laboratório de Computação Reconfigurável - LCR do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo) ao seu servidor de configuração e tarefas, através de linhas privadas. O emprego de uma VPN em robótica permitirá a utilização de um sistema de comunicação, com ou sem fio, e toda a infra-estrutura da Internet para a comunicação com o robô (e no futuro entre os robôs) a qualquer distância de forma segura e confiável. O hardware reconfigurável utilizado para a VPN deste trabalho proporciona flexibilidade no modo de implementação, possibilitando que o sistema seja adequado para satisfazer situações que exijam alto desempenho. Além disso, a arquitetura proposta possibilita que parte das operações sejam executadas em software (no caso, foi utilizado o sistema operacional ?Clinux e ferramentas para se estabelecer a VPN) e parte das operações executadas em hardware (um coprocessador criptográfico AES). As principais ferramentas de software são o conjunto ipsec-tools que foram desenvolvidas para serem executadas com o IPSec nativo do Kernel e devidamente portadas para o ?Clinux / This work designs a system that implements a VPN using FPGA (Field Programmable Gate Array) reprogrammable circuits, which are the basis of reconfigurable computing. VPNs use cryptography to allow private communication between parts. In this manner, the computational cost of the cryptography is handled by the hardware, achieving great performance and allowing its usage on embedded systems applications. The system proposed in this thesis has been used to establish secure communication between a PC and a mobile robot (that is in development at Reconfigurable Computing Laboratory - LCR of Institute of Mathematics and Computer Science of Univesity of São Paulo). The use of VPN in robotics will allow a communication, either wired or wireless, using Internet?s infrastructure with the robot (and in the future among robots), in a secure and trustable manner. The reconfigurable hardware used in this work allows flexibility in the implementation, making possible its usage in situations that requires high performance. Furthermore, the proposed architecture allows part of applications executing in software (using ?Clinux operating system and tools to establish the VPN) and other parts in hardware (a cryptographic coprocessor AES). The main software tools are the ipsec-tools that were developed to execute with native Kernel IPSec?s implementation and were properly ported to ?Clinux
|
Page generated in 0.0436 seconds