121 |
Electronic Design Optimization of Vibration Monitor InstrumentLindh, Fredrik, Wennerström, Jessica, Otnes, Thomas January 2012 (has links)
Vibrations in machines increase friction on moving parts which cause chafing that will tear down the fabric of the machine components when given time, thus monitoring and analysis of machine vibrations are important for preventive maintenance. Vibration analysis utilizes time domain as well as frequency domain analysis for which there have been analog solutions for quite some time. This work has been about moving a predominantly analog mixed signal system onto an FPGA and making it mostly digital. Vibration analysis on an FPGA have its own challenges and benefits compared to other methods. The inherent parallelism of the FPGA makes it suitable for high performance signal analysis. This report shows through two proof-of-concept solutions that the translation of a predominantly analog system is viable, economic and can deliver improved performance. The two solutions have utilized two different units from Xilinx, the Spartan-6 FPGA and the Zynq-7000 system on chip FPGA. The solution implemented on Spartan-6 produces a result in 9.32 ms and the other implementation based on Zynq-7000 produces a result in 9.39 ms, which is more than a 10-fold increase in performance of the current system. The results obtained show that both solutions can perform the calculations for the proof of concept within 20% of the allotted time. Costs of both solutions as well as other qualities of each solution are presented in this paper.
|
122 |
Header Parsing Logic in Network Switches Using Fine and Coarse-Grained Dynamic Reconfiguration StrategiesSonek, Alexander 29 April 2014 (has links)
Current ASIC only designs which interface with a general purpose processor are fairly restricted as far as their ability to be upgraded after fabrication. The primary intent of the research
documented in this thesis is to determine if the inclusion of FPGAs in existing ASIC designs can be considered as an option for alleviating this constraint by analyzing the performance of
such a framework as a replacement for the parsing logic in a typical network switch.
This thesis also covers an ancilliary goal of the research which is to compare the various methods used to reconfigure modern FPGAs, including the use of self initiated dynamic partial
reconfiguration, in regards to the degree in which they interrupt the operation of the device in which an FPGA is embedded. This portion of the research is also conducted in the context of a
network switch and focuses on the ability of the network switch to reconfigure itself dynamically when presented with a new type of network traffic.
|
123 |
Selection, Analysis and Implementationof Image-based Feature Extraction Approaches for a Heterogenous, Modular and FPGA-based Architecture for Camera-based Driver Assistance SystemsMühlfellner, Peter January 2011 (has links)
We propose a scalable and fexible hardware architecture for the extraction of image features, used in conjunction with an attentional cascade classifier for appearance-based object detection. Individual feature processors calculate feature-values in parallel, using parameter-sets and image data that is distributed via BRAM buffers. This approach can provide high utilization- and throughput-rates for a cascade classifier. Unlike previous hardware implementations, we are able to flexibly assign feature processors to either work on a single- or multiple image windows in parallel, depending on the complexity of the current cascade stage. The core of the architecture was implemented in the form of a streaming based FPGA design, and validated in simulation, synthesis, as well as via the use of a Logic Analyser for the verification of the on-chip functionality. For the given implementation, we focused on the design of Haar-like feature processors, but feature processors for a variety of heterogenous feature types, such as Gabor-like features, can also be accomodated by the proposed hardware architecture.
|
124 |
H.264 CODEC Blocks Implementation on FPGAASLAM, UMAIR January 2014 (has links)
H.264/AVC (Advance Video Coding) standard developed by ITU-T Video Coding Experts Group(VCEG) and ISO/IEC JTC1 Moving Picture Experts Group (MPEG), is one of the most powerful andcommonly used format for video compression. It is mostly used in internet streaming sources i.e.from media servers to end users. This Master thesis aims at designing a CODEC targeting the Baseline profile on FPGA.Uncompressed raw data is fed into the encoder in units of macroblocks of 16×16 pixels. At thedecoder side the compressed bit stream is taken and the original frame is restored. Emphasis isput on the implementation of CODEC at RTL level and investigate the effect of certain parameterssuch as Quantisation Parameter (QP) on overall compression of the frame rather than investigatingmultiple solutions of a specified block of CODEC.
|
125 |
Parameterization of Pulses from a Particle Detector Using a FlashADCHuang, Yunyi January 2014 (has links)
With the deep exploration of particle physics, particle accelerators, detection methods, data recording and processing, and application of computing technology are continuously developing. It has not only brought progress in particle physics, but also promoted the development of the Science and Technology. The main focus of this thesis is data recording and processing. It provides a calibration method for pulses processed by ADCs. It uses some existing filters to achieve the accurate parameters of pulses and existing concept to do the comparison among filters. The FPGA implementation scheme is also discussed in the paper.
|
126 |
Implementação de um filtro de Kalman estendido em arquiteturas reconfiguráveis aplicado ao problema de localização de robôs móveisCruz, Sérgio Messias 05 April 2013 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, 2013. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2013-08-14T12:57:54Z
No. of bitstreams: 1
2013_SergioMessiasCruz.pdf: 7213334 bytes, checksum: 9b766d528b04c26ebdfe9d72d6924318 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-08-14T13:31:25Z (GMT) No. of bitstreams: 1
2013_SergioMessiasCruz.pdf: 7213334 bytes, checksum: 9b766d528b04c26ebdfe9d72d6924318 (MD5) / Made available in DSpace on 2013-08-14T13:31:25Z (GMT). No. of bitstreams: 1
2013_SergioMessiasCruz.pdf: 7213334 bytes, checksum: 9b766d528b04c26ebdfe9d72d6924318 (MD5) / Este trabalho descreve uma arquitetura de hardware para a implementação de uma versão sequencial do Filtro de Kalman Estendido (EKF, do inglês Extended Kalman Filter). Devido ao fato de que o EKF é computacionalmente intensivo, comumente ele é implementado em plataformas baseadas em PC (do inglês Personal Computer) para ser empregado em robótica móvel. Para permitir o desenvolvimento de plataformas robóticas pequenas (por exemplo, aquelas re-
quisitadas em robótica móvel) condições especí cas tais como tamanho pequeno, consumo baixo de potência e capacidade de aritmética em ponto utuante são exigidos, assim como projetos de arquiteturas de hardware especí cas e adequadas. Desta maneira, a arquitetura proposta foi projetada para tarefas de auto-localização, usando operadores de aritmética de ponto utuante
(em precisão simples), permitindo a fusão de dados provenientes de diferentes sensores tais como ultrassom e ladar. O sistema foi adaptado para ser aplicado em uma plataforma recon gurável, apropriada para tarefas de pesquisa, e a mesma foi testada em uma plataforma robótica Pioneer 3AT (da Mobile Robots Inc.) a m de avaliar sua funcionalidade, usando seu sistema de sen-
soriamento. Para comparar o desempenho do sistema, o mesmo foi implementado em um PC,
assim como pela utilização de um microprocessador embarcado na FPGA (o Nios II, da Altera). Neste trabalho, várias métricas foram utilizadas a m de avaliar o desempenho e a aplicabilidade do sistema, medindo o consumo de recursos na FPGA e seu desempenho. Devido ao fato de que
este trabalho só está implementando a fase de atualização do EKF, o sistema geral foi testado assumindo que o robô está parado em uma posição previamente conhecida. ______________________________________________________________________________ ABSTRACT / This work describes a hardware architecture for implementing a sequential approach of the Extended Kalman Filter (EKF) that is suitable for mobile robotics tasks, such as self-localization, mapping, and navigation problems, especially when FPGAs (Field Programmable Gate Arrays) are used to execute this algorithm. Given that EKF is computationally intensive, commonly
it is implemented in PC-based platforms to be employed on mobile robots. In order to allow
the development of small robotic platforms (for instance those required in microrobotics area) speci c requirements such as small size, low-power, and oating-point arithmetic capability are demanded, as well as the design of speci c and suitable hardware architectures. Therefore, the
proposed architecture has been achieved for self-localization task, using oating-point arithmetic operators (in simple precision), allowing the fusion of data coming from di erent sensors such as ultrasonic and laser range nder. The system has been adapted for achieving a recon gurable platform, suitable for research tasks, and the same has been tested in a Pioneer 3AT mobile robot
platform (from Mobile Robots Inc.) for evaluating its functionality by using its local sensing system. In order to compare the performance of the system, the same localization technique has been implemented in a PC, as well as using an FPGA-embedded microprocessor (the Nios II from Altera Inc.) In this work several metrics have been used in order to evaluate the system performance and suitability, measuring both the FPGA resources consumption and performance.
Given that in this work only the update phase of the EKF has been implemented the overall
system has been tested assuming that the robot is stopped in a previously well-known position. ______________________________________________________________________________ RESUMEN / Este trabajo describe una arquitectura de hardware para la implementación de una versión secuencial del ltro de Kalman extendido (EKF del ingles Extended Kalman Filter). Debido al hecho de que el EKF es computacionalmente intensivo, típicamente es implementado en plataformas basadas en PC's (del ingles Personal Computer) para ser utilizado en robótica móvil. Para per-
mitir el desarrollo de pequeñas plataformas robóticas(como las requeridas en robótica móvil) son exigidos condiciones especi cas como su pequeño tamaño, bajo consumo de potencia y capacidad de aritmética en punto otante, así como arquitecturas de hardware especi cas y adecuadas. De esta manera la arquitectura propuesta fue proyectada para tareas de auto-localización, usando
operadores de aritmética de punto otante (en precisión simple), permitiendo la fusión de datos provenientes de diferentes sensores tales como ultrasonido y ladar. El sistema fue adaptado para aplicarlo en una plataforma recon gurable, apropiada para investigación, y la misma fue probada en una plataforma robótica denominada Pioneer 3AT (de la compañía Mobile Robots Inc.) utilizando el sistema de sensoramiento de este, con el propósito de validar su funcionalidad. Para
comparar el desempeño del sistema, este fue implementado en un PC, así como en un microprocesador embarcado en una FPGA (Nios II, de Altera). En este trabajo, varias métricas fueron utilizadas con el propósito de validar el desempeño y la aplicabilidad del sistema, midiendo el consumo de recursos en la FPGA y su desempeño. Debido al hecho de que en el trabajo solo esta implementado la fase de actualizacion del EKF el sistema general fue probado asumiendo que el robot esta parado en una posición previamente conocida.
|
127 |
Particionamento e escalonamento de matrizes densas para processamento em hardware reconfigurávelde Oliveira Lima, Derci 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:55:53Z (GMT). No. of bitstreams: 2
arquivo2330_1.pdf: 3127189 bytes, checksum: 01d7c49fae931bcb459bfda7372af32e (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A solução de problemas complexos em várias áreas do conhecimento humano, tais como: análise de investimento no setor bancário, análise e visualização de imagens médicas em tempo real, indústria de óleo e gás, etc. que utilizam muitas vezes algoritmos complexos e/ou uma grande massa de dados, têm requerido cada vez mais sistemas computacionais de alto desempenho para seu processamento.
Estes aplicativos, em sua maioria, devido a sua grande massa de dados, grandes laços de processamento em seus procedimentos, podem consumir dias ou até meses de trabalho, em computadores de processamento seqüencial, para apresentar o resultado final. Existem casos em que este tempo excessivo pode inviabilizar um projeto em questão, por perder o time to market de um produto.
Diferentes tecnologias e estruturas de dados têm sido sugeridas para lidar com tais problemas, visando uma melhor customização, tentando retirar o melhor da arquitetura e do sistema, seja em termos de software como de hardware. Dentre estas arquiteturas hw/sw, optamos neste trabalho ao estudo de uma solução baseada em FPGAs (Field Programmable Gate Arrays) como um co-processador. O uso deste dispositivo permite uma nova abordagem do problema. Agora, um determinado aplicativo poderia ser particionado em duas partes: a primeira, aquela com características de controle, processo seqüencial, continuaria sendo executado no host com processadores genéricos, enquanto que a parte com os grandes laços de processamento seriam processados, com maior desempenho por explorar o paralelismo, nos co-processadores com FPGAs.
Porém, a movimentação dos dados entre a memória principal do host e a memória externa do FPGA é considerada um grande gargalo para o processamento em hardware. Vários autores em seus trabalhos demonstram o desempenho alcançado com o uso de processamento em hardware, mas consideram que os dados já estão na memória externa do FPGA. Poucos comentam sobre a perda de desempenho quando se considera a movimentação de dados.
Neste trabalho foram estudadas técnicas de particionamento de grandes matrizes densas, reuso de dados e as estratégias que melhor se adéquam para algumas arquiteturas estudadas neste trabalho. As latências desta movimentação de dados entre o host e o co-processador em FPGA foram o foco deste trabalho também. Concluímos com um estudo de caso onde propomos uma estratégia para particionamento e multiplicação de matrizes por blocos no FPGA virtex 5 (XC5VLX50T -1 FF1136), montado em uma placa (ML 555 Board) da Xilinx
|
128 |
Aceleração da consulta a um grande banco de DNA forense: uma abordagem multiplataformaFERREIRA, Antonyus Pyetro do Amaral 16 June 2016 (has links)
Submitted by Alice Araujo (alice.caraujo@ufpe.br) on 2018-05-02T22:57:02Z
No. of bitstreams: 1
TESE Antonyus Pyetro do Amaral Ferreira.pdf: 4460667 bytes, checksum: 221231feaf54c8b316330bd4925f36e7 (MD5) / Made available in DSpace on 2018-05-02T22:57:02Z (GMT). No. of bitstreams: 1
TESE Antonyus Pyetro do Amaral Ferreira.pdf: 4460667 bytes, checksum: 221231feaf54c8b316330bd4925f36e7 (MD5)
Previous issue date: 2016-06-16 / CNPQ / A comparação de cadeias de DNA é um problema clássico em biologia molecular. Uma aplicação forense dessas comparações é usada no problema de identificação pessoal. Por exemplo, nos EUA, o sistema CODIS dispõe, hoje em dia, de 14,5 milhões de perfis de DNA armazenados em seu banco de dados. Visando acelerar essa recorrente tarefa da consulta em banco de dados similares ao CODIS, este trabalho apresenta implementações em software e em hardware digital do algoritmo de Needleman-Wunsch, que representa uma técnica global ótima para se medir a similaridade entre cadeias de DNA. Implementações em Multi-Threads, SIMD (Single Instruction Multiple Data) e OpenCL são investigadas para a plataforma dos GPPs (General Purpose Processors). A infraestrutura de OpenCL também foi usada para analisar o desempenho das GPUs (Graphics Processing Units) para essa tarefa. Adicionalmente, uma arquitetura de hardware digital customizada explorou o paralelismo dos FPGAs (Field Programmable Gate Arrays), buscando-se otimizar o uso dos recursos de hardware e a banda de memória. Os experimentos foram conduzidos usando um banco de DNA sintético com 8 milhões de indivíduos, em que cada um deles é representado por 15 sequências do tamanho de 240 nucleotídeos. Nesse caso de uso, a implementação em um único FPGA Stratix IV, rodando a 280MHz atingiu o maior speed-up de 1885x, em comparação com a implementação canônica em software. Como resultados secundários, as versões em OpenCL (GPU e GPP) e a versão SIMD obtiveram menores tempos de execução comparados com os softwares SWIPE e FASTA que são amplamente utilizados na área. / The comparison of DNA sequences is a classic problem in molecular biology. A forensic application of this comparison is used in the personal identification problem. For instance, in the USA, the CODIS system has today 14.5 million DNA profiles stored on its database. In order to accelerate the recurrent task to query into similar databases, this work presents implementations in software and hardware of the Needleman-Wunsch algorithm, that represents an optimal global technique for measuring similarity between DNA sequences. Multi-threaded, SIMD (Single Instruction Multiple Data), and OpenCL implementations were investigated in a GPP (General Purpose Processor) platform. The OpenCL infrastructure was also used to analyze the performance of GPUs (Graphics Processing Units) for this task. Additionally, a customized digital hardware architecture explored the parallelism of the FPGAs (Field Programmable Gate Arrays), optimizing the use of hardware resources and memory bandwidth. The experiments were conducted using a synthetic DNA database with 8 million individuals, in which, each of them are represented as 15 sequences with length of 240 nucleotides. In this case study the implementation in a single Stratix IV FPGA, running at 280MHz achieved the highest speed-up of 1885x, in comparison with the canonic software implementation. As collateral results, the OpenCL (GPU and CPU) and SIMD versions outperformed consolidated software implementations like SWIPE and FASTA.
|
129 |
Proposta de uma implementação otimizada do algoritmo RTM.3D em OPEN.CL para plataformas baseadas em FPGAsPONA, Igor Rafael de Oliveira 08 September 2016 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-03T18:12:26Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Igor Rafael de Oliveira Pona.pdf: 3747265 bytes, checksum: 884fc3c608ac7d133d803b0d0e83080f (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-09T17:44:51Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Igor Rafael de Oliveira Pona.pdf: 3747265 bytes, checksum: 884fc3c608ac7d133d803b0d0e83080f (MD5) / Made available in DSpace on 2018-08-09T17:44:51Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Igor Rafael de Oliveira Pona.pdf: 3747265 bytes, checksum: 884fc3c608ac7d133d803b0d0e83080f (MD5)
Previous issue date: 2016-09-08 / A demanda por sistemas de alto desempenho cresce junto ao desenvolvimento científico e econômico e dentro das mais diversas áreas, passando por modelagens científicas, inteligência artificial, criptografia, computação em nuvem, etc. A prospecção de petróleo e gás natural faz parte desses sistemas, exigindo o processamento de dados com um volume acima dos Terabytes e ao custo de semanas ou meses de execução, no intuito de procurar bolsões no subsolo; além de sua importância estratégica devido ao pré-sal. Essa procura faz uso da equação acústica de propagação de onda, e apresenta como uma de suas soluções o método de diferenças finitas (MDF) pelo algoritmo de RTM (Reverse Time Migration). Essa solução demanda uma grande quantidade de operações em ponto flutuante, exigindo hardwares com arquiteturas dedicados a essa finalidade como FPGAs e GPGPUs. Neste trabalho fazemos uma análise sobre essas arquiteturas para o algoritmo RTM em OpenCL na sua versão 3D, assim como as possíveis otimizações ao se aproveitar da portabilidade do código em OpenCL de GPGPUs para FPGAs. Avaliamos os recursos utilizados em sínteses feitas pelo SDK OpenCL da Altera para o FPGA Stratix V A7, para em um segundo momento, desenvolver um código que tenta otimizar o uso desses recursos que estão disponíveis no FPGA. E por fim, analisamos os resultados obtidos frente a outras arquiteturas. / The high-performance computing systems increase with scientific and economic development through several fields like scientific modeling, artificial intelligence, cryptography, cloud computing, etc. The oil and natural gas extraction is among of these systems, requiring data processing with sizes greater than Terabytes and with the cost of weeks or months of execution time, in order to look for underground reservoir; as well as its strategic importance due to the pre-salt. The oil extraction makes use of acoustic wave equation, and has the finite difference method (FDM) as one of your solutions through the algorithm of RTM (Reverse Time Migration). This solution requires a lot of floating point operations and a hardware with dedicated architecture as FPGAs and GPGPUs. This work we analyze these architectures to implement the RTM 3D algorithm with OpenCL, as well as the possibly of take advantage of code portability of OpenCL for FPGAs GPGPUs. We evaluate the resources used in syntheses made by the OpenCL SDK Altera Stratix V A7 FPGA, and in a second moment, to develop a code that attempts to optimize the use of these resources that are available in the FPGA. Finally, we analyze the results against other architectures.
|
130 |
Projeto de uma arquitetura baseada num processador RISC-V para desenvolvimento de aplicações em software-defined radioMELO, Cecil Accetti Resende de Ataíde 26 August 2016 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-22T19:41:45Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Cecil Accetti Resende de Ataíde Melo.pdf: 2769633 bytes, checksum: f491d3b88b08cb65e70c14b653034fdf (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-29T21:40:28Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Cecil Accetti Resende de Ataíde Melo.pdf: 2769633 bytes, checksum: f491d3b88b08cb65e70c14b653034fdf (MD5) / Made available in DSpace on 2018-08-29T21:40:28Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
DISSERTAÇÃO Cecil Accetti Resende de Ataíde Melo.pdf: 2769633 bytes, checksum: f491d3b88b08cb65e70c14b653034fdf (MD5)
Previous issue date: 2016-08-26 / CNPq / Os sistemas de software-defined radio práticos normalmente se dividem em duas classes: arquiteturas reconfiguráveis em FPGA que implementam os algoritmos de processamento de digital de sinais, com granularidade alta e, as arquiteturas baseadas em processador. Um dos problemas no projeto de arquiteturas de processamento digital de sinais baseadas em processador é o do suporte a compiladores e linguagens de alto nível. Arquiteturas muito especializadas, com conjuntos de instruções extensos e muitos modos de endereçamento, dificultam a implementação de compiladores para linguagens de alto nível. Neste trabalho buscou-se explorar a viabilidade de um conjunto de instruções emergente, RISC-V, e uma extensão do seu conjunto de instruções para a aplicação em processamento digital de sinais de banda base, sobretudo nas funcionalidades de modem, em aplicações de software-defined radio. A análise das operações de um modem, para as modulações digitais mais utilizadas, revela que as operações feitas para modulação/ demodulação envolvem números complexos. No entanto, aritmética de complexos não é normalmente suportada pelo hardware em arquiteturas tradicionais. Além da arquitetura proposta para o processador, com suporte a novas instruções especializadas, os periféricos necessários para o front-end de rádio frequência e o software de suporte foram implementados, resultando num SoC para software defined radio. / Practical software-defined radio systems are usually classified in two main architecture classes: Reconfigurable architectures on FPGAs, that implement coarse grained digital signal processing algorithms, or processor-based architectures. One of the issues in the design of processor-based digital signal processing architectures is compiler and high-level languages support. Highly specialized architectures, with extensive instruction sets (ISA) and addressing modes turn high-level languages compiler design a complex task. In this work we explore the viability to extend the emerging RISC-V instruction set for baseband processing applications for software-defined radio, especially for modem applications. The analysis of modem functions, for the most used digital modulation schemes, reveals that the modulation/demodulation tasks involve complex number operations. Complex number arithmetic, however, is not supported on traditional architectures. The proposed platform includes a 3-stage pipelined processor with new specialized instructions, as well as the peripherals needed to the radio-frequency front-end and supporting software, resulting on a system-on-a-chip for software-defined radio applications. software-defined radio.
|
Page generated in 0.0298 seconds