1491 |
Characterizing Retention behavior of DDR4 SoDIMMPalani, Purushothaman 05 June 2024 (has links)
Master of Science / We are in an ever-increasing demand for computing power to sustain our technological advancements. A significant driving factor of our progress is the size and speed of memory we possess. Modern computer architectures use DDR4-based DRAM (Dynamic Random Access Memory) to hold all the immediate information for processing needs. Each bit in a DRAM memory module is implemented with a tiny capacitor and a transistor. Since the capacitors are prone to charge leakage, each bit must be frequently rewritten with its old value. A dedicated memory controller handles the periodic refreshes. If the cells aren't refreshed, the bits lose their charge and lose the information stored by flipping to either 0 or 1 (depending upon the design). Due to manufacturing variations, every tiny capacitor fabricated will have different physical characteristics. Charge leakage depends upon capacitance and other such physical properties. Hence, no two DRAM modules can have the same properties and decay pattern and cannot be reproduced again accurately. This DRAM attribute can be considered a source of 'Physically Unclonable Functions' and is sought after in the Cryptography domain.
This thesis aims to characterize the decay patterns of commercial DDR4 DRAM modules.
I implemented a custom System On Chip on AMD/Xilinx's ZCU104 FPGA platform to interface different DDR4 modules with a primitive memory controller (without refreshes).
Additionally, I introduced electric and magnetic fields close to the DRAM module to investigate their effects on the decay characteristics.
|
1492 |
Fast Split Arithmetic Encoder Architectures and Perceptual Coding Methods for Enhanced JPEG2000 PerformanceVarma, Krishnaraj M. 11 April 2006 (has links)
JPEG2000 is a wavelet transform based image compression and coding standard. It provides superior rate-distortion performance when compared to the previous JPEG standard. In addition JPEG2000 provides four dimensions of scalability-distortion, resolution, spatial, and color. These superior features make JPEG2000 ideal for use in power and bandwidth limited mobile applications like urban search and rescue. Such applications require a fast, low power JPEG2000 encoder to be embedded on the mobile agent. This embedded encoder needs to also provide superior subjective quality to low bitrate images. This research addresses these two aspects of enhancing the performance of JPEG2000 encoders.
The JPEG2000 standard includes a perceptual weighting method based on the contrast sensitivity function (CSF). Recent literature shows that perceptual methods based on subband standard deviation are also effective in image compression. This research presents two new perceptual weighting methods that combine information from both the human contrast sensitivity function as well as the standard deviation within a subband or code-block. These two new sets of perceptual weights are compared to the JPEG2000 CSF weights. The results indicate that our new weights performed better than the JPEG2000 CSF weights for high frequency images. Weights based solely on subband standard deviation are shown to perform worse than JPEG2000 CSF weights for all images at all compression ratios.
Embedded block coding, EBCOT tier-1, is the most computationally intensive part of the JPEG2000 image coding standard. Past research on fast EBCOT tier-1 hardware implementations has concentrated on cycle efficient context formation. These pass-parallel architectures require that JPEG2000's three mode switches be turned on. While turning on the mode switches allows for arithmetic encoding from each coding pass to run independent of each other (and thus in parallel), it also disrupts the probability estimation engine of the arithmetic encoder, thus sacrificing coding efficiency for improved throughput. In this research a new fast EBCOT tier-1 design is presented: it is called the Split Arithmetic Encoder (SAE) process. The proposed process exploits concurrency to obtain improved throughput while preserving coding efficiency. The SAE process is evaluated using three methods: clock cycle estimation, multithreaded software implementation, a field programmable gate array (FPGA) hardware implementation. All three methods achieve throughput improvement; the hardware implementation exhibits the largest speedup, as expected.
A high speed, task-parallel, multithreaded, software architecture for EBCOT tier-1 based on the SAE process is proposed. SAE was implemented in software on two shared-memory architectures: a PC using hyperthreading and a multi-processor non-uniform memory access (NUMA) machine. The implementation adopts appropriate synchronization mechanisms that preserve the algorithm's causality constraints. Tests show that the new architecture is capable of improving throughput as much as 50% on the NUMA machine and as much as 19% on a PC with two virtual processing units. A high speed, multirate, FPGA implementation of the SAE process is also proposed. The mismatch between the rate of production of data by the context formation (CF) module and the rate of consumption of data by the arithmetic encoder (AE) module is studied in detail. Appropriate choices for FIFO sizes and FIFO write and read capabilities are made based on the statistics obtained from test runs of the algorithm. Using a fast CF module, this implementation was able to achieve as much as 120% improvement in throughput. / Ph. D.
|
1493 |
A Model-Based Approach to Reconfigurable ComputingTaylor, Daniel Kyle 06 January 2009 (has links)
Throughout the history of software development, advances have been made that improve the ability of developers to create systems by enabling them to work closer to their application domain. These advances have given programmers higher level abstractions with which to reason about problems. A separation of concerns between logic and implementation allows for reuse of components, portability between implementation platforms, and higher productivity.
Parallels can be drawn between the challenges that the field of reconfigurable computing (RC) is facing today and what the field of software engineering has gone through in the past. Most RC work is done in low level hardware description languages (HDLs) at the circuit level. A large productivity gap exists between the ability of RC developers and the potential of the technology. The small number of RC experts is not enough to meet the demands for RC applications.
Model-based engineering principles provide a way to reason about RC devices at a higher level, allowing for greater productivity, reuse, and portability. Higher level abstractions allow developers to deal with larger and more complex systems. A modeling environment has been developed to aid users in creating models, storing, reusing and generating hardware implementation code for their system. This environment serves as a starting point to apply model-based techniques to the field of RC to tighten the productivity gap. Future work can build on this model-based framework to take advantage of the unique features of reconfigurable devices, optimize their performance, and further open the field to a wider audience. / Master of Science
|
1494 |
A Hybrid DSP and FPGA System for Software Defined Radio ApplicationsPodosinov, Volodymyr Sergiyovich 01 June 2011 (has links)
Modern devices provide a multitude of services that use radio frequencies in continual smaller packages. This size leads to an antenna used to transmit and receive information being usually very inefficient and a lot of power is wasted just to be able to transmit a signal. To mitigate this problem a new antenna was introduced by Dr. Manteghi that is capable of working efficiently across a large band. The antenna achieves this large band by doing quick frequency hopping across multiple channels. In order to test the performance of this antenna against more common antennas, a software radio was needed, such that tested antennas can be analyzed using multiple modulations.
This paper presents a software defined radio system that was designed for the purpose of testing the bit-error rate of digital modulations schemes using described and other antennas. The designed system consists of a DSP, an FPGA, and commercially available modules. The combination allows the system to be flexible with high performance, while being affordable. Commercial modules are available for multiple frequency bands and capable of fast frequency switching required to test the antenna. The DSP board contains additional peripherals that allows for more complex projects in the future. The block structure of the system is also very educational as each stage of transmission and reception can be tested and observed.
The full system has been constructed and tested using simulated and real signals. A code was developed for communication between commercial modules and the DSP, bit error rate testing, data transmission, signal generation, and signal reception. A graphical user interface (GUI) was developed to help user with information display and system control. This thesis describes the software-defined-radio design in detail and shows test results at the end. / Master of Science
|
1495 |
Implementaciones de Funciones Elementales en Dispositivos FPGAGutiérrez Mazón, Roberto 12 September 2011 (has links)
En esta tesis doctoral se han diseñado arquitecturas hardware de algunos subsistemas digitales característicos de los sistemas de comunicaciones de elevadas prestaciones, buscando implementaciones optimizadas para dichos sistemas. El trabajo realizado se ha centrado en dos áreas: la aproximación de funciones elementales, concretamente el logaritmo y la arcotangente, y el diseño de un emulador de canal de ruido Gaussiano aditivo. Las arquitecturas se han diseñado en todo momento teniendo como objetivo lograr una implementación eficiente en dispositivos Field Programmable Gate Arrays (FPGAs), debido a su uso creciente en los sistemas de comunicaciones digitales de elevadas prestaciones. Para la aproximación del logaritmo hemos propuesto dos arquitecturas, una basada en la utilización de tablas multipartidas y la otra basada en el método de Mitchell sobre el que añadimos dos etapas de corrección: una interpolación lineal por rectas con pendientes potencias de dos y mantisa truncada, y una tabla para la
compensación del error cometido en la interpolación por rectas. Una primera arquitectura para la aproximación de la atan(y/x) está basada en el cómputo del recíproco de x y en el cálculo de la arcotangente, utilizando básicamente tablas Look-up (LUT) multipartidas. Esta propuesta ya permite reducir el consumo de potencia con respecto a las mejores técnicas recogidas en la bibliografía, como las basadas en CORDIC. Una segunda estrategia para la aproximación de la atan(y/x) está basada en transformaciones logarítmicas, que convierten el cálculo de la división de las dos entradas en una sencilla resta y que hacen necesario el cómputo de atan(2w). Esta segunda estrategia se ha materializado en dos arquitecturas, una primera en la que tanto el logaritmo como el cálculo de atan(2w) se han implementado con tablas multipartidas, combinado además con el uso de segmentación no-uniforme en el cálculo de atan(2w), y una segunda arquitectura que emplea interpolación lineal por tramos con pendientes potencias
de dos y tablas de corrección. / Gutiérrez Mazón, R. (2011). Implementaciones de Funciones Elementales en Dispositivos FPGA [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/11519
|
1496 |
Design and implementation of decoders for error correction in high-speed communication systemsCatalà Pérez, Joan Marc 01 September 2017 (has links)
This thesis is focused on the design and implementation of binary low-density parity-check (LDPC) code decoders for high-speed modern communication systems. The basic of LDPC codes and the performance and bottlenecks, in terms of complexity and hardware efficiency, of the main soft-decision and hard-decision decoding algorithms (such as Min-Sum, Optimized 2-bit Min-Sum and Reliability-based iterative Majority-Logic) are analyzed. The complexity and performance of those algorithms are improved to allow efficient hardware architectures.
A new decoding algorithm called One-Minimum Min-Sum is proposed. It reduces considerably the complexity of the check node update equations of the Min-Sum algorithm. The second minimum is estimated from the first minimum value by a means of a linear approximation that allows a dynamic adjustment. The Optimized 2-bit Min-Sum algorithm is modified to initialize it with the complete LLR values and to introduce the extrinsic information in the messages sent from the variable nodes. Its variable node equation is reformulated to reduce its complexity. Both algorithms were tested for the (2048,1723) RS-based LDPC code and (16129,15372) LDPC code using an FPGA-based hardware emulator. They exhibit BER performance very close to Min-Sum algorithm and do not introduce early error-floor.
In order to show the hardware advantages of the proposed algorithms, hardware decoders were implemented in a 90 nm CMOS process and FPGA devices based on two types of architectures: full-parallel and partial-parallel one with horizontal layered schedule. The results show that the decoders are more area-time efficient than other published decoders and that the low-complexity of the Modified Optimized 2-bit Min-Sum allows the implementation of 10 Gbps decoders in current FPGA devices.
Finally, a new hard-decision decoding algorithm, the Historical-Extrinsic Reliability-Based Iterative Decoder, is presented. This algorithm introduces the new idea of considering hard-decision votes as soft-decision to compute the extrinsic information of previous iterations. It is suitable for high-rate codes and improves the BER performance of the previous RBI-MLGD algorithms, with similar complexity. / Esta tesis se ha centrado en el diseño e implementación de decodificadores binarios basados en códigos de comprobación de paridad de baja densidad (LDPC) válidos para los sistemas de comunicación modernos de alta velocidad. Los conceptos básicos de códigos LDPC, sus prestaciones y cuellos de botella, en términos de complejidad y eficiencia hardware, fueron analizados para los principales algoritmos de decisión soft y decisión hard (como Min-Sum, Optimized 2-bit Min-Sum y Reliability-based iterative Majority-Logic). La complejidad y prestaciones de estos algoritmos se han mejorado para conseguir arquitecturas hardware eficientes.
Se ha propuesto un nuevo algoritmo de decodificación llamado One-Minimum Min-Sum. Éste reduce considerablemente la complejidad de las ecuaciones de actualización del nodo de comprobación del algoritmo Min-Sum. El segundo mínimo se ha estimado a partir del valor del primer mínimo por medio de una aproximación lineal, la cuál permite un ajuste dinámico. El algoritmo Optimized 2-bit Min-Sum se ha modificado para ser inicializado con los valores LLR e introducir la información extrínseca en los mensajes enviados desde los nodos variables. La ecuación del nodo variable de este algoritmo ha sido reformulada para reducir su complejidad. Ambos algoritmos fueron probados para el código (2048,1723) RS-based LDPC y para el código (16129,15372) LDPC utilizando un emulador hardware implementado en un dispositivo FPGA. Éstos han alcanzado unas prestaciones de BER muy cercanas a las del algoritmo Min-Sum evitando, además, la aparición temprana del fenómeno denominado suelo del error.
Con el objetivo de mostrar las ventajas hardware de los algoritmos propuestos, los decodificadores se implementaron en hardware utilizando tecnología CMOS de 90 nm y en dispositivos FPGA basados en dos tipos de arquitecturas: completamente paralela y parcialmente paralela utilizando el método de actualización por capas horizontales. Los resultados muestran que los decodificadores propuestos e implementados son más eficientes en área-tiempo que otros decodificadores publicados y que la baja complejidad del algoritmo Modified Optimized 2-bit Min-Sum permite la implementación de decodificadores en los dispositivos FPGA actuales consiguiendo una tasa de 10 Gbps.
Finalmente, se ha presentado un nuevo algoritmo de decodificación de decisión hard, el Historical-Extrinsic Reliability-Based Iterative Decoder. Este algoritmo introduce la nueva idea de considerar los votos de decisión hard como decisión soft para calcular la información extrínseca de iteracions anteriores. Este algoritmo es adecuado para códigos de alta velocidad y mejora el rendimiento BER de los algoritmos RBI-MLGD anteriores, con una complejidad similar. / Aquesta tesi s'ha centrat en el disseny i implementació de descodificadors binaris basats en codis de comprovació de paritat de baixa densitat (LDPC) vàlids per als sistemes de comunicació moderns d'alta velocitat. Els conceptes bàsics de codis LDPC, les seues prestacions i colls de botella, en termes de complexitat i eficiència hardware, van ser analitzats pels principals algoritmes de decisió soft i decisió hard (com el Min-Sum, Optimized 2-bit Min-Sum y Reliability-based iterative Majority-Logic). La complexitat i prestacions d'aquests algoritmes s'han millorat per aconseguir arquitectures hardware eficients.
S'ha proposat un nou algoritme de descodificació anomenat One-Minimum Min-Sum. Aquest redueix considerablement la complexitat de les equacions d'actualització del node de comprovació del algoritme Min-Sum. El segon mínim s'ha estimat a partir del valor del primer mínim per mitjà d'una aproximació lineal, la qual permet un ajust dinàmic. L'algoritme Optimized 2-bit Min-Sum s'ha modificat per ser inicialitzat amb els valors LLR i introduir la informació extrínseca en els missatges enviats des dels nodes variables. L'equació del node variable d'aquest algoritme ha sigut reformulada per reduir la seva complexitat. Tots dos algoritmes van ser provats per al codi (2048,1723) RS-based LDPC i per al codi (16129,15372) LDPC utilitzant un emulador hardware implementat en un dispositiu FPGA. Aquests han aconseguit unes prestacions BER molt properes a les del algoritme Min-Sum evitant, a més, l'aparició primerenca del fenomen denominat sòl de l'error.
Per tal de mostrar els avantatges hardware dels algoritmes proposats, els descodificadors es varen implementar en hardware utilitzan una tecnologia CMOS d'uns 90 nm i en dispositius FPGA basats en dos tipus d'arquitectures: completament paral·lela i parcialment paral·lela utilitzant el mètode d'actualització per capes horitzontals. Els resultats mostren que els descodificadors proposats i implementats són més eficients en àrea-temps que altres descodificadors publicats i que la baixa complexitat del algoritme Modified Optimized 2-bit Min-Sum permet la implementació de decodificadors en els dispositius FPGA actuals obtenint una taxa de 10 Gbps.
Finalment, s'ha presentat un nou algoritme de descodificació de decisió hard, el Historical-Extrinsic Reliability-Based Iterative Decoder. Aquest algoritme presenta la nova idea de considerar els vots de decisió hard com decisió soft per calcular la informació extrínseca d'iteracions anteriors. Aquest algoritme és adequat per als codis d'alta taxa i millora el rendiment BER dels algoritmes RBI-MLGD anteriors, amb una complexitat similar. / Català Pérez, JM. (2017). Design and implementation of decoders for error correction in high-speed communication systems [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86152
|
1497 |
Algoritmos y arquitecturas hardware para la implementación de OFDM en sistemas de comunicaciones ópticosBruno, Julián Santiago 02 May 2019 (has links)
[ES] Esta tesis explora en profundidad la viabilidad técnica y las prestaciones de un sistema de transmisión para comunicaciones ópticas, de bajo coste y alta velocidad, basado en la multiplexación por división de frecuencia ortogonal (OFDM) mediante la implementación de los algoritmos de procesamiento digital de la señal en tiempo real sobre dispositivos de lógica programable (FPGA). Los sistemas de transmisión de modulación de intensidad y detección directa (IM/DD) parecen ser la solución más interesante para las redes ópticas pasivas (PONs) de bajo coste que serán necesarias para responder a la gran demanda de tráfico de los próximos años, producto del aumento significativo de dispositivos conectados a internet, servicios y programas en la nube, vídeo de alta definición, entre otros.
Por tanto, esta tesis tiene como objetivo principal obtener la máxima tasa binaria y eficiencia espectral posible de un sistema IM/DD OFDM en PON (de una sola banda y una sola longitud de onda). Con esta finalidad se ha desarrollado la arquitectura hardware de un receptor OFDM de alta velocidad que opera en tiempo real en un dispositivo FPGA Virtex-7 a una frecuencia de reloj de 312,5 MHz utilizando un conversor analógico digital con una tasa de muestreo de 5 GS/s. Para lograr las mejores prestaciones posibles, se ha intentado aprovechar al máximo el ancho de banda del sistema (acercándose al límite de Nyquist) y se ha realizado una carga variable de las subportadoras del símbolo OFDM atendiendo a las características del canal electro-óptico. Además, se han diseñado e implementado los algoritmos de procesamiento necesarios para la detección y demodulación de los símbolos OFDM, y se ha desarrollado una plataforma experimental que ha permitido validarlos en tiempo real a través de un enlace de fibra monomodo estándar (SSMF). El principal resultado de esta tesis es el haber demostrado experimentalmente que con el sistema propuesto se puede alcanzar una tasa binaria de 19,63 Gb/s y una eficiencia espectral de 8,07 bit/s/Hz sobre 20 km de SSMF, lo cual implica casi duplicar las mejores prestaciones publicadas hasta la fecha.
Para completar el diseño del receptor, se ha desarrollado un algoritmo de sincronización de tiempo basado en la correlación cruzada entre un preámbulo conocido y la señal OFDM recibida, el cual presenta una tasa de error extremadamente baja, aun en condiciones de muy baja SNR, y su diseño optimizado requiere menos recursos que otros sincronizadores publicados hasta la fecha. También se ha desarrollado un procesador de FFT de longitud variable mediante una arquitectura paralela segmentada que permite alcanzar hasta una tasa de 10 GS/s en dispositivos Virtex-7 con una eficiencia (área/velocidad) superior a la de otros trabajos publicados, y un ecualizador de canal basado en una técnica de estimación y compensación en frecuencia, que utiliza un preámbulo característico para poder disminuir la complejidad hardware y aumentar la precisión de la estimación. Todos los algoritmos implementados en esta tesis doctoral han sido diseñados para procesar 16 muestras en paralelo, y así poder reducir la frecuencia de reloj (5 GHz/16) hasta valores aceptables para los dispositivos FPGA. / [CA] Aquesta tesi explora en profunditat la viabilitat tècnica i les prestacions d'un sistema de transmissió per a comunicacions òptiques, de baix cost i alta velocitat, basat en la multiplexació per divisió en freqüència ortogonal (OFDM)
mitjançant la implementació d'algorismes de processat digital del senyal en temps real sobre dispositius de lògica programable (FPGA). Els sistemes de transmissió de modulació d'intensitat i detecció directa (IM/DD) semblen ser
la solució més interesant per a les xarxes òptiques passives (PON) de baix cost que seran necessàries per respondre a la gran demanda de tràfic dels propers anys, producte de l'augment significatiu de dispositius connectats a Internet, serveis i programari al núvol, vídeo d'alta definició, entre d'altres.
Per tant, aquesta tesi té com objectiu principal obtenir la màxima taxa binaria i eficiència espectral possible d'un sistema IM/DD OFDM en PON (amb una sola banda i una sola longitud d'ona). Amb aquesta finalitat s'ha desenvolupat l'arquitectura hardware d'un receptor OFDM d'alta velocitat que treballa en temps real a un dispositiu FPGA Virtex-7 amb una freqüència de rellotge de 312,5 MHz utilitzant un convertidor analògic a digital amb una taxa de mostreig de 5 GS/s. Per aconseguir les millors prestacions possibles, s'ha intentat aprofitar al màxim l'ample de banda del sistema (aproximant-se al límit de Nyquist) i s'ha realitzat una càrrega variable de les subportadores del símbol OFDM atenent a les característiques del canal electró-òptic. A més, s'han dissenyat e implementat els algorismes de processament necessaris per la detecció i desmodulació dels símbols OFDM, i s'ha desenvolupat una plataforma experimental que ha permès validar-los en temps real a través d'un enllaç de fibra monomode estàndard (SSMF). El principal resultat d'aquesta tesi és haver demostrat experimentalment que amb el sistema proposat es pot arribar a una taxa binaria de 19,63 Gb/s amb una eficiència espectral de 8,07 bits/s/Hz sobre 20 km de SSMF, la qual cosa implica quasi duplicar les millors prestacions publicades fins aquest moment.
Per completar el disseny del receptor, s'ha desenvolupat un algorisme de sincronització de temps basat en la correlació creuada entre un preàmbul conegut i el senyal OFDM rebut, el qual presenta una taxa d'error extremadament baixa, inclòs en condicions de molt baixa SNR, i el seu disseny optimitzat requereix menys recursos que altres sincronitzadors publicats fins el moment. També s'ha desenvolupat un processador de FFT de longitud variable mitjançant una arquitectura paral·lela segmentada que permet arribar fins una taxa de 10 GS/s en dispositius Virtex-7 amb una eficiència (àrea/velocitat) superior a la d'altres treballs publicats, i un equalitzador de canal basat en una tècnica d'estimació i compensació en freqüència, que utilitza un preàmbul característic per poder disminuir la complexitat hardware i augmentar la precisió de l'estimació. Tots els algorismes implementats a aquesta tesi doctoral han sigut dissenyats per processar 16 mostres en paral·lel, i així poder reduir la freqüència de rellotge (5 GHz/16) fins valors acceptables pels dispositius FPGA. / [EN] This thesis presents an in-depth exploration of the technical feasibility and achievable performance of a low-cost and high-speed optical communication system based on orthogonal frequency division multiplexing (OFDM) through the implementation of real-time digital signal processing algorithms over programmable logic devices (FPGA). Optical transmission systems based on intensity modulation and direct detection (IM/DD) is considered as one of the most interesting solutions for the deployment of the low-cost passive optical networks (PONs) that will be needed to cover the high traffic demand in the coming years. This demand is fueled, among others, by the significant increase of connected devices to the Internet, services and programs in the cloud, high definition video, etc.
The main objective of this thesis is to achieve the maximum bitrate and spectral efficiency of an IM/DD PON OFDM system (using a single band and a single wavelength). To this end, the hardware architecture of a high-speed real-time OFDM receiver, including all the necessary algorithms to perform the detection and demodulation of the OFDM symbols, has been implemented in a Virtex-7 FPGA device at a clock frequency of 312.5 MHz using a digital analog converter with a sampling rate of 5 GS/s. To reach the best possible performance, all the system bandwidth has been employed and the OFDM subcarriers have been loaded according to the characteristics of the electro-optical channel. An experimental platform for optical transmission through standard single-mode fiber (SSMF) has been developed to evaluate in real-time the performance of the implemented receiver. The main result of this thesis is the experimental validation of the proposed system that has achieved a bit rate of 19.63 GS/s and a spectral efficiency of 8.07 bit/s/Hz over 20 km SSMF. These results almost double the best performance published to date.
The receiver implementation included the design and development of several algorithms. First, it was designed a time synchronization algorithm (TSA) based on the cross-correlation between a known preamble and the received OFDM signal. This TSA has a good performance in low-SNR scenarios and its optimized design requires fewer resources than other synchronizers published in the literature. Second, a variable length parallel pipelined FFT processor has been implemented in a Virtex-7 device, it reaches a throughput of 10 GS/s with an efficiency (area/speed) higher than that of other published works. And finally, a channel equalizer working in the frequency domain to estimate and compensate channel distortions, which uses a known preamble to decrease the hardware complexity and increase the accuracy of the estimation, has been implemented. All the algorithms in this thesis have been developed to process 16 samples in parallel, thus reducing the required clock frequency (5 GHz/16) to acceptable values for the FPGA devices. / Deseo expresar mi gratitud a las autoridades de la Facultad Regional Buenos Aires de la Universidad Tecnológica Nacional por el apoyo económico y personal recibido durante la realización de esta tesis. / Bruno, JS. (2019). Algoritmos y arquitecturas hardware para la implementación de OFDM en sistemas de comunicaciones ópticos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/119988
|
1498 |
A Design Assembly Technique for FPGA Back-End AccelerationFrangieh, Tannous 19 October 2012 (has links)
Long wait times constitute a bottleneck limiting the number of compilation runs performed in a day, thus risking to restrict Field-Programmable Gate Array (FPGA) adaptation in modern computing platforms. This work presents an FPGA development paradigm that exploits logic variance and hierarchy as a means to increase FPGA productivity. The practical tasks of logic partitioning, placement and routing are examined and a resulting assembly framework, Quick Flow (qFlow), is implemented. Experiments show up to 10x speed-ups using the proposed paradigm compared to vendor tool flows. / Ph. D.
|
1499 |
A Modular Flow for Rapid FPGA Design ImplementationLove, Andrew R. 10 March 2015 (has links)
This dissertation proposes an alternative FPGA design compilation flow to reduce the back-end time required to implement an FPGA design to below the level at which the user's attention is lost. To do so, this flow focuses on enforcing modular design for both productivity and code reuse, while minimizing reliance on standard tools. This can be achieved by using a library of precompiled modules and associated meta-data to enable bitstream-level assembly of desired designs. In so doing, assembly would occur in a fraction of the time of traditional back-end tools. Modules could be bound, placed, and routed using custom bitstream assembly with the primary objective of rapid compilation while preserving performance. This turbo flow (TFlow) aims to enable software-like turn-around time for faster prototyping by leveraging precompiled components. As a result, large device compilations would be assembled in seconds, within the deadline imposed by the human attention span. / Ph. D.
|
1500 |
A SINDy Hardware Accelerator For Efficient System Identification On Edge DevicesGallagher, Michael Sean 01 March 2024 (has links) (PDF)
The SINDy (Sparse Identification of Non-linear Dynamics) algorithm is a method of turning a set of data representing non-linear dynamics into a much smaller set of equations comprised of non-linear functions summed together. This provides a human readable system model the represents the dynamic system analyzed. The SINDy algorithm is important for a variety of applications, including high precision industrial and robotic applications. A Hardware Accelerator was designed to decrease the time spent doing calculations. This thesis proposes an efficient hardware accelerator approach for a broad range of applications that use SINDy and similar system identification algorithms. The accelerator is leverages both systolic arrays for integrated neural network models with other numerical solvers. The novel and efficient reuse of similar processing elements allows this approach to only use a minimal footprint, so that it could be added to microcontroller devices or implemented on lower cost FPGA devices. Our proposed approach also allows the designer to offload calculations onto edge devices from controller nodes and requires less communication from those edge devices to the controller due to the reduced equation space.
|
Page generated in 0.0207 seconds