Global ETD Search

221	Reconfigurable Computing For Video Coding Huang, Jian 01 January 2010 (has links) Video coding is widely used in our daily life. Due to its high computational complexity, hardware implementation is usually preferred. In this research, we investigate both ASIC hardware design approach and reconfigurable hardware design approach for video coding applications. First, we present a unified architecture that can perform Discrete Cosine Transform (DCT), Inverse Discrete Cosine Transform (IDCT), DCT domain motion estimation and compensation (DCT-ME/MC). Our proposed architecture is a Wavefront Array-based Processor with a highly modular structure consisting of 8*8 Processing Elements (PEs). By utilizing statistical properties and arithmetic operations, it can be used as a high performance hardware accelerator for video transcoding applications. We show how different core algorithms can be mapped onto the same hardware fabric and can be executed through the pre-defined PEs. In addition to the simplified design process of the proposed architecture and savings of the hardware resources, we also demonstrate that high throughput rate can be achieved for IDCT and DCT-MC by fully utilizing the sparseness property of DCT coefficient matrix. Compared to fixed hardware architecture using ASIC design approach, reconfigurable hardware design approach has higher flexibility, lower cost, and faster time-to-market. We propose a self-reconfigurable platform which can reconfigure the architecture of DCT computations during run-time using dynamic partial reconfiguration. The scalable architecture for DCT computations can compute different number of DCT coefficients in the zig-zag scan order to adapt to different requirements, such as power consumption, hardware resource, and performance. We propose a configuration manager which is implemented in the embedded processor in order to adaptively control the reconfiguration of scalable DCT architecture during run-time. In addition, we use LZSS algorithm for compression of the partial bitstreams and on-chip BlockRAM as a cache to reduce latency overhead for loading the partial bitstreams from the off-chip memory for run-time reconfiguration. A hardware module is designed for parallel reconfiguration of the partial bitstreams. The experimental results show that our approach can reduce the external memory accesses by 69% and can achieve 400 MBytes/s reconfiguration rate. Detailed trade-offs of power, throughput, and quality are investigated, and used as a criterion for self-reconfiguration. Prediction algorithm of zero quantized DCT (ZQDCT) to control the run-time reconfiguration of the proposed scalable architecture has been used, and 12 different modes of DCT computations including zonal coding, multi-block processing, and parallel-sequential stage modes are supported to reduce power consumptions, required hardware resources, and computation time with a small quality degradation. Detailed trade-offs of power, throughput, and quality are investigated, and used as a criterion for self-reconfiguration to meet the requirements set by the users. Reconfigurable Computing FPGA ASIC Dynamic Partial Reconfiguration Self-reconfiguration Video Coding DCT Motion Estimation Electrical and Computer Engineering Electrical and Electronics Engineering
222	Fully Scalable Video Coding Using Redundant-Wavelet Multihypothesis and Motion-Compensated Temporal Filtering Wang, Yonghui 13 December 2003 (has links) In this dissertation, a fully scalable video coding system is proposed. This system achieves full temporal, resolution, and fidelity scalability by combining mesh-based motion-compensated temporal filtering, multihypothesis motion compensation, and an embedded 3D wavelet-coefficient coder. The first major contribution of this work is the introduction of the redundant-wavelet multihypothesis paradigm into motion-compensated temporal filtering, which is achieved by deploying temporal filtering in the domain of a spatially redundant wavelet transform. A regular triangle mesh is used to track motion between frames, and an affine transform between mesh triangles implements motion compensation within a lifting-based temporal transform. Experimental results reveal that the incorporation of redundant-wavelet multihypothesis into mesh-based motion-compensated temporal filtering significantly improves the rate-distortion performance of the scalable coder. The second major contribution is the introduction of a sliding-window implementation of motion-compensated temporal filtering such that video sequences of arbitrarily length may be temporally filtered using a finite-length frame buffer without suffering from severe degradation at buffer boundaries. Finally, as a third major contribution, a novel 3D coder is designed for the coding of the 3D volume of coefficients resulting from the redundant-wavelet based temporal filtering. This coder employs an explicit estimate of the probability of coefficient significance to drive a nonadaptive arithmetic coder, resulting in a simple software implementation. Additionally, the coder offers the possibility of a high degree of vectorization particularly well suited to the data-parallel capabilities of modern general-purpose processors or customized hardware. Results show that the proposed coder yields nearly the same rate-distortion performance as a more complicated coefficient coder considered to be state of the art. Motion-compensated temporal filtering Fully scalable video coding Redundant-wavelet multihypothesis Boundary effects 3D tarp algorithm
223	JPEG 2000 and parity bit replenishment for remote video browsing Devaux, François-Olivier 19 September 2008 (has links) This thesis is devoted to the study of a compression and transmission framework for video. It exploits the JPEG 2000 standard and the coding with side information principles to enable an efficient interactive browsing of video sequences. During the last decade, we have witnessed an explosion of digital visual information as well as a significant diversification of visualization devices. In terms of viewing experience, many applications now enable users to interact with the content stored on a distant server. Pausing video sequences to observe details by zooming and panning or, at the opposite, browsing low resolutions of high quality HD videos are becoming common tasks. The video distribution framework envisioned in this thesis targets such devices and applications. Based on the conditional replenishment framework, the proposed system combines two complementary coding methods. The first one is JPEG 2000, a scalable and very efficient compression algorithm. The second method is based on the coding with side information paradigm. This technique is relatively novel in a video context, and has been adapted to the particular scalable image representation adopted in this work. Interestingly, it has been improved by integrating an image source model and by exploiting the temporal correlation inherent to the sequence. A particularity of this work is the emphasis on the system scalability as well as on the server complexity. The proposed browsing architecture can scale to handle large volumes of content and serve a possibly very large number of heterogeneous users. This is achieved by defining a scheduler that adapts its decisions to the channel conditions and to user requirements expressed in terms of computational capabilities and spatio-temporal interest. This scheduling is carried out in real-time at low computational cost and in a post-compression way, without re-encoding the sequences. Closed-loop coding Video compression Conditional replenishment Video browsing Video coding Video transmission Side information LDPC Scalability Distributed coding JPEG 2000 Parity coding
224	Video transcoding using machine learning Unknown Date (has links) The field of Video Transcoding has been evolving throughout the past ten years. The need for transcoding of video files has greatly increased because of the new upcoming standards which are incompatible with old ones. This thesis takes the method of using machine learning for video transcoding mode decisions and discusses ways to improve the process of generating the algorithm for implementation in different video transcoders. The transcoding methods used decrease the complexity in the mode decision inside the video encoder. Also methods which automate and improve results are discussed and implemented in two different sets of transcoders: H.263 to VP6 , and MPEG-2 to H.264. Both of these transcoders have shown a complexity loss of almost 50%. Video transcoding is important because the quantity of video standards have been increasing while devices usually can only decode one specific codec. / by Christopher Holder. / Thesis (M.S.C.S.)--Florida Atlantic University, 2008. / Includes bibliography. / Electronic reproduction. Boca Raton, Fla., 2008. Mode of access: World Wide Web. Coding theory File conversion (Computer science) Data structures (Computer science) MPEG (Video coding standard) Digital media Video compression
225	Application-driven temparature-aware solutions for video coding / Soluções para o gerenciamento de temperatura de sistemas de codificação de vídeo Palomino, Daniel Munari Vilchez January 2017 (has links) Esta tese apresenta soluções para o gerenciamento e otimização de temperatura para sistemas de codificação de vídeo baseados nas características da aplicação e no conteúdo dos vídeos digitais. Diferente dos trabalhos estado-da-arte, as soluções propostas nesta tese focam em técnicas de gerenciamento de temperatura no nível da aplicação e características da aplicação codificação de vídeo e as propriedades dos vídeos digitais são explorados para desenvolver soluções termais para a codificação de vídeo com baixas perdas na qualidade de serviço das aplicações. Diversas análises são realizadas considerando a aplicação de codificação de vídeo para entender o comportamento da temperatura durante o processo de codificação para diferentes sequências de vídeo. Com base nos resultados das análises, soluções com diferentes abordagens são propostas para atenuar os efeitos da temperatura nos sistemas de codificação de vídeo. Gerenciamento de temperatura baseado nas características da aplicação para o padrão de codificação HEVC usa uma técnica de seleção de configuração em tempo de execução para manter a temperatura abaixo dos limites seguros de operação com bons resultados de qualidade de vídeo. Otimização de temperatura baseado em computação imprecisa usa aproximações baseadas em conteúdo para reduzir a temperatura de chips executando o HEVC. Um escalonador de tarefas que usa características da aplicação para guiar o escalonamento de threads focando na redução dos gradientes espaciais de temperatura que são resultantes do desbalanceamento natural de cargas entre as threads da aplicação. As soluções propostas são capazes de reduzir em até 10 ºC a temperatura do chip com perdas insignificantes na eficiência de compressão. Os resultados de qualidade objetiva (medida usando PSNR) são de 12 dBs até 20 dBs maiores quando comparados com trabalhos da literatura. Além disso, o escalonador de tarefas proposto é capaz de eliminar os gradientes espaciais de temperatura maiores que 5 ºC para arquitetura multi-cores. Como principal conclusão, esta tese demonstra que as técnicas de gerenciamento de temperatura que usam o conhecimento da aplicação de maneira conjunta com as propriedades dos vídeos digitais tem um alto potencial para melhorar os resultados de temperatura de sistemas de codificação de vídeo mantendo bons resultados de qualidade visual dos vídeos codificados. / This thesis presents application-driven temperature-aware solutions for next generation video coding systems, such as the High Efficiency Video Coding (HEVC). Different from state-of-the-art works, the proposed solutions raise the abstraction of temperature management to the application-level, where video coding characteristics and video content properties are used to leverage thermal-aware solutions for video coding with low QoS (Quality of Service) degradation. Several video coding and temperature analyses are performed to understand the behavior of temperature when encoding different video sequences. Based on the analyses results, different approaches are proposed to mitigate the temperature effects on video coding systems. Application-driven temperature management for HEVC uses run-time encoder configuration selection to keep temperature under safe operational state while providing good visual quality results. Temperature optimization using approximate computing uses content-driven approximations to reduce the on-chip temperature of HEVC encoding. Application-driven temperature-aware scheduler leverages application-specific knowledge to guide a scheduling technique targeting reducing the spatial temperature gradients that are resulted from the unbalance workload nature of multi-threaded video coding application. The proposed solutions are able to provide up to 10 °C of chip temperature reduction with negligible compression efficiency loss. Besides, when compared with previous works the resulted objective video quality (PSNR) is from 12 dB up to 20 dB higher. Moreover, the proposed scheduler eliminates spatial temperature gradients greater than 5 ºC of multi-core architectures. As conclusion, this thesis demonstrates that leveraging application-specific knowledge and video content properties has a significant potential to improve temperature profiles of video coding systems while still keeping good quality results. Circuitos integrados Vídeo digital Codificacao : Video digital Temperature management Video coding HEVC Application-driven Temperature-aware Application knowledge Temperature gradients Hardware platforms Architectures Integrated circuits
226	Desenvolvimento arquitetural para a predição intraquadro do padrão HEVC de codificação de vídeos Corrêa, Marcel Moscarelli 13 February 2017 (has links) Submitted by Aline Batista (alinehb.ufpel@gmail.com) on 2017-03-24T19:14:01Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Desenvolvimento arquitetural para a predição intraquadro do padrão HEVC de codificação de vídeos.pdf: 11703839 bytes, checksum: b4fcaf7b13849f6ab8c064bbe056ca11 (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2017-04-05T19:13:18Z (GMT) No. of bitstreams: 2 Desenvolvimento arquitetural para a predição intraquadro do padrão HEVC de codificação de vídeos.pdf: 11703839 bytes, checksum: b4fcaf7b13849f6ab8c064bbe056ca11 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-04-05T19:13:26Z (GMT). No. of bitstreams: 2 Desenvolvimento arquitetural para a predição intraquadro do padrão HEVC de codificação de vídeos.pdf: 11703839 bytes, checksum: b4fcaf7b13849f6ab8c064bbe056ca11 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-02-13 / Sem bolsa / A codificação de vídeo é uma área essencial atualmente devido ao crescente aumento do número de aplicações e dispositivos eletrônicos capazes de manipular vídeos digitais de alta resolução. Com o aumento da diversidade de aplicações e com o surgimento de resoluções muito grandes como UHD 4K (3840x2160 pixels) e UHD 8K (7680x4320 pixels), foi concebido o padrão HEVC, o mais recente padrão de codificação de vídeo elaborado pelos grupos ITU-T VCEG e ISO/IEC MPEG. O HEVC é capaz de atingir as mais elevadas taxas de compressão e qualidade visual dentre todos os padrões já desenvolvidos por estes grupos. Nos padrões de codificação de vídeo, a predição intraquadro é o módulo responsável por reduzir a redundância espacial entre amostras vizinhas dentro de um mesmo quadro. O padrão HEVC define diversas novas técnicas para a predição intraquadro, tornando-a muito mais eficiente e complexa. Esta dissertação apresenta o desenvolvimento arquitetural de soluções para o módulo de predição intraquadro do padrão HEVC com diferentes objetivos de taxa de processamento, qualidade de compressão, custo em área e dissipação de potência. Todas arquiteturas desenvolvidas foram descritas em VHDL e sintetizadas para tecnologia NanGate 45 nm 0,95 v. Os resultados mostram que as arquiteturas atingem seus diferentes objetivos individuais de utilização de recursos de hardware, dissipação de potência, eficiência energética, taxa de processamento e eficiência de compressão. A principal solução proposta utiliza 4952K gates e, quando operando em uma frequência de 529 MHz, é capaz de processar vídeos UHD 8K em uma taxa de 120 quadros por segundo, com uma dissipação de 363 mW de potência e com uma eficiência energética de 32,02 pJ/amostra. Quando comparadas aos trabalhos relacionados, as soluções propostas apresentam resultados satisfatórios e competitivos. / Video coding is an essential area due to the increasing number of applications and devices that are able to handle high definition digital videos. The HEVC is the most recent and most efficient video coding standard created by the ITU-T VCEG and ISO/IEC MPEG groups, and its development was motivated by the increasing diversity of services and the emergence of beyond-HD formats such as UHD 4K (3840x2160 pixels) and UHD 8K (7680x4320 pixels). The intrapicture prediction is responsible to reduce spatial redundancy between samples inside the same frame. The HEVC standard defines several new techniques, which increase the intra prediction efficiency, but also increase its complexity. This work presents the development of hardware architectures for the HEVC intra prediction, considering different targets of compression efficiency, throughput, area cost, power dissipation and energetic efficiency. All designs were described in VHDL and synthesized using the NanGate 45 nm 0.95 v cell library. The main solution uses 4952K gates and, when running at a frequency of 529 MHz, it is able to process UHD 8K videos at 120 frames per second with a power dissipation of 363 mW and an energetic efficiency of 32.02 pJ/sample. When compared to related works, the developed architectures presented very competitive results. HEVC Codificação de vídeos Predição intraquadro Projeto de hardware Sistemas digitais Video coding Intrapicture prediction Hardware design Digital systems
227	Compressão de sinais eletromiográficos baseada em técnicas bidimensionais Melo, Wheidima Carneiro de 27 June 2014 (has links) Submitted by Kamila Costa (kamilavasconceloscosta@gmail.com) on 2015-06-15T22:12:07Z No. of bitstreams: 1 Dissertacao-Wheidima C de Melo.pdf: 2703087 bytes, checksum: e6e1c33a03cbfdb7ab483f0f6f9e6dc7 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-16T15:15:11Z (GMT) No. of bitstreams: 1 Dissertacao-Wheidima C de Melo.pdf: 2703087 bytes, checksum: e6e1c33a03cbfdb7ab483f0f6f9e6dc7 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-16T15:16:09Z (GMT) No. of bitstreams: 1 Dissertacao-Wheidima C de Melo.pdf: 2703087 bytes, checksum: e6e1c33a03cbfdb7ab483f0f6f9e6dc7 (MD5) / Made available in DSpace on 2015-06-16T15:16:09Z (GMT). No. of bitstreams: 1 Dissertacao-Wheidima C de Melo.pdf: 2703087 bytes, checksum: e6e1c33a03cbfdb7ab483f0f6f9e6dc7 (MD5) Previous issue date: 2014-06-27 / Não Informada / Traditionally, electromyographic signals are compressed to one-dimensional techniques, which are specifically developed for this purpose. However, some studies have shown that the compression of biological signals such as images, via its pre-processing and rearrangement on a two-dimensional array, can lead to good results. The present work an investigation of the compression electromyographic signals like images, three main contributions: the use of new encoders, the development of new pre-processing techniques and modification of the coding core of a specific compressor, so that existing redundancies are better exploited. With respect to the pre-processing of the signal, two new techniques are introduced: ordering a percentage difference and targeting similarity which have the potential to increase the performance of encoded pictures. Optionally for compression of electromyographic signals, propose to the high efficiency video coding encoder, which features state of the art in video compression. Furthermore, an investigation of the paradigm that uses recurrence multiscale standards, known as multidimensional multiscale parser, is also presented. In summary, the encoder adapts to working with the biological signal by replacing its prediction techniques to improve the exploitation of redundancy, the result of which is termed Bio-MMP. The experiments performed with real electromyographic signals show that the proposed techniques are effective, providing better results than the state of the art in the literature. / Tradicionalmente, sinais eletromiográficos são comprimidos com técnicas unidimensionais, que são desenvolvidas especificamente para esse fim. No entanto, alguns trabalhos têm demonstrado que a compressão de sinais biológicos como imagens, através do seu pré-processamento e rearranjo em uma matriz bidimensional, pode levar a bons resultados. O presente trabalho apresenta uma investigação sobre a compressão de sinais eletromiográficos como imagens, com três principais contribuições: a utilização de novos codificadores, o desenvolvimento de novas técnicas de pré-processamento e a modificação do núcleo de codificação de um compressor específico, de modo que as redundâncias existentes sejam melhor exploradas. No que diz respeito ao pré-processamento do sinal, duas novas técnicas são introduzidas: a ordenação por diferença percentual e a segmentação por similaridade, que apresentam o potencial de aumentar o desempenho do codificados de imagens. Como opção para compressão de sinais eletromiográficos, propõem-se o codificador high efficiency video coding, que apresenta o estado da arte em compressão de vídeo. Além disso, uma investigação do paradigma que utiliza recorrência de padrões multiescalas, conhecido como multidimensional multiscale parser, também é apresentada. Em resumo, adapta-se o codificador para trabalhar com o sinal biológico, através da substituição das suas técnicas de predição, de modo a melhorar a exploração de redundâncias, cujo resultado é denominado de MMP-Bio. Os experimentos realizado com sinais eletromiográficos reais mostram que as técnicas propostas são eficazes, proporcionando resultados superiores ao estado da arte presente na literatura. Sinais eletromiográficos Casamento de padrões multiescala Pré-processamento e codificador HEVC Sinais eletromiográ ficos como imagens Multidimensional multiscale parser MMP-Bio High efficiency video coding ENGENHARIAS: ENGENHARIA ELÉTRICA
228	Energy-efficient memory hierarchy for motion and disparity estimation in multiview video coding Sampaio, Felipe Martin January 2013 (has links) Esta dissertação de mestrado propõe uma hierarquia de memória para a Estimação de Movimento e de Disparidade (ME/DE) centrada nas referências da codificação, estratégia chamada de Reference-Centered Data Reuse (RCDR), com foco em redução de energia em codificadores de vídeo multivistas (MVC - Multiview Video Coding). Nos codificadores MVC, a ME/DE é responsável por praticamente 98% do consumo total de energia. Além disso, até 90% desta energia está relacionada com a memória do codificador: (a) acessos à memória externa para a busca das referências da ME/DE (45%) e (b) memória interna (cache) para manter armazenadas as amostras da área de busca e enviá-las para serem processadas pela ME/DE (45%). O principal objetivo deste trabalho é minimizar de maneira conjunta a energia consumida pelo módulo de ME/DE com relação às memórias externa e interna necessárias para a codificação MVC. A hierarquia de memória é composta por uma memória interna (a qual armazena a área de busca inteira), um controle dinâmico para a estratégia de power-gating da memória interna e um compressor de resultados parciais. Um controle de buscas foi proposto para explorar o comportamento da busca com o objetivo de atingir ainda mais reduções de energia. Além disso, este trabalho também agrega à hierarquia de memória um compressor de quadros de referência de baixa complexidade. A estratégia RCDR provê reduções de até 68% no consumo de energia quando comparada com estratégias estadoda- arte que são centradas no bloco atual da codificação. O compressor de resultados parciais é capaz de reduzir em 52% a comunicação com memória externa necessária para o armazenamento desses elementos. Quando comparada a técnicas de reuso de dados que não acessam toda área de busca, a estratégia RCDR também atinge os melhores resultados em consumo de energia, visto que acessos regulares a memórias externas DDR são energeticamente mais eficientes. O compressor de quadros de referência reduz ainda mais o número de acessos a memória externa (2,6 vezes menos acessos), aliando isso a perdas insignificantes na eficiência da codificação MVC. A memória interna requerida pela estratégia RCDR é até 74% menor do que estratégias centradas no bloco atual, como Level C. Além disso, o controle dinâmico para a técnica de power-gating provê reduções de até 82% na energia estática, o que é o melhor resultado entre os trabalho relacionados. A energia dinâmica é tratada pela técnica de união dos blocos candidatos, atingindo ganhos de mais de 65%. Considerando as reduções de consumo de energia atingidas pelas técnicas propostas neste trabalho, conclui-se que o sistema de hierarquia de memória proposto nesta dissertação atinge seu objetivo de atender às restrições impostas pela codificação MVC, no que se refere ao processamento do módulo de ME/DE. / This Master Thesis proposes a memory hierarchy for the Motion and Disparity Estimation (ME/DE) centered on the encoding references, called Reference-Centered Data Reuse (RCDR), focusing on energy reduction in the Multiview Video Coding (MVC). In the MVC encoders the ME/DE represents more than 98% of the overall energy consumption. Moreover, in the overall ME/DE energy, up to 90% is related to the memory issues, and only 10% is related to effective computation. The two items to be concerned with: (1) off-chip memory communication to fetch the reference samples (45%) and (2) on-chip memory to keep stored the search window samples and to send them to the ME/DE processing core (45%). The main goal of this work is to jointly minimize the on-chip and off-chip energy consumption in order to reduce the overall energy related to the ME/DE on MVC. The memory hierarchy is composed of an onchip video memory (which stores the entire search window), an on-chip memory gating control, and a partial results compressor. A search control unit is also proposed to exploit the search behavior to achieve further energy reduction. This work also aggregates to the memory hierarchy a low-complexity reference frame compressor. The experimental results proved that the proposed system accomplished the goal of the work of jointly minimizing the on-chip and off-chip energies. The RCDR provides off-chip energy savings of up to 68% when compared to state-of-the-art. the traditional MBcentered approach. The partial results compressor is able to reduce by 52% the off-chip memory communication to handle this RCDR penalty. When compared to techniques that do not access the entire search window, the proposed RCDR also achieve the best results in off-chip energy consumption due to the regular access pattern that allows lots of DDR burst reads (30% less off-chip energy consumption). Besides, the reference frame compressor is capable to improve by 2.6x the off-chip memory communication savings, along with negligible losses on MVC encoding performance. The on-chip video memory size required for the RCDR is up to 74% smaller than the MB-centered Level C approaches. On top of that, the power-gating control is capable to save 82% of leakage energy. The dynamic energy is treated due to the candidate merging technique, with savings of more than 65%. Due to the jointly off-chip communication and on-chip storage energy savings, the proposed memory hierarchy system is able to meet the MVC constraints for the ME/DE processing. Microeletrônica Compressao : Video Vhdl Multiview video coding 3D-video Low-power design On-chip video memory Memory hierarch Energy efficient Motion estimation Disparity estimation
229	Energy-efficient memory architecture design and management for parallel video coding / Projeto e gerenciamento de arquitetura de memória energeticamente eficiente para codificadores de vídeo HEVC Sampaio, Felipe Martin January 2018 (has links) Esta tese de doutorado apresenta o projeto de uma arquitetura de memória híbrida energeticamente eficiente baseada em memórias do tipo scratchpad (Hy-SVM) para a codificação paralela de vídeos segundo o padrão HEVC. A codificação de vídeo se destaca como uma parte extremamente complexa nas aplicações de processamento de vídeo. O padrão HEVC traz inovações que complicam fortemente os requerimentos de memória de tais aplicações, principalmente devido a: (a) novas estruturas de codificação, as quais agravam a complexidade computacional por proporcionarem muitas modos possíveis de codificação que devem ser analisados; além do (b) suporte de alto nível à paralelização da codificação por meio do particionamento das unidades de codificação em múltiplos Tiles, o qual provê a aceleração da performance dos codificadores, porém, ao mesmo tempo, adiciona grandes desafios à infraestrutura de memória. O principal gargalo em termos de comunicação com a memória externa e de armazenamento interno (dentro do chip do codificador) é dados pelas informações dos quadros de referência: que consiste em uma série de quadros completos já codificados (e reconstruídos) que devem ser mantidos em memória e acessados de forma intensa durante o processamento dos quadros futuros. Devido ao grande volume de dados que são necessários para representar os quadros de referência, estes são tipicamente armazenados na memória externa dos codificadores (principalmente quando vídeos de alta e ultra alta resolução são processados) A arquitetura proposta Hy-SVM está inserida em um sistema de codificação baseado no particionamento dos quadros do vídeo de entrada em múltiplos Tiles, de forma a habilitar a codificação paralela das informações segundo o padrão HEVC: neste cenário, cada Tile é assinalado para uma específica unidade de processamento do codificador HEVC, o qual executa o processamento dos diferentes Tiles em paralelo. A ideias chave da arquitetura Hy- SVM incluem: projeto e gerenciamento de memórias para a aplicação específica de codificação de vídeo; uso de múltiplos níveis de memórias privadas e compartilhadas, com o objetivo de explorar o reuso de dados intra-Tile e inter-Tiles de forma combinada; uso de memórias do tipo scratchpad (SPMs) para o armazenamento interno da informações de forma eficiente em termos de consumo de energia; projeto de memórias híbridas utilizando as tecnologias SRAM e STTRAM como base. Uma metodologia de projeto é proposta para a arquitetura Hy-SVM, a qual aproveita propriedades específicas da aplicação para, de forma adequada, definir os parâmetros de projeto das memórias híbridas. De forma a prover adaptação em tempo de execução (para ambas as memórias on-chip e off-chip), a arquitetura Hy-SVM integra uma camada de gerenciamento composta pelas seguintes estratégias (1) predição do overlap (sobreposição de acessos), o qual busca identificar o comportamento dos acessos redundantes entre diferentes unidades de processamento do codificador HEVC a partir da análise dos acessos à memória das codificações dos quadros passados do vídeo, com o objetivo de aumentar o potencial de exploração do reuso de dados inter-Tiles; (2) gerenciamento dos acessos à memória externa, responsável por balancear a vazão de dados com a memória acumulada entre as múltiplas unidades de processamento do codificador HEVC paralelo, com o objetivo de melhorar o uso do barramento de comunicação com a memória externa; e (3) gerenciamento de dados das SPMs implementadas a partir de células de memória STT-RAM, o qual alivia estas células de acessos de escrita com alta atividade de chaveamento dos bits armazenados, com o objetivo de aumentar o tempo de vide destas células, bem como reduzir as penalidades relativas à ineficiência dos acessos de escrita nas memórias STT-RAM. O conhecimento específico da aplicação foi utilizado nas estratégias de gerenciamento em tempo de execução das seguintes formas: explorando parâmetros da codificação HEVC e realizando monitorando em tempo real dos acessos à memória realizados pelo codificador Estas informações são utilizadas tanto pelas técnicas de gerenciamento, quanto pelas metodologias de projeto das memórias. Baseadas nas decisões tomadas pela camada de gerenciamento, a arquitetura Hy-SVM integra unidades de gerenciamento de acessos à memória (memory access management units – MAMUs) para controlar as dinâmicas de acesso das memórias SPM privadas e compartilhadas. Além disso, unidades adaptativas de gerenciamento de potência (adaptive power management units – APMUs) são capazes de reduzir o consumo de energia interno do chip do codificador a partir das estimativas precisas de formação dos overlaps. Os resultados obtidos por meio dos experimentos realizados demonstram economias de consumo energético da arquitetura Hy-SVM, quando comparada a trabalhos relacionados, sob diversos cenários de teste. Quando comparada a estratégias de reuso de dados tradicionais para codificadores de vídeo, como o esquema Level-C, a exploração do reuso de dados combinado nos níveis intra-Tile e inter-Tiles provê 69%-79% de redução de energia. Considerando as arquiteturas de memória de vídeo com foco no padrão HEVC, os ganhos variaram desde 2,8% (pior caso) até 67% (melhor caso) Da perspectiva do consumo de energia relacionado à comunicação com a memória externa, a arquitetura Hy-SVM é capaz de melhorar o reuso de dados (por explorar também o reuso de dados inter-Tiles), resultando em um consumo de energia on-chip 11%-17% menor. Além disso, as APMUs contribuem para reduzir o consumo de energia on-chip da arquitetura Hy-SVM em 56%-95%, para os cenários de teste analisados. Desta forma, comparada aos trabalhos relacionados, a arquitetura Hy-SVM apresenta o menor consumo energético on-chip. O gerenciamento da vazão da comunicação com a memória externa é capaz de reduzir as variações de largura de banda em 37%-83%, quando comparado à ordem tradicional de processamento, para cenários de teste com 4 e 16 Tiles sendo processados em paralelo pelo codificador HEVC. O gerenciamento de dados pôde, de forma significativa, estender o tempo de vida das células de memória STT-RAM, alcançando 0,83 de tempo de vida normalizado (métrica adotada para comparação, ficando muito próximo do caso ideal). Além disso, as sobrecargas causadas pela implementação das unidades de gerenciamento não afetam de foram significativa a performance e a eficiência energética da arquitetura Hy- SVM propostas por este trabalho. / This Thesis presents the design of an energy-efficient hybrid scratchpad video memory architecture (called Hy-SVM) for parallel High-Efficiency Video Coding. Video coding stands out as a high complex part in the video processing applications. HEVC standard brought innovations that increase the memory requirements, mainly due to: (a) the novel coding structures, which aggravates the computational complexity by providing a wider range of possibilities to be analyzed; and (b) the high-level parallelism features provided by the Tiles partitioning, which provides performance acceleration, but, at the same time, strongly adds hard challenges to the memory infrastructure. The main bottleneck in terms of external memory transmission and on-chip storage is the reference frames data: which consists of already coded (and reconstructed) entire frames that must be stored and intensively accessed during the encoding process of future frames. Due to the large volume of data required to represent the reference frames, they are typically stored in the external memory (especially when highdefinition videos are targeted). The proposed Hy-SVM architecture is inserted in a video coding system, which is based on multiple Tiles partitioning to enable parallel HEVC encoding: each Tile is assigned to a specific processing unit. The key ideas of Hy-SVM include: applicationspecific design and management; combined multiple levels of private and shared memories that jointly exploit intra-Tile and inter-Tiles data reuse; scratchpad memories (SPMs) as energyefficient on-chip data storage; combined SRAM and STT-RAM hybrid memory (HyM) design We propose a design methodology for Hy-SVM that leverages application-specific properties to properly define the HyMs parameters. In order to provide run-time adaptation (for both offand on-chip parts), Hy-SVM integrates a memory management layer composed of: (1) overlap prediction, which has the goal of identifying the redundant memory access behavior by analyzing monitored past frames encoding to increase inter-Tiles data reuse exploitation; (2) memory pressure management, which aims on balancing the Tiles-accumulated memory pressure targeting on improving external memory communication channel usage; and (3) lifetime-aware data management scheme that alleviates STT-RAM SPMs of high bit-toggling write accesses to increase the their cells lifetime, as well as to reduce overhead issues related to poor write characteristics of STT-RAM. Application-specific knowledge was exploited by inheriting HEVC properties and performing run-time monitoring of memory accesses. Such information is used to properly design the on-chip video memories, as well as being utilized as input parameters of the run-time memory management layer. Based on the run-time decisions from the proposed Hy-SVM management strategies, Hy-SVM integrates distributed memory access management units (MAMUs) to control the access dynamics of private and shared SPMs. Additionally, adaptive power management units (APMUs) are able to strongly reduce on-chip energy consumption due to an accurate overlap prediction The experimental results demonstrate Hy-SVM overall energy savings over related works under various HEVC encoding scenarios. Compared to traditional data reuse schemes, like Level-C, the combined intra-Tile and inter-Tiles data reuse provides 69%-79% of energy reduction. Regarding related HEVC video memory architectures, the savings varied from 2.8% (worst case) to 67% (best case). From the external memory perspective, Hy-SVM can improve data reuse (by also exploiting inter-Tiles data redundancy), resulting on 11%-71%% of reduced off-chip energy consumption. Additionally, our APMUs contribute by reducing on-chip energy consumption of Hy-SVM by 56%-95%, for the evaluated HEVC scenarios. Thus, compared to related works, Hy-SVM presents the lowest on-chip energy consumption. The memory pressure management scheme can reduce the variations in the memory bandwidth by 37%-83% when compared to the traditional raster scan processing for 4- and 16-core parallelized HEVC encoder. The lifetime-aware data management significantly extends the STT-RAM lifetime, achieving 0.83 of normalized lifetime (near to the optimal case). Moreover, the overhead of implementing our management units insignificantly affects the performance and energyefficiency of Hy-SVM. Vídeo digital Processamento paralelo High-efficiency video coding Parallel processing On-chip memory design Memory management Application-specific knowledge
230	From dataflow models to energy efficient application specific processors Hautala, I. (Ilkka) 11 October 2019 (has links) Abstract The development of wireless networks has provided the necessary conditions for several new applications. The emergence of the virtual and augmented reality and the Internet of things and during the era of social media and streaming services, various demands related to functionality and performance have been set for mobile and wearable devices. Meeting these demands is complicated due to minimal energy budgets, which are characteristic of embedded devices. Lately, the energy efficiency of devices has been addressed by increasing parallelism and the use of application-specific hardware resources. This has been hindered by hardware development as well as software development because the conventional development methods are based on the use of low-level abstractions and sequential programming paradigms. On the other hand, deployment of high-level design methods is slowed down because of final solutions that are too much compromised when energy efficiency and performance are considered. This doctoral thesis introduces a model-driven framework for the development of signal processing systems that facilitates hardware and software co-design. The design flow exploits an easily customizable, re-programmable and energy-efficient processor template. The proposed design flow enables tailoring of multiple heterogeneous processing elements and the connections between them to the demands of an application. Application software is described by using high-level dataflow models, which enable the automatic synthesis of parallel applications for different multicore hardware platforms and speed up design space exploration. Suitability of the proposed design flow is demonstrated by using three different applications from different signal processing domains. The experiments showed that raising the level of abstraction has only a minor impact on performance. Video processing algorithms are selected to be the main application area in this thesis. The thesis proposes tailored and reprogrammable energy-efficient processing elements for video coding algorithms. The solutions are based on the use of multiple processing elements by exploiting the pipeline parallelism of the application, which is characteristic of many signal processing algorithms. Performance, power and area metrics for the designed solutions have been obtained using post-layout simulation models. In terms of energy efficiency, the proposed programmable processors form a new compromise solution between fixed hardware accelerators and conventional embedded processors for video coding. / Tiivistelmä Langattomien verkkojen kehittyminen on luonut edellytykset useille uusille sovelluksille. Muiden muassa sosiaalisen media, suoratoistopalvelut, virtuaalitodellisuus ja esineiden internet asettavat kannettaville ja puettaville laitteille moninaisia toimintoihin, suorituskykyyn, energiankulutukseen ja fyysiseen muotoon liittyviä vaatimuksia. Yksi isoimmista haasteista on sulautettujen laitteiden energiankulutus. Laitteiden energiatehokkuutta on pyritty parantamaan rinnakkaislaskentaa ja räätälöityjä laskentaresursseja hyödyntämällä. Tämä puolestaan on vaikeuttanut niin laite- kuin sovelluskehitystä, koska laajassa käytössä olevat kehitystyökalut perustuvat matalan tason abstraktioihin ja hyödyntävät alun perin yksi ydinprosessoreille suunniteltuja ohjelmointikieliä. Korkean tason ja automatisoitujen kehitysmenetelmien käyttöönottoa on hidastanut aikaansaatujen järjestelmien puutteellinen suorituskyky ja laiteresurssien tehoton hyödyntäminen. Väitöskirja esittelee datavuopohjaiseen suunnitteluun perustuvan työkaluketjun, joka on tarkoitettu energiatehokkaiden signaalikäsittelyjärjestelmien toteuttamiseen. Työssä esiteltävä suunnitteluvuo pohjautuu laitteistoratkaisuissa räätälöitävään ja ohjelmoitavaan siirtoliipaistavaan prosessoritemplaattiin. Ehdotettu suunnitteluvuo mahdollistaa useiden heterogeenisten prosessoriytimien ja niiden välisten kytkentöjen räätälöimisen sovelluksien tarpeiden vaatimalla tavalla. Suunnitteluvuossa ohjelmistot kuvataan korkean tason datavuomallien avulla. Tämä mahdollistaa erityisesti rinnakkaista laskentaa sisältävän ohjelmiston automaattisen sovittamisen erilaisiin moniprosessorijärjestelmiin ja nopeuttaa erilaisten järjestelmätason ratkaisujen kartoittamista. Suunnitteluvuon käyttökelpoisuus osoitetaan käyttäen esimerkkinä kolmea eri signaalinkäsittelysovellusta. Tulokset osoittavat, että suunnittelumenetelmien abstraktiotasoa on mahdollista nostaa ilman merkittävää suorituskyvyn heikkenemistä. Väitöskirjan keskeinen sovellusalue on videonkoodaus. Työ esittelee videonkoodaukseen suunniteltuja energiatehokkaita ja uudelleenohjelmoitavia prosessoriytimiä. Ratkaisut perustuvat usean prosessoriytimen käyttämiseen hyödyntäen erityisesti videonkäsittelyalgoritmeille ominaista liukuhihnarinnakkaisuutta. Prosessorien virrankulutus, suorituskyky ja pinta-ala on analysoitu käyttämällä simulointimalleja, jotka huomioivat logiikkasolujen sijoittelun ja johdotuksen. Ehdotetut sovelluskohtaiset prosessoriratkaisut tarjoavat uuden energiatehokkaan kompromissiratkaisun tavanomaisten ohjelmoitavien prosessoreiden ja kiinteästi johdotettujen video-kiihdyttimien välille. application-specific processing dataflow modelling dataflow-based design framework energy-efficient computing video coding datavuomallinnus datavuopohjainen suunnittelu energiatehokas laskenta sovelluskohtainen laskenta videonkoodaus

Search results