Global ETD Search

221	LARGE-SCALE MICROARRAY DATA ANALYSIS USING GPU- ACCELERATED LINEAR ALGEBRA LIBRARIES Zhang, Yun 01 August 2012 (has links) The biological datasets produced as a result of high-throughput genomic research such as specifically microarrays, contain vast amounts of knowledge for entire genome and their expression affiliations. Gene clustering from such data is a challenging task due to the huge data size and high complexity of the algorithms as well as the visualization needs. Most of the existing analysis methods for genome-wide gene expression profiles are sequential programs using greedy algorithms and require subjective human decision. Recently, Zhu et al. proposed a parallel Random matrix theory (RMT) based approach for generating transcriptional networks, which is much more resistant to high level of noise in the data [9] without human intervention. Nowadays GPUs are designed to be used more efficiently for general purpose computing [1] and are vastly superior to CPUs [6] in terms of threading performance. Our kernel functions running on GPU utilizes the functions from both the libraries of Compute Unified Basic Linear Algebra Subroutines (CUBLAS) and Compute Unified Linear Algebra (CULA) which implements the Linear Algebra Package (LAPACK). Our experiment results show that GPU program can achieve an average speed-up of 2~3 times for some simulated datasets. CUDA CULA Gene clustering GPU Microarray Random matrix theory
222	Implementación de la transformada rápida de gauss en una unidad de procesamiento gráfico Rodríguez Olivos, Rafael January 2008 (has links) En el presente trabajo de memoria se realiza una implementación de la Transformada de Gauss y la Transformada Rápida de Gauss Mejorada (cuyo acrónimo en inglés es IFGT) mediante la utilización de una Unidad de Procesamiento Gráfico (en inglés Graphics Processor Unit, GPU). El objetivo es reducir el tiempo de cómputo mediante el procesamiento paralelo. Esto permitiría acelerar las estimaciones de Funciones de Densidad de Probabilidad (FDP) que se utilizan dentro de la Teoría de la Información en las medidas de divergencia e información mutua. La implementación se realiza sobre una tarjeta de video modelo Nvidia 7900 GT, utilizando los lenguajes de programación C y Cg (C for graphics), donde este último se utiliza sólo sobre la tarjeta. La implementación de la Transformada de Guass se realiza directamente sobre la GPU. En cambio la implementación de la IFGT se realiza una primera parte en lenguaje C, donde se determinan parámetros que se utilizan posteriormente en la GPU. Además de las implementaciones sobre la GPU se realizan implementaciones sobre una CPU de un computador estándar con el fin de comparar los tiempos y el error relativo dado por el valor absoluto de . El resultado obtenido es una aceleración en el tiempo de cálculo en la Transformada Rápida de Gauss Mejorada sólo para el caso de dimensión 8 y con una cantidad de datos de 65536. Se observa que la transferencia de los datos, es decir, la lectura de los datos desde la GPU al computador, es sumamente lenta en la implementación realizada llegando a ser de 85% del tiempo total del programa. Se observa además que los errores de la implementación sobre la GPU son del orden de. En conclusión, la implementación de la Transformada de Gauss y la Transformada Rápida de Gauss Mejorada sobre la GPU funciona Electricidad Transformada de Gauss Tarjeta de video GPU FGT IFGT
223	Fusion: abstrações linguísticas sobre Java para programação paralela heterogênea sobre GPGPUs / Fusion: linguistic abstractions on Java for parallel programming on heterogeneous GPGPUs Pinheiro, Anderson Boettge January 2013 (has links) PINHEIRO, Anderson Boettge. Fusion: abstrações linguísticas sobre Java para programação paralela heterogênea sobre GPGPUs. 2013. 140 f. : Dissertação (mestrado) - Universidade Federal do Ceará, Centro de Ciências, Departamento de Computação, Fortaleza-CE, 2013. / Submitted by guaracy araujo (guaraa3355@gmail.com) on 2016-05-25T20:11:06Z No. of bitstreams: 1 2013_dis_abpinheiro.pdf: 7607654 bytes, checksum: 4e82914ffcf64a0f48a4a21d3945ec4a (MD5) / Approved for entry into archive by guaracy araujo (guaraa3355@gmail.com) on 2016-05-25T20:11:42Z (GMT) No. of bitstreams: 1 2013_dis_abpinheiro.pdf: 7607654 bytes, checksum: 4e82914ffcf64a0f48a4a21d3945ec4a (MD5) / Made available in DSpace on 2016-05-25T20:11:42Z (GMT). No. of bitstreams: 1 2013_dis_abpinheiro.pdf: 7607654 bytes, checksum: 4e82914ffcf64a0f48a4a21d3945ec4a (MD5) Previous issue date: 2013 / Acceleration units free, or GPU (Graphical Processing Units), have been consolidated in recent years for general purpose computing for accelerating critical sections of programs that exhibit high standards of performance and the execution time. GPUs are one of several types of general-purpose computational accelerators that have been built on various platforms for high performance computing, especially also for the MIC (Many Integrated Cores) and FPGA (Field Programmable Gateway Arrays). Despite the emphasis on the research of new parallel algorithms capable of exploiting the massive parallelism offered by GPGPU devices are still incipient initiatives on new programming abstractions that make the simplest description of these algorithms on GPGPUs, without detriment to the effciency. It is still necessary that the programmer has specific knowledge of the peculiarities of the architecture of these devices, as well as programming techniques that are not domain even experienced parallel programmers today. In recent years, NVIDIA, an industry that has dominated the evolution of architectural GPGPU devices, launched the Kepler architecture, including extensions to support Hyper-Q and Dynamic Parallelism (DP), which offer new opportunities for expression patterns of parallel programming on such devices. This paper aims at proposing new programming abstractions over a parallel object-oriented language based on Java, am expressing parallel computations heterogeneous type multicore / manycore, where the GPU device is shared by a set of parallel threads running in host processor, on a higher level of abstraction compared to existing alternatives, but still offering the programmer full control over the use of device capabilities. The design of this proposed language abstractions, hereinafter called Fusion, part of the expressiveness offered by Kepler architecture. / Unidades de aceleração gráca, ou GPU (Graphical Processing Units ), tem se consolidado nos últimos anos para computação de propósito geral, para aceleração de trechos críticos de programas que apresentam requisitos severos de desempenho quanto ao tempo de execução. GPUs constituem um dentre vários tipos de aceleradores computacionais de propósito geral que tem sido incorporados em várias plataformas de computação de alto desempenho, com destaque também para as MIC (Many Integrated Cores ) e FPGA (Field Programmable Gateway Arrays ). A despeito da ênfase nas pesquisas de novos algoritmos paralelos capazes de explorar o paralelismo massivo oferecido por dispositivos GPGPU, ainda são incipientes as iniciativas sobre novas abstrações de programação que tornem mais simples a descrição desses algoritmos sobre GPGPUs, sem detrimento à efciência. Ainda é necessário que o programador possua conhecimento específico sobre as peculiaridades da arquitetura desses dispositivos, assim como técnicas de programação que não são do domínio mesmo de programadores paralelos experientes na atualidade. Nos últimos anos, a NVIDIA, indústria que tem dominado a evolução arquitetural dos dispositivos GPGPU, lançou a arquitetura Kepler, incluindo o suporte às extensões Hyper-Q e Dynamic Parallelism (DP), as quais oferecem novas oportunidades de expressão de padrões de programação paralela sobre esses dispositivos. Esta dissertação tem por objetivo a proposta de novas abstrações de programação paralela sobre uma linguagem orientada a objetos baseada em Java, a m de expressar computações paralelas heterogêneas do tipo multicore/manycore, onde o dispositivo GPU é compartilhado por um conjunto de threads paralelas que executam no processador hospedeiro, em um nível de abstração mais elevado comparado às alternativas existentes, porém ainda oferecendo ao programador total controle sobre o uso dos recursos do dispositivo. O projeto das abstrações dessa linguagem proposta, doravante chamada Fusion, parte da expressividade oferecida pela arquitetura Kepler. Ciência da computação Java GPU Paralela Heterogênea parallel heterogeneous
224	Computación Paralela en Unidades de Procesamiento Gráfico (GPU) Kim, Joon Young January 2007 (has links) El objetivo de esta memoria es el estudio y desarrollo de aplicaciones de computación general en tarjetas gráficas. Los avances tecnológicos han permitido que hardware especializado para la visualización de imágenes sea lo suficientemente poderoso como para implementar en sus procesadores programas que son habitualmente asociados a las CPU. Esta memoria explora y evalúa el uso de estos recursos para aplicaciones numéricas y de generación de mallas. Para este objetivo se ha desarrollado una aplicación que simula la dinámica de fluidos y se exploró la posibilidad de aplicar algoritmos de refinado de mallas. Este tipo de algoritmos son intensivos en cómputo, ya que necesitan solucionar ecuaciones diferenciales usando métodos numéricos. Aplicando los conceptos que se requieren para programar este tipo de algoritmos a una GPU se busca optimizar su rendimiento y lograr una funcionalidad completa. A través de la memoria se explican los conceptos matemáticos detrás de la mecánica de fluidos, y se describe la forma en la que se pueden descomponer para su posterior implementación en un procesador gráfico, que es altamente paralelo, y tiene diferencias sustanciales con la arquitectura de un procesador general. No se pudo aplicar un algoritmo en la GPU de refinamiento de mallas debido a limitantes físicas de su arquitectura, pero el estudio es útil para futuras investigaciones. En conclusión, el programa creado muestra que es posible la adaptación de tales algoritmos, en hardware que a pesar de no estar diseñado para ellos entrega los mismos resultados que si fuesen programados de forma habitual. Esto además libera recursos que pueden ser utilizados para otros fines, o el uso de ambos procesadores, el CPU y la GPU, para la creación de programas que se ejecuten de forma más rápida y eficiente debido a la mayor cantidad de recursos disponibles Computación Gráfica GPU Paralelo Fluido Algoritmo Navier-stokes
225	[en] GPU-ACCELERATED ADAPTIVELY SAMPLED DISTANCE FIELDS / [pt] CAMPOS DE DISTÂNCIA AMOSTRADOS ADAPTATIVAMENTE COM ACELERAÇÃO POR PLACA GRÁFICA THIAGO DE ALMEIDA BASTOS 04 September 2008 (has links) [pt] A representação de formas é um problema fundamental em Computação Gráfica. Dentre as representações conhecidas para objetos tridimensionais, os campos de distância amostrados adaptativamente (ADFs) destacam-se por sua versatilidade. ADFs combinam os conceitos de geometria com dados volumétricos, permitem representar objetos com precisão arbitrária, e consolidam diversas operações como visualização, modelagem de níveis de detalhe, detecção de colisão, testes de proximidade, metamorfose e operações booleanas em uma única representação. Este trabalho propõe métodos para acelerar a reconstrução de ADFs estáticas, melhorar a qualidade dos campos reconstruídos, e visualizar iso-superfícies das ADFs, valendo-se do enorme poder computacional encontrado nas placas gráficas modernas (GPUs). Para que as ADFs sejam representadas de forma eficiente em placas gráficas, propõe-se o uso de uma estrutura hierárquica baseada em dispersão espacial perfeita. A renderização de ADFs é feita integralmente pela GPU, utilizando uma técnica de lançamento de raios baseada em traçado por esferas. Uma maneira de tratar as descontinuidades C0 e C1 inerentes às ADFs é sugerida para que o sombreamento das superfícies seja suave. Finalmente, o trabalho propõe um novo método de reconstrução para ADFs, capaz de representar melhor superfícies curvas. Os resultados são apresentados através de aplicações simples de visualização interativa, com ADFs geradas a partir de malhas de triângulos e sólidos primitivos. / [en] Shape representation is a fundamental problem in Computer Graphics. Among known representations for three-dimensional objects, adaptively sampled distance fields (ADFs) are noted for their versatility. ADFs combine the concepts of geometry with volume data, allow objects to be represented with arbitrary precision, and consolidate several operations - such as visualization, level-of-detail modeling, collision detection, proximity tests, morphing and boolean operations \| into a single representation. This work proposes methods to accelerate the reconstruction of static ADFs, to improve the quality of reconstructed fields, and to visualize ADF isosurfaces, making use of the massive computational power found in modern graphics hardware (GPUs). In order to effciently represent ADFs on graphics cards, a hierarchical structure based on perfect spatial hashing is proposed. Rendering of ADFs is done completely on GPUs, using a ray casting technique based on sphere tracing. Means to overcome the C0 and C1 discontinuities inherent to ADFs are suggested in order to attain smoothly shaded iso-surfaces. Finally, a new reconstruction method for ADFs, which can better represent curved surfaces, is proposed. Results are presented through simple interactive visualization applications, with ADFs generated from both triangle meshes and primitive solids. [pt] RENDERIZACAO [en] RENDERING [pt] PROGRAMACAO EM PLACAS GRAFICAS [en] GPU PROGRAMMING
226	A GPU Accelerated Discontinuous Galerkin Conservative Level Set Method for Simulating Atomization January 2015 (has links) abstract: This dissertation describes a process for interface capturing via an arbitrary-order, nearly quadrature free, discontinuous Galerkin (DG) scheme for the conservative level set method (Olsson et al., 2005, 2008). The DG numerical method is utilized to solve both advection and reinitialization, and executed on a refined level set grid (Herrmann, 2008) for effective use of processing power. Computation is executed in parallel utilizing both CPU and GPU architectures to make the method feasible at high order. Finally, a sparse data structure is implemented to take full advantage of parallelism on the GPU, where performance relies on well-managed memory operations. With solution variables projected into a kth order polynomial basis, a k+1 order convergence rate is found for both advection and reinitialization tests using the method of manufactured solutions. Other standard test cases, such as Zalesak's disk and deformation of columns and spheres in periodic vortices are also performed, showing several orders of magnitude improvement over traditional WENO level set methods. These tests also show the impact of reinitialization, which often increases shape and volume errors as a result of level set scalar trapping by normal vectors calculated from the local level set field. Accelerating advection via GPU hardware is found to provide a 30x speedup factor comparing a 2.0GHz Intel Xeon E5-2620 CPU in serial vs. a Nvidia Tesla K20 GPU, with speedup factors increasing with polynomial degree until shared memory is filled. A similar algorithm is implemented for reinitialization, which relies on heavier use of shared and global memory and as a result fills them more quickly and produces smaller speedups of 18x. / Dissertation/Thesis / Doctoral Dissertation Aerospace Engineering 2015 Aerospace engineering atomization discontinuous Galerkin GPU HPC level set multiphase
227	Analysis and Performance Optimization of a GPGPU Implementation of Image Quality Assessment (IQA) Algorithm VSNR January 2017 (has links) abstract: Image processing has changed the way we store, view and share images. One important component of sharing images over the networks is image compression. Lossy image compression techniques compromise the quality of images to reduce their size. To ensure that the distortion of images due to image compression is not highly detectable by humans, the perceived quality of an image needs to be maintained over a certain threshold. Determining this threshold is best done using human subjects, but that is impractical in real-world scenarios. As a solution to this issue, image quality assessment (IQA) algorithms are used to automatically compute a fidelity score of an image. However, poor performance of IQA algorithms has been observed due to complex statistical computations involved. General Purpose Graphics Processing Unit (GPGPU) programming is one of the solutions proposed to optimize the performance of these algorithms. This thesis presents a Compute Unified Device Architecture (CUDA) based optimized implementation of full reference IQA algorithm, Visual Signal to Noise Ratio (VSNR) that uses M-level 2D Discrete Wavelet Transform (DWT) with 9/7 biorthogonal filters among other statistical computations. The presented implementation is tested upon four different image quality databases containing images with multiple distortions and sizes ranging from 512 x 512 to 1600 x 1280. The CUDA implementation of VSNR shows a speedup of over 32x for 1600 x 1280 images. It is observed that the speedup scales with the increase in size of images. The results showed that the implementation is fast enough to use VSNR on high definition videos with a frame rate of 60 fps. This work presents the optimizations made due to the use of GPU’s constant memory and reuse of allocated memory on the GPU. Also, it shows the performance improvement using profiler driven GPGPU development in CUDA. The presented implementation can be deployed in production combined with existing applications. / Dissertation/Thesis / Masters Thesis Computer Science 2017 Computer science Computer engineering GPU Computing Image Quality Assessment
228	Uma solução paralela de agrupamento de dados em GPU / A clustering parallel solution on GPU Souza, Thiago Alexandre Domingues de [UNESP] 12 May 2017 (has links) Submitted by Thiago Alexandre Domingues de Souza null (thi.alex@gmail.com) on 2017-06-13T21:07:36Z No. of bitstreams: 1 dissertacao_thiago_final.pdf: 4785471 bytes, checksum: 3e37f93660d9b1fa3f368341de0bfdcd (MD5) / Rejected by Luiz Galeffi (luizgaleffi@gmail.com), reason: Solicitamos que realize uma nova submissão seguindo a orientação abaixo: A ficha catalográfica deve ser inserida na página subsequente à folha de rosto. Corrija esta informação e realize uma nova submissão com o arquivo correto. Agradecemos a compreensão. on 2017-06-19T13:20:07Z (GMT) / Submitted by Thiago Alexandre Domingues de Souza null (thi.alex@gmail.com) on 2017-06-19T14:07:52Z No. of bitstreams: 1 dissertacao_thiago_final.pdf: 4785471 bytes, checksum: 3e37f93660d9b1fa3f368341de0bfdcd (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-06-19T14:17:58Z (GMT) No. of bitstreams: 1 souza_tad_me_sjrp.pdf: 4785471 bytes, checksum: 3e37f93660d9b1fa3f368341de0bfdcd (MD5) / Made available in DSpace on 2017-06-19T14:17:58Z (GMT). No. of bitstreams: 1 souza_tad_me_sjrp.pdf: 4785471 bytes, checksum: 3e37f93660d9b1fa3f368341de0bfdcd (MD5) Previous issue date: 2017-05-12 / A indústria de tecnologia da informação tem permitido uma explosão de dados coletados nos últimos anos. Isso ocorreu, entre outros fatores, pela expansão do acesso à rede por meio de uma infinidade de equipamentos. Uma análise detalhada dos dados armazenados pode, por exemplo, extrair informações valiosas sobre o comportamento dos indivíduos, permitindo uma relação personalizada de acordo com os interesses dos usuários. Essa tarefa pode ser feita usando algoritmos de agrupamento de dados. Porém, esse é um processo que requer grande esforço computacional tanto pela ordem de complexidade dos algoritmos existentes como pelos crescentes volumes processados. Nesse contexto, execuções sequenciais não são viáveis e sua paralelização é o caminho natural. Isso exige remodelar algoritmos para explorar o potencial de plataformas massivamente paralelas, de acordo com as particularidades da arquitetura alvo. Neste trabalho se propõe uma implementação paralela do algoritmo Fuzzy Minimals para GPU, como uma solução de alto desempenho e baixo custo para contornar dificuldades frequentes no agrupamento de dados. Com o objetivo de avaliar o desempenho de nossa solução, também desenvolvemos versões paralelas em MPI e OpenMP. Nossos experimentos mostram que a solução para GPU alcança resultados expressivos com um baixo custo, mantendo uma precisão significativa. / IT industry has witnessed an explosion of data collected for the past few years. This took place, among other factors, due to the expansion of network access through several devices. For example, a detailed analysis of the stored data can extract some valuable information about human behaviors, allowing a customized experience that matches the interests of users . This task can be performed by clustering algorithms. However, this is a time-consuming process due to the asymptotic complexity of existing algorithms and the increasing volumes of data processed. In this context, sequential executions are not feasible and their parallelization is the natural path. This requires redesigning algorithms to take advantage of massively parallel platforms according to the particularities of targeted architectures. In this paper, it is proposed a novel parallel implementation of the Fuzzy Minimals algorithm on GPU, as a high-performance lowcost solution for common clustering issues. In order to evaluate the performance of our implementation, we have also designed parallel versions using MPI and OpenMP. Our experiments show that our parallel solution on GPU can achieve a high performance at a low cost, preserving a significant accuracy. Agrupamento de dados Algoritmos paralelos Lógica fuzzy GPU Clustering Parallel
229	Procedurally Generated Lightning Bolts Using Tessellation and Stream-Output : A GPU Based Approach Johansson, Tobias January 2016 (has links) No description available. Tessellation GPU Lightning Weather effects Computer and Information Sciences Data- och informationsvetenskap
230	Estruturas de aceleração para Ray Tracing em tempo real: um estudo comparativo Lira dos Santos, Artur 31 January 2011 (has links) Made available in DSpace on 2014-06-12T16:00:50Z (GMT). No. of bitstreams: 2 arquivo6997_1.pdf: 3788091 bytes, checksum: cf9480da9819849e38359e4e9a2bb074 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2011 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / O poder computacional atual das GPUs possibilita a execução de complexos algoritmos massivamente paralelos, como algoritmos de busca em estruturas de dados específicas para ray tracing em tempo real, comumente conhecidas como estruturas de aceleração. Esta dissertação descreve em detalhes o estudo e implementação de dezesseis diferentes algoritmos de travessia de estruturas de aceleração, utilizando o framework de CUDA, da NVIDIA. Este estudo comparativo teve o intuito de determinar as vantagens e desvantagens de cada técnica, em termos de performance, consumo de memória, grau de divergência em desvios e escalabilidade em múltiplas GPUs. Uma nova estrutura de aceleração, chamada Sparse Box Grid, também é proposta, além de dois novos algoritmos de busca, focando em melhoria de performance. Tais algoritmos são capazes de alcançar speedups de até 2.5x quando comparado com implementações recentes de travessias em GPU. Como consequência, é possível obter simulação em tempo real de cenas com milhões de primitivas para imagens com 1408x768 de resolução Ray tracing GPU Estruturas de aceleração Sparse box grid RT2

Search results