Global ETD Search

551	Inexact Mapping of Short Biological Sequences in High Performance Computational Environments Salavert Torres, José 30 October 2014 (has links) La bioinformática es la aplicación de las ciencias computacionales a la gestión y análisis de datos biológicos. A partir de 2005, con la aparición de los secuenciadores de ADN de nueva generación surge lo que se conoce como Next Generation Sequencing o NGS. Un único experimento biológico puesto en marcha en una máquina de secuenciación NGS puede producir fácilmente cientos de gigabytes o incluso terabytes de datos. Dependiendo de la técnica elegida este proceso puede realizarse en unas pocas horas o días. La disponibilidad de recursos locales asequibles, tales como los procesadores multinúcleo o las nuevas tarjetas gráfi cas preparadas para el cálculo de propósito general GPGPU (General Purpose Graphic Processing Unit ), constituye una gran oportunidad para hacer frente a estos problemas. En la actualidad, un tema abordado con frecuencia es el alineamiento de secuencias de ADN. En bioinformática, el alineamiento permite comparar dos o más secuencias de ADN, ARN, o estructuras primarias proteicas, resaltando sus zonas de similitud. Dichas similitudes podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. Además, la existencia de similitudes entre las secuencias de un individuo paciente y de otro individuo con una enfermedad genética detectada podría utilizarse de manera efectiva en el campo de la medicina diagnóstica. El problema en torno al que gira el desarrollo de la tesis doctoral consiste en la localización de fragmentos de secuencia cortos dentro del ADN. Esto se conoce bajo el sobrenombre de mapeo de secuencia o sequence mapping. Dicho mapeo debe permitir errores, pudiendo mapear secuencias incluso existiendo variabilidad genética o errores de lectura en el mapeo. Existen diversas técnicas para abordar el mapeo, pero desde la aparición de la NGS destaca la búsqueda por pre jos indexados y agrupados mediante la transformada de Burrows-Wheeler [28] (o BWT en lo sucesivo). Dicha transformada se empleó originalmente en técnicas de compresión de datos, como es el caso del algoritmo bzip2. Su utilización como herramienta para la indización y búsqueda posterior de información es más reciente [22]. La ventaja es que su complejidad computacional depende únicamente de la longitud de la secuencia a mapear. Por otra parte, una gran cantidad de técnicas de alineamiento se basan en algoritmos de programación dinámica, ya sea Smith-Watterman o modelos ocultos de Markov. Estos proporcionan mayor sensibilidad, permitiendo mayor cantidad de errores, pero su coste computacional es mayor y depende del tamaño de la secuencia multiplicado por el de la cadena de referencia. Muchas herramientas combinan una primera fase de búsqueda con la BWT de regiones candidatas al alineamiento y una segunda fase de alineamiento local en la que se mapean cadenas con Smith-Watterman o HMM. Cuando estamos mapeando permitiendo pocos errores, una segunda fase con un algoritmo de programación dinámica resulta demasiado costosa, por lo que una búsqueda inexacta basada en BWT puede resultar más e ficiente. La principal motivación de la tesis doctoral es la implementación de un algoritmo de búsqueda inexacta basado únicamente en la BWT, adaptándolo a las arquitecturas paralelas modernas, tanto en CPU como en GPGPU. El algoritmo constituirá un método nuevo de rami cación y poda adaptado a la información genómica. Durante el periodo de estancia se estudiarán los Modelos ocultos de Markov y se realizará una implementación sobre modelos de computación funcional GTA (Aggregate o Test o Generate), así como la paralelización en memoria compartida y distribuida de dicha plataforma de programación funcional. / Salavert Torres, J. (2014). Inexact Mapping of Short Biological Sequences in High Performance Computational Environments [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/43721 / TESIS Inexact mapping Backward search BWT Burrows-Wheeler Transform Suffix Array GPGPU GPU
552	Effi cient algorithms for iterative detection and decoding in Multiple-Input and Multiple-Output Communication Systems Simarro Haro, Mª de los Angeles 01 September 2017 (has links) This thesis fits into the Multiple-Input Multiple-Output (MIMO) communication systems. Nowadays, these schemes are the most promising technology in the field of wireless communications. The use of this technology allows to increase the rate and the quality of the transmission through the use of multiple antennas at the transmitter and receiver sides. Furthermore, the MIMO technology can also be used in a multiuser scenario, where a Base Station (BS) equipped with several antennas serves several users that share the spatial dimension causing interference. However, employing precoding algorithms the signal of the multiuser interference can be mitigated. For these reasons, the MIMO technology has become an essential key in many new generation communications standards. On the other hand, Massive MIMO technology or Large MIMO, where the BS is equipped with very large number of antennas (hundreds or thousands) serves many users in the same time-frequency resource. Nevertheless, the advantages provided by the MIMO technology entail a substantial increase in the computational cost. Therefore the design of low-complexity receivers is an important issue which is tackled throughout this thesis. To this end, one of the main contributions of this dissertation is the implementation of efficient soft-output detectors and precoding schemes. First, the problem of efficient soft detection with no iteration at the receiver has been addressed. A detailed overview of the most employed soft detectors is provided. Furthermore, the complexity and performance of these methods are evaluated and compared. Additionally, two low-complexity algorithms have been proposed. The first algorithm is based on the efficient Box Optimization Hard Detector (BOHD) algorithm and provides a low-complexity implementation achieving a suitable performance. The second algorithm tries to reduce the computational cost of the Subspace Marginalization with Interference Suppression (SUMIS) algorithm. Second, soft-input soft-output (SISO) detectors, which are included in an iterative receiver structure, have been investigated. An iterative receiver improves the performance with respect to no iteration, achieving a performance close to the channel capacity. In contrast, its computational cost becomes prohibitive. In this context, three algorithms are presented. Two of them achieve max-log performance reducing the complexity of standard SISO detectors. The last one achieves near max-log performance with low complexity. The precoding problem has been addressed in the third part of this thesis. An analysis of some of the most employed precoding techniques has been carried out. The algorithms have been compared in terms of performance and complexity. In this context, the impact of the channel matrix condition number on the performance of the precoders has been analyzed. This impact has been exploited to propose an hybrid precoding scheme that reduces the complexity of the previously proposed precoders. In addition, in Large MIMO systems, an alternative precoder scheme is proposed. In the last part of the thesis, parallel implementations of the SUMIS algorithm are presented. Several strategies for the parallelization of the algorithm are proposed and evaluated on two different platforms: multicore central processing unit (CPU) and graphics processing unit (GPU). The parallel implementations achieve a significant speedup compared to the CPU version. Therefore, these implementations allow to simulate a scalable quasi optimal soft detector in a Large MIMO system much faster than by conventional simu / La presente tesis se enmarca dentro de los sistemas de comunicaciones de múltiples antenas o sistemas MIMO. Hoy en día, estos sistemas presentan una de las tecnologías más prometedoras dentro de los sistemas comunicaciones inalámbricas. A través del uso de múltiples antenas en ambos lados, transmisor y receptor, la tasa de transmisión y la calidad de la misma es aumentada. Por otro lado, la tecnología MIMO puede ser utilizada en un escenario multiusuario, donde una estación base (BS) la cual está equipada con varias antenas, sirve a varios usuarios al mismo tiempo, estos usuarios comparten dimensión espacial causando interferencias multiusuario. Por todas estas razones, la tecnología MIMO ha sido adoptada en muchos de los estándares de comunicaciones de nueva generación. Por otro lado, la tecnología MIMO Masivo, en la cual la estación base está equipada con un gran número de antenas (cientos o miles) que sirve a muchos usuarios en el mismo recurso de tiempo-frecuencia. Sin embargo, las ventajas proporcionadas por los sistemas MIMO implican un aumento en el coste computacional requerido. Por ello, el diseño de receptores de baja complejidad es una cuestión importante en estos sistemas. Para conseguir esta finalidad, las principales contribuciones de la tesis se basan en la implementación de algoritmos de detección soft y esquemas de precodificación eficientes. En primer lugar, el problema de la detección soft eficiente en un sistema receptor sin iteración es abordado. Una descripción detallada sobre los detectores soft más empleados es presentada. Por otro lado, han sido propuestos dos algoritmos de bajo coste. El primer algoritmo está basado en el algoritmo Box Optimization Hard Detector (BOHD) y proporciona una baja complejidad de implementación logrando un buen rendimiento. El segundo de los algoritmos propuestos intenta reducir el coste computacional del conocido algoritmo Subspace Marginalization with Interference Suppression (SUMIS). En segundo lugar, han sido investidados detectores de entrada y salida soft (SISO, soft-input soft-output) los cuales son ejecutados en estructuras de recepción iterativa. El empleo de un receptor iterativo mejora el rendimiento del sistema con respecto a no realizar realimentación, pudiendo lograr la capacidad óptima. Por el contrario, el coste computacional se vuelve prohibitivo. En este contexto, tres algoritmos han sido presentados. Dos de ellos logran un rendimiento óptimo, reduciendo la complejidad de los detectores SISO óptimos que normalmente son empleados. Por el contrario, el otro algoritmo logra un rendimiento casi óptimo a baja complejidad. En la tercera parte, se ha abordado el problema de la precodificación. Se ha llevado a cabo un análisis de algunas de las técnicas de precodificación más usadas. En este contexto, se ha evaluado el impacto que el número de condición de la matriz de canal tiene en el rendimiento de los precodificadores. Además, se ha aprovechado este impacto para proponer un precodificador hibrido. Por otro lado, en MIMO Masivo, se ha propuesto un esquema precodificador. En la última parte de la tesis, la implementación paralela del algoritmo SUMIS es presentada. Varias estrategias sobre la paralelización del algoritmo han sido propuestas y evaluadas en dos plataformas diferentes: Unidad Central de Procesamiento multicore (multicore CPU) y Unidad de Procesamiento Gráfico (GPU). Las implementaciones paralelas consiguen una mejora de speedup. Estas implementaciones permiten simular para MIMO Masivo y de forma más rápida que por simulación convencional, un algo / La present tesi s'emmarca dins dels sistemes de comunicacions de múltiples antenes o sistemes MIMO. Avui dia, aquestos sistemes presenten una de les tecnologies més prometedora dins dels sistemes de comunicacions inalàmbriques. A través de l'ús de múltiples antenes en tots dos costats, transmissor y receptor, es pot augmentar la taxa de transmissió i la qualitat de la mateixa. D'altra banda, la tecnologia MIMO es pot utilitzar en un escenari multiusuari, on una estació base (BS) la qual està equipada amb diverses antenes serveix a diversos usuaris al mateix temps, aquests usuaris comparteixen dimensió espacial causant interferències multiusuari. Per totes aquestes raons, la tecnologia MIMO ha sigut adoptada en molts dels estàndars de comunicacions de nova generació. D'altra banda, la tecnologia MIMO Massiu, en la qual l'estació base està equipada amb un gran nombre d'antenes (centenars o milers) que serveix a molts usuaris en el mateix recurs de temps-freqüència. No obstant això, els avantatges proporcionats pels sistemes MIMO impliquen un augment en el cost computacional requerit. Per això, el disseny de receptors de baixa complexitat és una qüestió important en aquests sistemes. Per tal d'aconseguir esta finalitat, les principals contribucions de la tesi es basen en la implementació d'algoritmes de detecció soft i esquemes de precodificació eficients. En primer lloc, és abordat el problema de la detecció soft eficient en un sistema receptor sense interacció. Una descripció detallada dels detectors soft més emprats és presentada. D'altra banda, han sigut proposats dos algorismes de baix cost. El primer algorisme està basat en l'algorisme Box Optimization Hard Decoder (BOHD) i proporciona una baixa complexitat d'implementació aconseguint un bon resultat. El segon dels algorismes proposats intenta reduir el cost computacional del conegut algoritme Subspace Marginalization with Interference Suppression (SUMIS). En segon lloc, detectors d'entrada i eixidia soft (SISO, soft-input soft-output) els cuals són executats en estructures de recepció iterativa han sigut investigats. L'ocupació d'un receptor iteratiu millora el rendiment del sistema pel que fa a no realitzar realimentació, podent aconseguir la capacitat òptima. Per contra, el cost computacional es torna prohibitiu. En aquest context, tres algorismes han sigut presentats. Dos d'ells aconsegueixen un rendiment òptim, reduint la complexitat dels detectors SISO òptims que normalment són emprats. Per contra, l'altre algorisme aconsegueix un rendiment quasi òptim a baixa complexitat. En la tercera part, s'ha abordat el problema de la precodificació. S'ha dut a terme una anàlisi d'algunes de les tècniques de precodificació més usades, prestant especial atenció al seu rendiment i a la seua complexitat. Dins d'aquest context, l'impacte que el nombre de condició de la matriu de canal té en el rendiment dels precodificadors ha sigut avaluat. A més, aquest impacte ha sigut aprofitat per a proposar un precodificador híbrid , amb la finalitat de reduir la complexitat d'algorismes prèviament proposats. D'altra banda, en MIMO Massiu, un esquema precodificador ha sigut proposat. En l'última part, la implementació paral·lela de l'algorisme SUMIS és presentada. Diverses estratègies sobre la paral·lelizació de l'algorisme han sigut proposades i avaluades en dues plataformes diferents: multicore CPU i GPU. Les implementacions paral·leles aconsegueixen una millora de speedup quan el nombre d'àntenes o l'ordre de la constel·lació incrementen. D'aquesta manera, aquestes implementacions permeten simular per a MIMO Massiu, i de forma més ràpida que la simulació convencional. / Simarro Haro, MDLA. (2017). Effi cient algorithms for iterative detection and decoding in Multiple-Input and Multiple-Output Communication Systems [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86186 / TESIS detección MIMO Sphere Decoding GPU Box Optimization Eficiencia Precodificación INGENIERIA TELEMATICA TEORIA DE LA SEÑAL Y COMUNICACIONES
553	Dense and sparse parallel linear algebra algorithms on graphics processing units Lamas Daviña, Alejandro 13 November 2018 (has links) Una línea de desarrollo seguida en el campo de la supercomputación es el uso de procesadores de propósito específico para acelerar determinados tipos de cálculo. En esta tesis estudiamos el uso de tarjetas gráficas como aceleradores de la computación y lo aplicamos al ámbito del álgebra lineal. En particular trabajamos con la biblioteca SLEPc para resolver problemas de cálculo de autovalores en matrices de gran dimensión, y para aplicar funciones de matrices en los cálculos de aplicaciones científicas. SLEPc es una biblioteca paralela que se basa en el estándar MPI y está desarrollada con la premisa de ser escalable, esto es, de permitir resolver problemas más grandes al aumentar las unidades de procesado. El problema lineal de autovalores, Ax = lambda x en su forma estándar, lo abordamos con el uso de técnicas iterativas, en concreto con métodos de Krylov, con los que calculamos una pequeña porción del espectro de autovalores. Este tipo de algoritmos se basa en generar un subespacio de tamaño reducido (m) en el que proyectar el problema de gran dimensión (n), siendo m << n. Una vez se ha proyectado el problema, se resuelve este mediante métodos directos, que nos proporcionan aproximaciones a los autovalores del problema inicial que queríamos resolver. Las operaciones que se utilizan en la expansión del subespacio varían en función de si los autovalores deseados están en el exterior o en el interior del espectro. En caso de buscar autovalores en el exterior del espectro, la expansión se hace mediante multiplicaciones matriz-vector. Esta operación la realizamos en la GPU, bien mediante el uso de bibliotecas o mediante la creación de funciones que aprovechan la estructura de la matriz. En caso de autovalores en el interior del espectro, la expansión requiere resolver sistemas de ecuaciones lineales. En esta tesis implementamos varios algoritmos para la resolución de sistemas de ecuaciones lineales para el caso específico de matrices con estructura tridiagonal a bloques, que se ejecutan en GPU. En el cálculo de las funciones de matrices hemos de diferenciar entre la aplicación directa de una función sobre una matriz, f(A), y la aplicación de la acción de una función de matriz sobre un vector, f(A)b. El primer caso implica un cálculo denso que limita el tamaño del problema. El segundo permite trabajar con matrices dispersas grandes, y para resolverlo también hacemos uso de métodos de Krylov. La expansión del subespacio se hace mediante multiplicaciones matriz-vector, y hacemos uso de GPUs de la misma forma que al resolver autovalores. En este caso el problema proyectado comienza siendo de tamaño m, pero se incrementa en m en cada reinicio del método. La resolución del problema proyectado se hace aplicando una función de matriz de forma directa. Nosotros hemos implementado varios algoritmos para calcular las funciones de matrices raíz cuadrada y exponencial, en las que el uso de GPUs permite acelerar el cálculo. / One line of development followed in the field of supercomputing is the use of specific purpose processors to speed up certain types of computations. In this thesis we study the use of graphics processing units as computer accelerators and apply it to the field of linear algebra. In particular, we work with the SLEPc library to solve large scale eigenvalue problems, and to apply matrix functions in scientific applications. SLEPc is a parallel library based on the MPI standard and is developed with the premise of being scalable, i.e. to allow solving larger problems by increasing the processing units. We address the linear eigenvalue problem, Ax = lambda x in its standard form, using iterative techniques, in particular with Krylov's methods, with which we calculate a small portion of the eigenvalue spectrum. This type of algorithms is based on generating a subspace of reduced size (m) in which to project the large dimension problem (n), being m << n. Once the problem has been projected, it is solved by direct methods, which provide us with approximations of the eigenvalues of the initial problem we wanted to solve. The operations used in the expansion of the subspace vary depending on whether the desired eigenvalues are from the exterior or from the interior of the spectrum. In the case of searching for exterior eigenvalues, the expansion is done by matrix-vector multiplications. We do this on the GPU, either by using libraries or by creating functions that take advantage of the structure of the matrix. In the case of eigenvalues from the interior of the spectrum, the expansion requires solving linear systems of equations. In this thesis we implemented several algorithms to solve linear systems of equations for the specific case of matrices with a block-tridiagonal structure, that are run on GPU. In the computation of matrix functions we have to distinguish between the direct application of a matrix function, f(A), and the action of a matrix function on a vector, f(A)b. The first case involves a dense computation that limits the size of the problem. The second allows us to work with large sparse matrices, and to solve it we also make use of Krylov's methods. The expansion of subspace is done by matrix-vector multiplication, and we use GPUs in the same way as when solving eigenvalues. In this case the projected problem starts being of size m, but it is increased by m on each restart of the method. The solution of the projected problem is done by directly applying a matrix function. We have implemented several algorithms to compute the square root and the exponential matrix functions, in which the use of GPUs allows us to speed up the computation. / Una línia de desenvolupament seguida en el camp de la supercomputació és l'ús de processadors de propòsit específic per a accelerar determinats tipus de càlcul. En aquesta tesi estudiem l'ús de targetes gràfiques com a acceleradors de la computació i ho apliquem a l'àmbit de l'àlgebra lineal. En particular treballem amb la biblioteca SLEPc per a resoldre problemes de càlcul d'autovalors en matrius de gran dimensió, i per a aplicar funcions de matrius en els càlculs d'aplicacions científiques. SLEPc és una biblioteca paral·lela que es basa en l'estàndard MPI i està desenvolupada amb la premissa de ser escalable, açò és, de permetre resoldre problemes més grans en augmentar les unitats de processament. El problema lineal d'autovalors, Ax = lambda x en la seua forma estàndard, ho abordem amb l'ús de tècniques iteratives, en concret amb mètodes de Krylov, amb els quals calculem una xicoteta porció de l'espectre d'autovalors. Aquest tipus d'algorismes es basa a generar un subespai de grandària reduïda (m) en el qual projectar el problema de gran dimensió (n), sent m << n. Una vegada s'ha projectat el problema, es resol aquest mitjançant mètodes directes, que ens proporcionen aproximacions als autovalors del problema inicial que volíem resoldre. Les operacions que s'utilitzen en l'expansió del subespai varien en funció de si els autovalors desitjats estan en l'exterior o a l'interior de l'espectre. En cas de cercar autovalors en l'exterior de l'espectre, l'expansió es fa mitjançant multiplicacions matriu-vector. Aquesta operació la realitzem en la GPU, bé mitjançant l'ús de biblioteques o mitjançant la creació de funcions que aprofiten l'estructura de la matriu. En cas d'autovalors a l'interior de l'espectre, l'expansió requereix resoldre sistemes d'equacions lineals. En aquesta tesi implementem diversos algorismes per a la resolució de sistemes d'equacions lineals per al cas específic de matrius amb estructura tridiagonal a blocs, que s'executen en GPU. En el càlcul de les funcions de matrius hem de diferenciar entre l'aplicació directa d'una funció sobre una matriu, f(A), i l'aplicació de l'acció d'una funció de matriu sobre un vector, f(A)b. El primer cas implica un càlcul dens que limita la grandària del problema. El segon permet treballar amb matrius disperses grans, i per a resoldre-ho també fem ús de mètodes de Krylov. L'expansió del subespai es fa mitjançant multiplicacions matriu-vector, i fem ús de GPUs de la mateixa forma que en resoldre autovalors. En aquest cas el problema projectat comença sent de grandària m, però s'incrementa en m en cada reinici del mètode. La resolució del problema projectat es fa aplicant una funció de matriu de forma directa. Nosaltres hem implementat diversos algorismes per a calcular les funcions de matrius arrel quadrada i exponencial, en les quals l'ús de GPUs permet accelerar el càlcul. / Lamas Daviña, A. (2018). Dense and sparse parallel linear algebra algorithms on graphics processing units [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/112425 / TESIS Parallel computing, GPU MPI Eigenproblems Linear systems Matrix functions SLEPc
554	HPC algorithms for nonnegative decompositions San Juan Sebastián, Pablo 26 November 2018 (has links) Muchos problemas procedentes de aplicaciones del mundo real pueden ser modelados como problemas matemáticos con magnitudes no negativas, y por tanto, las soluciones de estos problemas matemáticos solo tienen sentido si son no negativas. Estas magnitudes no negativas pueden ser, por ejemplo, las frecuencias en una señal sonora, las intensidades de los pixeles de una imagen, etc. Algunos de estos problemas pueden ser modelados utilizando un sistema de ecuaciones lineales sobredeterminado. Cuando la solución de dicho problema debe ser restringida a valores no negativos, aparece un problema llamado problema de mínimos cuadrados no negativos (NNLS por sus siglas en inglés). La solución de dicho problema tiene múltiples aplicaciones en ciencia e ingeniería. Otra descomposición no negativa importante es la Factorización de Matrices No negativas (NMF por sus siglas en inglés). La NMF es una herramienta muy popular utilizada en varios campos, como por ejemplo: clasificación de documentos, aprendizaje automático, análisis de imagen o separación de señales sonoras. Esta factorización intenta aproximar una matriz no negativa con el producto de dos matrices no negativas de menor tamaño, creando habitualmente representaciones por partes de los datos originales. Los algoritmos diseñados para calcular la solución de estos dos problemas no negativos tienen un elevado coste computacional, y debido a ese elevado coste, estas descomposiciones pueden beneficiarse mucho del uso de técnicas de Computación de Altas Prestaciones (HPC por sus siglas en inglés). Estos sistemas computacionales de altas prestaciones incluyen desde los modernos computadores multinucleo a lo último en aceleradores de calculo (Unidades de Procesamiento Gráfico (GPU), Intel Many Integrated Core (MIC), etc.). Para obtener el máximo rendimiento de estos sistemas, los desarrolladores deben utilizar tecnologías software tales como la programación paralela, la vectoración o el uso de librerías de computación altas prestaciones. A pesar de que existen diversos algoritmos para calcular la NMF y resolver el problema NNLS, no todos ellos disponen de una implementación paralela y eficiente. Además, es muy interesante reunir diversos algoritmos con propiedades diferentes en una sola librería computacional. Esta tesis presenta una librería computacional de altas prestaciones que contiene implementaciones paralelas y eficientes de los mejores algoritmos existentes actualmente para calcular la NMF. Además la tesis también incluye una comparación experimental entre las diferentes implementaciones presentadas. Esta librería centrada en el cálculo de la NMF soporta múltiples arquitecturas tales como CPUs multinucleo, GPUs e Intel MIC. El objetivo de esta librería es ofrecer un abanico de algoritmos eficientes para ayudar a científicos, ingenieros o cualquier tipo de profesionales que necesitan hacer uso de la NMF. Otro problema abordado en esta tesis es la actualización de las factorizaciones no negativas. El problema de la actualización se ha estudiado tanto para la solución del problema NNLS como para el calculo de la NMF. Existen problemas no negativos cuya solución es próxima a otros problemas que ya han sido resueltos, el problema de la actualización consiste en aprovechar la solución de un problema A que ya ha sido resuelto, para obtener la solución de un problema B cercano al problema A. Utilizando esta aproximación, el problema B puede ser resuelto más rápido que si se tuviera que resolver sin aprovechar la solución conocida del problema A. En esta tesis se presenta una metodología algorítmica para resolver ambos problemas de actualización: la actualización de la solución del problema NNLS y la actualización de la NMF. Además se presentan evaluaciones empíricas de las soluciones presentadas para ambos problemas. Los resultados de estas evaluaciones muestran que los algoritmos propuestos son más rápidos que reso / Molts problemes procedents de aplicacions del mon real poden ser modelats com problemes matemàtics en magnituts no negatives, i per tant, les solucions de estos problemes matemàtics només tenen sentit si son no negatives. Estes magnituts no negatives poden ser, per eixemple, la concentració dels elements en un compost químic, les freqüències en una senyal sonora, les intensitats dels pixels de una image, etc. Alguns d'estos problemes poden ser modelats utilisant un sistema d'equacions llineals sobredeterminat. Quant la solució de este problema deu ser restringida a valors no negatius, apareix un problema nomenat problema de mínims quadrats no negatius (NNLS per les seues sigles en anglés). La solució de este problema te múltiples aplicacions en ciències i ingenieria. Un atra descomposició no negativa important es la Factorisació de Matrius No negatives(NMF per les seues sigles en anglés). La NMF es una ferramenta molt popular utilisada en diversos camps, com per eixemple: classificacio de documents, aprenentage automàtic, anàlisis de image o separació de senyals sonores. Esta factorisació intenta aproximar una matriu no negativa en el producte de dos matrius no negatives de menor tamany, creant habitualment representacions a parts de les dades originals. Els algoritmes dissenyats per a calcular la solució de estos dos problemes no negatius tenen un elevat cost computacional, i degut a este elevat cost, estes descomposicions poden beneficiar-se molt del us de tècniques de Computació de Altes Prestacions (HPC per les seues sigles en anglés). Estos sistemes de computació de altes prestacions inclouen des dels moderns computadors multinucli a lo últim en acceleradors de càlcul (Unitats de Processament Gràfic (GPU), Intel Many Core (MIC), etc.). Per a obtindre el màxim rendiment de estos sistemes, els desenrolladors deuen utilisar tecnologies software tals com la programació paralela, la vectorisació o el us de llibreries de computació de altes prestacions. A pesar de que existixen diversos algoritmes per a calcular la NMF i resoldre el problema NNLS, no tots ells disponen de una implementació paralela i eficient. Ademés, es molt interessant reunir diversos algoritmes en propietats diferents en una sola llibreria computacional. Esta tesis presenta una llibreria computacional de altes prestacions que conté implementacions paraleles i eficients dels millors algoritmes existents per a calcular la NMF. Ademés, la tesis també inclou una comparació experimental entre les diferents implementacions presentades. Esta llibreria centrada en el càlcul de la NMF soporta diverses arquitectures tals com CPUs multinucli, GPUs i Intel MIC. El objectiu de esta llibreria es oferir una varietat de algoritmes eficients per a ajudar a científics, ingeniers o qualsevol tipo de professionals que necessiten utilisar la NMF. Un atre problema abordat en esta tesis es la actualisació de les factorisacions no negatives. El problema de la actualisació se ha estudiat tant per a la solució del problema NNLS com per a el càlcul de la NMF. Existixen problemes no negatius la solució dels quals es pròxima a atres problemes no negatius que ya han sigut resolts, el problema de la actualisació consistix en aprofitar la solució de un problema A que ya ha sigut resolt, per a obtindre la solució de un problema B pròxim al problema A. Utilisant esta aproximació, el problema B pot ser resolt molt mes ràpidament que si tinguera que ser resolt des de 0 sense aprofitar la solució coneguda del problema A. En esta tesis es presenta una metodologia algorítmica per a resoldre els dos problemes de actualisació: la actualisació de la solució del problema NNLS i la actualisació de la NMF. Ademés es presenten evaluacions empíriques de les solucions presentades per als dos problemes. Els resultats de estes evaluacions mostren que els algoritmes proposts son més ràpits que resoldre el problema des de 0 en tots els / Many real world-problems can be modelled as mathematical problems with nonnegative magnitudes, and, therefore, the solutions of these problems are meaningful only if their values are nonnegative. Examples of these nonnegative magnitudes are the concentration of components in a chemical compound, frequencies in an audio signal, pixel intensities on an image, etc. Some of these problems can be modelled to an overdetermined system of linear equations. When the solution of this system of equations should be constrained to nonnegative values, a new problem arises. This problem is called the Nonnegative Least Squares (NNLS) problem, and its solution has multiple applications in science and engineering, especially for solving optimization problems with nonnegative restrictions. Another important nonnegativity constrained decomposition is the Nonnegative Matrix Factorization (NMF). The NMF is a very popular tool in many fields such as document clustering, data mining, machine learning, image analysis, chemical analysis, and audio source separation. This factorization tries to approximate a nonnegative data matrix with the product of two smaller nonnegative matrices, usually creating parts based representations of the original data. The algorithms that are designed to compute the solution of these two nonnegative problems have a high computational cost. Due to this high cost, these decompositions can benefit from the extra performance obtained using High Performance Computing (HPC) techniques. Nowadays, there are very powerful computational systems that offer high performance and can be used to solve extremely complex problems in science and engineering. From modern multicore CPUs to the newest computational accelerators (Graphics Processing Units(GPU), Intel Many Integrated Core(MIC), etc.), the performance of these systems keeps increasing continuously. To make the most of the hardware capabilities of these HPC systems, developers should use software technologies such as parallel programming, vectorization, or high performance computing libraries. While there are several algorithms for computing the NMF and for solving the NNLS problem, not all of them have an efficient parallel implementation available. Furthermore, it is very interesting to group several algorithms with different properties into a single computational library. This thesis presents a high-performance computational library with efficient parallel implementations of the best algorithms to compute the NMF in the current state of the art. In addition, an experimental comparison between the different implementations is presented. This library is focused on the computation of the NMF supporting multiple architectures like multicore CPUs, GPUs and Intel MIC. The goal of the library is to offer a full suit of algorithms to help researchers, engineers or professionals that need to use the NMF. Another problem that is dealt with in this thesis is the updating of nonnegative decompositions. The updating problem has been studied for both the solution of the NNLS problem and the NMF. Sometimes there are nonnegative problems that are close to other nonnegative problems that have already been solved. The updating problem tries to take advantage of the solution of a problem A, that has already been solved in order to obtain a solution of a new problem B, which is closely related to problem A. With this approach, problem B can be solved faster than solving it from scratch and not taking advantage of the already known solution of problem A. In this thesis, an algorithmic scheme is proposed for both the updating of the solution of NNLS problems and the updating of the NMF. Empirical evaluations for both updating problems are also presented. The results show that the proposed algorithms are faster than solving the problems from scratch in all of the tested cases. / San Juan Sebastián, P. (2018). HPC algorithms for nonnegative decompositions [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/113069 / TESIS NMF NNLS HPC parallel computing nonnegative decompositions computational library GPU
555	Hierarchical Matrix Operations on GPUs Boukaram, Wagih Halim 26 April 2020 (has links) Large dense matrices are ubiquitous in scientific computing, arising from the discretization of integral operators associated with elliptic pdes, Schur complement methods, covariances in spatial statistics, kernel-based machine learning, and numerical optimization problems. Hierarchical matrices are an efficient way for storing the dense matrices of very large dimension that appear in these and related settings. They exploit the fact that the underlying matrices, while formally dense, are data sparse. They have a structure consisting of blocks many of which can be well-approximated by low rank factorizations. A hierarchical organization of the blocks avoids superlinear growth in memory requirements to store n × n dense matrices in a scalable manner, requiring O(n) units of storage with a constant depending on a representative rank k for the low rank blocks. The asymptotically optimal storage requirement of the resulting hierarchical matrices is a critical advantage, particularly in extreme computing environments, characterized by low memory per processing core. The challenge then becomes to develop the parallel linear algebra operations that can be performed directly on this compressed representation. In this dissertation, I implement a set of hierarchical basic linear algebra subroutines (HBLAS) optimized for GPUs, including hierarchical matrix vector multiplication, orthogonalization, compression, low rank updates, and matrix multiplication. I develop a library of open source batched kernel operations previously missing on GPUs for the high performance implementation of the H2 operations, while relying wherever possible on existing open source and vendor kernels to ride future improvements in the technology. Fast marshaling routines extract the batch operation data from an efficient representation of the trees that compose the hierarchical matrices. The methods developed for GPUs extend to CPUs using the same code base with simple abstractions around the batched routine execution. To demonstrate the scalability of the hierarchical operations I implement a distributed memory multi-GPU hierarchical matrix vector product that focuses on reducing communication volume and hiding communication overhead and areas of low GPU utilization using low priority streams. Two demonstrations involving Hessians of inverse problems governed by pdes and space-fractional diffusion equations show the effectiveness of the hierarchical operations in realistic applications. Hierarchical Matrices Linear Algebra GPU Batched Algorithms Matrix Compression Randomized Algorithms
556	GPU Computing Aiming at Vortex Filament Evolution / 渦糸運動の解析のためのGPU数値計算の研究 Lee, Yu-Hsun 24 September 2021 (has links) 京都大学 / 新制・課程博士 / 博士(情報学) / 甲第23544号 / 情博第774号 / 新制\|\|情\|\|132(附属図書館) / 京都大学大学院情報学研究科先端数理科学専攻 / (主査)准教授藤原宏志, 教授磯祐介, 教授田口智清 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM GPU Computing Parallel Computation Vortex Filament Biot-Savart Law Numerical Reliability 007
557	GPUMap: A Transparently GPU-Accelerated Map Function Pachev, Ivan 01 March 2017 (has links) As GPGPU computing becomes more popular, it will be used to tackle a wider range of problems. However, due to the current state of GPGPU programming, programmers are typically required to be familiar with the architecture of the GPU in order to effectively program it. Fortunately, there are software packages that attempt to simplify GPGPU programming in higher-level languages such as Java and Python. However, these software packages do not attempt to abstract the GPU-acceleration process completely. Instead, they require programmers to be somewhat familiar with the traditional GPGPU programming model which involves some understanding of GPU threads and kernels. In addition, prior to using these software packages, programmers are required to transform the data they would like to operate on into arrays of primitive data. Typically, such software packages restrict the use of object-oriented programming when implementing the code to operate on this data. This thesis presents GPUMap, which is a proof-of-concept GPU-accelerated map function for Python. GPUMap aims to hide all the details of the GPU from the programmer, and allows the programmer to accelerate programs written in normal Python code that operate on arbitrarily nested objects using a majority of Python syntax. Using GPUMap, certain types of Python programs are able to be accelerated up to 100 times over normal Python code. There are also software packages that provide simplified GPU acceleration to distributed computing frameworks such as MapReduce and Spark. Unfortunately, these packages do not provide a completely abstracted GPU programming experience, which conflicts with the purpose of the distributed computing frameworks: to abstract the underlying distributed system. This thesis also presents GPU-accelerated RDD (GPURDD), which is a type of Spark Resilient Distributed Dataset (RDD) which incorporates GPUMap into its map, filter, and foreach methods in order to allow Spark applicatons to make use of the abstracted GPU acceleration provided by GPUMap. gpu gpgpu map spark python parallel Other Computer Sciences Programming Languages and Compilers
558	Detekce QR kódů na grafické kartě pro platformu ROS / QR code detection under ROS implemented on the GPU Hurban, Milan January 2017 (has links) Tato diplomová práce se zabývá vývojem a implementací algoritmu pro detekci QR kódů s integrací do platformy ROS a výpočty běžícími na grafické kartě. Z rešerše současně dostupných nástrojů a technik je vybrán vhodný postup a algoritmus je napsán jako modul v programovacím jazyce Python, který je snadno integrovatelný do ROS. Ke zprostředkování výpočtů na vícejádrovém hardware, jako jsou grafické karty či vícejádrové procesory, je využita knihovna OpenCL.
559	Zpracování obrazu s velkými datovými toky - využití CUDA/OpenCL / High data rate image processing using CUDA/OpenCL Sedláček, Filip January 2018 (has links) The main objective of this research is to propose optimization of the defect detection algorithm in the production of nonwoven textile. The algorithm was developed by CAMEA spol. s.r.o. As a consequence of upgrading the current camera system to a more powerful one, it will be necessary to optimize the current algorithm and choose the hardware with the appropriate architecture on which the calculations will be performed. This work will describe a usefull programming techniques of CUDA software architecture and OpenCL framework in details. Using these tools, we proposed to implement a parallel equivalent of the current algorithm, describe various optimization methods, and we designed a GUI to test these methods.
560	Akcelerace ultrazvukové neurostimulace pomocí vysokoúrovňových GPGPU knihoven / Acceleration of Ultrasound Neurostimulation Using High-Level GPGPU Libraries Mička, Richard January 2021 (has links) This thesis explores potential use of GPGPU libraries to accelerate k-Wave toolkit's acoustic wave propagation simulation. Firstly, the thesis researches and assesses available high level GPGPU libraries. Afterwards, an insight into k-Wave toolkit's current state of simulation acceleration is provided. Based on that, an approach to enhance currently available code for processors into a heterogeneous application, that is capable of being run on graphics card, is proposed. The outcome of this thesis is an application that can utilize graphics card. If graphics card is unavailable, a fallback into thread and SIMD based acceleration for processor is executed. The product of this thesis is then evaluated based on its performance, maintenance difficulty and usability.

Search results