Spelling suggestions: "subject:"computação dde alta desempenho."" "subject:"computação dee alta desempenho.""
41 |
Implementação e analise de ferramentas de quimica comoutacional aplicada ao desenvolvimento de processos / Implentation and analysis of computational chemistry tools applied to the processes developmentPinto, Jefferson Ferreira, 1972- 22 February 2006 (has links)
Orientador: Rubens Maciel Filho / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Qumica / Made available in DSpace on 2018-08-09T18:17:35Z (GMT). No. of bitstreams: 1
Pinto_JeffersonFerreira_D.pdf: 2614838 bytes, checksum: 839b2ff15752c4919e502eaf94e81822 (MD5)
Previous issue date: 2006 / Resumo: As indústrias vêm mudando profundamente nos últimos anos, principalmente para redução de consumo energético, melhoria na qualidade dos produtos e adequação às leis ambientais. Estas mudanças podem ser auxiliadas pelas técnicas de modelagem e simulação, incluindo o detalhamento do modelo em nível atômico, quando então recebe o nome de química computacional. Diversas ferramentas abrangendo todas as áreas de química computacional, em sua maioria gratuitas ou de domínio público, foram implementadas em um microcomputador e analisadas para aplicação no desenvolvimento de processos. Foi analisado também o desempenho computacional em função do sistema operacional, que apresentou diferenças no desempenho de até 353% para cálculos de ponto flutuante, 18% para acesso a memória RAM e 67% para acesso a disco. Para melhorar o desempenho computacional, foi elaborado o projeto de um ambiente computacional paralelo de alto desempenho, no qual o custo ficou limitado à aquisição de hardware, de fácil disponibilidade no mercado, sendo que os softwares utilizados são gratuitos ou de domínio público / Abstract: lndustries are changing in the last years, mainly for reduction of energy consumption, improvement in the product quality and adequacy to the environmental laws. These changes can be assisted by the modeling and simulation techniques, including the detailing of the model in atomic leveI, when then it receives the name of computational chemistry. Several tools enclosing all the areas of computational chemistry, in its mainly free or of public domain, had been implemented in a microcomputer and analyzed for application in the processes development. The computational performance in function of the operational system was also analyzed, that presented differences in the performance of up to 353% for floating-point calculations, 18% for access the RAM memory and 67% for access the hard disk. To improve the computational performance the project of high performance computer system was elaborated, in which the cost was limited the acquisition of the hardware, of easy availability in the market, being that software used is free or of public domain / Doutorado / Desenvolvimento de Processos Químicos / Doutor em Engenharia Química
|
42 |
Serviço local de periodograma em GPU para detecção de trânsitos planetáriosBasile, Antonio Luiz 13 June 2017 (has links)
Submitted by Marta Toyoda (1144061@mackenzie.br) on 2018-02-26T20:16:03Z
No. of bitstreams: 2
Antonio Luiz Basile.pdf: 17687865 bytes, checksum: 2a522597431038d77d0589adb79c778c (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2018-03-08T11:22:02Z (GMT) No. of bitstreams: 2
Antonio Luiz Basile.pdf: 17687865 bytes, checksum: 2a522597431038d77d0589adb79c778c (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-03-08T11:22:02Z (GMT). No. of bitstreams: 2
Antonio Luiz Basile.pdf: 17687865 bytes, checksum: 2a522597431038d77d0589adb79c778c (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2017-06-13 / Understanding other stellar systems is crucial to a better knowledge of the Solar
System, as is the study of extrasolar planets orbiting the habitable zone of their host
star central to the understanding of the conditions that allowed life to develop on
our own planet. Presently there are thousands of confirmed planets, mostly detected
by the Kepler satellite as they eclipse their host star. This overload of data urges
an automatic data search for planetary transit detection within the stellar light
curves. Box-Fitting Least Squares (BLS) is a good candidate for this task due to
the intrinsic shape of the transiting light curve. Further improvement is obtained by
parallelization of the BLS according to the number of bins. Both the sequential and
parallel algorithms were applied to six chosen Kepler planetary systems (Kepler-7,
Kepler-418, Kepler-439, Kepler-511, Kepler-807, Kepler-943) and to different light
curve lengths. In all cases, speedup increased from 3 to 45 times as the number of
bins increased, because the performance of the sequential version degrades with an
increase in the number of bins, while remaining mainly constant for the parallel
version. For smaller planets with longer orbital periods, a large number of bins is
necessary to obtain the correct period detection. / A compreensão de outros sistemas estelares é crucial para um melhor conhecimento
do Sistema Solar, assim como o estudo de planetas extrasolares orbitando a zona
habitável de sua estrela hospedeira é central para a compreensão das condições que
permitiram a vida desenvolver-se em nosso próprio planeta. Atualmente existem
milhares de planetas confirmados, detectados principalmente pelo satélite Kepler,
que eclipsam sua estrela hospedeira. Esta sobrecarga de dados requer uma busca
automática de dados para detecção de trânsito planetário dentro das curvas de luz
estelares. O algoritmo Box-Fitting Least Squares (BLS) é um bom candidato para
esta tarefa devido à forma intrínseca da curva de luz em trânsito. Melhoria adicional
é obtida por paralelização do BLS de acordo com o número de bins. Ambos os
algoritmos, sequencial e paralelo, foram aplicados a seis sistemas planetários Kepler
(Kepler-7, Kepler-418, Kepler-439, Kepler-511, Kepler-807, Kepler-943) e a curvas
de luz de comprimentos distintos. Em todos os casos, o speedup aumentou, entre 3
e 45 vezes, à medida que o número de bins aumentou, pois o desempenho da versão
sequencial degradou com o aumento no número de bins, permanecendo praticamente
constante para a versão paralela. Para planetas menores com períodos orbitais mais
longos, um grande número de bins é necessário para obter a detecção de período
correto.
|
43 |
Implementação do software MILC no estudo da QCD completa / Implementation of the MILC package in the study of full QCDFernando Henrique e Paula da Luz 12 March 2010 (has links)
A CromoDinâmica Quântica (QCD) é a teoria quântica de campos que descreve as interações fortes entre quarks, que são os constituintes fundamentais das partículas do núcleo atômico. Devido ao caráter peculiar destas interações, o estudo da QCD não pode ser realizado pelos métodos usuais em teorias quânticas de campos, baseados em expansões perturbativas. O estudo não-perturbativo da QCD a partir de primeiros princípios torna-se possível através da formulação de rede da teoria, que equivale a um modelo de mecânica estatística clássica, para o qual podem ser realizadas simulações numéricas através de métodos de Monte Carlo. A área de simulações numéricas da QCD representa uma das maiores aplicações atuais da computação de alto desempenho, sendo realizada nos principais centros computacionais do mundo. As grandes exigências do trabalho de pesquisa nesta área contribuíram inclusive para o desenvolvimento de novas arquiteturas computacionais. O uso de processamento paralelo é vital nessas simulações, principalmente nos casos em que está envolvida a simulação da chamada QCD completa, onde se consideram os efeitos dos quarks dinâmicos. Vários pacotes contendo implementações de algoritmos para o estudo da QCD começam a ser disponibilizados por grupos de pesquisa na área. Nosso foco neste trabalho é voltado para o pacote MILC. Além de fazer uma descrição detalhada da forma de utilização deste pacote, realizamos aqui um acompanhamento da evolução dos métodos empregados, desde o Método de Monte Carlo aplicado no algoritmo de Metropolis até a elaboração do algoritmo RHMC, introduzido recentemente. Fazemos uma comparação de e_ciência entre o RHMC e o algoritmo R, que foi o mais utilizado por décadas. / Quantum ChromoDinamics (QCD) is the quantum field theory that describes the strong interactions between quarks, which are the fundamental constituents of particles in the atomic nucleus. Due to the peculiar characteristic of these interactions, the study of QCD cannot be carried out by usual methods in quantum field theory, which are based on pertubative expansions. The non-pertubative study of QCD from first principles becomes possible through the lattice formulation of the theory, which is equivalent to a classical statistical mechanics model, which in turn can be carried out by numerical simulations using Monte Carlo methods. The field of numerical simulations of QCD is one of the main applications of high performance computing, and is perfomed in most major computational centers around the world. The demanding requirements needed in this field led also to the development of new computational architectures. The use of parallel processing is vital in these types of simulations, especially in cases that involve what is known as full QCD, where the effects of dynamic quarks are taken into account. Several packages with algorithms implemented for the study of QCD have been recently made available by research groups in this field. The focus of this work is the MILC package. Here we make a detailed description of how to use this package and a follow up of the used methods, from the Monte Carlo method applied in the Metropolis algorithm up to the development of the RHMC algorithm, recently introduced. Comparisons are made between the e_ciency of RHMC and the R algorithm, which was the most used in the past decades.
|
44 |
Detecção de filamentos solares utilizando processamento paralelo em arquiteturas híbridas = Detection of solar filaments using parallel processing in hybrid architectures / Detection of solar filaments using parallel processing in hybrid architecturesAndrijauskas, Fábio, 1986- 21 August 2018 (has links)
Orientadores: André Leon Sampaio Gradvohl, Vitor Rafael Coluci / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Tecnologia / Made available in DSpace on 2018-08-21T23:26:09Z (GMT). No. of bitstreams: 1
Andrijauskas_Fabio_M.pdf: 2796809 bytes, checksum: 9fd4e03f6038d482ed05a64517bb1780 (MD5)
Previous issue date: 2013 / Resumo: A quantidade de imagens astronômicas geradas cresce diariamente, além da quantidade já obtida e armazenada. Uma grande fonte de dados são imagens solares, cujo estudo pode detectar eventos que têm a capacidade de afetar as telecomunicações, transmissão de energia elétrica e outros sistemas na Terra. Para que tais eventos sejam detectados, torna-se necessário analisar essas imagens de forma eficiente, levando em conta os aspectos de armazenamento, processamento e visualização. Agregar algoritmos de processamento de imagem e técnicas de computação de alto desempenho facilita o tratamento da informação de forma correta e em tempo reduzido. As técnicas de computação para alto desempenho utilizadas neste trabalho foram desenvolvidas para sistemas híbridos, isto é, aqueles que utilizam uma combinação de sistemas de memórias compartilhada e distribuída. Foram produzidas versões paralelas para sistemas híbridos de técnicas já estabelecidas. Além disso, novas técnicas foram propostas e testadas para esse sistema tais como o Filamento Diffusion Detection. Para avaliar a melhora no desempenho, foram feitas comparações entre as versões seriais e paralelas. Esse texto também apresenta um sistema com capacidade para armazenar, processar e visualizar as imagens solares. Em uma das técnicas de detecção de filamentos, o processo foi acelerado 120 vezes e um processo auxiliar para a detecção de áreas mais brilhantes foi 155 vezes mais rápido do que a versão serial / Abstract: The number of astronomical images produced grows daily, in addition to the amount already stored. Great sources of data are solar images, whose study can detect events which have the capacity to affect the telecommunications, electricity transmission and other systems on Earth. For such events being detected, it becomes necessary to treat these images in a coherent way, considering aspects of storage, processing and image visualization. Combining image processing algorithms and high performance computing techniques facilitates the handling of information accurately and in a reduced time. The techniques for high performance computing used in this work were developed for hybrid systems, which employ a combination of shared and distributed memory systems. Parallel version of some established techniques were produced for hybrid systems. Moreover, new techniques have been proposed and tested for this system. To evaluate the improvement in performance, comparisons were made between serial and parallel versions. In addition to the analysis, this text also presents a system with capacity to store, process and visualize solar images. In one of the techniques for detecting filaments, the process was accelerated 120 times. Also an auxiliary process for the detection of brighter areas was 155 times faster than the serial version / Mestrado / Tecnologia e Inovação / Mestre em Tecnologia
|
45 |
Meparalel : um método para análise de implementação de algoritmo paralelo baseado em CUDAOliveira, Otávio Cordeiro Siqueira de 25 May 2015 (has links)
There are basically two approaches to attempt to improve performance of the algorithms: (i) the hardware-based and (ii) the software-based. The approaches based on software, that before were based on sequences algorithms, could not extract the hardware resources available. To solve this problem the parallel algorithms arose. Parallel algorithms tend to do their jobs more quickly due to their ability to distribute their workload by the available multi-core processors. In the search for the processing improvement the GPU started to be used in general purpose computing, and changed from a simple graphics processor to a parallel coprocessor capable of simultaneously performing thousands of operations. NVIDIA to popularize the GPU use in general purpose computing launched the CUDA which allows developers to parallelize their solutions more intuitively. But it is not an easy task to parallelize in order to improve resources utilization and reduce the processing time. Thus, as the literature offers no suitable mechanism, this paper proposes a method for analysis of parallel algorithms that can help the process of analysis and refactoring code built in CUDA programming platform and what can generate faster, more efficient algorithms in the consumption of hardware resources. / Existem basicamente duas abordagens para tentativas de melhoria de desempenho dos algoritmos: (i) as baseadas em hardware e (ii) as baseadas em software. As baseadas em software que antes se apoiavam em algoritmos sequenciais não conseguiam extrair os recursos de hardware oferecidos. Para solucionar o problema, surgiram os algoritmos paralelos. Algoritmos paralelos tendem a executar suas tarefas mais rapidamente devido à capacidade de distribuir sua carga de trabalho pelos múltiplos núcleos de processadores disponíveis. Na busca pela melhoria de processamento, as GPUs passaram a ser utilizadas na computação de propósito geral e passaram de um simples processador gráfico para um coprocessador paralelo, capaz de executar milhares de operações simultaneamente. A NVIDIA, para popularizar o uso da GPU na computação de propósito geral lançou a CUDA, que permite aos desenvolvedores paralelizar suas soluções de forma mais intuitiva. Porém, a tarefa de paralelizar de forma a aperfeiçoar a utilização de recursos e reduzir o tempo de processamento não é uma tarefa fácil. O estado da arte não apresenta um mecanismo de análise de desempenho adequado, dessa forma, este trabalho propõe um método para análise de algoritmos paralelos que possam auxiliar o processo de análise e refatoração de códigos construídos na plataforma de programação CUDA podendo assim, gerar algoritmos mais rápidos e eficientes no consumo de recursos de hardware.
|
46 |
Implementação do software MILC no estudo da QCD completa / Implementation of the MILC package in the study of full QCDLuz, Fernando Henrique e Paula da 12 March 2010 (has links)
A CromoDinâmica Quântica (QCD) é a teoria quântica de campos que descreve as interações fortes entre quarks, que são os constituintes fundamentais das partículas do núcleo atômico. Devido ao caráter peculiar destas interações, o estudo da QCD não pode ser realizado pelos métodos usuais em teorias quânticas de campos, baseados em expansões perturbativas. O estudo não-perturbativo da QCD a partir de primeiros princípios torna-se possível através da formulação de rede da teoria, que equivale a um modelo de mecânica estatística clássica, para o qual podem ser realizadas simulações numéricas através de métodos de Monte Carlo. A área de simulações numéricas da QCD representa uma das maiores aplicações atuais da computação de alto desempenho, sendo realizada nos principais centros computacionais do mundo. As grandes exigências do trabalho de pesquisa nesta área contribuíram inclusive para o desenvolvimento de novas arquiteturas computacionais. O uso de processamento paralelo é vital nessas simulações, principalmente nos casos em que está envolvida a simulação da chamada QCD completa, onde se consideram os efeitos dos quarks dinâmicos. Vários pacotes contendo implementações de algoritmos para o estudo da QCD começam a ser disponibilizados por grupos de pesquisa na área. Nosso foco neste trabalho é voltado para o pacote MILC. Além de fazer uma descrição detalhada da forma de utilização deste pacote, realizamos aqui um acompanhamento da evolução dos métodos empregados, desde o Método de Monte Carlo aplicado no algoritmo de Metropolis até a elaboração do algoritmo RHMC, introduzido recentemente. Fazemos uma comparação de e_ciência entre o RHMC e o algoritmo R, que foi o mais utilizado por décadas. / Quantum ChromoDinamics (QCD) is the quantum field theory that describes the strong interactions between quarks, which are the fundamental constituents of particles in the atomic nucleus. Due to the peculiar characteristic of these interactions, the study of QCD cannot be carried out by usual methods in quantum field theory, which are based on pertubative expansions. The non-pertubative study of QCD from first principles becomes possible through the lattice formulation of the theory, which is equivalent to a classical statistical mechanics model, which in turn can be carried out by numerical simulations using Monte Carlo methods. The field of numerical simulations of QCD is one of the main applications of high performance computing, and is perfomed in most major computational centers around the world. The demanding requirements needed in this field led also to the development of new computational architectures. The use of parallel processing is vital in these types of simulations, especially in cases that involve what is known as full QCD, where the effects of dynamic quarks are taken into account. Several packages with algorithms implemented for the study of QCD have been recently made available by research groups in this field. The focus of this work is the MILC package. Here we make a detailed description of how to use this package and a follow up of the used methods, from the Monte Carlo method applied in the Metropolis algorithm up to the development of the RHMC algorithm, recently introduced. Comparisons are made between the e_ciency of RHMC and the R algorithm, which was the most used in the past decades.
|
47 |
Autoelastic: explorando a elasticidade de recursos de computação em nuvem para a execução de aplicações de alto desempenho iterativaRodrigues, Vinicius Facco 29 February 2016 (has links)
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2016-05-09T12:51:39Z
No. of bitstreams: 1
Vinicius Facco Rodrigues_.pdf: 2415611 bytes, checksum: 1672419839adc1b3095f04e90badce93 (MD5) / Made available in DSpace on 2016-05-09T12:51:40Z (GMT). No. of bitstreams: 1
Vinicius Facco Rodrigues_.pdf: 2415611 bytes, checksum: 1672419839adc1b3095f04e90badce93 (MD5)
Previous issue date: 2016-02-29 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / PROSUP - Programa de Suporte à Pós-Gradução de Instituições de Ensino Particulares / Elasticidade de recursos é uma das características chave da Computação em Nuvem. Através dessa funcionalidade, recursos computacionais podem ser adicionados ou removidos ao ambiente a qualquer momento, permitindo aplicações escalarem dinamicamente, evitando provisionamento excessivo ou restrito de recursos. Considerando a área de computação de alto desempenho, conhecida também como HPC (High Performance Computing), iniciativas baseadas em sacola-de-tarefas utilizam um balanceador de carga e instâncias de máquinas virtuais (VM) fracamente acopladas. Neste cenário, os processos
desempenham papéis independentes, facilitando a adição e remoção de VM’s pois o balanceador de carga se encarrega de distribuir tarefas entre os processos das VM’s ativas. Entretanto, aplicações HPC iterativas se caracterizam por serem fortemente acopladas e terem dificuldade de obter vantagem da elasticidade pois, em tais aplicações, geralmente os processos são fixos durante todo o tempo de execução. Devido a isso, a simples adição de novos recursos não garante que os mesmos serão utilizados pelos processos da aplicação. Além disso, a remoção de processos pode comprometer a inteira execução da aplicação, pois cada processo desempenha um papel fundamental em seu ciclo de execução. Aplicações iterativas voltadas para HPC são comumente implementadas utilizando MPI (Message Passing Interface) e neste contexto, fazer o uso da elasticidade torna-se um desafio pois é necessária a reescrita do código fonte para o tratamento da reorganização de recursos. Tal estratégia muitas vezes requer um conhecimento prévio do comportamento da aplicação, sendo necessárias interrupções do fluxo de execução nos momentos de reorganização de recursos. Além disso, utilizando MPI 2.0, em que há a possibilidade da alteração da quantidade de processos em tempo de execução, existem problemas relacionados em como tirar proveito da elasticidade pois o desenvolvedor deve por si mesmo gerenciar a reorganização da topologia de comunicação. Ainda, consolidações repentinas de máquinas virtuais que executam processos da aplicação podem comprometer a sua execução. Focando nessas questões, propõe-se nessa dissertação um modelo de elasticidade baseado na camada PaaS (Platform as a Service) da nuvem, chamado AutoElastic. AutoElastic age como um middleware permitindo que aplicações HPC iterativas obtenham vantagem do provisionamento de recursos dinâmico de uma infraestrutura de nuvem sem a necessidade de modificações no código fonte. AutoElastic oferece a elasticidade de forma automática, não sendo necessária a configuração de regras por parte do usuário. O mecanismo de elasticidade conta com a utilização de threholds fixos além de oferecer uma nova abordagem em que eles se auto ajustam durante a execução da aplicação. Ainda, AutoElastic oferece também um novo conceit o nomeado como elasticidade assíncrona, o qual oferece um arcabouço para permitir que a execução de aplicações não seja bloqueada enquanto recursos são adicionados ou removidos do ambiente. A viabilidade de AutoElastic é demonstrada através de um protótipo que executa uma aplicação de integração numérica CPU-Bound
sobre a plataforma de nuvem OpenNebula. Resultados com tal aplicação demonstraram ganhos de desempenho de 28,4% a 59% quando comparadas diferentes execuções elásticas e não elásticas. Além disso, testes com diferentes parametrizações de thresholds e diferentes cargas de trabalho demonstraram que no uso de thresholds fixos, o valor do threshold superior possui maior impacto que o inferior no desempenho e consumo de recursos por parte da aplicação. / Elasticity is one of the key features of cloud computing. Using this functionality, we can increase or decrease the amount of computational resources of the cloud at any time, enabling applications to dynamically scale computing and storage resources, avoiding overand under-provisioning. In high performance computing (HPC), initiatives like bag-oftasks or key-value applications use a load balancer and a loosely-coupled set of virtual machine (VM) instances. In this scenario, it is easier to add or remove virtual machines because the load balancer is in charge of distribute tasks between the active processes. However, iterative HPC applications are characterized by being tightly-coupled and have difficulty to take advantage of the elasticity because in such applications the amount of processes is fixed throughout the application runtime. In fact, the simple addition of new resources does not guarantee that the processes will use them. Moreover, removing a single process can compromise the entire execution of the application because each process plays a key role in its execution cycle. Iterative applications related to HPC are commonly implemented using MPI (Message Passing Interface). In the joint-field of MPI and tightly-coupled HPC applications, it is a challenge use the elasticity feature since we need re-write the source code to address resource reorganization. Such strategy requires prior knowledge of application behaviour, requiring stop-reconfigure-and-go approaches when reorganizing resources. Besides, using MPI 2.0, in which the number of process can be changed during the application execution, there are problems related to how profit this new feature in the HPC scope, since the developer needs to handle the communication topology by himself. Moreover, sudden consolidation of a VM, together with a process, can compromise the entire execution. To address these issues, we propose a PaaS-based elasticity model, named AutoElastic. It acts as a middleware that allows iterative HPC applications to take advantage of dynamic resource provisioning of cloud infrastructures without any major modification. AutoElastic offers elasticity automatically, where the user does not need to configure any resource management policy. This elastic mechanism includes using fixed thresholds as well as offering a new approach where it self adjusts the threshold values during the application execution. AutoElastic provides a new concept denoted here as asynchronous elasticity, i.e., it provides a framework to allow applications to either increase or decrease their computing resources without blocking the current execution. The feasibility of AutoElastic is demonstrated through a prototype that runs a CPU-bound numerical integration application on top of the OpenNebula middleware. Results with a parallel iterative application showed performance gains between 28.4% and 59% when comparing different executions enabling and disabling elasticity feature. In addition, tests with different parameters showed that when using threshold-rule based techniques with fixed thresholds, the upper threshold has a greater impact in performance and resource consumption than the lower threshold.
|
48 |
Ordonnancement de E/S transversal : des applications à des dispositifs / Transversal I/O Scheduling : from Applications to Devices / Escalonamento de E/S Transversal para Sistemas de Arquivos Paralelos : das Aplicações aos DispositivosZanon Boito, Francieli 30 March 2015 (has links)
Ordonnancement d’E/S Transversal pour les Systèmes de Fichiers Parallèles : desApplications aux DispositifsCette thèse porte sur l’utilisation de l’ordonnancement d’Entrées/Sorties (E/S) pour atténuer leseffets d’interférence et améliorer la performance d’E/S des systèmes de fichiers parallèles. Ilest commun pour les plates-formes de calcul haute performance (HPC) de fournir une infrastructurede stockage partagée pour les applications qui y sont hébergées. Dans cette situation,où plusieurs applications accèdent simultanément au système de fichiers parallèle partagé, leursaccès vont souffrir de l’interférence, ce qui compromet l’efficacité des stratégies d’optimisationd’E/S.Nous avons évalué la performance de cinq algorithmes d’ordonnancement dans les serveurs dedonnées d’un système de fichiers parallèle. Ces tests ont été exécutés sur différentes platesformeset sous différents modèles d’accès. Les résultats indiquent que la performance des ordonnanceursest affectée par les modèles d’accès des applications, car il est important pouraméliorer la performance obtenue grâce à un algorithme d’ordonnancement de surpasser sessurcoûts. En même temps, les résultats des ordonnanceurs sont affectés par les caractéristiquesdu système d’E/S sous-jacent - en particulier par des dispositifs de stockage. Différents dispositifsprésentent des niveaux de sensibilité à la séquentialité et la taille des accès distincts, ce quipeut influencer sur le niveau d’amélioration de obtenue grâce à l’ordonnancement d’E/S.Pour ces raisons, l’objectif principal de cette thèse est de proposer un modèle d’ordonnancementd’E/S avec une double adaptabilité : aux applications et aux dispositifs. Nous avons extraitdes informations sur les modèles d’accès des applications en utilisant des fichiers de trace,obtenus à partir de leurs exécutions précédentes. Ensuite, nous avons utilisé de l’apprentissageautomatique pour construire un classificateur capable d’identifier la spatialité et la taille desaccès à partir du flux de demandes antérieures. En outre, nous avons proposé une approche pourobtenir efficacement le ratio de débit séquentiel et aléatoire pour les dispositifs de stockage enexécutant des benchmarks pour un sous-ensemble des paramètres et en estimant les restantsavec des régressions linéaires.Nous avons utilisé les informations sur les caractéristiques des applications et des dispositifsde stockage pour décider automatiquement l’algorithme d’ordonnancement le plus appropriéen utilisant des arbres de décision. Notre approche améliore les performances jusqu’à 75% parrapport à une approche qui utilise le même algorithme d’ordonnancement dans toutes les situations,sans capacité d’adaptation. De plus, notre approche améliore la performance dans 64%de scénarios en plus, et diminue les performances dans 89% moins de situations. Nos résultatsmontrent que les deux aspects - des applications et des dispositifs - sont essentiels pour faire desbons choix d’ordonnancement. En outre, malgré le fait qu’il n’y a pas d’algorithme d’ordonnancementqui fournit des gains de performance pour toutes les situations, nous montrons queavec la double adaptabilité il est possible d’appliquer des techniques d’ordonnancement d’E/Spour améliorer la performance, tout en évitant les situations où cela conduirait à une diminutionde performance. / This thesis focuses on I/O scheduling as a tool to improve I/O performance on parallel file systemsby alleviating interference effects. It is usual for High Performance Computing (HPC)systems to provide a shared storage infrastructure for applications. In this situation, when multipleapplications are concurrently accessing the shared parallel file system, their accesses willaffect each other, compromising I/O optimization techniques’ efficacy.We have conducted an extensive performance evaluation of five scheduling algorithms at aparallel file system’s data servers. Experiments were executed on different platforms and underdifferent access patterns. Results indicate that schedulers’ results are affected by applications’access patterns, since it is important for the performance improvement obtained througha scheduling algorithm to surpass its overhead. At the same time, schedulers’ results are affectedby the underlying I/O system characteristics - especially by storage devices. Differentdevices present different levels of sensitivity to accesses’ sequentiality and size, impacting onhow much performance is improved through I/O scheduling.For these reasons, this thesis main objective is to provide I/O scheduling with double adaptivity:to applications and devices. We obtain information about applications’ access patternsthrough trace files, obtained from previous executions. We have applied machine learning tobuild a classifier capable of identifying access patterns’ spatiality and requests size aspects fromstreams of previous requests. Furthermore, we proposed an approach to efficiently obtain thesequential to random throughput ratio metric for storage devices by running benchmarks for asubset of the parameters and estimating the remaining through linear regressions.We use this information on applications’ and storage devices’ characteristics to decide the bestfit in scheduling algorithm though a decision tree. Our approach improves performance byup to 75% over an approach that uses the same scheduling algorithm to all situations, withoutadaptability. Moreover, our approach improves performance for up to 64% more situations, anddecreases performance for up to 89% less situations. Our results evidence that both aspects- applications and storage devices - are essential for making good scheduling choices. Moreover,despite the fact that there is no scheduling algorithm able to provide performance gainsfor all situations, we show that through double adaptivity it is possible to apply I/O schedulingtechniques to improve performance, avoiding situations where it would lead to performanceimpairment. / Esta tese se concentra no escalonamento de operações de entrada e saída (E/S) como uma soluçãopara melhorar o desempenho de sistemas de arquivos paralelos, aleviando os efeitos dainterferência. É usual que sistemas de computação de alto desempenho (HPC) ofereçam umainfraestrutura compartilhada de armazenamento para as aplicações. Nessa situação, em quemúltiplas aplicações acessam o sistema de arquivos compartilhado de forma concorrente, osacessos das aplicações causarão interferência uns nos outros, comprometendo a eficácia de técnicaspara otimização de E/S.Uma avaliação extensiva de desempenho foi conduzida, abordando cinco algoritmos de escalonamentotrabalhando nos servidores de dados de um sistema de arquivos paralelo. Foramexecutados experimentos em diferentes plataformas e sob diferentes padrões de acesso. Osresultados indicam que os resultados obtidos pelos escalonadores são afetados pelo padrão deacesso das aplicações, já que é importante que o ganho de desempenho provido por um algoritmode escalonamento ultrapasse o seu sobrecusto. Ao mesmo tempo, os resultados doescalonamento são afetados pelas características do subsistema local de E/S - especialmentepelos dispositivos de armazenamento. Dispositivos diferentes apresentam variados níveis desensibilidade à sequencialidade dos acessos e ao seu tamanho, afetando o quanto técnicas deescalonamento de E/S são capazes de aumentar o desempenho.Por esses motivos, o principal objetivo desta tese é prover escalonamento de E/S com duplaadaptabilidade: às aplicações e aos dispositivos. Informações sobre o padrão de acesso dasaplicações são obtidas através de arquivos de rastro, vindos de execuções anteriores. Aprendizadode máquina foi aplicado para construir um classificador capaz de identificar os aspectosespacialidade e tamanho de requisição dos padrões de acesso através de fluxos de requisiçõesanteriores. Além disso, foi proposta uma técnica para obter eficientemente a razão entre acessossequenciais e aleatórios para dispositivos de armazenamento, executando testes para apenas umsubconjunto dos parâmetros e estimando os demais através de regressões lineares.Essas informações sobre características de aplicações e dispositivos de armazenamento são usadaspara decidir a melhor escolha em algoritmo de escalonamento através de uma árvore dedecisão. A abordagem proposta aumenta o desempenho em até 75% sobre uma abordagem queusa o mesmo algoritmo para todas as situações, sem adaptabilidade. Além disso, essa técnicamelhora o desempenho para até 64% mais situações, e causa perdas de desempenho em até 89%menos situações. Os resultados obtidos evidenciam que ambos aspectos - aplicações e dispositivosde armazenamento - são essenciais para boas decisões de escalonamento. Adicionalmente,apesar do fato de não haver algoritmo de escalonamento capaz de prover ganhos de desempenhopara todas as situações, esse trabalho mostra que através da dupla adaptabilidade é possívelaplicar técnicas de escalonamento de E/S para melhorar o desempenho, evitando situações emque essas técnicas prejudicariam o desempenho.
|
49 |
Desenvolvimento de um simulador para espectrometria por fluorescência de raios X usando computação distribuída / Development of a X-ray fluorescence spectrometry simulator using distributed computingMarcio Henrique dos Santos 30 March 2012 (has links)
Fundação de Amparo à Pesquisa do Estado do Rio de Janeiro / A Física das Radiações é um ramo da Física que está presente em diversas áreas de estudo e se relaciona ao conceito de espectrometria. Dentre as inúmeras técnicas espectrométricas
existentes, destaca-se a espectrometria por fluorescência de raios X. Esta também possui uma gama de variações da qual pode-se dar ênfase a um determinado subconjunto de técnicas. A produção de fluorescência de raios X permite (em certos casos) a análise das propriedades físico-químicas de uma amostra específica, possibilitando a determinação de sua constituiçõa química e abrindo um leque de aplicações. Porém, o estudo experimental pode exigir uma grande carga de trabalho, tanto em termos do aparato físico quanto em relação conhecimento técnico. Assim, a técnica de simulação entra em cena como um caminho viável, entre a teoria e a experimentação. Através do método de Monte Carlo, que se utiliza da manipulação de números aleatórios, a simulação se mostra como uma espécie de alternativa ao trabalho experimental.Ela desenvolve este papel por meio de um processo de modelagem, dentro de um ambiente seguro e livre de riscos. E ainda pode contar com a computação de alto desempenho, de forma a otimizar todo o trabalho por meio da arquitetura distribuída. O objetivo central deste trabalho é a elaboração de um simulador computacional para análise e estudo de sistemas de fluorescência de raios X desenvolvido numa plataforma de computação distribuída de forma nativa com o intuito de gerar dados otimizados. Como resultados deste trabalho, mostra-se a viabilidade da construção do simulador através da linguagem CHARM++, uma linguagem baseada em C++ que incorpora rotinas para processamento distribuído, o valor da metodologia para a modelagem de sistemas e a aplicação desta na construção de um simulador para espectrometria por fluorescência de raios X. O simulador foi construído com a capacidade de reproduzir uma fonte de radiação eletromagnética, amostras complexas e um conjunto de detectores. A modelagem dos detectores incorpora a capacidade de geração de imagens baseadas nas contagens registradas. Para validação do simulador, comparou-se os resultados espectrométricos com os resultados gerados por outro simulador já validado: o MCNP. / Radiation Physics is a branch of Physics that is present in various studying areas and relates to the concept of spectrometry. Among the numerous existing spectrometry techniques, there is the X-ray fluorescence spectrometry. It also has a range of variations which can emphasize a particular subset of techniques. The production of X-ray fluorescence enables (in some cases) the analysis of physical and chemical properties of a given sample, allowing the determination of its chemical constitution and also a range of applications. However, the experimental analysis may require a large workload, both in terms of physical apparatus and in relation to technical knowledge. Thus, the simulation comes into play as a viable path between theory and experiment. Through the Monte Carlo method, which uses the manipulation of random numbers, the simulation is a kind of alternative to the experimental analysis. It develops this role
by a modeling process, within a secure environment and risk free. And it can count on high performance computing in order to optimize all the work through the distributed architecture.
The aim of this paper is the development of a computational simulator for analysis and studying of X-ray fluorescence systems developed on a communication platform distributed natively, in order to generate optimal data. As results, has been proved the viability of the simulator implementation
through the CHARM++ language, a language based on C++ which incorporate procedures to distributed processing, the value of the methodology to system modelling e its application to build a simulator for X-ray fluorescence spectrometry. The simulator was built with the ability to reproduce a eletromagnetic radiation source, complex samples and a set of
detectors. The modelling of the detectors embody the ability to yield images based on recorded counts. To validate the simulator, the results were compared with the results provided by other known simulator: MCNP.
|
50 |
Ordonnancement de E/S transversal : des applications à des dispositifs / Transversal I/O Scheduling : from Applications to Devices / Escalonamento de E/S Transversal para Sistemas de Arquivos Paralelos : das Aplicações aos DispositivosZanon Boito, Francieli 30 March 2015 (has links)
Ordonnancement d’E/S Transversal pour les Systèmes de Fichiers Parallèles : desApplications aux DispositifsCette thèse porte sur l’utilisation de l’ordonnancement d’Entrées/Sorties (E/S) pour atténuer leseffets d’interférence et améliorer la performance d’E/S des systèmes de fichiers parallèles. Ilest commun pour les plates-formes de calcul haute performance (HPC) de fournir une infrastructurede stockage partagée pour les applications qui y sont hébergées. Dans cette situation,où plusieurs applications accèdent simultanément au système de fichiers parallèle partagé, leursaccès vont souffrir de l’interférence, ce qui compromet l’efficacité des stratégies d’optimisationd’E/S.Nous avons évalué la performance de cinq algorithmes d’ordonnancement dans les serveurs dedonnées d’un système de fichiers parallèle. Ces tests ont été exécutés sur différentes platesformeset sous différents modèles d’accès. Les résultats indiquent que la performance des ordonnanceursest affectée par les modèles d’accès des applications, car il est important pouraméliorer la performance obtenue grâce à un algorithme d’ordonnancement de surpasser sessurcoûts. En même temps, les résultats des ordonnanceurs sont affectés par les caractéristiquesdu système d’E/S sous-jacent - en particulier par des dispositifs de stockage. Différents dispositifsprésentent des niveaux de sensibilité à la séquentialité et la taille des accès distincts, ce quipeut influencer sur le niveau d’amélioration de obtenue grâce à l’ordonnancement d’E/S.Pour ces raisons, l’objectif principal de cette thèse est de proposer un modèle d’ordonnancementd’E/S avec une double adaptabilité : aux applications et aux dispositifs. Nous avons extraitdes informations sur les modèles d’accès des applications en utilisant des fichiers de trace,obtenus à partir de leurs exécutions précédentes. Ensuite, nous avons utilisé de l’apprentissageautomatique pour construire un classificateur capable d’identifier la spatialité et la taille desaccès à partir du flux de demandes antérieures. En outre, nous avons proposé une approche pourobtenir efficacement le ratio de débit séquentiel et aléatoire pour les dispositifs de stockage enexécutant des benchmarks pour un sous-ensemble des paramètres et en estimant les restantsavec des régressions linéaires.Nous avons utilisé les informations sur les caractéristiques des applications et des dispositifsde stockage pour décider automatiquement l’algorithme d’ordonnancement le plus appropriéen utilisant des arbres de décision. Notre approche améliore les performances jusqu’à 75% parrapport à une approche qui utilise le même algorithme d’ordonnancement dans toutes les situations,sans capacité d’adaptation. De plus, notre approche améliore la performance dans 64%de scénarios en plus, et diminue les performances dans 89% moins de situations. Nos résultatsmontrent que les deux aspects - des applications et des dispositifs - sont essentiels pour faire desbons choix d’ordonnancement. En outre, malgré le fait qu’il n’y a pas d’algorithme d’ordonnancementqui fournit des gains de performance pour toutes les situations, nous montrons queavec la double adaptabilité il est possible d’appliquer des techniques d’ordonnancement d’E/Spour améliorer la performance, tout en évitant les situations où cela conduirait à une diminutionde performance. / This thesis focuses on I/O scheduling as a tool to improve I/O performance on parallel file systemsby alleviating interference effects. It is usual for High Performance Computing (HPC)systems to provide a shared storage infrastructure for applications. In this situation, when multipleapplications are concurrently accessing the shared parallel file system, their accesses willaffect each other, compromising I/O optimization techniques’ efficacy.We have conducted an extensive performance evaluation of five scheduling algorithms at aparallel file system’s data servers. Experiments were executed on different platforms and underdifferent access patterns. Results indicate that schedulers’ results are affected by applications’access patterns, since it is important for the performance improvement obtained througha scheduling algorithm to surpass its overhead. At the same time, schedulers’ results are affectedby the underlying I/O system characteristics - especially by storage devices. Differentdevices present different levels of sensitivity to accesses’ sequentiality and size, impacting onhow much performance is improved through I/O scheduling.For these reasons, this thesis main objective is to provide I/O scheduling with double adaptivity:to applications and devices. We obtain information about applications’ access patternsthrough trace files, obtained from previous executions. We have applied machine learning tobuild a classifier capable of identifying access patterns’ spatiality and requests size aspects fromstreams of previous requests. Furthermore, we proposed an approach to efficiently obtain thesequential to random throughput ratio metric for storage devices by running benchmarks for asubset of the parameters and estimating the remaining through linear regressions.We use this information on applications’ and storage devices’ characteristics to decide the bestfit in scheduling algorithm though a decision tree. Our approach improves performance byup to 75% over an approach that uses the same scheduling algorithm to all situations, withoutadaptability. Moreover, our approach improves performance for up to 64% more situations, anddecreases performance for up to 89% less situations. Our results evidence that both aspects- applications and storage devices - are essential for making good scheduling choices. Moreover,despite the fact that there is no scheduling algorithm able to provide performance gainsfor all situations, we show that through double adaptivity it is possible to apply I/O schedulingtechniques to improve performance, avoiding situations where it would lead to performanceimpairment. / Esta tese se concentra no escalonamento de operações de entrada e saída (E/S) como uma soluçãopara melhorar o desempenho de sistemas de arquivos paralelos, aleviando os efeitos dainterferência. É usual que sistemas de computação de alto desempenho (HPC) ofereçam umainfraestrutura compartilhada de armazenamento para as aplicações. Nessa situação, em quemúltiplas aplicações acessam o sistema de arquivos compartilhado de forma concorrente, osacessos das aplicações causarão interferência uns nos outros, comprometendo a eficácia de técnicaspara otimização de E/S.Uma avaliação extensiva de desempenho foi conduzida, abordando cinco algoritmos de escalonamentotrabalhando nos servidores de dados de um sistema de arquivos paralelo. Foramexecutados experimentos em diferentes plataformas e sob diferentes padrões de acesso. Osresultados indicam que os resultados obtidos pelos escalonadores são afetados pelo padrão deacesso das aplicações, já que é importante que o ganho de desempenho provido por um algoritmode escalonamento ultrapasse o seu sobrecusto. Ao mesmo tempo, os resultados doescalonamento são afetados pelas características do subsistema local de E/S - especialmentepelos dispositivos de armazenamento. Dispositivos diferentes apresentam variados níveis desensibilidade à sequencialidade dos acessos e ao seu tamanho, afetando o quanto técnicas deescalonamento de E/S são capazes de aumentar o desempenho.Por esses motivos, o principal objetivo desta tese é prover escalonamento de E/S com duplaadaptabilidade: às aplicações e aos dispositivos. Informações sobre o padrão de acesso dasaplicações são obtidas através de arquivos de rastro, vindos de execuções anteriores. Aprendizadode máquina foi aplicado para construir um classificador capaz de identificar os aspectosespacialidade e tamanho de requisição dos padrões de acesso através de fluxos de requisiçõesanteriores. Além disso, foi proposta uma técnica para obter eficientemente a razão entre acessossequenciais e aleatórios para dispositivos de armazenamento, executando testes para apenas umsubconjunto dos parâmetros e estimando os demais através de regressões lineares.Essas informações sobre características de aplicações e dispositivos de armazenamento são usadaspara decidir a melhor escolha em algoritmo de escalonamento através de uma árvore dedecisão. A abordagem proposta aumenta o desempenho em até 75% sobre uma abordagem queusa o mesmo algoritmo para todas as situações, sem adaptabilidade. Além disso, essa técnicamelhora o desempenho para até 64% mais situações, e causa perdas de desempenho em até 89%menos situações. Os resultados obtidos evidenciam que ambos aspectos - aplicações e dispositivosde armazenamento - são essenciais para boas decisões de escalonamento. Adicionalmente,apesar do fato de não haver algoritmo de escalonamento capaz de prover ganhos de desempenhopara todas as situações, esse trabalho mostra que através da dupla adaptabilidade é possívelaplicar técnicas de escalonamento de E/S para melhorar o desempenho, evitando situações emque essas técnicas prejudicariam o desempenho.
|
Page generated in 0.1155 seconds