Global ETD Search

1	"Ambiente para Minimização do Impacto de Falhas para Aplicações Paralelas" Zem, José Luis 26 September 2005 (has links) Os sistemas paralelos são importantes pois permitem concentrar recursos computacionais como processadores, memórias e dispositivos de E/S para solucionar problemas computacionais que necessitam de uma grande quantidade destes mesmos recursos e em um tempo de execução aceitável. Tradicionalmente, o tempo, a capacidade e o custo do processamento para se resolver estes problemas computacionais utilizando-se aplicações seqüênciais podem ser proibitivos e isto acaba criando um contexto propício para se utilizar aplicações paralelas. Em razão de ser composto por muitas partes, um sistema distribuído está sujeito a falhas em seu subsistema de comunicação, em seus processadores, em suas aplicações entre outros componentes. Desta maneira, as aplicações paralelas, ao utilizarem os sistemas distribuídos, têm suas partes executadas em paralelo pelos recursos distribuídos. Em razão de cada um destes recursos ser um possível ponto de falha, as aplicações paralelas acabam por tornarem-se mais susceptíveis à ocorrência de falhas e, conseqüentemente, à interrupção de suas execuções. Quando estas aplicações paralelas são interrompidas, todo o processamento realizado e o tempo gasto para tal são desperdiçados, pois as aplicações devem ser reinicializadas. Para minimizar estes desperdícios de tempo e processamento é apresentado neste trabalho um ambiente de monitoramento e execução que fornece mecanismos para se detectar falhas da classe fail stop em aplicações paralelas executas em ambientes distribuídos ou centralizados. O ambiente em questão é denominado de AMTF (Ambiente de Monitoramento Tolerante a Falhas). O ambiente AMTF utiliza as técnicas de checkpointing/restart para armazenar e recuperar os estados dos processos e de heartbeat para verificar a continuidade de execução destes mesmos processos. Juntamente com o ambiente AMTF é disponibilizada uma biblioteca a ser utilizada pelo desenvolvedor de aplicações paralelas, sendo que a mesma oferece a liberdade de se indicar no código-fonte da aplicação o ponto e o momento que se deseja que o contexto da aplicação seja armazenado para uma possível recuperação além de sua periodicidade para os registros automáticos. Alta Disponibilidade Cluster de Computadores Tolerância a Falhas
2	"Ambiente para Minimização do Impacto de Falhas para Aplicações Paralelas" José Luis Zem 26 September 2005 (has links) Os sistemas paralelos são importantes pois permitem concentrar recursos computacionais como processadores, memórias e dispositivos de E/S para solucionar problemas computacionais que necessitam de uma grande quantidade destes mesmos recursos e em um tempo de execução aceitável. Tradicionalmente, o tempo, a capacidade e o custo do processamento para se resolver estes problemas computacionais utilizando-se aplicações seqüênciais podem ser proibitivos e isto acaba criando um contexto propício para se utilizar aplicações paralelas. Em razão de ser composto por muitas partes, um sistema distribuído está sujeito a falhas em seu subsistema de comunicação, em seus processadores, em suas aplicações entre outros componentes. Desta maneira, as aplicações paralelas, ao utilizarem os sistemas distribuídos, têm suas partes executadas em paralelo pelos recursos distribuídos. Em razão de cada um destes recursos ser um possível ponto de falha, as aplicações paralelas acabam por tornarem-se mais susceptíveis à ocorrência de falhas e, conseqüentemente, à interrupção de suas execuções. Quando estas aplicações paralelas são interrompidas, todo o processamento realizado e o tempo gasto para tal são desperdiçados, pois as aplicações devem ser reinicializadas. Para minimizar estes desperdícios de tempo e processamento é apresentado neste trabalho um ambiente de monitoramento e execução que fornece mecanismos para se detectar falhas da classe fail stop em aplicações paralelas executas em ambientes distribuídos ou centralizados. O ambiente em questão é denominado de AMTF (Ambiente de Monitoramento Tolerante a Falhas). O ambiente AMTF utiliza as técnicas de checkpointing/restart para armazenar e recuperar os estados dos processos e de heartbeat para verificar a continuidade de execução destes mesmos processos. Juntamente com o ambiente AMTF é disponibilizada uma biblioteca a ser utilizada pelo desenvolvedor de aplicações paralelas, sendo que a mesma oferece a liberdade de se indicar no código-fonte da aplicação o ponto e o momento que se deseja que o contexto da aplicação seja armazenado para uma possível recuperação além de sua periodicidade para os registros automáticos. Alta Disponibilidade Cluster de Computadores Tolerância a Falhas
3	FTDR: Tolerancia a fallos, en clusters de computadores geográficamente distribuidos, basada en Replicación de Datos Rodrigues de Souza, Josemar 01 June 2006 (has links) El crecimiento de los clusters de computadores, y en concreto de sistemas multicluster incrementa los potenciales puntos de fallos, exigiendo la utilización de esquemas de tolerancia a fallos que proporcionen la capacidad de terminar el procesamiento. El objetivo general planteado a sistemas de tolerancia a fallos es que el trabajo total se ejecute correctamente, aún cuando falle algún elemento del sistema, perdiendo el mínimo trabajo realizado posible, teniendo en cuenta que las prestaciones disminuyen debido al overhead necesario introducido para tolerar fallos y a la perdida de una parte del sistema. Esta Tesis presenta un modelo de tolerancia a fallos en clusters de computadores geográficamente distribuidos, utilizando Replicación de Datos denominado FTDR (Fault Tolerant Data Replication). Está basado en la replicación inicial de los procesos y una replicación de datos dinámica durante la ejecución, con el objetivo de preservar los resultados críticos. Está orientado a aplicaciones con un modelo de ejecución Master/Worker y ejecutado de forma transparente al usuario. El sistema de tolerancia a fallos diseñado, es configurable y cumple el requisito de escalabilidad. Se ha diseñado un modelo funcional, e implementado un Middleware. Se propone una metodología para incorporarlo en el diseño de aplicaciones paralelas. El modelo está basado en detectar fallos en cualquiera de los elementos funcionales del sistema (nodos de cómputo y redes de interconexión) y tolerar estos fallos a partir de la replicación de programas y datos realizada, garantizando la finalización del trabajo, y preservando la mayor parte del cómputo realizado antes del fallo, para ello es necesario, cuando se produce un fallo, recuperar la consistencia del sistema y reconfigurar el multicluster de una forma transparente al usuario. El Middleware desarrollado para la incorporación de la tolerancia a fallos en el entorno multicluster consigue un sistema más fiable, sin incorporar recursos hardware extra, de forma que partiendo de los elementos no fiables del cluster, permite proteger el cómputo realizado por la aplicación frente a fallos, de tal manera que si un ordenador falla otro se encarga de terminar su trabajo y el cómputo ya realizado está protegido por la Replicación de Datos. Este Middleware se puede configurar para soportar más de un fallo simultáneo, seleccionar un esquema centralizado o distribuido, también se pueden configurar parámetros relativos a aspectos que influyen en el overhead introducido, frente a la pérdida de más o menos computo realizado. Para validar el sistema se ha diseñado un sistema de inyección de fallos. Aunque añadir la funcionalidad de tolerancia a fallos, implica una pérdida de prestaciones, se ha comprobado experimentalmente, que utilizando este sistema, el overhead introducido sin fallos, es inferior al 3% y en caso de fallo, después de un tiempo de ejecución, es mejor el tiempo de ejecución (runtime) tolerando el fallo que relanzar la aplicación. / The growth of the clusters computers and in special multi-cluster systems increases the potential failures points, demanding the utilization of fault tolerance schemes that provide the capacity of finishing the processing. The general goal proposed for fault tolerance systems is that the total work executes correctly, still when it fails with some elements of the system, losing the minimum possible performed work, having in mind that performance decreases due to the necessary overhead introduced to tolerate failures and to the loss of a part of the system. This Thesis presents a fault tolerance model in clusters computers geographically distributed, using Data Replication denominated FTDR (Fault Tolerant Data Replication). It is based on initial process replication and a dynamic data replication during the execution, with the goal of preserving the critical results. It is guided to the applications with an execution model Master/Worker and executed in a transparent way to the user. The design of fault tolerance system is configurable and accomplishes scalability requisites. A functional model has been drawn, and a Middleware has been implemented. A methodology to incorporate it in the parallels applications design is proposed. The model is based on failures detection for any of the functional elements of the system (nodes of compute and network interconnection) and to tolerate these failures starting from programs replication and data, guaranteeing the conclusion of work, and preserving most of the compute performed before the fault, for that it is necessary, when a failure takes place, to recover the consistency of the system and recon figurate the multicluster in a transparent way to the user. The Middleware developed to incorporate fault tolerance in the multicluster environment gets a more reliable system, without incorporating extra hardware resources, so that starting from the non reliable elements of cluster, it allows to protect the computation performed by the application in front of failures, that is if a computer fails another takes care of finishing its work and compute yet performed is protected by Data Replication. This Middleware can be configured to tolerate more than one simultaneous failure, select a centralized or distributed scheme; relative parameters for aspects that influence in the introduced overhead can also be configured, adapting to the loss of more or less performed compute. To validate the system we drew a failure injection system. Despite adding the fault tolerance functionality implies a loss of installments, it is experimentally proved, that using this system, the overhead introduced without failures, is lower than 3% and in case of failure, after an execution time, the runtime is better tolerating the failure than relaunching the application. Replicación de datos Tolerancia a fallos Cluster de computadores Tecnologies 004
4	Políticas de escalonamento memory-intensive para aplicações distribuídas / Memory-intensive scheduling policies for distributed applications Alves, Luís Cézar Darienzo 24 June 2008 (has links) Esta dissertação aborda o escalonamento de processos em sistemas de clusters de computadores, tanto em plataformas homogêneas quanto heterogêneas. As heterogeneidades abordadas incluem a potência computacional dos processadores, quantidade de memória principal do sistema e o tempo médio de acesso ao disco. Neste trabalho são propostas quatro novas políticas destinadas a realizar o compartilhamento de carga nesses ambientes, considerando cargas de trabalho com aplicações variando entre CPU-bound e memoryintensive. Dentre as quatro políticas, uma utiliza apenas índices de CPU, enquanto as demais utilizam também índices de memória. Os resultados foram obtidos através de simulações baseadas em trace e mostram reduções significativas das perdas de desempenho observadas nos resultados obtidos com as políticas de escalonamento propostas. Como referências foram utilizadas políticas de escalonamento tradicionais encontradas na literatura / This dissertation approaches the process scheduling on clusters of computers, on both homogeneous and heterogeneous platforms. The heterogeneities considered include processor computational power, system main memory quantity and the average disk access time. In this work are proposed four novel policies aimed at realizing the work load sharing on these environments, considering workloads with applications varying between CPU-bound and memory-intensive. Among the four policies, one of them uses only CPU indices, while the others also use memory indices. The results were obtained by means of trace-based simulations and show a significant reduction on the performance losses observed on the results obtained with the proposed scheduling policies. As references were used traditional scheduling policies found in the literature Avaliação de desempenho Cluster de computadores Computer clusters Escalonamento de processos Performance evaluation Processes scheduling Single-system image Sistemas de imagem única
5	Políticas de escalonamento memory-intensive para aplicações distribuídas / Memory-intensive scheduling policies for distributed applications Luís Cézar Darienzo Alves 24 June 2008 (has links) Esta dissertação aborda o escalonamento de processos em sistemas de clusters de computadores, tanto em plataformas homogêneas quanto heterogêneas. As heterogeneidades abordadas incluem a potência computacional dos processadores, quantidade de memória principal do sistema e o tempo médio de acesso ao disco. Neste trabalho são propostas quatro novas políticas destinadas a realizar o compartilhamento de carga nesses ambientes, considerando cargas de trabalho com aplicações variando entre CPU-bound e memoryintensive. Dentre as quatro políticas, uma utiliza apenas índices de CPU, enquanto as demais utilizam também índices de memória. Os resultados foram obtidos através de simulações baseadas em trace e mostram reduções significativas das perdas de desempenho observadas nos resultados obtidos com as políticas de escalonamento propostas. Como referências foram utilizadas políticas de escalonamento tradicionais encontradas na literatura / This dissertation approaches the process scheduling on clusters of computers, on both homogeneous and heterogeneous platforms. The heterogeneities considered include processor computational power, system main memory quantity and the average disk access time. In this work are proposed four novel policies aimed at realizing the work load sharing on these environments, considering workloads with applications varying between CPU-bound and memory-intensive. Among the four policies, one of them uses only CPU indices, while the others also use memory indices. The results were obtained by means of trace-based simulations and show a significant reduction on the performance losses observed on the results obtained with the proposed scheduling policies. As references were used traditional scheduling policies found in the literature Avaliação de desempenho Cluster de computadores Escalonamento de processos Sistemas de imagem única Computer clusters Performance evaluation Processes scheduling Single-system image
6	RedBlue: cluster para pesquisa e ensino em Engenharia Pedras, Marcelo Br?ulio 13 November 2017 (has links) Submitted by Jos? Henrique Henrique (jose.neves@ufvjm.edu.br) on 2018-01-31T18:35:38Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) marcelo_braulio_pedras.pdf: 2382099 bytes, checksum: 3edc0615e188d815d0a9d1a514edfb8f (MD5) / Approved for entry into archive by Rodrigo Martins Cruz (rodrigo.cruz@ufvjm.edu.br) on 2018-02-03T12:04:59Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) marcelo_braulio_pedras.pdf: 2382099 bytes, checksum: 3edc0615e188d815d0a9d1a514edfb8f (MD5) / Made available in DSpace on 2018-02-03T12:04:59Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) marcelo_braulio_pedras.pdf: 2382099 bytes, checksum: 3edc0615e188d815d0a9d1a514edfb8f (MD5) Previous issue date: 2017 / Programas de computadores s?o muito utilizados para resolu??o de problemas complexos em engenharia. Atualmente, espera-se que um engenheiro saiba mais que apenas utiliz?-los, sendo esta habilidade muito valorizada no mercado de trabalho. Tal habilidade possibilita que profissionais consigam utilizar um maior conjunto de ferramentas para solucionar problemas. As simula??es computacionais, por exemplo, podem ser utilizadas como ferramenta de aquisi??o de conhecimento, permitindo que um profissional ou um estudante crie, teste e valide suas hip?teses. As simula??es tamb?m s?o utilizadas em pesquisas cient?ficas como alternativa a experimentos de dif?cil obten??o e na ind?stria para reduzir custos. Por?m, uma simula??o pode consumir mais recursos do que os dispon?veis em um computador, tornando seu tempo de execu??o invi?vel. Uma forma barata de se obter mais desempenho ? utilizando um cluster de computadores comuns. Dessa forma, seria poss?vel utilizar os laborat?rios de inform?tica dispon?veis para execut?-las. Entretanto, isso implicaria em conhecimentos aprofundados em computa??o paralela e/ou distribu?da por parte dos usu?rios, dificultado o desenvolvimento de aplica??es. Com o objetivo de minimizar o tempo de execu??o de simula??es complexas utilizando clusters e permitir que usu?rios com poucos conhecimentos em programa??o paralela e/ou distribu?da possam utiliz?-lo, este trabalho apresenta uma solu??o denominada ?plataforma RedBlue?. Essa plataforma recebe a aplica??o do usu?rio e a executa nos n?s do cluster de forma autom?tica e transparente para o mesmo. Para testar a plataforma desenvolvida foram realizados testes com redes neurais artificiais e com um algoritmo gen?tico simples, ambos buscando descobrir a melhor configura??o de par?metros para determinado problema. Utilizaram-se 60 m?quinas de um laborat?rio de inform?tica para testar a plataforma. Os resultados mostram que houve uma redu??o de at? 98% no tempo de execu??o do experimento com redes neurais e 99,3% para o experimento com o algoritmo gen?tico em compara??o a execu??o sequencial. Esses resultados indicam que a plataforma ? vi?vel para utiliza??o em laborat?rios de inform?tica, possibilitando uma redu??o consider?vel no tempo de execu??o de simula??es complexas. A plataforma ? aplic?vel a um n?mero flex?vel de computadores, ajustando-se ? capacidade dos laborat?rios. Al?m disso, pode ser utilizada como instrumento ?til ao ensino e pesquisa. Ressalta-se que a utiliza??o de simula??es computacionais para ensino e pesquisa contribui n?o apenas para a aprendizagem de conte?dos, mas tamb?m para o surgimento de habilidades necess?rias ao mercado de trabalho do engenheiro. / Disserta??o (Mestrado Profissional) ? Programa de P?s-Gradua??o em Educa??o, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2017. / Computer programs are commonly used to solve complex engineering problems, and it is expected from an engineer a more than hands-on experience in using these computer programs with the ability to develop them using a wide range of tools. Computational simulations, for instance, can be used as tools for knowledge acquisition allowing a professional or student to create, test and validate their hypotheses. Such simulations are used at an academic setting as an alternative to expensive experiments. However, a simulation can take more resources than those available in a single computer machine, rendering long execution times. To create a cluster of regular computers, such as the ones already available at computer labs, is a cheaper alternative to improve such execution times. One major drawback of this approach is that the user must be knowledgeable in parallel and distributed programming, which makes software development harder. To overcome such constraints, this work presents a solution named ?RedBlue platform?that receives and runs user?s applications over a computer cluster in an automatic, transparent manner. To test the RedBlue platform, we performed a set of tests via artificial neural networks and a simplified genetic algorithm, whose main purpose was to search for the best-suited parameter configurations for the application problem at hand. To test the platform, the experiments were run using 60 computer machines from a computer lab. This study has identified a reduction in execution times of 98% for neural networks, and a reduction of 99,3% for the genetic algorithm, and also shown that the platform is suited for real-world applications of simulations at computer labs. Furthermore, the platform accepts a variable number of computers, easily adaptable to different academic environments, such as research and training. Lastly, we have noted that computational simulations not only contribute to research and learning, but also to develop the required industry skills. Simula??es computacionais Cluster de computadores Educa??o e pesquisa Programa??o paralela Programa??o distribu?da Computational simulation Computer cluster Education and research Parallel programming Distributed programming

1

Page generated in 0.1215 seconds