A diminuição no custo de computadores pessoais tem favorecido a construção de sistemas computacionais complexos, tais como aglomerados e grades. Devido ao grande número de recursos existentes nesses sistemas, a probabilidade de que faltas ocorram é alta. Uma abordagem que auxilia a tornar sistemas mais robustos na presença de faltas é a detecção de sua ocorrência, a fim de que processos possam ser reiniciados em estados seguros, ou paralisados em estados que não ofereçam riscos. Abordagens comumente adotadas para detecção seguem, basicamente, três tipos de estratégias: as baseadas em mensagens de controle, em estatística e em aprendizado de máquina. No entanto, elas tipicamente não consideram o comportamento de processos ao longo do tempo. Observando essa limitação nas pesquisas relacionadas, este trabalho apresenta uma abordagem para medir a variação no comportamento de processos ao longo do tempo, a fim de que mudanças inesperadas sejam detectadas. Essas mudanças são consideradas, no contexto deste trabalho, como faltas, as quais representam transições indesejadas entre estados de um processo e podem levá-lo a processamento incorreto, fora de sua especificação. A proposta baseia-se na estimação de cadeias de Markov que representam estados visitados por um processo durante sua execução. Variações nessas cadeias são utilizadas para identificar faltas. A abordagem proposta é comparada à técnica de aprendizado de máquina Support Vector Machines, bem como à técnica estatística Auto-Regressive Integrated Moving Average. Essas técnicas foram escolhidas para comparação por estarem entre as mais empregadas na literatura. Experimentos realizados mostraram que a abordagem proposta possui, com erro \'alfa\' = 1%, um F-Measure maior do que duas vezes o alcançado pelas outras técnicas. Realizou-se também um estudo adicional de predição de faltas. Nesse sentido, foi proposta uma técnica preditiva baseada na reconstrução do comportamento observado do sistema. A avaliação da técnica mostrou que ela pode aumentar em até uma ordem de magnitude a disponibilidade (em horas) de um sistema / The cost reduction for personal computers has enabled the construction of complex computational systems, such as clusters and grids. Because of the large number of resources available on those systems, the probability that faults may occur is high. An approach that helps to make systems more robust in the presence of faults is their detection, in order to restart or stop processes in safe states. Commonly adopted approaches for detection basically follow one of three strategies: the one based on control messages, on statistics or on machine learning. However, they typically do not consider the behavior of processes over time. Observing this limitation in related researches, this work presents an approach to measure the level of variation in the behavior of processes over time, so that unexpected changes are detected. These changes are considered, in the context of this work, as faults, which represent undesired transitions between process states and may cause incorrect processing, outside the specification. The approach is based on the estimation of Markov Chains that represent states visited by a process during its execution. Variations in these chains are used to identify faults. The approach is compared to the machine learning technique Support Vector Machines, as well as to the statistical technique Auto-Regressive Integrated Moving Average. These techniques have been selected for comparison because they are among the ones most employed in the literature. Experiments conducted have shown that the proposed approach has, with error \'alpha\'= 1%, an F-Measure higher than twice the one achieved by the other techniques. A complementary study has also been conducted about fault prediction. In this sense, a predictive approach based on the reconstruction of system behavior was proposed. The evaluation of the technique showed that it can provide up to an order of magnitude greater availability of a system in terms of uptime hours
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-12052011-141404 |
Date | 25 March 2011 |
Creators | Pereira, Cássio Martini Martins |
Contributors | Mello, Rodrigo Fernandes de |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | English |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0018 seconds