Return to search

Desempenho de sistemas com dados georeplicados com consistência em momento indeterminado e na linha do tempo / Performace of systems with geo-replicated data with eventual consistency and timeline consistency

Sistemas web de larga escala são distribuídos em milhares de servidores em múltiplos centros de processamento de dados em diferentes localizações geográficas, operando sobre redes de longa distância (WANs). Várias técnicas são usadas para atingir os altos níveis de escalabilidade requeridos por esses sistemas. Replicação de dados está entre as principais delas, e tem por objetivo diminuir a latência, aumentar a vazão e/ou aumentar a disponibilidade do sistema. O principal problema do uso de replicação em sistemas georeplicados é a dificuldade de garantir consistência entre as réplicas sem prejudicar consideravelmente o desempenho e a disponibilidade do sistema. O desempenho do sistema é afetado pelas latências da ordem de centenas de milissegundos da WAN, enquanto a disponibilidade é afetada por falhas que impedem a comunicação entre as réplicas. Quanto mais rígido o modelo de consistência de um sistema de armazenamento, mais simples é o desenvolvimento do sistema que o usa, mas menores são seu desempenho e disponibilidade. Entre os modelos de consistência mais relaxados e mais difundidos em sistemas web georeplicados está a consistência em momento indeterminado (eventual consistency). Esse modelo de consistência garante que em algum momento as réplicas convergem após as escritas terem cessado. Um modelo mais rígido e menos difundido é a consistência na linha do tempo. Esse modelo de consistência usa uma réplica mestre para garantir que não ocorram conflitos na escrita. Nas leituras, os clientes podem ler os valores mais recentes a partir da cópia mestre, ou optar explicitamente por ler valores possivelmente desatualizados para obter maior desempenho ou disponibilidade. A consistência na linha do tempo apresenta disponibilidade menor que a consistência em momento indeterminado em determinadas situações, mas não há dados comparando o desempenho de ambas. O objetivo principal deste trabalho foi a comparação do desempenho de sistemas de armazenamento georeplicados usando esses dois modelos de consistência. Para cada modelo de consistência, foram realizados experimentos que mediram o tempo de resposta do sistema sob diferentes cargas de trabalho e diferentes condições de rede entre centros de processamento de dados. O estudo mostra que um sistema usando consistência na linha do tempo apresenta desempenho semelhante ao mesmo sistema usando consistência em momento indeterminado em uma WAN quando a localidade dos acessos é alta. Esse comparativo pode auxiliar desenvolvedores e administradores de sistemas no planejamento de capacidade e de desenvolvimento de sistemas georeplicados. / Large scale web systems are distributed among thousands of servers spread over multiple data centers in geographically different locations operating over wide area networks (WANs). Several techniques are employed to achieve the high levels of scalability required by such systems. One of the main techniques is data replication, which aims to reduce latency, increase throughput and/or increase availability. The main drawback of replication in geo-replicated systems is that it is hard to guarantee consistency between replicas without considerably impacting system performance and availability. System performance is affected by WAN latencies, typically of hundreds of miliseconds, while system availability is affected by failures cutting off communication between replicas. The more rigid the consistency model provided by a storage system, the simpler the development of the system using it, but the lower its performance and availability. Eventual consistency is one of the more relaxed and most widespread consistency models among geo-replicated systems. This consistency model guarantees that all replicas converge at some unspecified time after writes have stopped. A model that is more rigid and less widespread is timeline consistency. This consistency model uses a master replica to guarantee that no write conflicts occur. Clients can read the most up-to-date values from the master replica, or they can explicitly choose to read stale values to obtain greater performance or availability. Timeline consistency has lower availability than eventual consistency in particular situations, but there are no data comparing their performance. The main goal of this work was to compare the performance of a geo-replicated storage system using these consistency models. For each consistency model, experiments were conducted to measure system response time under different workloads and network conditions between data centers. The study shows that a system using timeline consistency has similar performance than the same system using eventual consistency over a WAN when access locality is high. This comparative may help developers and system administrators on capacity and development planning of geo-replicated systems.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-23042013-190406
Date21 March 2013
CreatorsDiana, Mauricio José de Oliveira de
ContributorsGerosa, Marco Aurélio
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguageEnglish
TypeDissertação de Mestrado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0017 seconds