Les systèmes pair-à-pair à grande échelle ont été proposés comme un moyen fiable d'assurer un stockage de données à faible coût. Pour assurer la pérennité des données sur une période très longue, ces systèmes codent les données des utilisateurs comme un ensemble de fragments redondants qui sont distribués entre différents pairs du réseau. Un mécanisme de réparation est nécessaire pour faire face au comportement dynamique et non fiable des pairs. Ce mécanisme reconstruit en permanence les fragments de redondance manquants. Le système dépend de nombreux paramètres de configuration qui doivent être bien réglés, comme le facteur de redondance, sa politique de placement et la fréquence de réparation des données. Ces paramètres affectent la quantité de ressources, telles que la bande passante et l'espace de stockage, nécessaires pour obtenir un niveau souhaité de fiabilité, c'est-à-dire, une certaine probabilité de perdre des données. Cette thèse vise à fournir des outils permettant d'analyser et de prédire la performance de systèmes de stockage de données à grande échelle en général. Nous avons utilisé ces outils pour analyser l'impact de différents choix de conception du système sur différentes mesures de performance. Par exemple, la consommation de bande passante, l'espace de stockage et la probabilité de perdre des données, doivent être aussi faibles que possible. Différentes techniques sont étudiées et appliquées. Tout d'abord, nous décrivons un modèle simple par chaîne de Markov qui exploit la dynamique d'un système de stockage sous l'effet de défaillance des pairs et de réparation de données. Puis nous établissons des formules mathématiques closes qui donnent de bonnes approximations du modèle. Ces formules nous permettent de comprendre les interactions entre les paramètres du système. En effet, un mécanisme de réparation paresseux (lazy repair) est étudié et nous décrivons comment régler les paramètres du système pour obtenir une utilisation efficace de la bande passante. Nous confirmons en comparant à des simulations que ce modèle donne des approximations correctes du comportement moyen du système, mais ne parvient pas à capturer ses importantes variations au fil du temps. Nous proposons ensuite un nouveau modèle stochastique basé sur une approximation fluide pour saisir les écarts par rapport au comportement moyen. Ces variations qui sont généralement négligées par les travaux antérieurs, sont très im- portants pour faire une bonne estimation des ressources nécessaires au système. De plus, nous étudions plusieurs autres aspects d'un système de stockage distribué: nous utilisons un modèle de files d'attente pour calculer le temps de réparation pour un système avec bande passante limitée; nous étudions un système de codage hybride: en mixant les codes d'éffacement avec la simple réplication des données; enfin, nous étudions l'impact des différentes façons de distribuer des fragments de données entre les pairs, i.e., les stratégies des placements.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00545724 |
Date | 16 November 2010 |
Creators | Monteiro, Julian |
Publisher | Université de Nice Sophia-Antipolis |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0019 seconds