Global ETD Search

1	Adapting video compression to new formats / Adaptation de la compression vidéo aux nouveaux formats Bordes, Philippe 18 January 2016 (has links) Les nouvelles techniques de compression vidéo doivent intégrer un haut niveau d'adaptabilité, à la fois en terme de bande passante réseau, de scalabilité des formats (taille d'images, espace de couleur…) et de compatibilité avec l'existant. Dans ce contexte, cette thèse regroupe des études menées en lien avec le standard HEVC. Dans une première partie, plusieurs adaptations qui exploitent les propriétés du signal et qui sont mises en place lors de la création du bit-stream sont explorées. L'étude d'un nouveau partitionnement des images pour mieux s'ajuster aux frontières réelles du mouvement permet des gains significatifs. Ce principe est étendu à la modélisation long-terme du mouvement à l'aide de trajectoires. Nous montrons que l'on peut aussi exploiter la corrélation inter-composantes des images et compenser les variations de luminance inter-images pour augmenter l'efficacité de la compression. Dans une seconde partie, des adaptations réalisées sur des flux vidéo compressés existants et qui s'appuient sur des propriétés de flexibilité intrinsèque de certains bit-streams sont investiguées. En particulier, un nouveau type de codage scalable qui supporte des espaces de couleur différents est proposé. De ces travaux, nous dérivons des metadata et un modèle associé pour opérer un remapping couleur générique des images. Le stream-switching est aussi exploré comme une application particulière du codage scalable. Plusieurs de ces techniques ont été proposées à MPEG. Certaines ont été adoptées dans le standard HEVC et aussi dans la nouvelle norme UHD Blu-ray Disc. Nous avons investigué des méthodes variées pour adapter le codage de la vidéo aux différentes conditions de distribution et aux spécificités de certains contenus. Suivant les scénarios, on peut sélectionner et combiner plusieurs d'entre elles pour répondre au mieux aux besoins des applications. / The new video codecs should be designed with an high level of adaptability in terms of network bandwidth, format scalability (size, color space…) and backward compatibility. This thesis was made in this context and within the scope of the HEVC standard development. In a first part, several Video Coding adaptations that exploit the signal properties and which take place at the bit-stream creation are explored. The study of improved frame partitioning for inter prediction allows better fitting the actual motion frontiers and shows significant gains. This principle is further extended to long-term motion modeling with trajectories. We also show how the cross-component correlation statistics and the luminance change between pictures can be exploited to increase the coding efficiency. In a second part, post-creation stream adaptations relying on intrinsic stream flexibility are investigated. In particular, a new color gamut scalability scheme addressing color space adaptation is proposed. From this work, we derive color remapping metadata and an associated model to provide low complexity and general purpose color remapping feature. We also explore the adaptive resolution coding and how to extend scalable codec to stream-switching applications. Several of the described techniques have been proposed to MPEG. Some of them have been adopted in the HEVC standard and in the UHD Blu-ray Disc. Various techniques for adapting the video compression to the content characteristics and to the distribution use cases have been considered. They can be selected or combined together depending on the applications requirements. Compression Video Scalabilité Mpeg Colorimétrie Video compression Scalability Mpeg Colorimetry
2	Improving performance on NUMA systems / Amélioration de performance sur les architectures NUMA Lepers, Baptiste 24 January 2014 (has links) Les machines multicœurs actuelles utilisent une architecture à Accès Mémoire Non-Uniforme (Non-Uniform Memory Access - NUMA). Dans ces machines, les cœurs sont regroupés en nœuds. Chaque nœud possède son propre contrôleur mémoire et est relié aux autres nœuds via des liens d'interconnexion. Utiliser ces architectures à leur pleine capacité est difficile : il faut notamment veiller à éviter les accès distants (i.e., les accès d'un nœud vers un autre nœud) et la congestion sur les bus mémoire et les liens d'interconnexion. L'optimisation de performance sur une machine NUMA peut se faire de deux manières : en implantant des optimisations ad-hoc au sein des applications ou de manière automatique en utilisant des heuristiques. Cependant, les outils existants fournissent trop peu d'informations pour pouvoir implanter efficacement des optimisations et les heuristiques existantes ne permettent pas d'éviter les problèmes de congestion. Cette thèse résout ces deux problèmes. Dans un premier temps nous présentons MemProf, le premier outil d'analyse permettant d'implanter efficacement des optimisations NUMA au sein d'applications. Pour ce faire, MemProf construit des flots d'interactions entre threads et objets. Nous évaluons MemProf sur 3 machines NUMA et montrons que les optimisations trouvées grâce à MemProf permettent d'obtenir des gains de performance significatifs (jusqu'à 2.6x) et sont très simples à implanter (moins de 10 lignes de code). Dans un second temps, nous présentons Carrefour, un algorithme de gestion de la mémoire pour machines NUMA. Contrairement aux heuristiques existantes, Carrefour se concentre sur la réduction de la congestion sur les machines NUMA. Carrefour permet d'obtenir des gains de performance significatifs (jusqu'à 3.3x) et est toujours plus performant que les heuristiques existantes. / Modern multicore systems are based on a Non-Uniform Memory Access (NUMA) design. In a NUMA system, cores are grouped in a set of nodes. Each node has a memory controller and is interconnected with other nodes using high speed interconnect links. Efficiently exploiting such architectures is notoriously complex for programmers. Two key objectives on NUMA multicore machines are to limit as much as possible the number of remote memory accesses (i.e., accesses from a node to another node) and to avoid contention on memory controllers and interconnect links. These objectives can be achieved by implementing application-level optimizations or by implementing application-agnostic heuristics. However, in many cases, existing profilers do not provide enough information to help programmers implement application-level optimizations and existing application-agnostic heuristics fail to address contention issues. The contributions of this thesis are twofold. First we present MemProf, a profiler that allows programmers to choose and implement efficient application-level optimizations for NUMA systems. MemProf builds temporal flows of interactions between threads and objects, which help programmers understand why and which memory objects are accessed remotely. We evaluate MemProf on Linux on three different machines. We show how MemProf helps us choose and implement efficient optimizations, unlike existing profilers. These optimizations provide significant performance gains (up to 2.6x), while requiring very lightweight modifications (10 lines of code or less). Then we present Carrefour, an application-agnostic memory management algorithm. Contrarily to existing heuristics, Carrefour focuses on traffic contention on memory controllers and interconnect links. Carrefour provides significant performance gains (up to 3.3x) and always performs better than existing heuristics. Multicoeur Parallèlisme NUMA Evenementiel Scalabilité Profiling Multicore Parallelism NUMA Event Driven Programming Scalability Profiling 004
3	algorithmes de clustérisation et routage dans les réseaux Ad Hoc / Clustering algorithms and routing protocaols in wireless mobile networks Guizani, Badreddine 04 April 2012 (has links) Le passage à l’échelle des protocoles de routage est un des problèmes les plus critiques pour les réseauxmobiles sans fil à grande envergure. Dans ce cadre, le concept de clusterisation peut être mis à profit dans lafonction de routage afin d’améliorer les performances de ces réseaux. En premier lieu, cette thèse présentenotre algorithme de clusterisation à 1-saut alpha-SSCA (α-Stability Structure Clustering Algorithm) qui apour objectif d’améliorer la stabilité de la structure des clusters. Un algorithme générique de clusterisationà K-sauts est également proposé en ayant le même but de stabilité visé par alpha-SSCA tout en réduisant lenombre de clusters générés et en étant indépendant de la métrique d’élection des cluster-heads. Ensuite, nousprésentons notre proposition d’un protocole de routage à état des liens des clusters qui exploite les apports denotre mécanisme de clusterisation α-SSCA. Ce protocole, appelé CLSR (Cluster-based Link State Routing),vise à réduire le trafic de contrôle afin d’améliorer les performances du réseau à large échelle. Nous avonsproposé aussi une version hiérarchique du protocole CLSR. Ce protocole de routage introduit une hiérarchiedans la structure des clusters qui permet de réduire le nombre de clusters en groupement des clusters prochesdans un même cluster. L’objectif principal de ce protocole hiérarchique est d’améliorer la scalabilité de CLSRquand le nombre de noeuds dans le réseau augmente considérablement. / Scalability is one of critical challenges for routing protocols in large scale mobile wireless networks. In thiscontext, clustering technique seems a promising approach to overcome the scalability problem. First, we proposea one hop clustering algorithm, alpha-SSCA (alpha-Stability Structure Clustering Algorithm), whichaims to improve the stability of the clusters structure. Second, we present a proposal of a generic K-hopsclustering algorithm which is independent of the metrics used to elect cluster-heads. The main contributionof this last algorithm is to enhance the stability of the clusters structure while reducing the number of clusters.Clustering mechanism is introduced in our proposed routing protocol CLSR (Cluster-based Link StateRouting) in order to reduce the control overhead. The main objective of CLSR is to take profit of the stablestructure of clusters to enhance the network scalability.We propose also a second proactive link-state protocolwhich is based on hierarchical clustering. This protocol makes use of hierarchical clustering to more reducethe routing overhead. Clusterisation Routage Scalabilité Réseaux mobiles sans-fil Routing Scalability Clustering Mobile wireless Networks
4	Codage à description multiple d'images et de vidéos pour des canaux bruités Pereira, Manuela 18 June 2004 (has links) (PDF) Les travaux développés dans cette thèse apportent un nouveau regard sur les techniques de codage par descriptions multiples (MDC). <br />Nous proposons une méthode (MDBA) de codage MDC source/canal conjoint robuste adaptée à la transmission d'images et de vidéos sur des canaux non stationnaires. Le principal avantage de cette méthode est qu'elle est bien adaptée pour des applications de transmission sur des canaux peu fiables et variables dans le temps. De plus, grâce à ses capacités de compression et de synchronisation, elle permet de faire de la transmission en temps réel. <br />Nous montrons que la méthode proposée présente les meilleurs résultats en terme de rapport signal à bruit et de qualité visuelle lorsqu'on la compare avec d'autres méthodes de descriptions multiples issues de l'état de l'art. De plus, elle s'avère bien adaptée pour des applications où les méthodes standard de contrôle d'erreur ne sont pas capables de s'adapter facilement aux caractéristiques du canal. <br />La méthode est validée sur différents modèles de canal (BSC, AWGN, Internet, UMTS, satellite) dans le cadre de la transmission d'images et de vidéos. <br />La méthode MDBA proposée est bien adaptée pour des applications qui ont besoin d'un codeur qui utilise l'information venant d'un canal de "feedback" comme par exemple "peer-to-peer video conferencing", vidéo sans fil, etc, mais s'avère insuffisante quand on veut faire du "streaming" vidéo. C'est pour cette raison que nous avons développé un système dédié au "streaming" de vidéo. Ainsi ce manuscrit termine avec une extension de la méthode pour faire du "streaming" vidéo robuste aux erreurs du canal. La méthode proposée permet à la fois de s'adapter à bande passante du canal (débit variable) et de s'adapter aux erreurs de transmission liés au niveau de bruit présent sur le canal. MDC adaptabilité scalabilité codage robuste transmissions variables ondelettes analyse multirésolution allocation de débits
5	algorithmes de clustérisation et routage dans les réseaux Ad Hoc Guizani, Badreddine 04 April 2012 (has links) (PDF) Le passage à l'échelle des protocoles de routage est un des problèmes les plus critiques pour les réseauxmobiles sans fil à grande envergure. Dans ce cadre, le concept de clusterisation peut être mis à profit dans lafonction de routage afin d'améliorer les performances de ces réseaux. En premier lieu, cette thèse présentenotre algorithme de clusterisation à 1-saut alpha-SSCA (α-Stability Structure Clustering Algorithm) qui apour objectif d'améliorer la stabilité de la structure des clusters. Un algorithme générique de clusterisationà K-sauts est également proposé en ayant le même but de stabilité visé par alpha-SSCA tout en réduisant lenombre de clusters générés et en étant indépendant de la métrique d'élection des cluster-heads. Ensuite, nousprésentons notre proposition d'un protocole de routage à état des liens des clusters qui exploite les apports denotre mécanisme de clusterisation α-SSCA. Ce protocole, appelé CLSR (Cluster-based Link State Routing),vise à réduire le trafic de contrôle afin d'améliorer les performances du réseau à large échelle. Nous avonsproposé aussi une version hiérarchique du protocole CLSR. Ce protocole de routage introduit une hiérarchiedans la structure des clusters qui permet de réduire le nombre de clusters en groupement des clusters prochesdans un même cluster. L'objectif principal de ce protocole hiérarchique est d'améliorer la scalabilité de CLSRquand le nombre de noeuds dans le réseau augmente considérablement. Clusterisation Routage Scalabilité Réseaux mobiles sans-fil
6	Vers une nouvelle architecture de videosurveillance basée sur la scalabilité orientée vers l'application / Towards a new video surveillance architecture based on the applicationoriented scalability Ben hamida, Amal 05 October 2016 (has links) Le travail présenté dans ce mémoire a pour objectif le développement d'une nouvelle architecture pour les systèmes de vidéosurveillance. Tout d'abord, une étude bibliographique nous a conduit à classer les systèmes existants selon le niveau de leurs applications qui dépend directement des fonctions analytiques exécutées. Nous avons également constaté que les systèmes habituels traitent toutes les données enregistrées alors que réellement une faible partie des scènes sont utiles pour l'analyse. Ainsi, nous avons étendu l'architecture ordinaire des systèmes de surveillance par une phase de pré-analyse qui extrait et simplifie les régions d'intérêt en conservant les caractéristiques importantes. Deux méthodes différentes pour la pré-analyse dans le contexte de la vidéosurveillance ont été proposées : une méthode de filtrage spatio-temporel et une technique de modélisation des objets en mouvement. Nous avons contribué, aussi, par l'introduction du concept de la scalabilité orientée vers l'application à travers une architecture multi-niveaux applicatifs pour les systèmes de surveillance. Les différents niveaux d'applications des systèmes de vidéosurveillance peuvent être atteints incrémentalement pour répondre aux besoins progressifs de l'utilisateur final. Un exemple de système de vidéosurveillance respectant cette architecture et utilisant nos méthodes de pré-analyse est proposé. / The work presented in this thesis aims to develop a new architecture for video surveillance systems. Firstly, a literature review has led to classify the existing systems based on their applications level which dependents directly on the performed analytical functions. We, also, noticed that the usual systems treat all captured data while, actually, a small part of the scenes are useful for analysis. Hence, we extended the common architecture of surveillance systems with a pre-analysis phase that extracts and simplifies the regions of interest with keeping the important characteristics. Two different methods for preanalysis were proposed : a spatio-temporal filtering and a modeling technique for moving objects. We contributed, too, by introducing the concept of application-oriented scalability through a multi-level application architecture for surveillance systems. The different applications levels can be reached incrementally to meet the progressive needs of the enduser. An example of video surveillance system respecting this architecture and using the preanalysis methods was proposed. Vidéosurveillance Pré-analyse vidéo Video surveillance Application-oriented scalability Video pre-analysis
7	Méthodes directes hors-mémoire (out-of-core) pour la résolution de systèmes linéaires creux de grande taille Agullo, Emmanuel 28 November 2008 (has links) (PDF) La factorisation d'une matrice creuse est une approche robuste pour la résolution de systèmes linéaires creux de grande taille. Néanmoins, une telle factorisation est connue pour être coûteuse aussi bien en temps de calcul qu'en occupation mémoire. Quand l'espace mémoire nécessaire au traitement d'une matrice est plus grand que la quantité de mémoire disponible sur la plate-forme utilisée, des approches dites hors-mémoire (out-of-core) doivent être employées : les disques étendent la mémoire centrale pour fournir une capacité de stockage suffisante. Dans cette thèse, nous nous intéressons à la fois aux aspects théoriques et pratiques de telles factorisations hors-mémoire. Les environnements logiciel MUMPS et SuperLU sont utilisés pour illustrer nos discussions sur des matrices issues du monde industriel et académique. Tout d'abord, nous proposons et étudions dans un cadre séquentiel différents modèles hors-mémoire qui ont pour but de limiter le surcoût dû aux transferts de données entre la mémoire et les disques. Pour ce faire, nous revisitons les algorithmes qui ordonnancent les opérations de la factorisation et proposons de nouveaux schémas de gestion mémoire s'accommodant aux contraintes hors-mémoire. Ensuite, nous nous focalisons sur une méthode de factorisation particulière, la méthode multifrontale, que nous poussons aussi loin que possible dans un contexte parallèle hors-mémoire. Suivant une démarche pragmatique, nous montrons que les techniques hors-mémoire permettent de résoudre efficacement des systèmes linéaires creux de grande taille. Quand seuls les facteurs sont stockés sur disque, une attention particulière doit être portée aux données temporaires, qui restent en mémoire centrale. Pour faire décroître efficacement l'occupation mémoire associée à ces données temporaires avec le nombre de processeurs, nous repensons l'ordonnancement de la factorisation parallèle hors-mémoire dans son ensemble. Matrices creuses factorisation hors-mémoire méthodes multifrontales méthodes supernodales scalabilité mémoire ordonnancement
8	Contributions à l'amélioration de l'extensibilité de simulations parallèles de plasmas turbulents / Towards highly scalable parallel simulations for turbulent plasma physics Rozar, Fabien 05 November 2015 (has links) Les besoins en énergie dans le monde sont croissants alors que les ressources nécessaires pour la production d'énergie fossile s'épuisent d'année en année. Un des moyens alternatifs pour produire de l'énergie est la fusion nucléaire par confinement magnétique. La maîtrise de cette réaction est un défi et constitue un domaine actif de recherche. Pour améliorer notre connaissance des phénomènes qui interviennent lors de la réaction de fusion, deux approches sont mises en oeuvre : l'expérience et la simulation. Les expérience réalisées grâce aux Tokamaks permettent de prendre des mesures. Ceci nécessite l'utilisation des technologiques les plus avancées. Actuellement, ces mesures ne permettent pas d'accéder à toutes échelles de temps et d'espace des phénomènes physiques. La simulation numérique permet d'explorer ces échelles encore inaccessibles par l'expérience. Les ressources matérielles qui permettent d'effectuer des simulations réalistes sont conséquentes. L'usage du calcul haute performance (High Performance Computing HPC) est nécessaire pour avoir accès à ces simulations. Ceci se traduit par l'exploitation de grandes machines de calcul aussi appelées supercalculateurs. Les travaux réalisés dans cette thèse portent sur l'optimisation de l'application Gysela qui est un code de simulation de turbulence de plasma. L'optimisation d'un code de calcul scientifique vise classiquement l'un des trois points suivants : (i ) la simulation de plus grand domaine de calcul, (ii ) la réduction du temps de calcul et (iii ) l'amélioration de la précision des calculs. La première partie de ce manuscrit présente les contributions concernant la simulation de plus grand domaine. Comme beaucoup de codes de simulation, l'amélioration de la précision de la simulation est souvent synonyme de raffinement du maillage. Plus un maillage est fin, plus la consommation mémoire est grande. De plus, durant ces dernières années, les supercalculateurs ont eu tendance à disposer de moins en moins de mémoire par coeur de calcul. Pour ces raisons, nous avons développé une bibliothèque, la libMTM (Modeling and Tracing Memory), dédiée à l'étude précise de la consommation mémoire d'applications parallèles. Les outils de la libMTM ont permis de réduire la consommation mémoire de Gysela et d'étudier sa scalabilité. À l'heure actuelle, nous ne connaissons pas d'autre outil qui propose de fonctionnalités équivalentes permettant une étude précise de la scalabilité mémoire. La deuxième partie de ce manuscrit présente les travaux concernant l'optimisation du temps d'exécution et l'amélioration de la précision de l'opérateur de gyromoyenne. Cet opérateur est fondamental dans le modèle gyromagnétique qui est utilisé par l'application Gysela. L'amélioration de la précision vient d'un changement de la méthode de calcul : un schéma basé sur une interpolation de type Hermite vient remplacer l'approximation de Padé. Il s'avère que cette nouvelle version de l'opérateur est plus précise mais aussi plus coûteuse en terme de temps de calcul que l'opérateur existant. Afin que les temps de simulation restent raisonnables, différentes optimisations ont été réalisées sur la nouvelle méthode de calcul pour la rendre très compétitive. Nous avons aussi développé une version parallélisée en MPI du nouvel opérateur de gyromoyenne. La bonne scalabilité de cet opérateur de gyromoyenne permettra, à terme, de réduire des coûts en communication qui sont pénalisants dans une application parallèle comme Gysela. / Energy needs around the world still increase despite the resources needed to produce fossil energy drain off year after year. An alternative way to produce energy is by nuclear fusion through magnetic confinement. Mastering this reaction is a challenge and represents an active field of the current research. In order to improve our understanding of the phenomena which occur during a fusion reaction, experiment and simulation are both put to use. The performed experiments, thanks to Tokamaks, allow some experimental reading. The process of experimental measurements is of great complexity and requires the use of the most advanced available technologies. Currently, these measurements do not give access to all scales of time and space of physical phenomenon. Numerical simulation permits the exploration of these scales which are still unreachable through experiment. An extreme computing power is mandatory to perform realistic simulations. The use of High Performance Computing (HPC) is necessary to access simulation of realistic cases. This requirement means the use of large computers, also known as supercomputers. The works realized through this thesis focuses on the optimization of the Gysela code which simulates a plasma turbulence. Optimization of a scientific application concerns mainly one of the three following points : (i ) the simulation of larger meshes, (ii ) the reduction of computing time and (iii ) the enhancement of the computation accuracy. The first part of this manuscript presents the contributions relative to simulation of larger mesh. Alike many simulation codes, getting more realistic simulations is often analogous to refine the meshes. The finer the mesh the larger the memory consumption. Moreover, during these last few years, the supercomputers had trend to provide less and less memory per computer core. For these reasons, we have developed a library, the libMTM (Modeling and Tracing Memory), dedicated to study precisely the memory consumption of parallel softwares. The libMTM tools allowed us to reduce the memory consumption of Gysela and to study its scalability. As far as we know, there is no other tool which provides equivalent features which allow the memoryscalability study. The second part of the manuscript presents the works relative to the optimization of the computation time and the improvement of accuracy of the gyroaverage operator. This operator represents a corner stone of the gyrokinetic model which is used by the Gysela application. The improvement of accuracy emanates from a change in the computing method : a scheme based on a 2D Hermite interpolation substitutes the Padé approximation. Although the new version of the gyroaverage operator is more accurate, it is also more expensive in computation time than the former one. In order to keep the simulation in reasonable time, diferent optimizations have been performed on the new computing method to get it competitive. Finally, we have developed a MPI parallelized version of the new gyroaverage operator. The good scalability of this new gyroaverage computer will allow, eventually, a reduction of MPI communication costs which are penalizing in Gysela. Calcul haute performance Physique des plasmas Mathématiques appliquées Scalabilité mémoire High performance computing Plasma physics Applied mathematics Memory scalability
9	Optimisation conjointe source/canal d'une transmission vidéo H.264/AVC sur un lien sans fil Bergeron, Cyril 24 January 2007 (has links) (PDF) Dans le domaine des transmissions de données multimédia, de remarquables progrès ont été fait au cours des vingt dernières années permettant d'optimiser chaque module d'une chaîne de communication moderne. Mais en dépit de ces excellents résultats, une approche cloisonnée ou "séparée" a montré ses limites dans le cas des communications sans fil. Notre approche, qui suit celle du codage source/canal conjoint, a pour objectif de développer des stratégies où le codage de source et le codage canal sont déterminés conjointement tout en prenant en compte les paramètres du réseau et d'éventuelles contraintes utilisateurs. Cette approche offre la possibilité de faire converser le monde de l'application (codage source, chiffrement) et le monde des transmissions (codage canal) afin qu'ils optimisent conjointement l'usage du lien de communications sans fil de bout en bout. Trois axes de recherche sont traités dans ce mémoire de thèse qui permettent d'optimiser l'allocation des ressources de l'utilisateur et du réseau appliquée tout en assurant une compatibilité avec la norme de codage vidéo H.264. Tout d'abord, nous proposons d'utiliser la redondance résiduelle présente dans un flux binaire en sortie du codeur source afin d'améliorer les performances du décodage. Ensuite, nous introduisons une méthode proposant des propriétés de scalabilité temporelle compatible du standard H.264. Enfin, nous présentons une méthode d'optimisation conjointe de la répartition de débit entre le codeur de source et le codeur de canal au moyen d'un contrôleur applicatif estimant la distorsion globale introduite par ces différents codeurs grâce au calcul de la sensibilité des flux binaires considérés. H.264 Avc Mpeg4 Part.10 Codage conjoint source canal Chiffrement Scalabilité Décodage souple Optimisation de bout en bout Controleur applicatif
10	Sur le passage à l'échelle des systèmes de gestion des grandes masses de données Tran, Viet-Trung 21 January 2013 (has links) (PDF) La problématique "Big Data" peut être caractérisée par trois "V": * "Big Volume" se rapporte à l'augmentation sans précédent du volume des données. * "Big Velocity" se réfère à la croissance de la vitesse à laquelle ces données sont déplacées entre les systèmes qui les gèrent. * "Big Variety" correspond à la diversification des formats de ces données. Ces caractéristiques imposent des changements fondamentaux dans l'architecture des systèmes de gestion de données. Les systèmes de stockage doivent être adaptés à la croissance des données, et se doivent de passer à l'échelle tout en maintenant un accès à hautes performances. Cette thèse se concentre sur la construction des systèmes de gestion de grandes masses de données passant à l'échelle. Les deux premières contributions ont pour objectif de fournir un support efficace des "Big Volumes" pour les applications data-intensives dans les environnements de calcul à hautes performances (HPC). Nous abordons en particulier les limitations des approches existantes dans leur gestion des opérations d'entrées/sorties (E/S) non-contiguës atomiques à large échelle. Un mécanisme basé sur les versions est alors proposé, et qui peut être utilisé pour l'isolation des E/S non-contiguës sans le fardeau de synchronisations coûteuses. Dans le contexte du traitement parallèle de tableaux multi-dimensionels en HPC, nous présentons Pyramid, un système de stockage large-échelle optimisé pour ce type de données. Pyramid revoit l'organisation physique des données dans les systèmes de stockage distribués en vue d'un passage à l'échelle des performances. Pyramid favorise un partitionnement multi-dimensionel de données correspondant le plus possible aux accès générés par les applications. Il se base également sur une gestion distribuée des métadonnées et un mécanisme de versioning pour la résolution des accès concurrents, ce afin d'éliminer tout besoin de synchronisation. Notre troisième contribution aborde le problème "Big Volume" à l'échelle d'un environnement géographiquement distribué. Nous considérons BlobSeer, un service distribué de gestion de données orienté "versioning", et nous proposons BlobSeer-WAN, une extension de BlobSeer optimisée pour un tel environnement. BlobSeer-WAN prend en compte la hiérarchie de latence et favorise les accès aux méta-données locales. BlobSeer-WAN inclut la réplication asynchrone des méta-données et une résolution des collisions basée sur des "vector-clock". Afin de traîter le caractère "Big Velocity" de la problématique "Big Data", notre dernière contribution consiste en DStore, un système de stockage en mémoire orienté "documents" qui passe à l'échelle verticalement en exploitant les capacités mémoires des machines multi-coeurs. Nous montrons l'efficacité de DStore dans le cadre du traitement de requêtes d'écritures atomiques complexes tout en maintenant un haut débit d'accès en lecture. DStore suit un modèle d'exécution mono-thread qui met à jour les transactions séquentiellement, tout en se basant sur une gestion de la concurrence basée sur le versioning afin de permettre un grand nombre d'accès simultanés en lecture. Pyramid BlobSeer BlobSeer-WAN Versioning Big Data Stockage à grande-échelle Scalabilité

Search results