• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 36
  • 14
  • 7
  • 1
  • Tagged with
  • 59
  • 35
  • 26
  • 23
  • 14
  • 13
  • 12
  • 9
  • 9
  • 7
  • 7
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Automatic assessment of OLAP exploration quality / Evaluation automatique de la qualité des explorations OLAP

Djedaini, Mahfoud 06 December 2017 (has links)
Avant l’arrivée du Big Data, la quantité de données contenues dans les bases de données était relativement faible et donc plutôt simple à analyser. Dans ce contexte, le principal défi dans ce domaine était d’optimiser le stockage des données, mais aussi et surtout le temps de réponse des Systèmes de Gestion de Bases de Données (SGBD). De nombreux benchmarks, notamment ceux du consortium TPC, ont été mis en place pour permettre l’évaluation des différents systèmes existants dans des conditions similaires. Cependant, l’arrivée de Big Data a complètement changé la situation, avec de plus en plus de données générées de jour en jour. Parallèlement à l’augmentation de la mémoire disponible, nous avons assisté à l’émergence de nouvelles méthodes de stockage basées sur des systèmes distribués tels que le système de fichiers HDFS utilisé notamment dans Hadoop pour couvrir les besoins de stockage technique et le traitement Big Data. L’augmentation du volume de données rend donc leur analyse beaucoup plus difficile. Dans ce contexte, il ne s’agit pas tant de mesurer la vitesse de récupération des données, mais plutôt de produire des séquences de requêtes cohérentes pour identifier rapidement les zones d’intérêt dans les données, ce qui permet d’analyser ces zones plus en profondeur, et d’extraire des informations permettant une prise de décision éclairée. / In a Big Data context, traditional data analysis is becoming more and more tedious. Many approaches have been designed and developed to support analysts in their exploration tasks. However, there is no automatic, unified method for evaluating the quality of support for these different approaches. Current benchmarks focus mainly on the evaluation of systems in terms of temporal, energy or financial performance. In this thesis, we propose a model, based on supervised automatic leaming methods, to evaluate the quality of an OLAP exploration. We use this model to build an evaluation benchmark of exploration support sys.terns, the general principle of which is to allow these systems to generate explorations and then to evaluate them through the explorations they produce.
12

Optimisation de requêtes sur des données massives dans un environnement distribué / Optimization of queries over large data in a distributed environment

Gillet, Noel 10 March 2017 (has links)
Les systèmes de stockage distribués sont massivement utilisés dans le contexte actuel des grandes masses de données. En plus de gérer le stockage de ces données, ces systèmes doivent répondre à une quantité toujours plus importante de requêtes émises par des clients distants afin d’effectuer de la fouille de données ou encore de la visualisation. Une problématique majeure dans ce contexte consiste à répartir efficacement les requêtes entre les différents noeuds qui composent ces systèmes afin de minimiser le temps de traitement des requêtes ( temps maximum et en moyenne d’une requête, temps total de traitement pour toutes les requêtes...). Dans cette thèse nous nous intéressons au problème d’allocation de requêtes dans un environnement distribué. On considère que les données sont répliquées et que les requêtes sont traitées par les noeuds stockant une copie de la donnée concernée. Dans un premier temps, des solutions algorithmiques quasi-optimales sont proposées lorsque les communications entre les différents noeuds du système se font de manière asynchrone. Le cas où certains noeuds du système peuvent être en panne est également considéré. Dans un deuxième temps, nous nous intéressons à l’impact de la réplication des données sur le traitement des requêtes. En particulier, un algorithme qui adapte la réplication des données en fonction de la demande est proposé. Cet algorithme couplé à nos algorithmes d’allocation permet de garantir une répartition des requêtes proche de l’idéal pour toute distribution de requêtes. Enfin, nous nous intéressons à l’impact de la réplication quand les requêtes arrivent en flux sur le système. Nous procédons à une évaluation expérimentale sur la base de données distribuées Apache Cassandra. Les expériences réalisées confirment l’intérêt de la réplication et de nos algorithmes d’allocation vis-à-vis des solutions présentes par défaut dans ce système. / Distributed data store are massively used in the actual context of Big Data. In addition to provide data management features, those systems have to deal with an increasing amount of queries sent by distant users in order to process data mining or data visualization operations. One of the main challenge is to evenly distribute the workload of queries between the nodes which compose these system in order to minimize the treatment time. In this thesis, we tackle the problem of query allocation in a distributed environment. We consider that data are replicated and a query can be handle only by a node storing the concerning data. First, near-optimal algorithmic proposals are given when communications between nodes are asynchronous. We also consider that some nodes can be faulty. Second, we study more deeply the impact of data replication on the query treatement. Particularly, we present an algorithm which manage the data replication based on the demand on these data. Combined with our allocation algorithm, we guaranty a near-optimal allocation. Finally, we focus on the impact of data replication when queries are received as a stream by the system. We make an experimental evaluation using the distributed database Apache Cassandra. The experiments confirm the interest of our algorithmic proposals to improve the query treatement compared to the native allocation scheme in Cassandra.
13

Apprentissage statistique : application au trafic routier à partir de données structurées et aux données massives / Machine learning : Application to road traffic as structured data and to Big Data

Guillouet, Brendan 18 November 2016 (has links)
Cette thèse s'intéresse à l'apprentissage pour données massives. On considère en premier lieu, des trajectoires définies par des séquences de géolocalisations. Une nouvelle mesure de distance entre trajectoires (Symmetrized Segment-Path Distance) permet d'identifier par classification hiérarchique des groupes de trajectoires, modélisés ensuite par des mélanges gaussiens décrivant les déplacements par zones. Cette modélisation est utilisée de façon générique pour résoudre plusieurs types de problèmes liés aux trafic routier : prévision de la destination finale d'une trajectoire, temps d'arrivée à destination, prochaine zone de localisation. Les exemples analysés montrent que le modèle proposé s'applique à des environnements routiers différents et, qu'une fois appris, il s'applique à des trajectoires aux propriétés spatiales et temporelles différentes. En deuxième lieu, les environnements technologiques d'apprentissage pour données massives sont comparés sur des cas d'usage industriels. / This thesis focuses on machine learning techniques for application to big data. We first consider trajectories defined as sequences of geolocalized data. A hierarchical clustering is then applied on a new distance between trajectories (Symmetrized Segment-Path Distance) producing groups of trajectories which are then modeled with Gaussian mixture in order to describe individual movements. This modeling can be used in a generic way in order to resolve the following problems for road traffic : final destination, trip time or next location predictions. These examples show that our model can be applied to different traffic environments and that, once learned, can be applied to trajectories whose spatial and temporal characteristics are different. We also produce comparisons between different technologies which enable the application of machine learning methods on massive volumes of data.
14

Services de répartition de charge pour le Cloud : application au traitement de données multimédia / Load distribution services for the Cloud : a multimedia data management example

Lefebvre, Sylvain 10 December 2013 (has links)
Le travail de recherche mené dans cette thèse consiste à développer de nouveaux algorithmes de répartition de charge pour les systèmes de traitement de données massives. Le premier algorithme mis au point, nommé "WACA" (Workload and Cache Aware Algorithm) améliore le temps d’exécution des traitements en se basant sur des résumés de contenus. Le second algorithme, appelé "CAWA" (Cost Aware Algorithm) tire partie de l’information de coût disponible dans les plateformes de type "Cloud Computing" en étudiant l’historique d’exécution des services.L’évaluation de ces algorithmes a nécessité le développement d’un simulateur d’infrastructures de "Cloud" nommé Simizer, afin de permettre leur test avant le déploiement en conditions réelles. Ce déploiement peut se faire de manière transparente grâce au système de distribution et de surveillance de service web nommé "Cloudizer", développé aussi dans le cadre de cette thèse. Ces travaux s’inscrivent dans le cadredu projet de plateforme de traitement de données Multimédia for Machine to Machine (MCUBE), dans le lequel le canevas Cloudizer est mis en oeuvre. / The research work carried out in this thesis consists in the development of new load balancing algorithms aimed at big data computing. The first algorithm, called « WACA » (Workload and Cache Aware Algorithm), enhances response times by locating data efficiently through content summaries. The second algorithm, called CAWA (Cost AWare Algorithm) takes advantage of the cost information available on Cloud Computing platforms by studying the workload history.Evaluation of these algorithms required the development of a cloud infrastructure simulator named Simizer, to enable testing of these policies prior to their deployment. This deployment can be transparently done thanks to the Cloudizer web service distribution and monitoring system, also developed during this thesis. These works are included in the Multimedia for Machine to Machine (MCUBE) project, where the Cloudizer Framework is deployed.
15

Estudi temporal i espectral a llarg termini dels sistemes binaris de raigs X d’alta massa Centaurus X-3 i GX 301-2

Torregrosa Alberola, Álvaro 15 September 2023 (has links)
Els sistemes binaris de raigs X constitueixen el millor laboratori astrofísic per a estudiar la interacció radiació-matèria en situacions d'extrema gravetat, temperatura i camp magnètic. Quan aquest sistema està format per una estrela de neutrons (objecte compacte) i una estrella d'alta massa de tipus primerenc (estrela òptica) es pot estudiar el fenomen de l'acreció de matèria sobre l'objecte compacte i analitzar si s'hi produeix per captura del vent estel·lar de l'estrela òptica, per un disc d'acreció o altres estructures al voltant de l'objecte compacte. La descripció d'aquest tipus de sistemes i les diferents categories es presenten al capítol 2. En aquesta tesi s'han utilitzat els arxius astronòmics dels observatoris MAXI (Monitor of All Sky X-ray Image) per a investigar el comportament de les fonts Cen X-3 i GX 301-2 a llarg termini i XMM-Newton (X-ray Multi-Mirror Mission-Newton) per a abordar les propietats del sistema GX 301-2 al seu pas pel preperiastre. En els capítols 4 i 5 es fa una descripció dels observatoris. El rang energètic de MAXI i la seua estratègia d'observació hi fan un instrument adequat per a l'estudi a llarg termini dels sistemes binaris amb acreció de matèria. La metodologia per a l'anàlisi temporal i espectral de les dades es descriu al capítol 3. S'han analitzat les corbes de llum, l'espectre mitjà i els espectres amb resolució de fase orbital del sistema binari d'alta massa Cen X-3 i caracteritzat les propietats del vent estel·lar. També s'han extret els espectres dels estats alts i baixos de lluminositat. Tots els espectres s'han descrit amb un model de continu format per un cos negre parcialment absorbit (i, alternativament, amb una comptonització parcialment absorbida de fotons freds per electrons calents) més una llei de potències, tots dos modificats amb línies gaussianes. Els resultats d'aquest estudi es troben al capítol 6 d'aquesta tesi. El capítol 7 presenta l'estudi de la fulguració del preperiastre del sistema binari de raigs X d'alta massa GX 301-2 amb dues observacions de l'observatori XMM-Newton preses en 2008 i 2009. Els resultats obtinguts mostren que algunes propietats espectrals s'han mantingut en les dues èpoques i d'altres presenten lleugeres diferències. Aquests fets han sigut el preludi de l'estudi de la fulguració del preperiastre amb observacions obtingudes per l'observatori MAXI que es discuteix al capítol 8. S'hi ha dividit en tres fases orbitals anomenades prefulguració, fulguració i postfulguració. L'anàlisi de la corba de llum en la banda energètica 2.0-20.0 keV ha permés identificar els Dies Julians Modificats (Modified Julian Days, MJDs) que corresponen a cada fase orbital. Per a aconseguir un espectre amb suficient senyal/soroll s'han acumulat els intervals corresponents a cada fase orbital durant deu òrbites consecutives. El model que ha descrit totes les dades observacionals està format per un component de cos negre modificat per un component de tall corresponent al ferro quasi neutre fixat a 7.1 keV més una línia gaussiana corresponent a l’emissió fluorescent del ferro a 6.4 keV. El mecanisme de producció del Fe Kalfa és permanent en la fulguració, intermitent en la postfulguració i, aparentment, desapareix en la prefulguració. Es dedica l'últim capítol (capítol 9) a les conclusions i a plantejar suggeriments per a treballs futurs.
16

Optimization for big joins and recursive query evaluation using intersection and difference filters in MapReduce / Utilisation de filtres d’intersection et de différence pour l’optimisation des jointures à grande échelle et l’exécution de requêtes récursives à l’aide MapReduce

Phan, Thuong-Cang 07 July 2014 (has links)
La communauté informatique a créé une quantité de données sans précédent grâce aux applications à grande échelle. Ces données massives sont considérées comme une mine d’or, ces informations n’attendant que la puissance de traitement sûre et appropriée à l’évaluation d’algorithmes d’analyse complexe. MapReduce est un des modèles de programmation les plus réputé, connu pour la gestion de ce type de traitement. Il est devenu un standard pour le traitement, l’analyse et la génération de grandes quantités de données en parallèle. Cependant, le modèle de programmation MapReduce souffre d’importantes limites pour des opérations non simples (scans ou regroupements simples), en particulier les traitements avec entrées multiples. Dans ce mémoire, nous étudions et optimisons l’évaluation, dans un environnement MapReduce, d’une des opérations les plus importantes et représentatives : la jointure. Notre travail aborde, en plus de la jointure binaire, des jointures complexes comme la jointure multidimensionnelle et la jointure récursive. Pour atteindre ces objectifs, nous proposons d’abord un nouveau type de filtre appelé filter d’intersection qui utilise un modèle probabiliste pour représenter une approximation de l’intersection des ensembles. Le filtre d’intersection est ensuite appliqué à l’opération de jointure bidirectionnelle pour éliminer la majorité des éléments non-joints dans des ensembles de données d'entrée, avant d’envoyer les données pour le processus de jointure. De plus, nous proposons une extension du filtre d’intersection pour améliorer l’efficacité de la jointure ternaire et de la jointure en cascade correspondant à un cycle de jointure avec plusieurs clés partagées lors de la jointure. Nous utilisons la méthode des multiplicateurs de Lagrange afin de réaliser un choix pertinent entre les différentes solutions proposées pour les jointures multidimensionnelles. Une autre proposition est le filtre de différence, une structure de données probabiliste formée pour représenter un ensemble et examiner des éléments disjoints. Ce filtre peut être appliqué à un grand nombre de problèmes, tels que la réconciliation, la déduplication, la correction d’erreur et en ce qui nous concerne la jointure récursive. Une jointure récursive utilisant un filtre de différence est effectuée comme une répétition de jointures en lieu et place d’une jointure et d’un processus de différenciation. Cette amélioration réduit de moitié le nombre de tâches effectuées et les associés tels que la lecture des données, la génération des données intermédiaires et les communications. Ceci permet notamment une amélioration de l’évaluation de l’algorithme semi-naïf et par conséquent l’évaluation des requêtes récursives en MapReduce. Ensuite, nous fournissons des modèles de coût généraux pour les jointures binaire, à n-aire et récursive. Grâce à ces modèles, nous pouvons comparer les algorithmes de jointure les plus représentatifs. Ainsi, nous pouvons montrer l’intérêt des filtres proposés, grâce notamment à la réduction des coûts E/S (entrée/ sortie) sur disque et sur réseau. De plus, des expérimentations ont été menées, montrant l’efficacité du filtre d’intersection par rapport aux solutions, en comparant en particulier des critères tels que la quantité de données intermédiaires, la quantité de données produites en sortie, le temps d’exécution et la répartition des tâches. Nos propositions pour les opérations de jointure contribuent à l’optimisation en général de la gestion de données à l’aide du paradigme MapReduce sur des infrastructures distribuées à grande échelle. / The information technology community has created unprecedented amount of data through large-scale applications. As a result, the Big Data is considered as gold mines of information that just wait for the processing power to be available, reliable, and apt at evaluating complex analytic algorithms. MapReduce is one of the most popular programming models designed to support such processing. It has become a standard for processing, analyzing and generating large data in a massively parallel manner. However, the MapReduce programming model suffers from severe limitations of operations beyond simple scan/grouping, particularly operations with multiple inputs. In the present dissertation we efficiently investigate and optimize the evaluation, in a MapReduce environment, of one of the most salient and representative such operations: Join. It focuses not only on two-way joins, but also complex joins such as multi-way joins and recursive joins. To achieve these objectives, we first devise a new type of filter called intersection filter using a probabilistic model to represent an approximation of the set intersection. The intersection filter is then applied to two-way join operations to eliminate most non-joining elements in input datasets before sending data to actual join processing. In addition, we make an extension of the intersection filter to improve the performance of three-way joins and chain joins including both cyclic chain joins with many shared join keys. We use the Lagrangian multiplier method to indicate a good choice between our optimized solutions for the multi-way joins. Another important proposal is a difference filter, which is a probabilistic data structure designed to represent a set and examine disjoint elements of the set. It can be applied to a wide range of popular problems such as reconciliation, deduplication, error-correction, especially a recursive join operation. A recursive join using the difference filter is implemented as an iteration of one join job instead of two jobs including a join job and a difference job. This improvement will significantly reduce the number of executed jobs by half, and the related overheads such as data rescanning, intermediate data, and communication for the deduplication and difference operations. Besides, this research also improves the general semi-naive algorithm, as well as the evaluation of recursive queries in MapReduce. We then provide general cost models for two-way joins, multi-way joins, and recursive joins. Thanks to these cost models, we can make comparisons of the join algorithms more persuasive. As a result, with using the proposed filters, the join operations can minimize disk I/O and communication costs. Moreover, the intersection filter-based join operations are demonstrated to be more efficient than existing solutions through experimental evaluations. Experimental comparisons of different algorithms for joins are examined with respect to intermediate data amount, the total output amount, the total execution time, and especially task timelines. Finally, our improvements on the join operations contribute to the global scene of optimizing data management for MapReduce applications on large-scale distributed infrastructures.
17

Visualisations interactives haute-performance de données volumiques massives : une approche out-of-core multi-résolution basée GPUs / High performance interactive visualization of large volume data : a GPUs-based multi-resolution out-of-core approach

Sarton, Jonathan 28 November 2018 (has links)
Les travaux de cette thèse s'inscrivent dans le cadre du projet PIA2 3DNeuroSecure. Ce dernier vise à proposer un système collaboratif de navigation multi-échelle interactive dans des données visuelles massives (Visual Big Data) ayant pour cadre applicatif l'imagerie biomédicale 3D ultra-haute résolution (ordre du micron) possiblement multi-modale. En outre, ce système devra être capable d'intégrer divers traitements et/ou annotations (tags) au travers de ressources HPC distantes. Toutes ces opérations doivent être envisagées sans possibilité de stockage complet en mémoire (techniques out-of-core : structures pyramidales, tuilées, … avec ou sans compression …). La volumétrie des données images envisagées (Visual Big Data) induit par ailleurs le découplage des lieux de capture/imagerie/génération (histologie, confocal, imageurs médicaux variés, simulation …), de ceux de stockage et calcul haute performance (data center) mais aussi de ceux de manipulation des données acquises (divers périphériques connectés, mobiles ou non, tablette, PC, mur d’images, salle de RV …). La visualisation restituée en streaming à l’usager sera adaptée à son périphérique, tant en termes de résolution (Full HD à GigaPixel) que de rendu 3D (« à plat » classique, en relief stéréoscopique à lunettes, en relief autostéréoscopique sans lunettes). L'ensemble de ces développements pris en charge par le CReSTIC avec l'appui de la MaSCA (Maison de la Simulation de Champagne-Ardenne) se résument donc par : - la définition et la mise en oeuvre des structures de données adaptées à la visualisation out-of-core des visual big data (VBD) ciblées - l’adaptation des traitements spécifiques des partenaires comme des rendus 3D interactifs à ces nouvelles structures de données - les choix techniques d’architecture pour le HPC et la virtualisation de l’application de navigation pour profiter au mieux des ressources du datacanter local ROMEO. Le rendu relief avec ou sans lunettes, avec ou sans compression du flux vidéo relief associé seront opérés au niveau du logiciel MINT de l’URCA qui servira de support de développement. / These thesis studies are part of the PIA2 project 3DNeuroSecure. This one aims to provide a collaborative system of interactive multi-scale navigation within visual big data (VDB) with ultra-high definition (tera-voxels), potentially multimodal, 3D biomedical imaging as application framework. In addition, this system will be able to integrate a variety of processing and/or annotations (tags) through remote HPC resources. All of these treatments must be possible in an out-of-core context. Because of the visual big data, we have to decoupled the location of acquisition from ones of storage and high performance computation and from ones for the manipulation of the data (various connected devices, mobile or not, smartphone, PC, large display wall, virtual reality room ...). The streaming visualization will be adapted to the user device in terms of both resolution (Full HD to GigaPixel) and 3D rendering (classic rendering on 2D screens, stereoscopic with glasses or autostereoscopic without glasses). All these developments supported by the CReSTIC with the support of MaSCA (Maison de la Simulation de Champagne-Ardenne) can therefore be summarized as: - the definition and implementation of the data structures adapted to the out-of-core visualization of the targeted visual big data. - the adaptation of the specific treatments partners, like interactive 3D rendering, to these new data structures. - the technical architecture choices for the HPC and the virtualization of the navigation software application, to take advantage of "ROMEO", the local datacenter. The auto-/stereoscopic rendering with or without glasses will be operated within the MINT software of the "université de Reims Champagne-Ardenne".
18

Analyse et visualisation de trajectoires de soins par l’exploitation de données massives hospitalières pour la pharmacovigilance / Analysis and visualization of care trajectories by using hospital big data for pharmacovigilance

Ledieu, Thibault 19 October 2018 (has links)
Le phénomène de massification des données de santé constitue une opportunité de répondre aux questions des vigilances et de qualité des soins. Dans les travaux effectués au cours de cette thèse, nous présenterons des approches permettant d’exploiter la richesse et le volume des données intra hospitalières pour des cas d’usage de pharmacovigilance et de surveillance de bon usage du médicament. Cette approche reposera sur la modélisation de trajectoires de soins intra hospitalières adaptées aux besoins spécifiques de la pharmacovigilance. Il s’agira, à partir des données d’un entrepôt hospitalier de caractériser les événements d’intérêt et d’identifier un lien entre l’administration de ces produits de santé et l’apparition des effets indésirables, ou encore de rechercher les cas de mésusage du médicament. L’hypothèse posée dans cette thèse est qu’une approche visuelle interactive serait adaptée pour l’exploitation de ces données biomédicales hétérogènes et multi-domaines dans le champ de la pharmacovigilance. Nous avons développé deux prototypes permettant la visualisation et l’analyse des trajectoires de soins. Le premier prototype est un outil de visualisation du dossier patient sous forme de frise chronologique. La deuxième application est un outil de visualisation et fouille d’une cohorte de séquences d’événements. Ce dernier outil repose sur la mise en œuvre d’algorithme d’analyse de séquences (Smith-Waterman, Apriori, GSP) pour la recherche de similarité ou de motifs d’événements récurrents. Ces interfaces homme-machine ont fait l’objet d’études d’utilisabilité sur des cas d’usage tirées de la pratique réelle qui ont prouvé leur potentiel pour un usage en routine. / The massification of health data is an opportunity to answer questions about vigilance and quality of care. The emergence of big data in health is an opportunity to answer questions about vigilance and quality of care. In this thesis work, we will present approaches to exploit the diversity and volume of intra-hospital data for pharmacovigilance use and monitoring the proper use of drugs. This approach will be based on the modelling of intra-hospital care trajectories adapted to the specific needs of pharmacovigilance. Using data from a hospital warehouse, it will be necessary to characterize events of interest and identify a link between the administration of these health products and the occurrence of adverse reactions, or to look for cases of misuse of the drug. The hypothesis put forward in this thesis is that an interactive visual approach would be suitable for the exploitation of these heterogeneous and multi-domain biomedical data in the field of pharmacovigilance. We have developed two prototypes allowing the visualization and analysis of care trajectories. The first prototype is a tool for visualizing the patient file in the form of a timeline. The second application is a tool for visualizing and searching a cohort of event sequences The latter tool is based on the implementation of sequence analysis algorithms (Smith-Waterman, Apriori, GSP) for the search for similarity or patterns of recurring events. These human-machine interfaces have been the subject of usability studies on use cases from actual practice that have proven their potential for routine use.
19

La vie et la mort des étoiles massives révélées par l'observation des raies gamma nucléaires grâce au spectromètre INTEGRAL/SPI

Martin, Pierrick 27 November 2008 (has links) (PDF)
L'objectif de cette thèse est de fournir puis d'exploiter des contraintes observationnelles relatives aux étoiles massives et à leurs explosions de supernova. Pour cela, nous nous intéressons à la signature de leur activité de nucléosynthèse et plus particulièrement au rayonnement de décroissance de plusieurs isotopes radioactifs produits et libérés à divers stades de leur existence : le 44Ti, l'26Al et le 60Fe. Grâce au spectromètre haute-résolution SPI embarqué sur l'observatoire spatial INTEGRAL, nous avons pu caractériser l'émission de raies gamma associée à la décroissance de ces trois radio-isotopes.<br />Dans un premier temps, nous nous concentrons sur l'émission de décroissance du 44Ti présent dans le vestige de supernova Cassiopée A. Le but de cette étude est d'obtenir, par une analyse spectrale du signal, une information sur la cinématique de l'ejecta de Cassiopée A. Une telle donnée pourrait alors nous renseigner sur le mécanisme incertain par lequel l'effondrement gravitationnel d'une étoile massive en fin de vie aboutit à une explosion de supernova.<br />Nous nous intéressons ensuite aux raies gamma de la décroissance de l'26Al et du 60Fe. Ces deux isotopes à longue durée de vie s'accumulent dans le milieu interstellaire autour des étoiles massives et donnent lieu à une émission galactique diffuse à 1809 et 1173/1332 keV respectivement. Les observations SPI de cette émission sont confrontées à un modèle de la nucléosynthèse galactique construit à partir des plus récents modèles stellaires. Un travail plus détaillé est alors consacré à la région du Cygne, qui abrite une forte concentration d'étoiles massives proches. Les données SPI obtenues sont comparées aux prédictions théoriques d'un code de synthèse de population et d'une simulation numérique de diffusion de l'26Al à l'intérieur de la superbulle soufflée par l'amas Cyg OB2.
20

Efficient support for data-intensive scientific workflows on geo-distributed clouds / Support pour l'exécution efficace des workflows scientifiques à traitement intensif de données sur les cloud géo-distribués

Pineda Morales, Luis Eduardo 24 May 2017 (has links)
D’ici 2020, l’univers numérique atteindra 44 zettaoctets puisqu’il double tous les deux ans. Les données se présentent sous les formes les plus diverses et proviennent de sources géographiquement dispersées. L’explosion de données crée un besoin sans précédent en terme de stockage et de traitement de données, mais aussi en terme de logiciels de traitement de données capables d’exploiter au mieux ces ressources informatiques. Ces applications à grande échelle prennent souvent la forme de workflows qui aident à définir les dépendances de données entre leurs différents composants. De plus en plus de workflows scientifiques sont exécutés sur des clouds car ils constituent une alternative rentable pour le calcul intensif. Parfois, les workflows doivent être répartis sur plusieurs data centers. Soit parce qu’ils dépassent la capacité d’un site unique en raison de leurs énormes besoins de stockage et de calcul, soit car les données qu’ils traitent sont dispersées dans différents endroits. L’exécution de workflows multisite entraîne plusieurs problèmes, pour lesquels peu de solutions ont été développées : il n’existe pas de système de fichiers commun pour le transfert de données, les latences inter-sites sont élevées et la gestion centralisée devient un goulet d’étranglement. Cette thèse présente trois contributions qui visent à réduire l’écart entre les exécutions de workflows sur un seul site ou plusieurs data centers. Tout d’abord, nous présentons plusieurs stratégies pour le soutien efficace de l’exécution des workflows sur des clouds multisite en réduisant le coût des opérations de métadonnées. Ensuite, nous expliquons comment la manipulation sélective des métadonnées, classées par fréquence d’accès, améliore la performance des workflows dans un environnement multisite. Enfin, nous examinons une approche différente pour optimiser l’exécution de workflows sur le cloud en étudiant les paramètres d’exécution pour modéliser le passage élastique à l’échelle. / By 2020, the digital universe is expected to reach 44 zettabytes, as it is doubling every two years. Data come in the most diverse shapes and from the most geographically dispersed sources ever. The data explosion calls for applications capable of highlyscalable, distributed computation, and for infrastructures with massive storage and processing power to support them. These large-scale applications are often expressed as workflows that help defining data dependencies between their different components. More and more scientific workflows are executed on clouds, for they are a cost-effective alternative for intensive computing. Sometimes, workflows must be executed across multiple geodistributed cloud datacenters. It is either because these workflows exceed a single site capacity due to their huge storage and computation requirements, or because the data they process is scattered in different locations. Multisite workflow execution brings about several issues, for which little support has been developed: there is no common ile system for data transfer, inter-site latencies are high, and centralized management becomes a bottleneck. This thesis consists of three contributions towards bridging the gap between single- and multisite workflow execution. First, we present several design strategies to eficiently support the execution of workflow engines across multisite clouds, by reducing the cost of metadata operations. Then, we take one step further and explain how selective handling of metadata, classified by frequency of access, improves workflows performance in a multisite environment. Finally, we look into a different approach to optimize cloud workflow execution by studying some parameters to model and steer elastic scaling.

Page generated in 0.0592 seconds