Global ETD Search

41	Utilisation de BlobSeer pour le stockage de données dans les Clouds: auto-adaptation, intégration, évaluation Carpen-Amarie, Alexandra 15 December 2011 (has links) (PDF) L'émergence de l'informatique dans les nuages met en avant de nombreux défis qui pourraient limiter l'adoption du paradigme Cloud. Tandis que la taille des données traitées par les applications Cloud augmente exponentiellement, un défi majeur porte sur la conception de solutions efficaces pour le stockage et la gestion de données. Cette thèse a pour but de concevoir des mécanismes d'auto-adaptation pour des systèmes de gestion de données, aﬁn qu'ils puissent répondre aux exigences des services de stockage Cloud en termes de passage à l'échelle, disponibilité, fiabilité et sécurité des données. De plus, nous nous proposons de concevoir un service de données pour le Cloud qui soit à la fois compatible avec les interfaces standard dans le contexte du Cloud et capable d'offrir un stockage de données à haut débit. Pour relever ces défis, nous avons proposé des mécanismes génériques pour l'auto-connaissance, l'auto-protection et l'auto-conﬁguration des systèmes de gestion de données. Ensuite, nous les avons validés en les intégrant dans le logiciel BlobSeer, un système de stockage de données qui optimise les accès hautement concurrents aux données. Finalement, nous avons conçu et implémenté un système de fichiers s'appuyant sur BlobSeer, afin d'optimiser ce dernier pour servir efficacement comme support de stockage pour les services Cloud. Puis, nous l'avons intégré dans un environnement Cloud réel, la plate-forme Nimbus. Les avantages et les désavantages de l'utilisation du stockage dans le Cloud pour des applications réelles sont soulignés lors des évaluations effectuées sur Grid'5000. Elles incluent des applications distribuées à accès intensif aux données, telles que les applications MapReduce, et des applications fortement couplées, telles que les simulations atmosphériques. Cloud computing gestion de données haut débit calcul autonomique auto-connaissance auto-protection auto-conﬁguration surveillance sécurité stockage de données dans le Cloud MapReduce calcul haute performance
42	Large-scale functional MRI analysis to accumulate knowledge on brain functions / Analyse à grande échelle d'IRM fonctionnelle pour accumuler la connaissance sur les fonctions cérébrales Schwartz, Yannick 21 April 2015 (has links) Comment peut-on accumuler de la connaissance sur les fonctions cérébrales ? Comment peut-on bénéficier d'années de recherche en IRM fonctionnelle (IRMf) pour analyser des processus cognitifs plus fins et construire un modèle exhaustif du cerveau ? Les chercheurs se basent habituellement sur des études individuelles pour identifier des régions cérébrales recrutées par les processus cognitifs. La comparaison avec l'historique du domaine se fait généralement manuellement pas le biais de la littérature, qui permet de définir des régions d'intérêt dans le cerveau. Les méta-analyses permettent de définir des méthodes plus formelles et automatisables pour analyser la littérature. Cette thèse examine trois manières d'accumuler et d'organiser les connaissances sur le fonctionnement du cerveau en utilisant des cartes d'activation cérébrales d'un grand nombre d'études. Premièrement, nous présentons une approche qui utilise conjointement deux expériences d'IRMf similaires pour mieux conditionner une analyse statistique. Nous montrons que cette méthode est une alternative intéressante par rapport aux analyses qui utilisent des régions d'intérêts, mais demande cependant un travail manuel dans la sélection des études qui l'empêche de monter à l'échelle. A cause de la difficulté à sélectionner automatiquement les études, notre deuxième contribution se focalise sur l'analyse d'une unique étude présentant un grand nombre de conditions expérimentales. Cette méthode estime des réseaux fonctionnels (ensemble de régions cérébrales) et les associe à des profils fonctionnels (ensemble pondéré de descripteurs cognitifs). Les limitations de cette approche viennent du fait que nous n'utilisons qu'une seule étude, et qu'elle se base sur un modèle non supervisé qui est par conséquent plus difficile à valider. Ce travail nous a cependant apporté la notion de labels cognitifs, qui est centrale pour notre dernière contribution. Cette dernière contribution présente une méthode qui a pour objectif d'apprendre des atlas fonctionnels en combinant plusieurs jeux de données. [Henson2006] montre qu'une inférence directe, c.a.d. la probabilité d'une activation étant donné un processus cognitif, n'est souvent pas suffisante pour conclure sur l'engagement de régions cérébrales pour le processus cognitif en question. Réciproquement, [Poldrack 2006] présente l'inférence inverse qui est la probabilité qu'un processus cognitif soit impliqué étant donné qu'une région cérébrale est activée, et décrit le risque de raisonnements fallacieux qui peuvent en découler. Pour éviter ces problèmes, il ne faut utiliser l'inférence inverse que dans un contexte où l'on suffisamment bien échantillonné l'espace cognitif pour pouvoir faire une inférence pertinente. Nous présentons une méthode qui utilise un « meta-design » pour décrire des tâches cognitives avec un vocabulaire commun, et qui combine les inférences directe et inverse pour mettre en évidence des réseaux fonctionnels qui sont cohérents à travers les études. Nous utilisons un modèle prédictif pour l'inférence inverse, et effectuons les prédictions sur de nouvelles études pour s'assurer que la méthode n'apprend pas certaines idiosyncrasies des données d'entrées. Cette dernière contribution nous a permis d'apprendre des réseaux fonctionnels, et de les associer avec des concepts cognitifs. Nous avons exploré différentes approches pour analyser conjointement des études d'IRMf. L'une des difficultés principales était de trouver un cadre commun qui permette d'analyser ensemble ces études malgré leur diversité. Ce cadre s'est instancié sous la forme d'un vocabulaire commun pour décrire les tâches d'IRMf. et a permis d'établir un modèle statistique du cerveau à grande échelle et d'accumuler des connaissances à travers des études d'IRM fonctionnelle. / How can we accumulate knowledge on brain functions? How can we leverage years of research in functional MRI to analyse finer-grained psychological constructs, and build a comprehensive model of the brain? Researchers usually rely on single studies to delineate brain regions recruited by mental processes. They relate their findings to previous works in an informal way by defining regions of interest from the literature. Meta-analysis approaches provide a more principled way to build upon the literature. This thesis investigates three ways to assemble knowledge using activation maps from a large amount of studies. First, we present an approach that uses jointly two similar fMRI experiments, to better condition an analysis from a statistical standpoint. We show that it is a valuable data-driven alternative to traditional regions of interest analyses, but fails to provide a systematic way to relate studies, and thus does not permit to integrate knowledge on a large scale. Because of the difficulty to associate multiple studies, we resort to using a single dataset sampling a large number of stimuli for our second contribution. This method estimates functional networks associated with functional profiles, where the functional networks are interacting brain regions and the functional profiles are a weighted set of cognitive descriptors. This work successfully yields known brain networks and automatically associates meaningful descriptions. Its limitations lie in the unsupervised nature of this method, which is more difficult to validate, and the use of a single dataset. It however brings the notion of cognitive labels, which is central to our last contribution. Our last contribution presents a method that learns functional atlases by combining several datasets. [Henson 2006] shows that forward inference, i.e. the probability of an activation given a cognitive process, is often not sufficient to conclude on the engagement of brain regions for a cognitive process. Conversely, [Poldrack 2006] describes reverse inference as the probability of a cognitive process given an activation, but warns of a logical fallacy in concluding on such inference from evoked activity. Avoiding this issue requires to perform reverse inference with a large coverage of the cognitive space. We present a framework that uses a "meta-design" to describe many different tasks with a common vocabulary, and use forward and reverse inference in conjunction to outline functional networks that are consistently represented across the studies. We use a predictive model for reverse inference, and perform prediction on unseen studies to guarantee that we do not learn studies' idiosyncrasies. This final contribution permits to learn functional atlases, i.e. functional networks associated with a cognitive concept. We explored different possibilities to jointly analyse multiple fMRI experiments. We have found that one of the main challenges is to be able to relate the experiments with one another. As a solution, we propose a common vocabulary to describe the tasks. [Henson 2006] advocates the use of forward and reverse inference in conjunction to associate cognitive functions to brain regions, which is only possible in the context of a large scale analysis to overcome the limitations of reverse inference. This framing of the problem therefore makes it possible to establish a large statistical model of the brain, and accumulate knowledge across functional neuroimaging studies. Neuroimagerie Inférence directe Inférence inverse Apprentissage statistique Gestion de données Neuroimaging Forward inference Reverse inference Statistical learning Data management
43	Une base de connaissance personnelle intégrant les données d'un utilisateur et une chronologie de ses activités / A personal knowledge base integrating user data and activity timeline Montoya, David 06 March 2017 (has links) Aujourd'hui, la plupart des internautes ont leurs données dispersées dans plusieurs appareils, applications et services. La gestion et le contrôle de ses données sont de plus en plus difficiles. Dans cette thèse, nous adoptons le point de vue selon lequel l'utilisateur devrait se voir donner les moyens de récupérer et d'intégrer ses données, sous son contrôle total. À ce titre, nous avons conçu un système logiciel qui intègre et enrichit les données d'un utilisateur à partir de plusieurs sources hétérogènes de données personnelles dans une base de connaissances RDF. Le logiciel est libre, et son architecture innovante facilite l'intégration de nouvelles sources de données et le développement de nouveaux modules pour inférer de nouvelles connaissances. Nous montrons tout d'abord comment l'activité de l'utilisateur peut être déduite des données des capteurs de son téléphone intelligent. Nous présentons un algorithme pour retrouver les points de séjour d'un utilisateur à partir de son historique de localisation. À l'aide de ces données et de données provenant d'autres capteurs de son téléphone, d'informations géographiques provenant d'OpenStreetMap, et des horaires de transports en commun, nous présentons un algorithme de reconnaissance du mode de transport capable de retrouver les différents modes et lignes empruntés par un utilisateur lors de ses déplacements. L'algorithme reconnaît l'itinéraire pris par l'utilisateur en retrouvant la séquence la plus probable dans un champ aléatoire conditionnel dont les probabilités se basent sur la sortie d'un réseau de neurones artificiels. Nous montrons également comment le système peut intégrer les données du courrier électronique, des calendriers, des carnets d'adresses, des réseaux sociaux et de l'historique de localisation de l'utilisateur dans un ensemble cohérent. Pour ce faire, le système utilise un algorithme de résolution d'entité pour retrouver l'ensemble des différents comptes utilisés par chaque contact de l'utilisateur, et effectue un alignement spatio-temporel pour relier chaque point de séjour à l'événement auquel il correspond dans le calendrier de l'utilisateur. Enfin, nous montrons qu'un tel système peut également être employé pour faire de la synchronisation multi-système/multi-appareil et pour pousser de nouvelles connaissances vers les sources. Les résultats d'expériences approfondies sont présentés. / Typical Internet users today have their data scattered over several devices, applications, and services. Managing and controlling one's data is increasingly difficult. In this thesis, we adopt the viewpoint that the user should be given the means to gather and integrate her data, under her full control. In that direction, we designed a system that integrates and enriches the data of a user from multiple heterogeneous sources of personal information into an RDF knowledge base. The system is open-source and implements a novel, extensible framework that facilitates the integration of new data sources and the development of new modules for deriving knowledge. We first show how user activity can be inferred from smartphone sensor data. We introduce a time-based clustering algorithm to extract stay points from location history data. Using data from additional mobile phone sensors, geographic information from OpenStreetMap, and public transportation schedules, we introduce a transportation mode recognition algorithm to derive the different modes and routes taken by the user when traveling. The algorithm derives the itinerary followed by the user by finding the most likely sequence in a linear-chain conditional random field whose feature functions are based on the output of a neural network. We also show how the system can integrate information from the user's email messages, calendars, address books, social network services, and location history into a coherent whole. To do so, it uses entity resolution to find the set of avatars used by each real-world contact and performs spatiotemporal alignment to connect each stay point with the event it corresponds to in the user's calendar. Finally, we show that such a system can also be used for multi-device and multi-system synchronization and allow knowledge to be pushed to the sources. We present extensive experiments. Gestion de données personnelles Reconnaissance d'activité Intégration de données Reconnaissance de mode de transport Base de connaissances Capteurs téléphone intelligent Personal information management Activity recognition Data integration Transportation mode recognition Knowledge base Mobile device sensor data
44	BlobSeer as a data-storage facility for clouds : self-Adaptation, integration, evaluation / Utilisation de BlobSeer pour le stockage de données dans les clouds : auto-adaptation, intégration, évaluation Carpen-Amarie, Alexandra 15 December 2011 (has links) L’émergence de l’informatique dans les nuages met en avant de nombreux défis qui pourraient limiter l’adoption du paradigme Cloud. Tandis que la taille des données traitées par les applications Cloud augmente exponentiellement, un défi majeur porte sur la conception de solutions efficaces pour la gestion de données. Cette thèse a pour but de concevoir des mécanismes d’auto-adaptation pour des systèmes de gestion de données, afin qu’ils puissent répondre aux exigences des services de stockage Cloud en termes de passage à l’échelle, disponibilité et sécurité des données. De plus, nous nous proposons de concevoir un service de données qui soit à la fois compatible avec les interfaces Cloud standard dans et capable d’offrir un stockage de données à haut débit. Pour relever ces défis, nous avons proposé des mécanismes génériques pour l’auto-connaissance, l’auto-protection et l’auto-configuration des systèmes de gestion de données. Ensuite, nous les avons validés en les intégrant dans le logiciel BlobSeer, un système de stockage qui optimise les accès hautement concurrents aux données. Finalement, nous avons conçu et implémenté un système de fichiers s’appuyant sur BlobSeer, afin d’optimiser ce dernier pour servir efficacement comme support de stockage pour les services Cloud. Puis, nous l’avons intégré dans un environnement Cloud réel, la plate-forme Nimbus. Les avantages et les désavantages de l’utilisation du stockage dans le Cloud pour des applications réelles sont soulignés lors des évaluations effectuées sur Grid’5000. Elles incluent des applications à accès intensif aux données, comme MapReduce, et des applications fortement couplées, comme les simulations atmosphériques. / The emergence of Cloud computing brings forward many challenges that may limit the adoption rate of the Cloud paradigm. As data volumes processed by Cloud applications increase exponentially, designing efficient and secure solutions for data management emerges as a crucial requirement. The goal of this thesis is to enhance a distributed data-management system with self-management capabilities, so that it can meet the requirements of the Cloud storage services in terms of scalability, data availability, reliability and security. Furthermore, we aim at building a Cloud data service both compatible with state-of-the-art Cloud interfaces and able to deliver high-throughput data storage. To meet these goals, we proposed generic self-awareness, self-protection and self-configuration components targeted at distributed data-management systems. We validated them on top of BlobSeer, a large-scale data-management system designed to optimize highly-concurrent data accesses. Next, we devised and implemented a BlobSeer-based file system optimized to efficiently serve as a storage backend for Cloud services. We then integrated it within a real-world Cloud environment, the Nimbus platform. The benefits and drawbacks of using Cloud storage for real-life applications have been emphasized in evaluations that involved data-intensive MapReduce applications and tightly-coupled, high-performance computing applications. Cloud computing Gestion de données Haut débit Calcul autonomique Auto-connaissance Auto-protection Auto-configuration Surveillance Sécurité Stockage de données dans le Cloud MapReduce Calcul haute performance Cloud computing Data management Large-scale distributed platforms High throughput Autonomic computing Self-awareness Self-protection Self-configuration Monitoring Security Cloud data storage MapReduce High-performance computing
45	Optimizing data management for MapReduce applications on large-scale distributed infrastructures / Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle Moise, Diana Maria 16 December 2011 (has links) Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds. / Data-intensive applications are nowadays, widely used in various domains to extract and process information, to design complex systems, to perform simulations of real models, etc. These applications exhibit challenging requirements in terms of both storage and computation. Specialized abstractions like Google’s MapReduce were developed to efficiently manage the workloads of data-intensive applications. The MapReduce abstraction has revolutionized the data-intensive community and has rapidly spread to various research and production areas. An open-source implementation of Google's abstraction was provided by Yahoo! through the Hadoop project. This framework is considered the reference MapReduce implementation and is currently heavily used for various purposes and on several infrastructures. To achieve high-performance MapReduce processing, we propose a concurrency-optimized file system for MapReduce Frameworks. As a starting point, we rely on BlobSeer, a framework that was designed as a solution to the challenge of efficiently storing data generated by data-intensive applications running at large scales. We have built the BlobSeer File System (BSFS), with the goal of providing high throughput under heavy concurrency to MapReduce applications. We also study several aspects related to intermediate data management in MapReduce frameworks. We investigate the requirements of MapReduce intermediate data at two levels: inside the same job, and during the execution of pipeline applications. Finally, we show how BSFS can enable extensions to the de facto MapReduce implementation, Hadoop, such as the support for the append operation. This work also comprises the evaluation and the obtained results in the context of grid and cloud environments. Applications data-intensive MapReduce Grilles informatiques Cloud computing Gestion des données intermédiaires Hadoop HDFS BlobSeer Haut débit Accès hautement concurrents Data-intensive applications MapReduce Large-scale distributed platforms Grid Cloud computing Intermediate data management Hadoop HDFS BlobSeer High throughput Heavy access concurrency
46	Représentation et Gestion des Connaissances dans les Environnements Intérieurs Mobiles Afyouni, Imad 17 September 2013 (has links) (PDF) Les systèmes d'information mobiles et ambiants liés à la localisation et à la navigation évoluent progressivement vers des environnements à petite échelle. La nouvelle frontière scientifique et technologique concernent les applications qui assistent les utilisateurs dans leurs déplacements et activités au sein d'espaces bâtis dits "indoor" (e.g., aéroports, musées, bâtiments). La recherche présentée par cette thèse développe une représentation de données spatiales d'un environnement "indoor" qui tient compte des dimensions contextuelles centrées sur l'utilisateur et aborde les enjeux de gestion de données mobiles. Un modèle de données "indoor" hiérarchique et sensible au contexte est proposé. Ce modèle intègre différentes dimensions du contexte en plus de la localisation des entités concernées, telles que le temps et les profils des utilisateurs. Ce modèle est basé sur une structure arborescente dans laquelle l'information spatiale est représentée à différents niveaux d'abstraction. Cette conception hiérarchique favorise un traitement adaptatif et efficace des Requêtes Dépendantes de la Localisation (RDL) qui sont considérées comme des éléments clés pour le développement des différentes catégories de services de géolocalisation sensibles au contexte. Un langage de requêtes continues est développé et illustré par des exemples de requêtes RDL. Ce langage exploite le concept des granules spatiaux, et permet de représenter les requêtes continues et dépendantes de la localisation en prenant compte des préférences de l'utilisateur au moment de l'exécution. Cette approche de modélisation est complétée par le développement d'une architecture générique pour le traitement continu des requêtes RDL et par la conception et la mise en œuvre de plusieurs algorithmes qui permettent un traitement efficace des requêtes dépendantes de la localisation sur des objets mobiles en "indoor". Plusieurs algorithmes de traitement continu des requêtes de recherche de chemin hiérarchique et des requêtes de zone appliquées à des objets statiques et/ou en mouvement sont présentés. Ces algorithmes utilisent une approche hiérarchique et incrémentale afin d'exécuter efficacement les requêtes RDL continues. Un prototype encapsulant le modèle de données hiérarchique, les opérateurs et les contraintes introduits dans le langage de requête ainsi que les différents algorithmes et méthodes pour la manipulation de requêtes RDL a été développé comme une extension du SGBD Open Source PostgreSQL. Une étude expérimentale des solutions développées a été menée pour étudier la performance et le passage à l'échelle à l'égard des propriétés intrinsèques des solutions proposées. Modèles de données indoor systèmes sensibles au contexte gestion de données mobiles objets mobiles

Page generated in 0.1006 seconds