Global ETD Search

31	Recommandation Pair-à-Pair pour Communautés en Ligne à Grande Echelle Draidi, Fady 09 March 2012 (has links) (PDF) Les systèmes de recommandation (RS) et le pair-à-pair (P2) sont complémen-taires pour faciliter le partage de données à grande échelle: RS pour filtrer et person-naliser les requêtes des utilisateurs, et P2P pour construire des systèmes de partage de données décentralisés à grande échelle. Cependant, il reste beaucoup de difficultés pour construire des RS efficaces dans une infrastructure P2P. Dans cette thèse, nous considérons des communautés en ligne à grande échelle, où les utilisateurs notent les contenus qu'ils explorent et gardent dans leur espace de travail local les contenus de qualité pour leurs sujets d'intérêt. Notre objectif est de construire un P2P-RS efficace pour ce contexte. Nous exploitons les sujets d'intérêt des utilisateurs (extraits automatiquement des contenus et de leurs notes) et les don-nées sociales (amitié et confiance) afin de construire et maintenir un overlay P2P so-cial. La thèse traite de plusieurs problèmes. D'abord, nous nous concentrons sur la conception d'un P2P-RS qui passe à l'échelle, appelé P2Prec, en combinant les ap-proches de recommandation par filtrage collaboratif et par filtrage basé sur le contenu. Nous proposons alors de construire et maintenir un overlay P2P dynamique grâce à des protocoles de gossip. Nos résultats d'expérimentation montrent que P2Prec per-met d'obtenir un bon rappel avec une charge de requêtes et un trafic réseau accep-tables. Ensuite, nous considérons une infrastructure plus complexe afin de construire et maintenir un overlay P2P social, appelé F2Frec, qui exploite les relations sociales entre utilisateurs. Dans cette infrastructure, nous combinons les aspects filtrage par contenu et filtrage basé social, pour obtenir un P2P-RS qui fournit des résultats de qualité et fiables. A l'aide d'une évaluation de performances extensive, nous mon-trons que F2Frec améliore bien le rappel, ainsi que la confiance dans les résultats avec une surcharge acceptable. Enfin, nous décrivons notre prototype de P2P-RS que nous avons implémenté pour valider notre proposition basée sur P2Prec et F2Frec. Système pair-à-pair (P2P) système de recommandation (RS) communautés en ligne réseaux sociaux recherche d'information gestion de données à grande échelle
32	Query Processing in Multistore Systems / Traitement de requêtes dans les systèmes multistores Bondiombouy, Carlyna 12 July 2017 (has links) Le cloud computing a eu un impact majeur sur la gestion des données, conduisant à une prolifération de nouvelles solutions évolutives de gestion des données telles que le stockage distribué de fichiers et d’objets, les bases de données NoSQL et les frameworks de traitement de données. Cela a conduit également à une grande diversification des interfaces aux SGBD et à la perte d’un paradigme de programmation commun, ce qui rend très difficile pour un utilisateur d’intégrer ses données lorsqu’elles se trouvent dans des sources de données spécialisées, par exemple, relationnelle, document et graphe.Dans cette thèse, nous abordons le problème du traitement de requêtes avec plusieurs sources de données dans le cloud, où ces sources ont des modèles, des langages et des API différents. Cette thèse a été préparée dans le cadre du projet européen CoherentPaaS et, en particulier, du système multistore CloudMdsQL. CloudMdsQL est un langage de requête fonctionnel capable d’exploiter toute la puissance des sources de données locales, en permettant simplement à certaines requêtes natives portant sur les systèmes locauxd’être appelées comme des fonctions et en même temps optimisées, par exemple, en exploitant les prédicats de sélection, en utilisant le bindjoin, en réalisant l’ordonnancement des jointures ou en réduisant les transferts de données intermédiaires.Dans cette thèse, nous proposons une extension de CloudMdsQL pour tirer pleinement parti des fonctionnalités des frameworks de traitement de données sous-jacents tels que Spark en permettant l’utilisation ad hoc des opérateurs de map/filter/reduce (MFR) définis par l’utilisateur en combinaison avec les ordres SQL traditionnels. Cela permet d’effectuer des jointures entre données relationnelles et HDFS. Notre solution permet l’optimisation en permettant la réécriture de sous-requêtes afin de réaliser des optimisations majeures comme le bindjoin ou le filtrage des données le plus tôt possible.Nous avons validé notre solution en implémentant l’extension MFR dans le moteur de requête CloudMdsQL. Sur la base de ce prototype, nous proposons une validation expérimentale du traitement des requêtes multistore dans un cluster pour évaluer l’impact sur les performances de l’optimisation. Plus précisément, nous explorons les avantages de l’utilisation du bindjoin et du filtrage de données dans des conditions différentes. Dans l’ensemble, notre évaluation des performances illustre la capacité du moteur de requête CloudMdsQL à optimiser une requête et à choisir la stratégie d’exécution la plus efficace. / Cloud computing is having a major impact on data management, with a proliferation of new, scalable data management solutions such as distributed file and object storage, NoSQL databases and big data processing frameworks. This also leads to a wide diversification of DBMS interfaces and the loss of a common programming paradigm, making it very hard for a user to integrate its data sitting in specialized data stores, e.g. relational, documents and graph data stores.In this thesis, we address the problem of query processing with multiple cloud data stores, where the data stores have different models, languages and APIs. This thesis has been prepared in the context of the CoherentPaaS European project and, in particular, the CloudMdsQL multistore system. CloudMdsQL is a functional query language able to exploit the full power of local data stores, by simply allowing some local data store native queries to be called as functions, and at the same time be optimized, e.g. by pushing down select predicates, using bind join, performing join ordering, or planning intermediate data shipping.In this thesis, we propose an extension of CloudMdsQL to take full advantage of the functionality of the underlying data processing frameworks such as Spark by allowing the ad-hoc usage of user defined map/filter/reduce (MFR) operators in combination with traditional SQL statements. This allows performing joins between relational and HDFS big data. Our solution allows for optimization by enabling subquery rewriting so that bind join can be used and filter conditions can be pushed down and applied by the data processing framework as early as possible.We validated our solution by implementing the MFR extension as part of the CloudMdsQL query engine. Based on this prototype, we provide an experimental validation of multistore query processing in a cluster to evaluate the impact on performance of optimization. More specifically, we explore the performance benefit of using bind join and select pushdown under different conditions. Overall, our performance evaluation illustrates the CloudMdsQL query engine’s ability to optimize a query and choose the most efficient execution strategy. Systèmes multistores Systèmes multi-Bases de données Traitement de requêtes Cloud data stores Multistore systems Multidatabase systems Query processing
33	Ingénierie systèmes basée sur les modèles appliquée à la gestion et l'intégration des données de conception et de simulation : application aux métiers d'intégration et de simulation de systèmes aéronautiques complexes / Model-based system engineering enabling design-analysis data integration in digital design environments : application to collaborative aeronautics simulation-based design process and turbojet integration studies Vosgien, Thomas 27 January 2015 (has links) L’objectif de cette thèse est de contribuer au développement d’approches méthodologiques et d’outils informatiques pour développer les chaînes d’intégration numériques en entreprise étendue. Il s’agit notamment de mieux intégrer et d’optimiser les activités de conception, d’intégration et de simulation dans le contexte du développement collaboratif des produits/systèmes complexes.La maquette numérique (DMU) – supportée par un système de gestion de données techniques (SGDT ou PDM) – est devenue ces dernières années un environnement fédérateur clé pour échanger et partager une définition technique et une représentation 3D commune du produit entre concepteurs et partenaires. Cela permet aux concepteurs ainsi qu’aux utilisateurs en aval (ceux qui sont en charge des simulations numériques notamment) d’avoir un accès à la géométrie du produit virtuel assemblé. Alors que les simulations numériques 3D et 2D prennent une place de plus en plus importante dans le cycle de développement du produit, la DMU offre de nouvelles perspectives à ces utilisateurs pour récupérer et exploiter les données CAO appropriées et adaptées pour les analyses par éléments finis. Cela peut ainsi permettre d’accélérer le processus de préparation du modèle de simulation. Cependant, les environnements industriels de maquettes numériques sont actuellement limités dans leur exploitation par : - un manque de flexibilité en termes de contenu et de structure, - l’absence d’artefact numérique 3D permettant de décrire les interfaces des composants de l’assemblage, - un manque d’intégration avec les données et activités de simulation.Cette thèse met notamment l’accent sur les transformations à apporter aux DMU afin qu’elles puissent être utilisées comme données d’entrée directes pour les analyses par éléments finis d’assemblages volumineux (plusieurs milliers de pièces). Ces transformations doivent être en cohérence avec le contexte et les objectifs de simulation et cela nous a amené au concept de « vue produit » appliquée aux DMUs, ainsi qu’au concept de « maquette comportementale » (BMU). Une « vue produit » définit le lien entre une représentation du produit et l’activité ou le processus utilisant ou générant cette représentation. La BMU est l’équivalent de la DMU pour les données et les processus de simulation. Au delà des géométries discrétisées, la dénommée BMU devrait, en principe, lier toutes les données et les modèles qui seront nécessaires pour simuler le comportement d’un ou plusieurs composants. L’élément clé pour atteindre l’objectif d’élargir le concept établi de la DMU (basée sur des modèles CAO) à celui de la BMU (basée sur des modèles CAE), est de trouver un concept d’interface bidirectionnel entre la BMU et sa DMU associée. C’est l’objectif du « Design-Analysis System Integration Framework » (DASIF) proposé dans cette thèse de doctorat. Ce cadre a vise à être implémenté au sein d’environnements PLM/SLM et doit pouvoir inter-opérer à la fois avec les environnements CAD-DMU et CAE-BMU. DASIF allie les fonctionnalités de gestion de données et de configuration des systèmes PDM avec les concepts et formalismes d’ingénierie système basée sur les modèles (MBSE) et des fonctionnalités de gestion des données de simulation (SDM). Cette thèse a été menée dans le cadre d’un projet de recherche européen : le projet CRESCENDO qui vise à développer le « Behavioural Digital Aircraft » (BDA) qui a pour vocation d’être la« colonne vertébrale » des activités de conception et simulation avancées en entreprise étendue. Le concept du BDA doit s’articuler autour d’une plateforme collaborative d’échange et de partage des données de conception et de simulation tout au long du cycle de développement et de vie des produits aéronautiques. [...] / The aim of this doctoral thesis is to contribute to the facilitation of design, integration and simulation activities in the aeronautics industry, but more generally in the context of collaborative complex product development. This objective is expected to be achieved through the use and improvement of digital engineering capabilities. During the last decade, the Digital Mock-Up (DMU) – supported by Product Data Management (PDM) systems – became a key federating environment to exchange/share a common 3D CAD model-based product definition between co-designers. It enables designers and downstream users(analysts) to access the geometry of the product assembly. While enhancing 3D and 2D simulations in a collaborative and distributed design process, the DMU offers new perspectives for analysts to retrieve the appropriate CAD data inputs used for Finite Element Analysis (FEA), permitting hence to speed-up the simulation preparation process. However, current industrial DMUs suffer from several limitations, such as the lack of flexibility in terms of content and structure, the lack of digital interface objects describing the relationships between its components and a lack of integration with simulation activities and data.This PhD underlines the DMU transformations required to provide adapted DMUs that can be used as direct input for large assembly FEA. These transformations must be consistent with the simulation context and objectives and lead to the concept of “Product View” applied to DMUs andto the concept of “Behavioural Mock-Up” (BMU). A product view defines the link between a product representation and the activity or process (performed by at least one stakeholder) that use or generate this representation as input or output respectively. The BMU is the equivalent of the DMU for simulation data and processes. Beyond the geometry, which is represented in the DMU,the so-called BMU should logically link all data and models that are required to simulate the physical behaviour and properties of a single component or an assembly of components. The key enabler for achieving the target of extending the concept of the established CAD-based DMU to the behavioural CAE-based BMU is to find a bi-directional interfacing concept between the BMU and its associated DMU. This the aim of the Design-Analysis System Integration Framework (DASIF) proposed in this PhD. This framework might be implemented within PLM/SLM environments and interoperate with both CAD-DMU and CAE-BMU environments. DASIF combines configuration data management capabilities of PDM systems with MBSE system modelling concepts and Simulation Data Management capabilities.This PhD has been carried out within a European research project: the CRESCENDO project, which aims at delivering the Behavioural Digital Aircraft (BDA). The BDA concept might consist in a collaborative data exchange/sharing platform for design-simulation processes and models throughout the development life cycle of aeronautics products. Within this project, the Product Integration Scenario and related methodology have been defined to handle digital integration chains and to provide a test case scenario for testing DASIF concepts. These latter have been used to specify and develop a prototype of an “Integrator Dedicated Environment” implemented in commercial PLM/SLM applications. Finally the DASIF conceptual data model has also served as input for contributing to the definition of the Behavioural Digital Aircraft Business Object Model: the standardized data model of the BDA platform enabling interoperability between heterogeneous PLM/SLM applications and to which existing local design environments and new services to be developed could plug. Chaînes d’intégration numériques Maquette numérique Product Data Management (PDM) Digital Mock-Up (DMU)
34	Interactions Projet/Données lors de la conception de produits multi-technologiques en contexte collaboratif / Interactions Project/Data during multi-technologic product design in a collaborative context Godot, Xavier 03 July 2013 (has links) Du point de vue industriel, la conception de produit a pour finalité de répondreaux besoins de développement d’une entreprise. Elle fait appel à de nombreusesconnaissances et compétences différentes qui doivent concourir à un unique but : décrire unproduit qui répond aux besoins du marché visé par l’entreprise. Il existe donc de fortesinteractions entre l’entreprise, son marché et l’activité de conception. Par conséquent, toutprojet de développement doit tenir compte des caractéristiques et des contraintes de chacun deces trois éléments. L’objectif de cette thèse est donc de proposer un cadre méthodologiquegénérique permettant de construire et de piloter des projets de conception de produits enfonction des objectifs de développement d’une entreprise, mais également de ses ressourcestant humaines que matérielles ou financières. Pour atteindre cet objectif, il est indispensabled’intégrer plusieurs facteurs importants. Certains sont d’ordre technique (l’innovation, lacomplexité croissante des produits multi-technologiques, l’hétérogénéité des donnéesnumériques…) et d’autres d’ordre économique ou financier (un contexte concurrentiel trèsdifficile, des financements de projets de développement limités et incertains…). La prise encompte de ces multiples paramètres hétérogènes nécessite une approche systémique. Ainsi,une démarche en deux temps a été élaborée. L’ensemble des objets concernant les objectifsde développement de l’entreprise, son marché et l’activité de conception a tout d’abord étéidentifié et formalisé au sein d’un même diagramme de concepts. Celui-ci a ensuite permisd’identifier les interactions entre ces objets et d’en déduire les mécanismes de fonctionnement.Ces premiers résultats ont finalement été traduits sous la forme d’un processus générique quiconstitue la proposition de cette thèse. Plusieurs exemples issus des PME du secteur de lamécanique sont traités afin d’éprouver la validité de cette solution. / As an industrial point of view, product design activity answer to firmsdevelopment needs. This activity requires a lot of heterogeneous knowledge and skills, whichhave to converge towards a common goal: describe a product meeting the market needs.Consequently, there are many interactions between the firm, its market and the design activity.Therefore, a development project must take into account specifications and constraints of eachelement. The goal of this PhD is to define a generic methodological framework allowing to builtand control a product design project depending on the firm development goals and its ownresources. For this, it is important to include many technical factors (such innovation, multitechnologicalproducts and numerical data specificities) but also economical and financialfactors (as the difficult competitive environment or limited financial resources). All theseheterogeneous parameters involve a global approach of the problem. That is why a two-stageresearch approach is applied to build this framework. In the first stage, a conceptual diagram isdesigned using items coming from the company goals, its market and design activity.Interactions and behavior of all these items are deduced from this conceptual diagram. Theseresults are formalized through a generic process. This last one is finally applied to severalexamples from SME working in the mechanical field. Processus de conception Produits multi-technologiques Développement des PME Design process Multi-technologic product Technical project management Technical data management SME development
35	Gestion et visualisation de données hétérogènes multidimensionnelles : application PLM à la neuroimagerie / Management and visualisation oh heterogeneous multidimensional data : PLM application to neuroimaging Allanic, Marianne 17 December 2015 (has links) La neuroimagerie est confrontée à des difficultés pour analyser et réutiliser la masse croissante de données hétérogènes qu’elle produit. La provenance des données est complexe – multi-sujets, multi-analyses, multi-temporalités – et ces données ne sont stockées que partiellement, limitant les possibilités d’études multimodales et longitudinales. En particulier, la connectivité fonctionnelle cérébrale est analysée pour comprendre comment les différentes zones du cerveau travaillent ensemble. Il est nécessaire de gérer les données acquises et traitées suivant plusieurs dimensions, telles que le temps d’acquisition, le temps entre les acquisitions ou encore les sujets et leurs caractéristiques. Cette thèse a pour objectif de permettre l’exploration de relations complexes entre données hétérogènes, ce qui se décline selon deux axes : (1) comment gérer les données et leur provenance, (2) comment visualiser les structures de données multidimensionnelles. L’apport de nos travaux s’articule autour de trois propositions qui sont présentées à l’issue d’un état de l’art sur les domaines de la gestion de données hétérogènes et de la visualisation de graphes. Le modèle de données BMI-LM (Bio-Medical Imaging – Lifecycle Management) structure la gestion des données de neuroimagerie en fonction des étapes d’une étude et prend en compte le caractère évolutif de la recherche grâce à l’association de classes spécifiques à des objets génériques. L’implémentation de ce modèle au sein d’un système PLM (Product Lifecycle Management) montre que les concepts développés depuis vingt ans par l’industrie manufacturière peuvent être réutilisés pour la gestion des données en neuroimagerie. Les GMD (Graphes Multidimensionnels Dynamiques) sont introduits pour représenter des relations complexes entre données qui évoluent suivant plusieurs dimensions, et le format JGEX (Json Graph EXchange) a été créé pour permettre le stockage et l’échange de GMD entre applications. La méthode OCL (Overview Constraint Layout) permet l’exploration visuelle et interactive de GMD. Elle repose sur la préservation partielle de la carte mentale de l’utilisateur et l’alternance de vues complètes et réduites des données. La méthode OCL est appliquée à l’étude de la connectivité fonctionnelle cérébrale au repos de 231 sujets représentées sous forme de GMD – les zones du cerveau sont représentées par les nœuds et les mesures de connectivité par les arêtes – en fonction de l’âge, du genre et de la latéralité : les GMD sont obtenus par l’application de chaînes de traitement sur des acquisitions IRM dans le système PLM. Les résultats montrent deux intérêts principaux à l’utilisation de la méthode OCL : (1) l’identification des tendances globales sur une ou plusieurs dimensions et (2) la mise en exergue des changements locaux entre états du GMD. / Neuroimaging domain is confronted with issues in analyzing and reusing the growing amount of heterogeneous data produced. Data provenance is complex – multi-subjects, multi-methods, multi-temporalities – and the data are only partially stored, restricting multimodal and longitudinal studies. Especially, functional brain connectivity is studied to understand how areas of the brain work together. Raw and derived imaging data must be properly managed according to several dimensions, such as acquisition time, time between two acquisitions or subjects and their characteristics. The objective of the thesis is to allow exploration of complex relationships between heterogeneous data, which is resolved in two parts : (1) how to manage data and provenance, (2) how to visualize structures of multidimensional data. The contribution follow a logical sequence of three propositions which are presented after a research survey in heterogeneous data management and graph visualization. The BMI-LM (Bio-Medical Imaging – Lifecycle Management) data model organizes the management of neuroimaging data according to the phases of a study and takes into account the scalability of research thanks to specific classes associated to generic objects. The application of this model into a PLM (Product Lifecycle Management) system shows that concepts developed twenty years ago for manufacturing industry can be reused to manage neuroimaging data. GMDs (Dynamic Multidimensional Graphs) are introduced to represent complex dynamic relationships of data, as well as JGEX (Json Graph EXchange) format that was created to store and exchange GMDs between software applications. OCL (Overview Constraint Layout) method allows interactive and visual exploration of GMDs. It is based on user’s mental map preservation and alternating of complete and reduced views of data. OCL method is applied to the study of functional brain connectivity at rest of 231 subjects that are represented by a GMD – the areas of the brain are the nodes and connectivity measures the edges – according to age, gender and laterality : GMDs are computed through processing workflow on MRI acquisitions into the PLM system. Results show two main benefits of using OCL method : (1) identification of global trends on one or many dimensions, and (2) highlights of local changes between GMD states. Neuroimagerie Gestion des données Données hétérogènes Données multidimensionnelles Exploration Data Management Heterogeneous Data Multidimensional data Product Lifecycle Management (PLM) Visualisation Exploration Graph Theory Neuroimaging
36	Contribution to High Performance Computing and Big Data Infrastructure Convergence / Contribution à la convergence d'infrastructure entre le calcul haute performance et le traitement de données à large échelle Mercier, Michael 01 July 2019 (has links) La quantité de données produites dans le monde scientifique comme dans le monde commercial, est en constante augmentation. Le domaine du traitement de donnée à large échelle, appelé “Big Data”, a été inventé pour traiter des données sur de larges infrastructures informatiques distribuées. Mais l’intégration de système Big Data sur des machines de calcul intensif pose de nombreux problèmes. En effet, les gestionnaires de ressources ainsi que les systèmes de fichier de super calculateurs ne sont pas penser pour ce type de travail. Le sujet de cette thèse est de trouver la meilleure approche pour faire interagir ces deux gestionnaires de ressources et de traiter les différents problèmes soulevés par les mouvements de données et leur ordonnancement. / The amount of data produced, either in the scientific community and the commercial world, is constantly growing. The field of Big Data has emerged to handle a large amount of data on distributed computing infrastructures. High-Performance Computer (HPC) infrastructures are made for intensive parallel computations. The HPC community is also facing more and more data because of new high definition sensors and large physics apparatus. The convergence of the two fields is currently happening. In fact, the HPC community is already using Big Data tools, but they are not integrated correctly, especially at the level of the file system and the Resources and Job Management System (RJMS).In order to understand how we can leverage HPC clusters for Big Data usage, and what are the challenges for the HPC infrastructures, we have studied multiple aspects of the convergence: we have made a survey on the software provisioning methods, with a focus on data-intensive applications. We also propose a new RJMS collaboration technique called BeBiDa which is based on 50 lines of code whereas similar solutions use at least 1000x more. We evaluate this mechanismon real conditions and in a simulation with our simulator Batsim. Super calculateur Gestion de données Gestion de ressources Infrastructure Informatique Convergence Simulation High performance computing Big Data Resouces management IT infrastructure Convergence Simulation 004
37	Recommandation Pair-à-Pair pour Communautés en Ligne à Grande Echelle / Peer-to-Peer Recommendation for Large-scale Online Communities Draidi, Fady 09 March 2012 (has links) Les systèmes de recommandation (RS) et le pair-à-pair (P2) sont complémentaires pour faciliter le partage de données à grande échelle: RS pour filtrer et personnaliser les requêtes des utilisateurs, et P2P pour construire des systèmes de partage de données décentralisés à grande échelle. Cependant, il reste beaucoup de difficultés pour construire des RS efficaces dans une infrastructure P2P. Dans cette thèse, nous considérons des communautés en ligne à grande échelle, où les utilisateurs notent les contenus qu'ils explorent et gardent dans leur espace de travail local les contenus de qualité pour leurs sujets d'intérêt. Notre objectif est de construire un P2P-RS efficace pour ce contexte. Nous exploitons les sujets d'intérêt des utilisateurs (extraits automatiquement des contenus et de leurs notes) et les données sociales (amitié et confiance) afin de construire et maintenir un overlay P2P social. La thèse traite de plusieurs problèmes. D'abord, nous nous concentrons sur la conception d'un P2P-RS qui passe à l'échelle, appelé P2Prec, en combinant les approches de recommandation par filtrage collaboratif et par filtrage basé sur le contenu. Nous proposons alors de construire et maintenir un overlay P2P dynamique grâce à des protocoles de gossip. Nos résultats d'expérimentation montrent que P2Prec permet d'obtenir un bon rappel avec une charge de requêtes et un trafic réseau acceptables. Ensuite, nous considérons une infrastructure plus complexe afin de construire et maintenir un overlay P2P social, appelé F2Frec, qui exploite les relations sociales entre utilisateurs. Dans cette infrastructure, nous combinons les aspects filtrage par contenu et filtrage basé social, pour obtenir un P2P-RS qui fournit des résultats de qualité et fiables. A l'aide d'une évaluation de performances extensive, nous montrons que F2Frec améliore bien le rappel, ainsi que la confiance dans les résultats avec une surcharge acceptable. Enfin, nus décrivons notre prototype de P2P-RS que nous avons implémenté pour valider notre proposition basée sur P2Prec et F2Frec. / Recommendation systems (RS) and P2P are both complementary in easing large-scale data sharing: RS to filter and personalize users' demands, and P2P to build decentralized large-scale data sharing systems. However, many challenges need to be overcome when building scalable, reliable and efficient RS atop P2P. In this work, we focus on large-scale communities, where users rate the contents they explore, and store in their local workspace high quality content related to their topics of interest. Our goal then is to provide a novel and efficient P2P-RS for this context. We exploit users' topics of interest (automatically extracted from users' contents and ratings) and social data (friendship and trust) as parameters to construct and maintain a social P2P overlay, and generate recommendations. The thesis addresses several related issues. First, we focus on the design of a scalable P2P-RS, called P2Prec, by leveraging collaborative- and content-based filtering recommendation approaches. We then propose the construction and maintenance of a P2P dynamic overlay using different gossip protocols. Our performance experimentation results show that P2Prec has the ability to get good recall with acceptable query processing load and network traffic. Second, we consider a more complex infrastructure in order to build and maintain a social P2P overlay, called F2Frec, which exploits social relationships between users. In this new infrastructure, we leverage content- and social-based filtering, in order to get a scalable P2P-RS that yields high quality and reliable recommendation results. Based on our extensive performance evaluation, we show that F2Frec increases recall, and the trust and confidence of the results with acceptable overhead. Finally, we describe our prototype of P2P-RS, which we developed to validate our proposal based on P2Prec and F2Frec. Système pair-à-pair (P2P) Système de recommandation (RS) Communautés en ligne Réseaux sociaux Recherche d’information Gestion de données à grande échelle P2P system Recommendation system (RS) Online communities Social networks Information retrieval Large-scale data management
38	Représentation et gestion des connaissances dans les environnements intérieurs mobiles / Knowledge representation and management in indoor mobile environments Afyouni, Imad 17 September 2013 (has links) Les systèmes d'information mobiles et ambiants liés à la localisation et à la navigation évoluent progressivement vers des environnements à petite échelle. La nouvelle frontière scientifique et technologique concerne les applications qui assistent les utilisateurs dans leurs déplacements et activités au sein d’espaces bâtis dits «indoor» (e.g., aéroports, musées, bâtiments). La recherche présentée par cette thèse développe une représentation de données spatiales d'un environnement «indoor» qui tient compte des dimensions contextuelles centrées sur l'utilisateur et aborde les enjeux de gestion de données mobiles. Un modèle de données «indoor» hiérarchique et sensible au contexte est proposé. Ce modèle intègre différentes dimensions du contexte en plus de la localisation des entités concernées, telles que le temps et les profils des utilisateurs. Ce modèle est basé sur une structure arborescente dans laquelle l'information spatiale est représentée à différents niveaux d'abstraction. Cette conception hiérarchique favorise un traitement adaptatif et efficace des Requêtes Dépendantes de la Localisation (RDL) qui sont considérées comme des éléments clés pour le développement des différentes catégories de services de géolocalisation sensibles au contexte. Un langage de requêtes continues est développé et illustré par des exemples de requêtes RDL. Ce langage exploite le concept des granules spatiales, et permet de représenter les requêtes continues et dépendantes de la localisation en prenant compte des préférences de l'utilisateur au moment de l'exécution.Cette approche de modélisation est complétée par le développement d'une architecture générique pour le traitement continu des requêtes RDL et par la conception et la mise en oeuvre de plusieurs algorithmes qui permettent un traitement efficace des requêtes dépendantes de la localisation sur des objets mobiles en «indoor». Plusieurs algorithmes de traitement continu des requêtes de recherche de chemin hiérarchique et des requêtes de zone appliquées à des objets statiques et/ou en mouvement sont présentés. Ces algorithmes utilisent une approche hiérarchique et incrémentale afin d'exécuter efficacement les requêtes RDL continues. Un prototype encapsulant le modèle de données hiérarchique, les opérateurs et les contraintes introduits dans le langage de requête ainsi que les différents algorithmes et méthodes pour la manipulation de requêtes RDL a été développé comme une extension du SGBD Open Source PostgreSQL. Une étude expérimentale des solutions développées a été menée pour étudier la performance et le passage à l'échelle à l'égard des propriétés intrinsèques des solutions proposées. / The range of applications in ambient information systems progressively evolves from large to small scale environments. This is particularly the case for applications that assist humans in navigation-related activities in indoor spaces (e.g., airports, museums, office buildings). The research presented by this Ph.D. dissertation develops a data and knowledge representation of an indoor environment that takes into account user-centred contextual dimensions and mobile data management issues. We introduce a hierarchical, context-dependent, and feature-based indoor spatial data model. This model takes into account additional contextual dimensions such as time, user profiles, and real-time events. The model is based on a tree structure in which location information is represented at different levels of abstraction. The hierarchical design favours performance and scalability of location-dependent query processing. A query grammar is developed and implemented on top of that model. This query language supports continuous location-dependent queries and takes into account user preferences at execution time. The concept of location granules is introduced at the query execution and presentation levels.This modelling approach is complemented by the development of a generic architecture for continuous query processing. Several algorithms for location dependent query processing over indoor moving objects have been designed and implemented. These algorithms include path searches and range queries applied to both static and moving objects. They are based on an incremental approach in order to execute continuous location-dependent queries.The operators and constraints introduced in the query language and the algorithms for location-dependent query processing have been implemented as a database extension of the open source DBMS PostgreSQL, and where the hierarchical network-based indoor data model has been developed at the logical level. Several experiments have been conducted to evaluate the scalability and performance of the whole framework. Modèles de données indoor Systèmes sensibles au contexte Gestion de données mobiles Objets mobiles Indoor data models Context-aware systems Mobile data management Continuous location-dependent queries Moving objects 005.7
39	Utilisation de BlobSeer pour le stockage de données dans les clouds : auto-adaptation, intégration, évaluation Carpen-Amarie, Alexandra 15 December 2011 (has links) (PDF) L'émergence de l'informatique dans les nuages met en avant de nombreux défis qui pourraient limiter l'adoption du paradigme Cloud. Tandis que la taille des données traitées par les applications Cloud augmente exponentiellement, un défi majeur porte sur la conception de solutions efficaces pour la gestion de données. Cette thèse a pour but de concevoir des mécanismes d'auto-adaptation pour des systèmes de gestion de données, afin qu'ils puissent répondre aux exigences des services de stockage Cloud en termes de passage à l'échelle, disponibilité et sécurité des données. De plus, nous nous proposons de concevoir un service de données qui soit à la fois compatible avec les interfaces Cloud standard dans et capable d'offrir un stockage de données à haut débit. Pour relever ces défis, nous avons proposé des mécanismes génériques pour l'auto-connaissance, l'auto-protection et l'auto-configuration des systèmes de gestion de données. Ensuite, nous les avons validés en les intégrant dans le logiciel BlobSeer, un système de stockage qui optimise les accès hautement concurrents aux données. Finalement, nous avons conçu et implémenté un système de fichiers s'appuyant sur BlobSeer, afin d'optimiser ce dernier pour servir efficacement comme support de stockage pour les services Cloud. Puis, nous l'avons intégré dans un environnement Cloud réel, la plate-forme Nimbus. Les avantages et les désavantages de l'utilisation du stockage dans le Cloud pour des applications réelles sont soulignés lors des évaluations effectuées sur Grid'5000. Elles incluent des applications à accès intensif aux données, comme MapReduce, et des applications fortement couplées, comme les simulations atmosphériques. [INFO:INFO_OH] Computer Science/Other Cloud computing Gestion de données Haut débit Calcul autonomique Auto-connaissance Auto-protection Auto-configuration Surveillance Sécurité Stockage de données dans le Cloud MapReduce Calcul haute performance
40	Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle Moise, Diana 16 December 2011 (has links) (PDF) Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté data-intensive et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds. Applications data-intensive MapReduce grilles informatiques cloud computing gestion des données intermédiaires Hadoop HDFS BlobSeer haut débit accès hautement concurrents

Search results