Global ETD Search

11	Adresser les défis de passage à l'échelle en génomique comparée Golenetskaya, Natalia 09 September 2013 (has links) (PDF) La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations <em>n</em>-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques. bioinformatique fouille de données bases de données distribuées calcul distribué
12	Création d'un environnement de gestion de base de données "en grille" : application à l'échange de données médicales De Vlieger, Paul 12 July 2011 (has links) (PDF) La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source.L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Grille informatique Identification des patients Base de données distribuées Dépistage des cancers
13	Premiers travaux relatifs au concept de matière communicante : Processus de dissémination des informations relatives au produit / The first work related to the concept of communicatiing material : information dissemination process for product-related data Kubler, Sylvain 07 November 2012 (has links) Depuis de nombreuses années, plusieurs communautés telles que IMS (Intelligent Manufacturing Systems), HMS (Holonic Manufacturing System) ont suggéré l'utilisation de produits intelligents pour rendre les systèmes adaptables et adaptatifs et ont montré les bénéfices pouvant être réalisés, tant au niveau économique, qu'au niveau de la traçabilité des produits, qu'au niveau du partage des informations ou encore de l'optimisation des procédés de fabrication. Cependant, un grand nombre de questions restent ouvertes comme la collecte des informations liées au produit, leur stockage à travers la chaîne logistique, ou encore la dissémination et la gestion de ces informations tout au long de leur cycle de vie. La contribution de cette thèse consiste en la définition d'un cadre de dissémination des informations relatives au produit durant l'ensemble de son cycle de vie. Ce cadre de dissémination est associé à un nouveau paradigme qui change radicalement la manière de voir le produit et la matière. Ce nouveau concept consiste à donner la faculté au produit d'être intrinséquement et intégralement "communicant". Le cadre de dissémination des informations proposé offre la possibilité à l'utilisateur d'embarquer des informations sensibles au contexte d'utilisation du produit communicant. Outre la définition du processus de dissémination des informations, cette thèse offre un aperçu des champs de recherche, tant scientifiques que technologiques, à investiguer à l'avenir concernant le concept de "matière communicante" / Over the last decade, communities involved with intelligent-manufacturing systems (IMS - Intelligent Manufacturing Systems, HMS - Holonic Manufacturing System) have demonstrated that systems that integrate intelligent products can be more efficient, flexible and adaptable. Intelligent products may prove to be beneficial economically, to deal with product traceability and information sharing along the product lifecycle. Nevertheless, there are still some open questions such as the specification of what information should be gathered, stored and distributed and how it should be managed during the lifecycle of the product. The contribution of this thesis is to define a process for disseminating information related to the product over its lifecycle. This process is combined with a new paradigm, which changes drastically the way we view the material. This concept aims to give the ability for the material to be intrinsically and wholly "communicating". The data dissemination process allow users to store context-sensitive information on communicating product. In addition to the data dissemination process, this thesis gives insight into the technological and scientific research fields inherent to the concept of "communicating material", which remain to be explored Gestion du cycle de vie du produit Produit intelligents Dissémination des données Bases de données distribuées Internet des objets Informatique ubiquitaire Product life cycle management Intelligent products Data dissemination Distributed database Internet of things Ubiquitous computing 629.895 63
14	Premiers travaux relatifs au concept de matière communicante : Processus de dissémination des informations relatives au produit Kubler, Sylvain 07 December 2012 (has links) (PDF) Depuis de nombreuses années, plusieurs communautés telles que IMS (Intelligent Manufacturing Systems), HMS (Holonic Manufacturing System) ont suggéré l'utilisation de produits intelligents pour rendre les systèmes adaptables et adaptatifs et ont montré les bénéfices pouvant être réalisés, tant au niveau économique, qu'au niveau de la traçabilité des produits, qu'au niveau du partage des informations ou encore de l'optimisation des procédés de fabrication. Cependant, un grand nombre de questions restent ouvertes comme la collecte des informations liées au produit, leur stockage à travers la chaîne logistique, ou encore la dissémination et la gestion de ces informations tout au long de leur cycle de vie. La contribution de cette thèse est la définition d'un cadre de dissémination des informations relatives au produit durant l'ensemble de son cycle de vie. Ce cadre de dissémination est associé à un nouveau paradigme qui change radicalement la manière de voir le produit et la matière. Ce nouveau concept consiste à donner la faculté au produit d'être intrinsèquement et intégralement communicant. Le cadre de dissémination des informations offre la possibilité à l'utilisateur d'embarquer des informations sensibles au contexte d'utilisation du produit communicant. Outre la définition du processus de dissémination des informations, cette thèse offre un aperçu des champs de recherche, tant scientifiques que technologiques, à investiguer par l'avenir concernant le concept de matière communicante. Gestion du cycle de vie du produit produit intelligents dissémination des données bases de données distribuées Internet des objets informatique ubiquitaire
15	Partage et production de connaissances distribuées dans des plateformes scientifiques collaboratives Gaignard, Alban 15 March 2013 (has links) (PDF) Cette thèse s'intéresse à la production et au partage cohérent de connaissances distribuées dans le domaine des sciences de la vie. Malgré l'augmentation constante des capacités de stockage et de calcul des infrastructures informatiques, les approches centralisées pour la gestion de grandes masses de données scientifiques multi-sources deviennent inadaptées pour plusieurs raisons: (i) elles ne garantissent pas l'autonomie des fournisseurs de données qui doivent conserver un certain contrôle sur les don- nées hébergées pour des raisons éthiques et/ou juridiques, (ii) elles ne permettent pas d'envisager le passage à l'échelle des plateformes en sciences computationnelles qui sont la source de productions massives de données scientifiques. Nous nous intéressons, dans le contexte des plateformes collaboratives en sci- ences de la vie NeuroLOG et VIP, d'une part, aux problématiques de distribution et d'hétérogénéité sous-jacentes au partage de ressources, potentiellement sensibles ; et d'autre part, à la production automatique de connaissances au cours de l'usage de ces plateformes, afin de faciliter l'exploitation de la masse de données produites. Nous nous appuyons sur une approche ontologique pour la modélisation des connaissances et pro- posons à partir des technologies du web sémantique (i) d'étendre ces plateformes avec des stratégies efficaces, statiques et dynamiques, d'interrogations sémantiques fédérées et (ii) d'étendre leur environnent de traitement de données pour automatiser l'annotation sémantique des résultats d'expérience "in silico", à partir de la capture d'informations de provenance à l'exécution et de règles d'inférence spécifiques au domaine. Les résultats de cette thèse, évalués sur l'infrastructure distribuée et contrôlée Grid'5000, apportent des éléments de réponse à trois enjeux majeurs des plateformes collaboratives en sciences computationnelles : (i) un modèle de collaborations sécurisées et une stratégie de contrôle d'accès distribué pour permettre la mise en place d'études multi-centriques dans un environnement compétitif, (ii) des résumés sémantiques d'expérience qui font sens pour l'utilisateur pour faciliter la navigation dans la masse de données produites lors de campagnes expérimentales, et (iii) des stratégies efficaces d'interrogation et de raisonnement fédérés, via les standards du Web Sémantique, pour partager les connaissances capitalisées dans ces plateformes et les ouvrir potentiellement sur le Web de données. Services web sémantiques Provenance Web de données Web sémantique Fédération de bases de connaissances Intégration de données distribuées e-Sciences e-Santé
16	Adaptation dynamique des architectures réparties pour jeux massivement multijoueurs Legtchenko, Sergey 25 October 2012 (has links) (PDF) Durant la dernière décennie, Les jeux massivement multijoueurs (MMOGs) sont devenus extrêmement populaires et comptent désormais plus de 20 millions d'utilisateurs actifs à travers le monde. Les MMOGs sont des systèmes distribués ayant des contraintes applicatives fortes en terme de cohérence de données, persistance, réactivité et passage à l'échelle. L'évolution des besoins applicatifs du MMOG au cours du temps est difficilement prévisible car dépendante du comportement des joueurs dans le monde virtuel. C'est pourquoi, malgré un important effort de recherche dans le domaine, aucune des architectures proposées ne satisfait pleinement toutes les contraintes requises. Cette thèse explore les capacités des architectures distribuées à s'adapter à la charge applicative grâce à une prise en compte du comportement des joueurs lors de l'exécution. Le système est alors capable de détecter des évolutions qui sont difficiles à prévoir à priori, et dynamiquement allouer les ressources nécessaires à l'application. Nous décrivons différentes techniques de surveillance des joueurs et proposons des moyens de prendre en compte ces informations au niveau de l'architecture. Nos expériences, effectuées dans des conditions réalistes, montrent que nos mécanismes ont un surcoût limité et permettent d'améliorer les performances globales du système. pair a pair jeux multijoueurs réseaux logiques bases de données distribuées
17	Distributed knowledge sharing and production through collaborative e-Science platforms / Partage et production de connaissances distribuées dans des plateformes scientifiques collaboratives Gaignard, Alban 15 March 2013 (has links) Cette thèse s'intéresse à la production et au partage cohérent de connaissances distribuées dans le domaine des sciences de la vie. Malgré l'augmentation constante des capacités de stockage et de calcul des infrastructures informatiques, les approches centralisées pour la gestion de grandes masses de données scientifiques multi-sources deviennent inadaptées pour plusieurs raisons: (i) elles ne garantissent pas l'autonomie des fournisseurs de données qui doivent conserver un certain contrôle sur les données hébergées pour des raisons éthiques et/ou juridiques, (ii) elles ne permettent pas d'envisager le passage à l'échelle des plateformes en sciences computationnelles qui sont la source de productions massives de données scientifiques. Nous nous intéressons, dans le contexte des plateformes collaboratives en sciences de la vie NeuroLOG et VIP, d'une part, aux problématiques de distribution et d'hétérogénéité sous-jacentes au partage de ressources, potentiellement sensibles ; et d'autre part, à la production automatique de connaissances au cours de l'usage de ces plateformes, afin de faciliter l'exploitation de la masse de données produites. Nous nous appuyons sur une approche ontologique pour la modélisation des connaissances et proposons à partir des technologies du web sémantique (i) d'étendre ces plateformes avec des stratégies efficaces, statiques et dynamiques, d'interrogations sémantiques fédérées et (ii) d'étendre leur environnent de traitement de données pour automatiser l'annotation sémantique des résultats d'expérience ``in silico'', à partir de la capture d'informations de provenance à l'exécution et de règles d'inférence spécifiques au domaine. Les résultats de cette thèse, évalués sur l'infrastructure distribuée et contrôlée Grid'5000, apportent des éléments de réponse à trois enjeux majeurs des plateformes collaboratives en sciences computationnelles : (i) un modèle de collaborations sécurisées et une stratégie de contrôle d'accès distribué pour permettre la mise en place d'études multi-centriques dans un environnement compétitif, (ii) des résumés sémantiques d'expérience qui font sens pour l'utilisateur pour faciliter la navigation dans la masse de données produites lors de campagnes expérimentales, et (iii) des stratégies efficaces d'interrogation et de raisonnement fédérés, via les standards du Web Sémantique, pour partager les connaissances capitalisées dans ces plateformes et les ouvrir potentiellement sur le Web de données. Mots-clés: Flots de services et de données scientifiques, Services web sémantiques, Provenance, Web de données, Web sémantique, Fédération de bases de connaissances, Intégration de données distribuées, e-Sciences, e-Santé. / This thesis addresses the issues of coherent distributed knowledge production and sharing in the Life-science area. In spite of the continuously increasing computing and storage capabilities of computing infrastructures, the management of massive scientific data through centralized approaches became inappropriate, for several reasons: (i) they do not guarantee the autonomy property of data providers, constrained, for either ethical or legal concerns, to keep the control over the data they host, (ii) they do not scale and adapt to the massive scientific data produced through e-Science platforms. In the context of the NeuroLOG and VIP Life-science collaborative platforms, we address on one hand, distribution and heterogeneity issues underlying, possibly sensitive, resource sharing ; and on the other hand, automated knowledge production through the usage of these e-Science platforms, to ease the exploitation of the massively produced scientific data. We rely on an ontological approach for knowledge modeling and propose, based on Semantic Web technologies, to (i) extend these platforms with efficient, static and dynamic, transparent federated semantic querying strategies, and (ii) to extend their data processing environment, from both provenance information captured at run-time and domain-specific inference rules, to automate the semantic annotation of ``in silico'' experiment results. The results of this thesis have been evaluated on the Grid'5000 distributed and controlled infrastructure. They contribute to addressing three of the main challenging issues faced in the area of computational science platforms through (i) a model for secured collaborations and a distributed access control strategy allowing for the setup of multi-centric studies while still considering competitive activities, (ii) semantic experiment summaries, meaningful from the end-user perspective, aimed at easing the navigation into massive scientific data resulting from large-scale experimental campaigns, and (iii) efficient distributed querying and reasoning strategies, relying on Semantic Web standards, aimed at sharing capitalized knowledge and providing connectivity towards the Web of Linked Data. Services web sémantiques Web de données Fédération de bases de connaissances Intégration de données distribuées E-Sciences E-Santé Scientific workflows Semantic web services Web of linked data Federated knowledge bases Distributed data integration E-Science E-Health 004
18	Modélisation et implémentation de parallélisme implicite pour les simulations scientifiques basées sur des maillages / Model and implementation of implicit parallélism for mesh-based scientific simulations Coullon, Hélène 29 September 2014 (has links) Le calcul scientifique parallèle est un domaine en plein essor qui permet à la fois d’augmenter la vitesse des longs traitements, de traiter des problèmes de taille plus importante ou encore des problèmes plus précis. Ce domaine permet donc d’aller plus loin dans les calculs scientifiques, d’obtenir des résultats plus pertinents, car plus précis, ou d’étudier des problèmes plus volumineux qu’auparavant. Dans le monde plus particulier de la simulation numérique scientifique, la résolution d’équations aux dérivées partielles (EDP) est un calcul particulièrement demandeur de ressources parallèles. Si les ressources matérielles permettant le calcul parallèle sont de plus en plus présentes et disponibles pour les scientifiques, à l’inverse leur utilisation et la programmation parallèle se démocratisent difficilement. Pour cette raison, des modèles de programmation parallèle, des outils de développement et même des langages de programmation parallèle ont vu le jour et visent à simplifier l’utilisation de ces machines. Il est toutefois difficile, dans ce domaine dit du “parallélisme implicite”, de trouver le niveau d’abstraction idéal pour les scientifiques, tout en réduisant l’effort de programmation. Ce travail de thèse propose tout d’abord un modèle permettant de mettre en oeuvre des solutions de parallélisme implicite pour les simulations numériques et la résolution d’EDP. Ce modèle est appelé “Structured Implicit Parallelism for scientific SIMulations” (SIPSim), et propose une vision au croisement de plusieurs types d’abstraction, en tentant de conserver les avantages de chaque vision. Une première implémentation de ce modèle, sous la forme d’une librairie C++ appelée SkelGIS, est proposée pour les maillages cartésiens à deux dimensions. Par la suite, SkelGIS, et donc l’implémentation du modèle, est étendue à des simulations numériques sur les réseaux (permettant l’application de simulations représentant plusieurs phénomènes physiques). Les performances de ces deux implémentations sont évaluées et analysées sur des cas d’application réels et complexes et démontrent qu’il est possible d’obtenir de bonnes performances en implémentant le modèle SIPSim. / Parallel scientific computations is an expanding domain of computer science which increases the speed of calculations and offers a way to deal with heavier or more accurate calculations. Thus, the interest of scientific computations increases, with more precised results and bigger physical domains to study. In the particular case of scientific numerical simulations, solving partial differential equations (PDEs) is an especially heavy calculation and a perfect applicant to parallel computations. On one hand, it is more and more easy to get an access to very powerfull parallel machines and clusters, but on the other hand parallel programming is hard to democratize, and most scientists are not able to use these machines. As a result, high level programming models, framework, libraries, languages etc. have been proposed to hide technical details of parallel programming. However, in this “implicit parallelism” field, it is difficult to find the good abstraction level while keeping a low programming effort. This thesis proposes a model to write implicit parallelism solutions for numerical simulations such as mesh-based PDEs computations. This model is called “Structured Implicit Parallelism for scientific SIMulations” (SIPSim), and proposes an approach at the crossroads of existing solutions, taking advantage of each one. A first implementation of this model is proposed, as a C++ library called SkelGIS, for two dimensional Cartesian meshes. A second implementation of the model, and an extension of SkelGIS, proposes an implicit parallelism solution for network-simulations (which deals with simulations with multiple physical phenomenons), and is studied in details. A performance analysis of both these implementations is given on real case simulations, and it demonstrates that the SIPSim model can be implemented efficiently. Parallélisme implicite Modèle de haut niveau Effort de programmation Structures de données distribuées Partitionnement d’hypergraphes Distribution de données Simulations numériques Équations aux dérivées partielles Maillages cartésiens Réseaux Implicit parallelism High level programming models Development effort Distributed data structures Hypergraph partitioning Data distribution Numerical simulations Partial differential equations Cartesian meshes Networks 004

Search results