• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 3
  • Tagged with
  • 7
  • 7
  • 7
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Adressing scaling challenges in comparative genomics / Adresser les défis de passage à l'échelle en génomique comparée

Golenetskaya, Natalia 09 September 2013 (has links)
La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations n-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques. / Comparative genomics is essentially a form of data mining in large collections of n-ary relations between genomic elements. Increases in the number of sequenced genomes create a stress on comparative genomics that grows, at worse geometrically, for every increase in sequence data. Even modestly-sized labs now routinely obtain several genomes at a time, and like large consortiums expect to be able to perform all-against-all analyses as part of these new multi-genome strategies. In order to address the needs at all levels it is necessary to rethink the algorithmic frameworks and data storage technologies used for comparative genomics.To meet these challenges of scale, in this thesis we develop novel methods based on NoSQL and MapReduce technologies. Using a characterization of the kinds of data used in comparative genomics, and a study of usage patterns for their analysis, we define a practical formalism for genomic Big Data, implement it using the Cassandra NoSQL platform, and evaluate its performance. Furthermore, using two quite different global analyses in comparative genomics, we define two strategies for adapting these applications to the MapReduce paradigm and derive new algorithms. For the first, identifying gene fusion and fission events in phylogenies, we reformulate the problem as a bounded parallel traversal that avoids high-latency graph-based algorithms. For the second, consensus clustering to identify protein families, we define an iterative sampling procedure that quickly converges to the desired global result. For both of these new algorithms, we implement each in the Hadoop MapReduce platform, and evaluate their performance. The performance is competitive and scales much better than existing solutions, but requires particular (and future) effort in devising specific algorithms.
2

Adressing scaling challenges in comparative genomics

Golenetskaya, Natalia 09 September 2013 (has links) (PDF)
La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations n-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques.
3

Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales.

De Vlieger, P. 12 July 2011 (has links) (PDF)
La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.
4

Adresser les défis de passage à l'échelle en génomique comparée

Golenetskaya, Natalia 09 September 2013 (has links) (PDF)
La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations <em>n</em>-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques.
5

Premiers travaux relatifs au concept de matière communicante : Processus de dissémination des informations relatives au produit / The first work related to the concept of communicatiing material : information dissemination process for product-related data

Kubler, Sylvain 07 November 2012 (has links)
Depuis de nombreuses années, plusieurs communautés telles que IMS (Intelligent Manufacturing Systems), HMS (Holonic Manufacturing System) ont suggéré l'utilisation de produits intelligents pour rendre les systèmes adaptables et adaptatifs et ont montré les bénéfices pouvant être réalisés, tant au niveau économique, qu'au niveau de la traçabilité des produits, qu'au niveau du partage des informations ou encore de l'optimisation des procédés de fabrication. Cependant, un grand nombre de questions restent ouvertes comme la collecte des informations liées au produit, leur stockage à travers la chaîne logistique, ou encore la dissémination et la gestion de ces informations tout au long de leur cycle de vie. La contribution de cette thèse consiste en la définition d'un cadre de dissémination des informations relatives au produit durant l'ensemble de son cycle de vie. Ce cadre de dissémination est associé à un nouveau paradigme qui change radicalement la manière de voir le produit et la matière. Ce nouveau concept consiste à donner la faculté au produit d'être intrinséquement et intégralement "communicant". Le cadre de dissémination des informations proposé offre la possibilité à l'utilisateur d'embarquer des informations sensibles au contexte d'utilisation du produit communicant. Outre la définition du processus de dissémination des informations, cette thèse offre un aperçu des champs de recherche, tant scientifiques que technologiques, à investiguer à l'avenir concernant le concept de "matière communicante" / Over the last decade, communities involved with intelligent-manufacturing systems (IMS - Intelligent Manufacturing Systems, HMS - Holonic Manufacturing System) have demonstrated that systems that integrate intelligent products can be more efficient, flexible and adaptable. Intelligent products may prove to be beneficial economically, to deal with product traceability and information sharing along the product lifecycle. Nevertheless, there are still some open questions such as the specification of what information should be gathered, stored and distributed and how it should be managed during the lifecycle of the product. The contribution of this thesis is to define a process for disseminating information related to the product over its lifecycle. This process is combined with a new paradigm, which changes drastically the way we view the material. This concept aims to give the ability for the material to be intrinsically and wholly "communicating". The data dissemination process allow users to store context-sensitive information on communicating product. In addition to the data dissemination process, this thesis gives insight into the technological and scientific research fields inherent to the concept of "communicating material", which remain to be explored
6

Premiers travaux relatifs au concept de matière communicante : Processus de dissémination des informations relatives au produit

Kubler, Sylvain 07 December 2012 (has links) (PDF)
Depuis de nombreuses années, plusieurs communautés telles que IMS (Intelligent Manufacturing Systems), HMS (Holonic Manufacturing System) ont suggéré l'utilisation de produits intelligents pour rendre les systèmes adaptables et adaptatifs et ont montré les bénéfices pouvant être réalisés, tant au niveau économique, qu'au niveau de la traçabilité des produits, qu'au niveau du partage des informations ou encore de l'optimisation des procédés de fabrication. Cependant, un grand nombre de questions restent ouvertes comme la collecte des informations liées au produit, leur stockage à travers la chaîne logistique, ou encore la dissémination et la gestion de ces informations tout au long de leur cycle de vie. La contribution de cette thèse est la définition d'un cadre de dissémination des informations relatives au produit durant l'ensemble de son cycle de vie. Ce cadre de dissémination est associé à un nouveau paradigme qui change radicalement la manière de voir le produit et la matière. Ce nouveau concept consiste à donner la faculté au produit d'être intrinsèquement et intégralement communicant. Le cadre de dissémination des informations offre la possibilité à l'utilisateur d'embarquer des informations sensibles au contexte d'utilisation du produit communicant. Outre la définition du processus de dissémination des informations, cette thèse offre un aperçu des champs de recherche, tant scientifiques que technologiques, à investiguer par l'avenir concernant le concept de matière communicante.
7

Adaptation dynamique des architectures réparties pour jeux massivement multijoueurs

Legtchenko, Sergey 25 October 2012 (has links) (PDF)
Durant la dernière décennie, Les jeux massivement multijoueurs (MMOGs) sont devenus extrêmement populaires et comptent désormais plus de 20 millions d'utilisateurs actifs à travers le monde. Les MMOGs sont des systèmes distribués ayant des contraintes applicatives fortes en terme de cohérence de données, persistance, réactivité et passage à l'échelle. L'évolution des besoins applicatifs du MMOG au cours du temps est difficilement prévisible car dépendante du comportement des joueurs dans le monde virtuel. C'est pourquoi, malgré un important effort de recherche dans le domaine, aucune des architectures proposées ne satisfait pleinement toutes les contraintes requises. Cette thèse explore les capacités des architectures distribuées à s'adapter à la charge applicative grâce à une prise en compte du comportement des joueurs lors de l'exécution. Le système est alors capable de détecter des évolutions qui sont difficiles à prévoir à priori, et dynamiquement allouer les ressources nécessaires à l'application. Nous décrivons différentes techniques de surveillance des joueurs et proposons des moyens de prendre en compte ces informations au niveau de l'architecture. Nos expériences, effectuées dans des conditions réalistes, montrent que nos mécanismes ont un surcoût limité et permettent d'améliorer les performances globales du système.

Page generated in 0.1138 seconds