Spelling suggestions: "subject:"pain."" "subject:"paid.""
181 |
Un environnement pour le calcul intensif pair à pair / An environment for peer-to-peer high performance computingNguyen, The Tung 16 November 2011 (has links)
Le concept de pair à pair (P2P) a connu récemment de grands développements dans les domaines du partage de fichiers, du streaming vidéo et des bases de données distribuées. Le développement du concept de parallélisme dans les architectures de microprocesseurs et les avancées en matière de réseaux à haut débit permettent d'envisager de nouvelles applications telles que le calcul intensif distribué. Cependant, la mise en oeuvre de ce nouveau type d'application sur des réseaux P2P pose de nombreux défis comme l'hétérogénéité des machines, le passage à l'échelle et la robustesse. Par ailleurs, les protocoles de transport existants comme TCP et UDP ne sont pas bien adaptés à ce nouveau type d'application. Ce mémoire de thèse a pour objectif de présenter un environnement décentralisé pour la mise en oeuvre de calculs intensifs sur des réseaux pair à pair. Nous nous intéressons à des applications dans les domaines de la simulation numérique et de l'optimisation qui font appel à des modèles de type parallélisme de tâches et qui sont résolues au moyen d'algorithmes itératifs distribués or parallèles. Contrairement aux solutions existantes, notre environnement permet des communications directes et fréquentes entre les pairs. L'environnement est conçu à partir d'un protocole de communication auto-adaptatif qui peut se reconfigurer en adoptant le mode de communication le plus approprié entre les pairs en fonction de choix algorithmiques relevant de la couche application ou d'éléments de contexte comme la topologie au niveau de la couche réseau. Nous présentons et analysons des résultats expérimentaux obtenus sur diverses plateformes comme GRID'5000 et PlanetLab pour le problème de l'obstacle et des problèmes non linéaires de flots dans les réseaux. / The concept of peer-to-peer (P2P) has known great developments these years in the domains of file sharing, video streaming or distributed databases. Recent advances in microprocessors architecture and networks permit one to consider new applications like distributed high performance computing. However, the implementation of this new type of application on P2P networks gives raise to numerous challenges like heterogeneity, scalability and robustness. In addition, existing transport protocols like TCP and UDP are not well suited to this new type of application. This thesis aims at designing a decentralized and robust environment for the implementation of high performance computing applications on peer-to-peer networks. We are interested in applications in the domains of numerical simulation and optimization that rely on tasks parallel models and that are solved via parallel or distributed iterative algorithms. Unlike existing solutions, our environment allows frequent direct communications between peers. The environment is based on a self adaptive communication protocol that can reconfigure itself dynamically by choosing the most appropriate communication mode between any peers according to decisions concerning algorithmic choice made at the application level or elements of context at transport level, like topology. We present and analyze computational results obtained on several testeds like GRID’5000 and PlanetLab for the obstacle problem and nonlinear network flow problems.
|
182 |
Méthodes d’apprentissage semi-supervisé basé sur les graphes et détection rapide des nœuds centraux / Graph-based semi-supervised learning methods and quick detection of central nodesSokol, Marina 29 April 2014 (has links)
Les méthodes d'apprentissage semi-supervisé constituent une catégorie de méthodes d'apprentissage automatique qui combinent points étiquetés et données non labellisées pour construire le classifieur. Dans la première partie de la thèse, nous proposons un formalisme d'optimisation général, commun à l'ensemble des méthodes d'apprentissage semi-supervisé et en particulier aux Laplacien Standard, Laplacien Normalisé et PageRank. En utilisant la théorie des marches aléatoires, nous caractérisons les différences majeures entre méthodes d'apprentissage semi-supervisé et nous définissons des critères opérationnels pour guider le choix des paramètres du noyau ainsi que des points étiquetés. Nous illustrons la portée des résultats théoriques obtenus sur des données synthétiques et réelles, comme par exemple la classification par le contenu et par utilisateurs des systèmes pair-à-pair. Cette application montre de façon édifiante que la famille de méthodes proposée passe parfaitement à l’échelle. Les algorithmes développés dans la deuxième partie de la thèse peuvent être appliquées pour la sélection des données étiquetées, mais également aux autres applications dans la recherche d'information. Plus précisément, nous proposons des algorithmes randomisés pour la détection rapide des nœuds de grands degrés et des nœuds avec de grandes valeurs de PageRank personnalisé. A la fin de la thèse, nous proposons une nouvelle mesure de centralité, qui généralise à la fois la centralité d'intermédiarité et PageRank. Cette nouvelle mesure est particulièrement bien adaptée pour la détection de la vulnérabilité de réseau. / Semi-supervised learning methods constitute a category of machine learning methods which use labelled points together with unlabeled data to tune the classifier. The main idea of the semi-supervised methods is based on an assumption that the classification function should change smoothly over a similarity graph. In the first part of the thesis, we propose a generalized optimization approach for the graph-based semi-supervised learning which implies as particular cases the Standard Laplacian, Normalized Laplacian and PageRank based methods. Using random walk theory, we provide insights about the differences among the graph-based semi-supervised learning methods and give recommendations for the choice of the kernel parameters and labelled points. We have illustrated all theoretical results with the help of synthetic and real data. As one example of real data we consider classification of content and users in P2P systems. This application demonstrates that the proposed family of methods scales very well with the volume of data. The second part of the thesis is devoted to quick detection of network central nodes. The algorithms developed in the second part of the thesis can be applied for the selections of quality labelled data but also have other applications in information retrieval. Specifically, we propose random walk based algorithms for quick detection of large degree nodes and nodes with large values of Personalized PageRank. Finally, in the end of the thesis we suggest new centrality measure, which generalizes both the current flow betweenness centrality and PageRank. This new measure is particularly well suited for detection of network vulnerability.
|
183 |
Local and social recommendation in decentralized architectures / Recommandation locale et sociale dans les architectures décentraliséesMeyffret, Simon 07 December 2012 (has links)
Dans notre société de plus en plus numérique, les systèmes de recommandation ont fait leur apparition dans le but de résoudre le problème bien connu de surcharge d'information. L'adoption des réseaux sociaux a permis l'émergence de systèmes intégrant les relations sociales dans leurs recommandations. Dans cette thèse, nous proposons un système de recommandation adapté aux architectures décentralisées pouvant être déployé sur des réseaux sociaux existants. L'utilisateur conserve son profil en local et ne communique qu'avec un ensemble restreint d'utilisateurs de confiance, avec qui il accepte de partager ses données. Nous prenons en compte le réseau social de l'utilisateur afin de construire le réseau de pairs. La similarité des amis est prise en compte pour pondérer les liens. Les recommandations sont propagées dans le réseau, passant d'amis en amis jusqu'à atteindre l'utilisateur désiré. Ainsi seuls les amis directs communiquent entre eux. À partir de cette propagation, nous proposons plusieurs techniques. Tout d'abord, nous délivrons à l'utilisateur final une confiance du système dans la fiabilité de la recommandation. Ceci lui permet de choisir parmi les produits sélectionnés, lesquels semblent effectivement les plus pertinents pour lui. Cette confiance est calculée sur plusieurs critères, tels que la variation des recommandations des amis, leur nombre, la similarité et la fraîcheur de la recommandation. Ensuite, nous définissons des heuristiques adaptant notre approche aux systèmes pair-à-pair. Dans de telles architectures, le réseau est une ressource critique et ne doit pas être constamment surchargé. Ces heuristiques limitent la consommation réseau de notre approche tout en fournissant des recommandations pertinentes à l'utilisateur. Enfin, nous proposons plusieurs stratégies de score par défaut, dans le cas où aucun score n'est calculable, prenant en compte les contraintes en terme d'accès à l'information par le système. Nous comparons notre approche avec des approches classiques de recommandation, de filtrage collaboratif ou basées sur la confiance, en utilisant plusieurs jeux de données existants, tels qu'Epinions et Flixster, ainsi que deux jeux de données que nous avons construits nous-même. Nous montrons qu'une approche purement locale, associée à des stratégies de score par défaut, offre de meilleurs résultats que la plupart des autres approches, notamment en ce qui concerne les "cold start users". / Recommender systems are widely used to achieve a constantly growing variety of services. Alongside with social networks, recommender systems that take into account friendship or trust between users have emerged. In this thesis, we propose an evolution of trust-based recommender systems adapted to decentralized architectures that can be deployed on top of existing social networks. Users profiles are stored locally and are exchanged with a limited, user-defined, list of trusted users. Our approach takes into account friends' similarity and propagates recommendation to direct friends in the social network in order to prevent ratings from being globally known. Moreover, the computational complexity is reduced since calculations are performed on a limited dataset, restricted to the user's neighborhood. On top of this propagation, our approach investigates several aspects. Our system computes and returns to the final user a confidence on the recommendation. It allows the user to tune his/her choice from the recommended products. Confidence takes into account friends' recommendations variance, their number, similarity and freshness of the recommendations. We also propose several heuristics that take into account peer-to-peer constraints, especially regarding network flooding. We show that those heuristics decrease network resources consumption without sacrificing accuracy and coverage. We propose default scoring strategies that are compatible with our constraints. We have implemented and compared our approach with existing ones, using multiple datasets, such as Epinions and Flixster. We show that local information with default scoring strategies are sufficient to cover more users than classical collaborative filtering and trust-based recommender systems. Regarding accuracy, our approach performs better than others, especially for cold start users, even if using less information.
|
184 |
Recommandation diversifiée et distribuée pour les données scientifiques / Diversified and Distributed Recommendation for Scientific DataServajean, Maximilien 16 December 2014 (has links)
Dans de nombreux domaines, les nouvelles technologies d'acquisition de l'information ou encore de mesure (e.g. serres de phénotypage robotisées) ont engendré une création phénoménale de données. Nous nous appuyons en particulier sur deux cas d'application réels: les observations de plantes en botanique et les données de phénotypage en biologie. Cependant, nos contributions peuvent être généralisées aux données du Web. Par ailleurs, s'ajoute à la quantité des données leur distribution. Chaque utilisateur stocke en effet ses données sur divers sites hétérogènes (e.g. ordinateurs personnels, serveurs, cloud), données qu'il souhaite partager. Que ce soit pour les observations de botanique ou pour les données de phénotypage en biologie, des solutions collaboratives, comprenant des outils de recherche et de recommandation distribués, bénéficieraient aux utilisateurs. L'objectif général de ce travail est donc de définir un ensemble de techniques permettant le partage et la découverte de données, via l'application d'approches de recherche et de recommandation, dans un environnement distribué (e.g. sites hétérogènes).Pour cela, la recherche et la recommandation permettent aux utilisateurs de se voir présenter des résultats, ou des recommandations, à la fois pertinents par rapport à une requête qu'ils auraient soumise et par rapport à leur profil. Les techniques de diversification permettent de présenter aux utilisateurs des résultats offrant une meilleure nouveauté tout en évitant de les lasser par des contenus redondants et répétitifs. Grâce à la diversité, une distance entre toutes les recommandations est en effet introduite afin que celles-ci soient les plus représentatives possibles de l'ensemble des résultats pertinents. Peu de travaux exploitent la diversité des profils des utilisateurs partageant les données. Dans ce travail de thèse, nous montrons notamment que dans certains scénarios, diversifier les profils des utilisateurs apporte une nette amélioration en ce qui concerne la qualité des résultats~: des sondages montrent que dans plus de 75% des cas, les utilisateurs préfèrent la diversité des profils à celle des contenus. Par ailleurs, afin d'aborder les problèmes de distribution des données sur des sites hétérogènes, deux approches sont possibles. La première, les réseaux P2P, consiste à établir des liens entre chaque pair (noeud du réseau): étant donné un pair p, ceux avec lesquels il a établi un lien représentent son voisinage. Celui-ci est utilisé lorsque p soumet une requête q, pour y répondre. Cependant, dans les solutions de l'état de l'art, la redondance des profils des pairs présents dans les différents voisinages limitent la capacité du système à retrouver des résultats pertinents sur le réseau, étant donné les requêtes soumises par les utilisateurs. Nous montrons, dans ce travail, qu'introduire de la diversité dans le calcul du voisinage, en augmentant la couverture, permet un net gain en termes de qualité. En effet, en tenant compte de la diversité, chaque pair du voisinage a une plus forte probabilité de retourner des résultats nouveaux à l'utilisateur courant: lorsqu'une requête est soumise par un pair, notre approche permet de retrouver jusqu'à trois fois plus de bons résultats sur le réseau. La seconde approche de la distribution est le multisite. Généralement, dans les solutions de l'état de l'art, les sites sont homogènes et représentés par de gros centres de données. Dans notre contexte, nous proposons une approche permettant la collaboration de sites hétérogènes, tels que de petits serveurs d'équipe, des ordinateurs personnels ou de gros sites dans le cloud. Un prototype est issu de cette contribution. Deux versions du prototype ont été réalisées afin de répondre aux deux cas d'application, en s'adaptant notamment aux types des données. / In many fields, novel technologies employed in information acquisition and measurement (e.g. phenotyping automated greenhouses) are at the basis of a phenomenal creation of data. In particular, we focus on two real use cases: plants observations in botany and phenotyping data in biology. Our contributions can be, however, generalized to Web data. In addition to their huge volume, data are also distributed. Indeed, each user stores their data in many heterogeneous sites (e.g. personal computers, servers, cloud); yet he wants to be able to share them. In both use cases, collaborative solutions, including distributed search and recommendation techniques, could benefit to the user.Thus, the global objective of this work is to define a set of techniques enabling sharing and discovery of data in heterogeneous distributed environment, through the use of search and recommendation approaches.For this purpose, search and recommendation allow users to be presented sets of results, or recommendations, that are both relevant to the queries submitted by the users and with respect to their profiles. Diversification techniques allow users to receive results with better novelty while avoiding redundant and repetitive content. By introducing a distance between each result presented to the user, diversity enables to return a broader set of relevant items.However, few works exploit profile diversity, which takes into account the users that share each item. In this work, we show that in some scenarios, considering profile diversity enables a consequent increase in results quality: surveys show that in more than 75% of the cases, users would prefer profile diversity to content diversity.Additionally, in order to address the problems related to data distribution among heterogeneous sites, two approaches are possible. First, P2P networks aim at establishing links between peers (nodes of the network): creating in this way an overlay network, where peers directly connected to a given peer p are known as his neighbors. This overlay is used to process queries submitted by each peer. However, in state of the art solutions, the redundancy of the peers in the various neighborhoods limits the capacity of the system to retrieve relevant items on the network, given the queries submitted by the users. In this work, we show that introducing diversity in the computation of the neighborhood, by increasing the coverage, enables a huge gain in terms of quality. By taking into account diversity, each peer in a given neighborhood has indeed, a higher probability to return different results given a keywords query compared to the other peers in the neighborhood. Whenever a query is submitted by a peer, our approach can retrieve up to three times more relevant items than state of the art solutions.The second category of approaches is called multi-site. Generally, in state of the art multi-sites solutions, the sites are homogeneous and consist in big data centers. In our context, we propose an approach enabling sharing among heterogeneous sites, such as small research teams servers, personal computers or big sites in the cloud. A prototype regrouping all contributions have been developed, with two versions addressing each of the use cases considered in this thesis.
|
185 |
A Machine-Checked Proof of Correctness of Pastry / Une preuve certifiée par la machine de la correction du protocole PastryAzmy, Noran 24 November 2016 (has links)
Les réseaux pair-à-pair (P2P) constituent un modèle de plus en plus populaire pour la programmation d’applications Internet car ils favorisent la décentralisation, le passage à l’échelle, la tolérance aux pannes et l’auto-organisation. à la différence du modèle traditionnel client-serveur, un réseau P2P est un système réparti décentralisé dans lequel tous les nœuds interagissent directement entre eux et jouent à la fois les rôles de fournisseur et d’utilisateur de services et de ressources. Une table de hachage distribuée (DHT) est réalisée par un réseauP2P et offre les mêmes services qu’une table de hachage classique, hormis le fait que les différents couples (clef, valeur) sont stockés dans différents nœuds du réseau. La fonction principale d’une DHT est la recherche d’une valeur associée à une clef donnée. Parmi les protocoles réalisant une DHT on peut nommer Chord, Pastry, Kademlia et Tapestry. Ces protocoles promettent de garantir certaines propriétés de correction et de performance ; or, les tentatives de démontrer formellement de telles propriétés se heurtent invariablement à des cas limites dans lesquels certaines propriétés sont violées. Tian-xiang Lu a ainsi décrit des problèmes de correction dans des versions publiées de Pastry. Il a conçu un modèle, appelé LuPastry, pour lequel il a fourni une preuve partielle, mécanisée dans l’assistant à la preuve TLA+ Proof System, démontrant que les messages de recherche de clef sont acheminés au bon nœud du réseau dans le cas sans départ de nœuds. En analysant la preuve de Lu j’ai découvert qu’elle contenait beaucoup d’hypothèses pour lesquelles aucune preuve n’avait été fournie, et j’ai pu trouver des contre-exemples à plusieurs de ces hypothèses. La présente thèse apporte trois contributions. Premièrement, je présente LuPastry+, une spécification TLA+ revue de LuPastry. Au-delà des corrections nécessaires d’erreurs, LuPastry+ améliore LuPastry en introduisant de nouveaux opérateurs et définitions, conduisant à une spécification plus modulaire et isolant la complexité de raisonnement à des parties circonscrites de la preuve, contribuant ainsi à automatiser davantage la preuve. Deuxièmement, je présente une preuve TLA+ complète de l’acheminement correct dans LuPastry+. Enfin, je démontre que l’étape finale du processus d’intégration de nœuds dans LuPastry (et LuPastry+) n’est pas nécessaire pour garantir la cohérence du protocole. Concrètement, j’exhibe une nouvelle spécification avec un processus simplifié d’intégration de nœuds, que j’appelle Simplified LuPastry+, et je démontre qu’elle garantit le bon acheminement de messages de recherche de clefs. La preuve de correction pour Simplified LuPastry+ est obtenue en réutilisant la preuve pour LuPastry+, et ceci représente un bon succès pour la réutilisation de preuves, en particulier considérant la taille de ces preuves. Chacune des deux preuves requiert plus de 30000 étapes interactives ; à ma connaissance, ces preuves constituent les preuves les plus longues écrites dans le langage TLA+ à ce jour, et les seuls exemples d’application de preuves mécanisées de théorèmes pour la vérification de protocoles DHT / A distributed hash table (DHT) is a peer-to-peer network that offers the function of a classic hash table, but where different key-value pairs are stored at different nodes on the network. Like a classic hash table, the main function provided by a DHT is key lookup, which retrieves the value stored at a given key. Examples of DHT protocols include Chord, Pastry, Kademlia and Tapestry. Such DHT protocols certain correctness and performance guarantees, but formal verification typically discovers border cases that violate those guarantees. In his PhD thesis, Tianxiang Lu reported correctness problems in published versions of Pastry and developed a model called {\LP}, for which he provided a partial proof of correct delivery of lookup messages assuming no node failure, mechanized in the {\TLA} Proof System. In analyzing Lu's proof, I discovered that it contained unproven assumptions, and found counterexamples to several of these assumptions. The contribution of this thesis is threefold. First, I present {\LPP}, a revised {\TLA} specification of {\LP}. Aside from needed bug fixes, {\LPP} contains new definitions that make the specification more modular and significantly improve proof automation. Second, I present a complete {\TLA} proof of correct delivery for {\LPP}. Third, I prove that the final step of the node join process of {\LP}/{\LPP} is not necessary to achieve consistency. In particular, I develop a new specification with a simpler node join process, which I denote by {\SLP}, and prove correct delivery of lookup messages for this new specification. The proof of correctness of {\SLP} is written by reusing the proof for {\LPP}, which represents a success story in proof reuse, especially for proofs of this size. Each of the two proofs amounts to over 32,000 proof steps; to my knowledge, they are currently the largest proofs written in the {\TLA} language, and---together with Lu's proof---the only examples of applying full theorem proving for the verification of DHT protocols
|
186 |
Caracterização de rearranjos cromossômicos citogeneticamente equilibrados associados a quadros clínicos / Characterization of karyotypically balanced chromosomal rearrangements associated with clinical featuresFonseca, Ana Carolina dos Santos 04 March 2016 (has links)
Este estudo teve como objetivos (a) identificar mecanismos pelos quais rearranjos cromossômicos citogeneticamente equilibrados possam estar associados de maneira causal a determinados quadros clínicos e (b) contribuir para a compreensão dos mecanismos de formação desses rearranjos. Para isso, foram estudados 45 rearranjos cromossômicos citogeneticamente equilibrados (29 translocações, 10 inversões e seis rearranjos complexos), detectados em pacientes que apresentavam malformações congênitas, comprometimento do desenvolvimento neuropsicomotor ou déficit intelectual. Foram 31 rearranjos cromossômicos esporádicos, três familiais que segregavam com o quadro clínico e mais 11 rearranjos cromossômicos herdados de genitores fenotipicamente normais. Inicialmente os pontos de quebra desses rearranjos foram mapeados por hibridação in situ fluorescente (FISH). A busca por microdeleções e duplicações genômicas foi realizada por a-CGH. A investigação dos pontos de quebra prosseguiu com a aplicação da técnica de Mate-Pair Sequencing (MPS), que permite localizar as quebras em segmentos de 100 pb - 1 kb, na maioria dos casos. Para obter os segmentos de junção das quebras no nível de pares de bases, os segmentos delimitados por MPS foram sequenciados pelo método de Sanger. A análise por aCGH revelou microdeleções ou microduplicações localizadas nos cromossomos rearranjados, em 12 dos 45 pacientes investigados (27%). A análise de 27 rearranjos por MPS permitiu a caracterização dos pontos de junção das quebras. MPS expandiu o número de pontos de quebra, detectados por análise do cariótipo ou aCGH, de 114 para 156 (em resolução < 2kb, na maioria dos casos). O número de pontos de quebra/rearranjo variou de 2 a 20. Os 156 pontos de quebra resultaram em 86 variantes estruturais equilibradas e outras 32 variantes não equilibradas. Perdas e ganhos de segmentos submiscroscópicos nos cromossomos rearranjados constituíram a principal causa ou, provavelmente, contribuíram para o quadro clínico de 12 dos 45 pacientes. Em cinco desses 12 rearranjos foram detectadas por MPS a interrupção de genes já relacionados à doença, ou provável alteração de sua região reguladora, contribundo para o quadro clínico. Em quatro dos 33 rearranjos não associados a perdas ou ganhos de segmentos, a análise por MPS revelou a interrupção de genes que já foram anteriormente relacionados a doenças, explicando-se, assim, as características clínicas dos portadores; outro rearranjo pode ter levando alteração da expressão gênica de gene sensível a dosagem e ao quadro clínico. Um rearranjo cromossômico familial, identificado na análise após bandamento G como uma translocação equilibrada, t(2;22)(p14;q12), segregava com quadro de atraso do desenvolvimento neuropsicomotor e dificuldade de aprendizado associados a dismorfismos. A combinação das análises por FISH, aCGH e MPS revelou que se tratava, na verdade, de rearranjo complexo entre os cromossomos 2, 5 e 22, incluindo 10 quebras. A segregação de diferentes desequilíbrios submicroscópicos em indivíduos afetados e clinicamente normais permitiu a compreensão da variabilidade clínica observada na família. Rearranjos equilibrados detectados em indivíduos afetados, mas herdados de genitores clinicamente normais, são, em geral, considerados como não tendo relação com o quadro clínico, apesar da possibilidade de desequilíbrios cromossômicos gerados por permuta desigual na meiose do genitor portador do rearranjo. Neste trabalho, a investigação de 11 desses rearranjos por aCGH não revelou perdas ou ganhos de segmentos nos cromossomos rearranjados. No entanto, a análise por aCGH da portadora de um desses rearranjos - inv(12)mat - revelou deleção de 8,7 Mb no cromossomo 8, como causa de seu fenótipo clínico. Essa deleção estava relacionada com outro rearranjo equilibrado também presente em sua mãe, independente da inversão. Para compreender os mecanismos de formação de rearranjos citogeneticamente equilibrados, investigamos os segmentos de junção no nível de pares de base. A análise por MPS que levou, na maioria dos casos, ao mapeamento dos pontos de quebras em segmentos <1kb permitiu o sequenciamento pelo método de Sanger de 51 segmentos de junções de 17 rearranjos. A ocorrência de blunt fusions ou inserções e deleções <10 pb, e a ausência de homologia ou a presença de micro homologia de 2 pb a 4 pb de extensão indicaram o mecanismo de junção de extremidades não homólogas (non-homologous end joinging; NHEJ), na maioria das 51 junções caracterizadas. As características de três dos quatro rearranjos mais complexos, com 17-20 quebras, indicaram sua formação pelo mecanismo de chromothripsis. Este estudo mostra a importância da análise genômica de variações de número de cópias por microarray, juntamente com o mapeamento dos pontos de quebra por MPS, para determinar a estrutura de rearranjos cromossômicos citogeneticamente equilibrados e seu impacto clínico. O mapeamento dos segmentos de junção por MPS, permitindo o sequenciamento pelo método de Sanger, foi essencial para a compreensão de mecanismos de formação desses rearranjos / This study aimed at (a) identifying causative mechanisms of clinical features in carriers of karyotypically balanced chromosomal rearrangements (BCRs), and (b) disclosing the mechanisms of formation of these chromosomal rearrangements. Forty-five BCRs - 29 translocations, 10 inversions and six complex rearrangements, detected in patients with intellectual disability, developmental delay and/or congenital malformations were investigated. Thirty-one rearrangements were de novo, three were familial and segregated with the clinical phenotype, and 11 BCRs were inherited from phenotypically normal parents. Initially, the breakpoints of the rearrangements were mapped by using fluorescence in situ hybridization (FISH), and the presence of cryptic genomic imbalances was investigated by array comparative genomic hybridization (a-CGH). Breakpoint-containing segments were narrowed down to approximately 100 pb - 1 kb, by using NGS-based mate-pair-sequencing (MPS). In order to investigate breakpoint junctions at the nucleotide level, breakpoint segments delimited by MPS were Sanger sequenced. De novo microimbalances on the rearranged chromosomes were detected by aCGH in 12 out of the 45 patients investigated (27%). MPS of 27 BCRs expanded the number of breakpoints, previously detected by karyotyping and aCGH, from 114 to 156 (breakpoint resolution < 2 kb, in most cases). The number of breakpoints/BCR ranged from 2 to 20. The 156 breakpoints resulted in 86 balanced and 32 unbalanced sample-specific structural variations (SVs). In 12 out of the 45 patients investigated by aCGH, microimbalaces on the rearranged chromosomes were responsible or likely contributed to the clinical features observed in the carriers. In five of these 12 rearrangements, truncated known disease genes or their regulatory regions also contributed to the clinical phenotype. MPS analysis revealed four out of the 33 rearrangements not associated with microimbalaces, truncated known disease genes, thus explaining clinical features of carriers. Another balanced rearrangement might have truncated the regulatory region of a dosage sensitive gene, thus disturbing gene expression and leading to the clinical features of the carrier. A karyotypically balanced translocation t(2;22)(p13;q12.2) associated with variable learning disabilities and dysmorphisms, was detected in six individuals in a three-generation family. Combined a-CGH, FISH and MPS revealed a ten-break complex rearrangement, also involving chromosome 5. As the consequence of the segregation of the derivative chromosomes der(2), der(5) and der(22), different microimbalances were present in affected and clinically normal family members, thus contributing to the clinical variability. Although, historically, BCRs inherited from phenotypically normal parents have not been considered as causally associated with clinical features of carriers, cryptic microimbalances on the rearranged chromosome have been reported that explained the clinical features of the affected carriers. In 11 such inherited BCRs ascertained through affected individuals, which were investigated in this work by using aCGH, no microimbalances were detected on the chromosomes involved. However, aCGH analysis in an affected girl, who carried an inv(12)mat, detected a likely pathogenic 8.7 Mb deletion on chromosome 8. This deleted chromosome derived from another maternal balanced rearrangement, not related to the inversion. In order to investigate mechanisms of BCR formation, breakpoint junctions, mapped at intervals of approximately 1 kb by MPS, were narrowed down to the nucleotide level by Sanger sequencing. Fifty-one breakpoint junctions (BPJs) from 17 BCRs (nine translocations, three inversions and five complex rearrangements) were sequenced. The occurrence of blunt fusions or <10 bp deletions, insertions or duplications in the majority of the 51 BPJs, and the absence of homology or the presence of just 2 bp to 4 bp microhomology indicated non-homologous end joining (NHEJ). In three of the four most complex BCRs (17 to 20 breaks) indicated chromothripsis as the mechanism underlying their formation. This study illustrates the importance of combining copy number variation analysis by microarray and breakpoint mapping by MPS, to determine the structure of karyotypically balanced chromosomal rearrangements, and to unravel their clinical impact. Mapping the breakpoint-junctions by MPS, followed by Sanger sequencing, was fundamental to determine the mechanism of formation of these rearrangements
|
187 |
Chemical computing for distributed systems : algorithms and implementation / Programmation chimique pour les systèmes répartis : algorithmes et implémentationObrovac, Marko 28 March 2013 (has links)
Avec l’émergence de plates-formes distribuées très hétérogènes, dynamiques et à large-échelle, la nécessité d’un moyen de les programmer efficacement et de les gérer a surgi. Le concept de l’informatique autonomique propose de créer des systèmes autogérables — des systèmes qui sont conscients de leurs composants et de leur environnement, et peuvent se configurer, s’optimiser, se guérir et se protéger. Dans le cadre de la réalisation de tels systèmes, la programmation déclarative, dont l’objectif est de faciliter la tâche du programmeur en séparant le contrôle de la logique du calcul, a retrouvé beaucoup d’intérêt ce dernier temps. En particulier, la programmation à base de des règles est considérée comme un modèle prometteur dans cette quête pour des abstractions de programmation adéquates pour ces plates-formes. Cependant, bien que ces modèles gagnent beaucoup d’attention, ils créent une demande pour des outils génériques capables de les exécuter à large échelle. Le modèle de programmation chimique, qui a été conçu suite à la métaphore chimique, est un modéle de programmation à bas de règles et d’ordre supérieur, avec une exécution non-déterministe modèle, où les règles sont appliquées simultanément sur un multi-ensemble de données. Dans cette thèse, nous proposons la conception, le développement et l’expérimentation d’un intergiciel distribué pour l’exécution de programmes chimique sur des plates-formes à large échelle et génériques. L’architecture proposée combine une couche de communication pair-à-pair avec un protocole de capture atomique d’objets sur lesquels les règles doivent être appliquées, et un système efficace de détection de terminaison. Nous décrivons le prototype d’intergiciel mettant en œuvre cette architecture. Basé sur son déploiement dans un banc d’essai réel, nous présentons les résultats de performance, qui confirment les complexités analytiques obtenues et montrons expérimentalement la viabilité d’un tel modèle de programmation. / With the emergence of highly heterogeneous, dynamic and large distributed platforms, the need for a way to efficiently program and manage them has arisen. The concept of autonomic computing proposes to create self-manageable systems — systems which are aware of their components and their environment, and can configure, optimise, heal and protect themselves. In the context of realisation of such systems, declarative programming, whose goal is to ease the programmer’s task by separating the control from the logic of a computation, has regained a lot of interest recently. In particular, rule-based programming is regarded as a promising model in this quest for adequate programming abstractions for these platforms. However, while these models are gaining a lot of attention, there is a demand for generic tools able to run such models at large scale. The chemical programming model, which was designed following the chemical metaphor, is a higher-order, rule-based programming model, with a non-deterministic execution model, where rules are applied concurrently on a multiset of data. In this thesis, we propose the design, development, and experimentation of a distributed chemical runtime for generic, largely-distributed platforms. The architecture proposed combines a peer-to-peer communication layer with an adaptive protocol for atomically capturing objects on which rules should be applied, and an efficient termination-detection scheme. We describe the software prototype implementing this architecture. Based on its deployment over a real-world test-bed, we present its performance results, which confirm analytically obtained complexities, and experimentally show the sustainability of such a programming model.
|
188 |
Decentralizing news personalization systems / Décentralisation des systèmes de personnalisationBoutet, Antoine 08 March 2013 (has links)
L'évolution rapide du web a changé la façon dont l'information est créée, distribuée, évaluée et consommée. L'utilisateur est dorénavant mis au centre du web en devenant le générateur de contenu le plus prolifique. Pour évoluer dans le flot d'informations, les utilisateurs ont besoin de filtrer le contenu en fonction de leurs centres d'intérêts. Pour bénéficier de contenus personnalisés, les utilisateurs font appel aux réseaux sociaux ou aux systèmes de recommandations exploitant leurs informations privées. Cependant, ces systèmes posent des problèmes de passage à l'échelle, ne prennent pas en compte la nature dynamique de l'information et soulèvent de multiples questions d'un point de vue de la vie privée. Dans cette thèse, nous exploitons les architectures pair-à-pair pour implémenter des systèmes de recommandations pour la dissémination personnalisée des news. Une approche pair-à-pair permet un passage à l'échelle naturel et évite qu'une entité centrale contrôle tous les profils des utilisateurs. Cependant, l'absence de connaissance globale fait appel à des schémas de filtrage collaboratif qui doivent palier les informations partielles et dynamiques des utilisateurs. De plus, ce schéma de filtrage doit pouvoir respecter la vie privée des utilisateurs. La première contribution de cette thèse démontre la faisabilité d'un système de recommandation de news totalement distribué. Le système proposé maintient dynamiquement un réseau social implicit pour chaque utilisateur basé sur les opinions qu'il exprime à propos des news reçues. Les news sont disséminées au travers d'un protocole épidémique hétérogène qui (1) biaise l'orientation des cibles et (2) amplifie la dissémination de chaque news en fonction du niveau d'intérêt qu'elle suscite. Ensuite, pour améliorer la vie privée des utilisateurs, nous proposons des mécanismes d'offuscation permettant de cacher le profil exact des utilisateurs sans trop dégrader la qualité de la recommandation fournie. Enfin, nous explorons un nouveau modèle tirant parti des avantages des systèmes distribués tout en conservant une architecture centralisée. Cette solution hybride et générique permet de démocratiser les systèmes de recommandations en offrant aux fournisseurs de contenu un système de personnalisation à faible coût. / The rapid evolution of the web has changed the way information is created, distributed, evaluated and consumed. Users are now at the center of the web and becoming the most prolific content generators. To effectively navigate through the stream of available news, users require tools to efficiently filter the content according to their interests. To receive personalized content, users exploit social networks and recommendation systems using their private data. However, these systems face scalability issues, have difficulties in coping with interest dynamics, and raise a multitude of privacy challenges. In this thesis, we exploit peer-to-peer networks to propose a recommendation system to disseminate news in a personalized manner. Peer-to-peer approaches provide highly-scalable systems and are an interesting alternative to Big brother type companies. However, the absence of any global knowledge calls for collaborative filtering schemes that can cope with partial and dynamic interest profiles. Furthermore, the collaborative filtering schemes must not hurt the privacy of users. The first contribution of this thesis conveys the feasibility of a fully decentralized news recommender. The proposed system constructs an implicit social network based on user profiles that express the opinions of users about the news items they receive. News items are disseminated through a heterogeneous gossip protocol that (1) biases the orientation of the dissemination, and (2) amplifies dissemination based on the level of interest in each news item. Then, we propose obfuscation mechanisms to preserve privacy without sacrificing the quality of the recommendation. Finally, we explore a novel scheme leveraging the power of the distribution in a centralized architecture. This hybrid and generic scheme democratizes personalized systems by providing an online, cost-effective and scalable architecture for content providers at a minimal investment cost.
|
189 |
Du routage par clé au routage par contenu : interconnexion des systèmes et applications de diffusion vidéo / From key-based to content-based routing : system interconnection and video streaming applicationsCiancaglini, Vincenzo 26 July 2013 (has links)
Le routage par clé et par contenu sont des systèmes de routage ou la destination d'un message suit un parcours entre les nœuds du réseau qui dépend seulement du contenu du message même. On peut les trouver utilisés soit dans des systèmes pair-à-pair connus comme Réseaux Overlay Structurés (Structured Overlay Networks, SON), soit dans les architecture internet de nouvelle génération, les Réseaux Centrés sur les Contenus (Content-Centric Networks, CCN). Le but de cette thèse est double. D'un côté, on explore le sujet de l'interconnexion et de la coopération des réseaux d'overlay, et on propose une architecture capable de permettre à plusieurs réseaux d'overlay hétérogènes, avec différentes topologies et différents mécanismes de routage, d'interagir, grâce à une infrastructure basée sur des nœuds passerelles. On montre, par des moyennes de simulation et déploiement dans un réseaux réel, que la solution est scalable et permet un routage quasi-exhaustif avec un nombre relativement bas des nœuds passerelle bien connectés. De plus, on présente deux exemples d'applications qui pourront bénéficier de cette architecture. Dans une deuxième partie, on rentre plutôt dans les possibilités offertes par le routage basé sur les contenus hors sa "zone de confort": d'abord, on analyse les améliorations qu'un réseau d'overlay structuré peut porter à un système de diffusion vidéo pair-à-pair, en termes de qualité du vidéo et de perte des paquets pendant la transmission. Après, on examine un système entièrement centré sur le routage basé sur les contenus, en développant une solution de diffusion vidéo en temps réel dans un réseau CCN. / Key-based and content-based routing are a class of routing techniques where the destination and routing path for a message depends solely on the content of the message itself. This kind of routing has been implemented in certain peer-to-peer systems, known as Structured Overlay Networks (SON), or in the Next Generation Internet architectures, under the name of Content-Centric Networks (CCN). The scope of this thesis is twofold: on the one side, we explore the topic of the interconnection and cooperation of different structured overlays, and propose architecture capable of allowing several heterogeneous overlay networks, with different topologies and different routing schemes, to interact, thanks to a lightweight infrastructure consisting of co-located nodes. Through the use of simulations and real-world deployment, we show how this solution is scalable and how it facilitates quasi-exhaustive routing, with even a relatively low number of well-connected co-located nodes. To address the problem of scaling network design to millions of nodes, we propose a mathematical model capable of deriving basic performance figures for an interconnected system. Furthermore, we present two application examples that could greatly benefit from such architecture. On the other side, we investigate a little further into the capabilities of content-based routing outside of its "comfort zone": first, we analyze the improvement that a SON could bring to a peer-to-peer real-time video streaming system (P2P-TV), in terms of chunk loss and Quality of Experience. Then, we move the approach to a fully content-based domain, implementing the P2P-TV solution on top of Content-Centric Networks.
|
190 |
Espaces vectoriels sémantiques : enrichissement et interprétation de requêtes dans un système d'information distribué et hétérogèneVentresque, Anthony 26 September 2008 (has links) (PDF)
Les systèmes d'information font face à un problème de pertinence dans les recherches dû à l'augmentation considérable des données accessibles. De plus, le nombre d'appareils communicants ne cesse de croître et de menacer le modèle client/serveur. Une nouvelle architecture distribuée tend donc à s'imposer : les réseaux pair-à-pair (P2P). Mais ils sont peu économes en ressource réseau (une requête inonde le réseau) et offrent des fonctionnalités limitées (recherche par mots-clés). Dans les deux communautés, RI et systèmes P2P, les recherches penchent vers l'utilisation de sémantique. En informatique, les approches basées sur la sémantique nécessitent souvent de définir des ontologies. Le développement important et distribué des ontologies génère une hétérogénéité sémantique. La solution classique est d'utiliser des correspondances entre parties de deux ontologies. Mais c'est une solution qui est difficile à obtenir et qui n'est pas toujours complète. Souvent les parties non-partagées de deux ontologies ne sont pas gérées, ce qui entraîne une perte d'information. Notre solution : EXSI2D, utilise une expansion particulière, appelée expansion structurante, du côté de l'initiateur de requêtes. Cela lui permet de préciser les dimensions de sa requête sans modifier la requête elle-même. EXSI2D offre aussi la possibilité au fournisseur d'information d'interpréter l'expansion structurante dans sa propre ontologie. Ainsi, il est possible à chaque participant d'un système d'information sémantiquement hétérogène d'utiliser toute son ontologie, y compris les parties non partagées. Nous montrons aussi l'utilisation d'EXSI2D dans un système P2P, grâce à SPARTANBFS, un protocole « frugal » pour systèmes P2P non structurés.
|
Page generated in 0.0513 seconds