Global ETD Search

31	Algorithmes bio-informatiques pour l'analyse de données de séquençage à haut débit Kopylova, Evguenia 11 December 2013 (has links) (PDF) Nucleotide sequence alignment is a method used to identify regions of similarity between organisms at the genomic level. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies against a reference database. Particularly, we direct our attention toward the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions and error rates vary between 1-15%. Second, metagenomic samples can contain thousands of unknown organisms and the only means of identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data. Read more Metagenomique
32	Designing scientific workflows following a structure and provenance-aware strategy Chen, Jiuqiang 11 October 2013 (has links) (PDF) Les systèmes de workflows disposent de modules de gestion de provenance qui collectent les informations relatives aux exécutions (données consommées et produites) permettant d'assurer la reproductibilité d'une expérience. Pour plusieurs raisons, la complexité de la structure du workflow et de ses d'exécutions est en augmentation, rendant la réutilisation de workflows plus difficile. L'objectif global de cette thèse est d'améliorer la réutilisation des workflows en fournissant des stratégies pour réduire la complexité des structures de workflow tout en préservant la provenance. Deux stratégies sont introduites. Tout d'abord, nous introduisons SPFlow un algorithme de réécriture de workflow scientifique préservant la provenance et transformant tout graphe acyclique orienté (DAG) en une structure plus simple, série-parallèle (SP). Ces structures permettent la conception d'algorithmes polynomiaux pour effectuer des opérations complexes sur les workflows (par exemple, leur comparaison) alors que ces mêmes opérations sont associées à des problèmes NP-difficile pour des structures générales de DAG. Deuxièmement, nous proposons une technique capable de réduire la redondance présente dans les workflow en détectant et supprimant des motifs responsables de cette redondance, nommés "anti-patterns". Nous avons conçu l'algorithme DistillFlow capable de transformer un workflow en un workflow sémantiquement équivalent "distillé", possédant une structure plus concise et dans laquelle on retire autant que possible les anti-patterns. Nos solutions (SPFlow et DistillFlow) ont été testées systématiquement sur de grandes collections de workflows réels, en particulier avec le système Taverna. Nos outils sont disponibles à l'adresse: https://www.lri.fr/~chenj/. Read more workflows scientifiques provenance integration de données biologiques graphes series-paralleles
33	Équilibrage de charge et répartition de ressources dans les grands systèmes distribués Leconte, Mathieu 18 December 2013 (has links) (PDF) Cette thèse porte principalement sur l'équilibrage de charge dans de grands graphes aléatoires. En informatique, un problème d'équilibrage de charge survient lorsque différentes tâches ont besoin d'accéder à un même ensemble de points de ressources. Il faut alors décider quelles ressources spécifiques seront allouées à quelles tâches. Suivant le contexte, les notions de "tâche" et de "ressource" peuvent avoir différentes interprétations. Afin de prendre des exemples concrets, on se concentrera sur deux applications en particulier: - un système de hachage à choix multiples (plus précisément, le "cuckoo hashing"). L'objectif est ici d'allouer des cellules d'un tableau à des objets, afin de pouvoir ensuite vérifier facilement la présence d'un objet et récupérer les données associées. Les tâches sont liées aux objets à stocker, et les ressources sont les cellules du tableau. - un réseau de distribution de contenu distribué, au sens où les contenus peuvent être stockés sur une multitude de petits serveurs aux capacités individuelles très limitées. Ici, les tâches sont des demandes de téléchargement (ou requêtes) pour un contenu et les ressources sont liées aux serveurs et à la façon dont leurs espaces de stockage sont utilisés. Le problème d'équilibrage de charge consiste à décider quel serveur va servir quelle requête. Les contraintes locales portant sur chaque ressource (en quelle quantité est-elle disponible et pour quelles tâches est-elle convenable?) ainsi que la charge de travail associée avec chaque tâche peuvent être représentées efficacement sur un graphe biparti, avec des contraintes de capacité sur ses sommets et ses arêtes. De plus, en pratique, les systèmes considérés sont souvent de très grande taille (avec parfois des milliers de tâches et de points de ressources différents) et relativement aléatoires (que ce soit par choix ou une conséquence de leur grande taille). Une modélisation à l'aide de grands graphes aléatoires est donc souvent pertinente. L'ensemble des solutions envisageables pour un problème d'équilibrage de charge donné étant vaste, il est primordial de commencer par déterminer des bornes sur les performances que l'on peut espérer. Ainsi, on considérera dans un premier temps une solution optimale du problème (même si elle ne serait pas réalisable avec des contraintes pratiques). Les performances d'une telle solution peuvent être obtenues en étudiant les appariements de taille maximum dans un grand graphe aléatoire, ce que l'on réalisera à l'aide de la méthode de la cavité. Cette méthode vient de l'étude des systèmes désordonnés en physique statistique, et on s'attachera ici à l'appliquer de manière rigoureuse dans le cadre que l'on considère. Dans le contexte du cuckoo hashing, les résultats obtenus permettent de calculer le seuil sur la charge du système (le nombre d'objets à insérer par rapport à la taille du tableau) en-dessous duquel on peut construire une table de hachage correcte avec grande probabilité dans un grand système, et également de traiter de manière similaire de variantes de la méthode de hachage basique qui tentent de diminuer la quantité d'aléa nécessaire au système. Au-delà du problème d'équilibrage de charge, dans le cadre des réseaux de distributions de contenu distribués, un second problème se pose: comment décider quel contenu stocker et en quelle quantité, autrement dit comment répliquer les contenus? On appelle ce second problème un problème d'allocation de ressources. A nouveau, l'étude déjà réalisée permet de quantifier l'efficacité d'une politique de réplication fixée en supposant que la politique d'équilibrage de charge fonctionne de manière optimale. Il reste cependant à optimiser la politique de réplication de contenus utilisée, ce que l'on effectue dans un régime où l'espace de stockage disponible au niveau de chaque serveur est important par rapport à la taille d'un contenu. Finalement, afin de quantifier maintenant les performances minimales atteignables en pratique, on s'intéressera aux mêmes questions lorsque la politique d'équilibrage de charge utilisée est un simple algorithme glouton. Cette étude est réalisée à l'aide d'approximations de champs moyen. On utilisera également les résultats obtenus afin de concevoir des politiques de réplication de contenus adaptatives. Read more [MATH:MATH_PR] Mathematics/Probability [MATH:MATH_CO] Mathematics/Combinatorics appariements couplages graphes aléatoires optimisation combinatoire réseaux de distribution de contenus tables de hachage méthode de la cavité convergence locale faible
34	Approximations of Points: Combinatorics and Algorithms Mustafa, Nabil 19 December 2013 (has links) (PDF) At the core of successful manipulation and computation over large geometric data is the notion of approximation, both structural and computational. The focus of this thesis will be on the combinatorial and algorithmic aspects of approximations of point-set data P in d-dimensional Euclidean space. It starts with a study of geometric data depth where the goal is to compute a point which is the 'combinatorial center' of P. Over the past 50 years several such measures of combinatorial centers have been proposed, and we will re-examine several of them: Tukey depth, Simplicial depth, Oja depth and Ray-Shooting depth. This can be generalized to approximations with a subset, leading to the notion of epsilon-nets. There we will study the problem of approximations with respect to convexity. Along the way, this requires re-visiting and generalizing some basic theorems of convex geometry, such as the Caratheodory's theorem. Finally we will turn to the algorithmic aspects of these problems. We present a polynomial-time approximation scheme for computing hitting-sets for disks in the plane. Of separate interest is the technique, an analysis of local-search via locality graphs. A further application of this technique is then presented in computing independent sets in intersection graphs of rectangles in the plane. Read more [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie [MATH:MATH_CO] Mathematics/Combinatorics geometric algorithms combinatorics discrete mathematics computational geometry statistics approximation algorithms
35	Algorithmes de dissémination épidémiques dans les réseaux à grande échelle : comparaison et adaptation aux topologies Hu, Ruijing 02 December 2013 (has links) (PDF) La dissémination d'informations (broadcast) est essentielle pour de nombreuses applications réparties. Celle-ci doit être efficace, c'est à dire limiter la redondance des messages, et assurer forte fiabilité et faible latence. Nous considérons ici les algorithmes répartis profitant des propriétés des topologies sous-jacentes. Cependant, ces propriétés et les paramètres dans les algorithmes sont hétérogènes. Ainsi, nous devons trouver une manière pour les comparer équitablement. D'abord, nous étudions les protocoles probabilistes de dissémination d'informations (gossip) exécutées sur trois graphes aléatoires. Les trois graphes représentent les topologies typiques des réseaux à grande-échelle : le graphe de Bernoulli, le graphe géométrique aléatoire et le graphe scale-free. Afin de comparer équitablement leurs performances, nous proposons un nouveau paramètre générique : le fanout effectif. Pour une topologie et un algorithme donnés, le fanout effectif caractérise la puissance moyenne de la dissémination des sites infectés. De plus, il simplifie la comparaison théorique des différents algorithmes sur une topologie. Après avoir compris l'impact des topologies et les algorithmes sur les performances , nous proposons un algorithme fiable et efficace pour la topologie scale-free. Read more Dissémination d'information algorithmes répartis (Gossip) réseaux à grande-échelle topologies aléatoires comparaison de performance fiabilité complexité de message latence
36	Comparaison de réseaux biologiques Mohamed Babou, Hafedh 06 November 2012 (has links) (PDF) La comparaison de réseaux biologiques est actuellement l'une des approches les plus prometteuses pour aider à la compréhension du fonctionnement des organismes vivants. Elle apparaît comme la suite attendue de la comparaison de séquences biologiques dont l'étude ne représente en réalité que l'aspect génomique des informations manipulées par les biologistes. Dans cette thèse, nous proposons une approche innovante permettant de comparer deux réseaux biologiques modélisés respectivement par un graphe orienté D et un graphe non-orienté G, et dotés d'une fonction f établissant la correspondance entre les sommets des deux graphes. L'approche consiste à extraire automatiquement une structure dans D, biologiquement significative, dont les sommets induisent dans G, par f, une structure qui soit aussi biologiquement significative. Nous réalisons une étude algorithmique du problème issu de notre approche en commençant par sa version dans laquelle D est acyclique (DAG). Nous proposons des algorithmes polynomiaux pour certains cas, et nous montrons que d'autres cas sont algorithmiquement difficiles (NP-complets). Pour résoudre les instances difficiles, nous proposons une bonne heuristique et un algorithme exact basé sur la méthode branch-and-bound. Pour traiter le cas où D est cyclique, nous introduisons une méthode motivée par des hypothèses biologiques et consistant à décomposer D en DAGs tels que les sommets de chaque DAG induisent dans G un sous-graphe connexe. Nous étudions également dans cette thèse, l'inférence des voies de signalisation en combinant les informations sur les causes et sur les effets des événements extra-cellulaires. Nous modélisons ce problème par un problème d'orientation de graphes mixtes et nous effectuons une étude de complexité permettant d'identifier les instances faciles et celles difficiles. Read more [INFO:INFO_CC] Informatique/Complexité Réseaux hétérogènes Biologie computationnelle NP-difficulté APX-difficulté Complexité paramétrée Heuristiques Branch-and-Bound
37	Complexité de l'exploration par agent mobile des graphes dynamiques Wade, Ahmed 31 January 2014 (has links) (PDF) Cette thèse porte sur l'étude de la complexité de l'exploration de graphes dynamiques par agent mobile. Une entité mobile (appelée agent) se déplaçant dans un graphe dynamique doit traverser/visiter au moins une fois chacun de ses sommets. (Le temps de traversée d'une arête est unitaire.) Ce problème fondamental en algorithmique par agents mobiles a été très étudié dans les graphes statiques depuis l'article originel de Claude Shannon. Concernant les graphes dynamiques, seul le cas des graphes dynamiques périodiques a été étudié. Nous étudions ce problème dans deux familles de graphes dynamiques, les graphes dynamiques périodiquement variables (PV-graphes) et les graphes dynamiques T-intervalle-connexes. Les résultats obtenus dans cette thèse améliorent des résultats existants et donnent des bornes optimales sur le problème étudié. Un PV-graphe est défini par un ensemble de transporteurs suivant infiniment leur route respective le long des stations du réseau. En 2013, Flocchini, Mans et Santoro ont étudié le problème de l'exploration des PV-graphes en considérant que l'agent doit toujours rester sur les transporteurs. Cette thèse montre l'impact de la capacité d'attendre sur les stations. Nous prouvons que l'attente sur les stations permet à l'agent d'atteindre de meilleures complexités en pire cas : le nombre de mouvements est réduit d'un facteur multiplicatif d'au moins $\Theta(p)$, et la complexité en temps passe de $\Theta(kp^2)$ à $\Theta(np)$, où $n$ est le nombre de stations, $k$ le nombre de transporteurs, et $p$ la période maximale ($n\leq kp$ dans tout PV-graphe connexe). Par ailleurs, l'algorithme que nous proposons pour prouver les bornes supérieures permet de réaliser la cartographie du PV-graphe, en plus de l'explorer. Dans la deuxième partie de cette thèse, nous considérons le même problème (l'exploration) dans les graphes dynamiques T-intervalle-connexes. Un graphe dynamique est $T$-intervalle-connexe ($T \geq 1$) si pour chaque fenêtre de $T$ unités de temps, il existe un sous-graphe couvrant connexe stable. Nous considérons dans un premier temps les graphes dynamiques T-intervalle-connexes qui ont un anneau de taille $n$ comme graphe sous-jacent et nous montrons que la complexité en temps en pire cas de leurs exploration est de $2n-T-\Theta(1)$ unités de temps si l'agent connaît la dynamique du graphe, et $n+ \frac{n}{\max\{1,T-1\}} (\delta-1) \pm\Theta(\delta)$ unités de temps sinon, où $\delta$ est le temps maximum entre deux apparitions successives d'une arête. Nous généralisons ensuite ces résultats en considérant une autre famille de graphes sous-jacents, les cactus à $n$ sommets. Un cactus est un graphe connexe dans lequel deux cycles ont au plus un sommet en commun. Nous donnons un algorithme qui permet d'explorer ces graphes dynamiques en au plus $2^{O(\sqrt{log n})} n$ unités de temps, et nous montrons que la borne inférieure de notre algorithme est $2^{\Omega(\sqrt{log n})} n$. Read more [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique [INFO:INFO_CC] Informatique/Complexité [MATH:MATH_CO] Mathematics/Combinatorics graphe dynamique exploration agent mobile T-intervalle-connexité PV-graphe
38	Garantie de la qualité de service et évaluation de performance des réseaux de télécommunications Tomasik, Joanna 04 January 2012 (has links) (PDF) Notre recherche porte sur des méthodes pour garantir la QoS dans les réseaux filaires classiques, optiques, ad hoc et le réseau global Internet au niveau des domaines. Afin de valider les méthodes proposées, nous créons des modèles à partir des outils de la théorie des files d'attente. Nous étudions les méthodes analytiques et les méthodes numériques afin de traiter les générateurs de chaînes de Markov. Nous utilisons également dans nos études la simulation à évènements discrets. Le travail sur le réseau inter-domaine a nécessité le développement d'un outil pour la génération de topologies aléatoires avec une hiérarchie correspondant à celle observée dans l'Internet. qualité de service réseaux de télécommunications méthodes d'optimisation évaluation de performance chaînes de Markow
39	Motifs spatio-temporels de trajectoires d'objets mobiles, de l'extraction à la détection de comportements inhabituels. Application au trafic maritime. Etienne, Laurent 08 December 2011 (has links) (PDF) Les systèmes de géolocalisation permettent la surveillance en temps réel des déplacements d'objets mobiles. Aujourd'hui, les données produites par ces capteurs sont reçues et stockées dans des bases de données spatio-temporelles. Un processus de fouille de données appliqué sur ces bases de données spatio-temporelles permet d'extraire le comportement des objets mobiles (patrons spatio-temporels) et d'analyser en temps réel les trajectoires d'objets mobiles suivant un même itinéraire. En utilisant ces modèles, des situations inhabituelles peuvent être détectés. Cette thèse définit à la fois des patrons spatio-temporels ainsi que des outils de comparaison et de qualification de trajectoires en utilisant un indice de similarité basée sur des mesures spatiales et temporelles et la logique floue. Ces outils peuvent être utilisés pour faciliter la surveillance du trafic maritime. Représentation des connaissances motifs spatio-temporels fouille de données bases de données inductives extraction de connaissances mesure de similarité raisonnement flou qualification de trajectoires
40	Time and Space-Efficient Algorithms for Mobile Agents in an Anonymous Network Kosowski, Adrian 26 September 2013 (has links) (PDF) Computing with mobile agents is rapidly becoming a topic of mainstream research in the theory of distributed computing. The main research questions undertaken in this study concern the feasibility of solving fundamental tasks in an anonymous network, subject to limitations on the resources available to the agent. The considered challenges include: exploring a graph by means of an agent with limited memory, discovery of the network topology, and attempting to meet with another agent in another network (rendezvous). The constraints imposed on the agent include the number of moves which the agent is allowed to perform in the network, the amount of state memory available to the agent, the ability of the agent to communicate with other agents, as well as its a priori knowledge of the network topology or of global parameters. Distributed Algorithm Mobile Agent Anonymous Network Graph Exploration Rendezvous in Graphs Random Walk Metropolis Walk Rotor-Router Walk Universal Traversal Sequence De-rendomization

Search results