Global ETD Search

21	Cohérence à terme fiable avec des types de données répliquées / Dependable eventual consistency with replicated data types Zawirski, Marek 14 January 2015 (has links) Les bases de données répliquées cohérentes à terme récentes encapsulent la complexité de la concurrence et des pannes par le biais d'une interface supportant la cohérence causale, protégeant l'application des problèmes d'ordre, et/ou des Types de Données Répliqués (RDTs), assurant une sémantique convergente des mises-à-jour concurrentes en utilisant une interface objet. Cependant, les algorithmes fiables pour les RDTs et la cohérence causale ont un coût en terme de taille des métadonnées. Cette thèse étudie la conception de tels algorithmes avec une taille de métadonnées minimisée et leurs limites. Notre première contribution est une étude de la complexité des métadonnées des RDTs. Les nombreuses implémentations existantes impliquent un important surcoût en espace de stockage. Nous concevons un ensemble optimisé et un registre RDTs avec un surcoût des métadonnées réduit au nombre de répliques. Nous démontrons également les bornes inférieures de la taille des métadonnées pour six RDTs, prouvant ainsi l'optimalité de quatre implémentations. Notre seconde contribution est le design de SwiftCloud, une base de données répliquée causalement cohérente d'objets RDTs pour les applications côté client. Nous concevons des algorithmes qui supportent un grand nombre de répliques partielles côté client, s'appuyant sur le cloud, tout en étant tolérant aux fautes et avec une faible taille de métadonnées. Nous démontrons comment supporter la disponibilité (y compris la capacité à basculer entre des centre de données lors d'une erreur), la cohérence et le passage à l'échelle (petite taille de métadonnées, parallélisme) au détriment d'un léger retard dans l'actualisation des données. / Eventually consistent replicated databases offer excellent responsiveness and fault-tolerance, but expose applications to the complexity of concurrency andfailures. Recent databases encapsulate these problems behind a stronger interface, supporting causal consistency, which protects the application from orderinganomalies, and/or Replicated Data Types (RDTs), which ensure convergent semantics of concurrent updates using object interface. However, dependable algorithms for RDT and causal consistency come at a cost in metadata size. This thesis studies the design of such algorithms with minimized metadata, and the limits of the design space. Our first contribution is a study of metadata complexity of RDTs. RDTs use metadata to provide rich semantics; many existing RDT implementations incur high overhead in storage space. We design optimized set and register RDTs with metadata overhead reduced to the number of replicas. We also demonstrate metadata lower bounds for six RDTs, thereby proving optimality of four implementations. Our second contribution is the design of SwiftCloud, a replicated causally-consistent RDT object database for client-side applications. We devise algorithms to support high numbers of client-side partial replicas backed by the cloud, in a fault-tolerant manner, with small metadata. We demonstrate how to support availability and consistency, at the expense of some slight data staleness; i.e., our approach trades freshness for scalability (small metadata, parallelism), and availability (ability to fail-over between data centers). We validate our approach with experiments involving thousands of client replicas. Cohérence à terme Cohérence causale Types de données répliquées Fiabilité Métadonnées minimisées Passage à l'échelle Replicated databases Causal consistency Scalability 005.73
22	Passage à l’échelle des méthodes de recherche sémantique dans les grandes bases d’images / Scalable search engines for content-based image retrieval task in huge image database Gorisse, David 17 December 2010 (has links) Avec la révolution numérique de cette dernière décennie, la quantité de photos numériques mise à disposition de chacun augmente plus rapidement que la capacité de traitement des ordinateurs. Les outils de recherche actuels ont été conçus pour traiter de faibles volumes de données. Leur complexité ne permet généralement pas d'effectuer des recherches dans des corpus de grande taille avec des temps de calculs acceptables pour les utilisateurs. Dans cette thèse, nous proposons des solutions pour passer à l'échelle les moteurs de recherche d'images par le contenu. Dans un premier temps, nous avons considéré les moteurs de recherche automatique traitant des images indexées sous la forme d'histogrammes globaux. Le passage à l'échelle de ces systèmes est obtenu avec l'introduction d'une nouvelle structure d'index adaptée à ce contexte qui nous permet d'effectuer des recherches de plus proches voisins approximées mais plus efficaces. Dans un second temps, nous nous sommes intéressés à des moteurs plus sophistiqués permettant d'améliorer la qualité de recherche en travaillant avec des index locaux tels que les points d'intérêt. Dans un dernier temps, nous avons proposé une stratégie pour réduire la complexité de calcul des moteurs de recherche interactifs. Ces moteurs permettent d'améliorer les résultats en utilisant des annotations que les utilisateurs fournissent au système lors des sessions de recherche. Notre stratégie permet de sélectionner rapidement les images les plus pertinentes à annoter en optimisant une méthode d'apprentissage actif. / In this last decade, would the digital revolution and its ancillary consequence of a massive increases in digital picture quantities. The database size grow much faster than the processing capacity of computers. The current search engine which conceived for small data volumes do not any more allow to make searches in these new corpus with acceptable response times for users.In this thesis, we propose scalable content-based image retrieval engines.At first, we considered automatic search engines where images are indexed with global histograms. Secondly, we were interested in more sophisticated engines allowing to improve the search quality by working with bag of feature. In a last time, we proposed a strategy to reduce the complexity of interactive search engines. These engines allow to improve the results by using labels which the users supply to the system during the search sessions. Lsh Recherche sémantique Grandes bases d'images Passage à l'échelle Apprentissage interactif Lsh Content based image retrieval Huge image databases Scalability issue Active learning
23	Analyse factorielle des correspondances pour l'indexation et la recherche d'information dans une grande base de données d'images Pham, Khang-Nguyen 06 November 2009 (has links) (PDF) Avec le développement du numérique, le nombre d'images stockées dans les bases de données a beaucoup augmenté. L'indexation des images et la recherche d'information dans les bases d'images sont plus compliquées que dans le cas de documents textuels Des méthodes d'indexation déjà utilisées en analyse de données textuelles sont proposées pour traiter des images. Pour transférer les résultats de l'analyse de données textuelles aux images, il est nécessaire d'utiliser de nouvelles caractéristiques : les mots visuels et on considère les images comme documents. Nous nous intéressons au problème d'indexation et de recherche d'information dans des grandes bases de données d'images à l'aide de méthodes d'analyse de données comme l'Analyse Factorielle des Correspondances (AFC). Nous proposons d'abord une utilisation astucieuse des indicateurs de l'AFC pour accélérer la recherche après l'avoir adaptée aux images. Nous nous intéressons ensuite au problème du passage à l'échelle de l'AFC. Pour ce faire, nous proposons un algorithme d'AFC incrémentale pour traiter de grands tableaux de données et la parallélisation de cet algorithme sur processeurs graphiques (GPU). Nous développons aussi une version parallèle de notre algorithme de recherche qui utilise les indicateurs de l'AFC sur GPU. Puis nous associons l'AFC à d'autres méthodes comme la Mesure de Dissimilarité Contextuelle ou les forêts aléatoires pour améliorer la qualité de la recherche. Enfin, nous présentons un environnement de visualisation, CAViz, pour accompagner les traitements précédents. analyse factorielle des correspondances descripteurs locaux SIFT indexation parallélisation passage à l'échelle recherche d'images par la contenu visualisation
24	Etude de l'influence du passage à l'échelle sur les modèles de recherche d'information Imafouo, Amélie 06 December 2006 (has links) (PDF) Les évolutions technologiques de ces dernières années ont entraîné une croissance exponentielle de la quantité d'information numérique disponible. La Recherche d'Information, discipline dont le cœur de métier est la manipulation de cette information est questionnée par cette croissance rapide. Les travaux présentés dans cette thèse se sont penchés sur le problème de l'influence du passage à l'échelle sur les performances des modèles de Recherche d'Information. Après un tour des travaux du domaine qui prennent en compte le passage à l'échelle, des méthodologies pour construire des espaces de recherche de tailles croissantes et dont le contenu est contrôlé sont proposées dans un premier temps; ces espaces de recherches sont utilisés pour observer les performances de divers modèles de RI en fonction de la taille des données manipulées. Dans un second temps, les travaux portent sur la proposition de métriques prenant en compte plusieurs niveaux de pertinence pour un document; la notion d'importance d'un niveau de pertinence est formalisée et la notion de gain d'information entre deux niveaux de pertinence est introduite. Ces deux notions permettent de fournir des métriques dédiées à analyser la capacité des systèmes de RI à retourner des documents en fonction de leur niveau de pertinence, au fur et à mesure que la taille de l'espace de recherche augmente. [INFO:INFO_WB] Computer Science/Web passage à l'échelle collections et sous-collections évaluation métriques pertinence binaire et multivaluée
25	Performances des fonctions et architectures de supervision de réseaux et de services Lahmadi, Abdelkader 11 December 2007 (has links) (PDF) La performance et l'efficacité de la gestion sont devenues une préoccupation au sein de la communauté de gestion de réseaux et de services depuis maintenant. Cette préoccupation est due ssentiellement aux dimensions grandissantes de réseaux et de services, à l'intégration de plan de gestion dans le plan fonctionnel de ses réseaux et ses services et la précision qu'elle doit offrir la gestion afin d'accomplir ses tâches convenablement avec des délais raisonnables. Les études existantes qui ont tentées de quantifier la performance de la gestion présentent plusieurs limites au niveau des métriques et des méthodes employées. En effet, les principales lacunes de ces études sont l'absence de métriques standards et les caractères non comparables, non reproductibles et non représentatives de leurs méthodologies de mesure.<br /><br />Etant donné ce cadre, nous avons travaillé sur la définition d'un ensemble de métriques primaires et secondaires pour mesurer la performance d'une approche de gestion. Les métriques primaires sont regroupées en trois familles : rapidité, coût et qualité. Les métriques secondaires proposées reposent sur ces dernières et permettent de quantifier l'efficacité, le passage à l'échelle et l'incidence de la gestion. Nous avons élaboré une méthodologie pour mesurer ces métriques primaires. Afin de valider cette proposition, nous avons conçu et implanté un banc de mesure dédié à l'évaluation de performances de l'approche de gestion JMX.<br /><br /><br />La seconde partie de notre travail a porté sur l'élaboration de fines campagnes de mesures de performances de JMX. Les résultats de ces mesures, nous ont permis de caractériser le passage à l'échelle, l'incidence de la gestion sur la performance d'un système géré et les délais de l'approche JMX sous différents scénarios. Nous avons trouvé que les délais que subissent les opérations JMX suivent approximativement une distribution statistique de Weibull. Grâce à ce rapprochement, nous avons pu identifier l'effet des délais sur le comportement d'un algorithme de supervision, notamment la distorsion temporelle de la vue observée par le gestionnaire par rapport à la vue réelle du système géré. Gestion de réseaux et de services JMX évaluation de performances métriques de mesure méthodologie de mesure efficacité de la gestion passage à l'échelle incidence de la gestion
26	Passage à l'échelle pour les contraintes d'ordonnancement multi-ressources Letort, Arnaud 28 October 2013 (has links) (PDF) La programmation par contraintes est une approche régulièrement utilisée pour résoudre des problèmes combinatoires d'origines diverses. Dans cette thèse nous nous focalisons sur les problèmes d'ordonnancement cumulatif. Un problème d'ordonnancement consiste à déterminer les dates de débuts et de fins d'un ensemble de tâches, tout en respectant certaines contraintes de capacité et de précédence. Les contraintes de capacité concernent aussi bien des contraintes cumulatives classiques où l'on restreint la somme des hauteurs des tâches intersectant un instant donné, que des contraintes cumulatives colorées où l'on restreint le nombre maximum de couleurs distinctes prises par les tâches. Un des objectifs récemment identifiés pour la programmation par contraintes est de traiter des problèmes de grandes tailles, habituellement résolus à l'aide d'algorithmes dédiés et de métaheuristiques. Par exemple, l'utilisation croissante de centres de données virtualisés laisse apparaitre des problèmes d'ordonnancement et de placement multi-dimensionnels de plusieurs milliers de tâches. Pour atteindre cet objectif, nous utilisons l'idée de balayage synchronisé considérant simultanément une conjonction de contraintes cumulative et des précédences, ce qui nous permet d'accélérer la convergence au point fixe. De plus, de ces algorithmes de filtrage nous dérivons des procédures gloutonnes qui peuvent être appelées à chaque nœud de l'arbre de recherche pour tenter de trouver plus rapidement une solution au problème. Cette approche permet de traiter des problèmes impliquant plus d'un million de tâches et 64 ressources cumulatives. Ces algorithmes ont été implémentés dans les solveurs de contraintes Choco et SICStus, et évalués sur divers problèmes déplacement et d'ordonnancement.Mots-clés : Programmation par contraintes, ordonnancement, cumulatif, passage à l'échelle, point fixe, contraintes de ressources multidimensionelles, balayage synchronisé. [SPI:OTHER] Engineering Sciences/Other Programmation par contraintes Ordonnancement Cumulatif Passage à l'échelle Point fixe Balayage synchronisé
27	Extraction, Exploitation and Evaluation of Document-based Knowledge Doucet, Antoine 30 April 2012 (has links) (PDF) Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées. fouille de données séquentielles unités multi-mots recherche d'information évaluation des systèmes d'information méthodes multilingues passage à l'échelle
28	Vers une gestion coopérative des infrastructures virtualisées à large échelle : le cas de l'ordonnancement Quesnel, Flavien 20 February 2013 (has links) (PDF) Les besoins croissants en puissance de calcul sont généralement satisfaits en fédérant de plus en plus d'ordinateurs (ou noeuds) pour former des infrastructures distribuées. La tendance actuelle est d'utiliser la virtualisation système dans ces infrastructures, afin de découpler les logiciels des noeuds sous-jacents en les encapsulant dans des machines virtuelles. Pour gérer efficacement ces infrastructures virtualisées, de nouveaux gestionnaires logiciels ont été mis en place. Ces gestionnaires sont pour la plupart hautement centralisés (les tâches de gestion sont effectuées par un nombre restreint de nœuds dédiés). Cela limite leur capacité à passer à l'échelle, autrement dit à gérer de manière réactive des infrastructures de grande taille, qui sont de plus en plus courantes. Au cours de cette thèse, nous nous sommes intéressés aux façons d'améliorer cet aspect ; l'une d'entre elles consiste à décentraliser le traitement des tâches de gestion, lorsque cela s'avère judicieux. Notre réflexion s'est concentrée plus particulièrement sur l'ordonnancement dynamique des machines virtuelles, pour donner naissance à la proposition DVMS (Distributed Virtual Machine Scheduler). Nous avons mis en œuvre un prototype, que nous avons validé au travers de simulations (notamment via l'outil SimGrid), et d'expériences sur le banc de test Grid'5000. Nous avons pu constater que DVMS se montrait particulièrement réactif pour gérer des infrastructures virtualisées constituées de dizaines de milliers de machines virtuelles réparties sur des milliers de nœuds. Nous nous sommes ensuite penchés sur les perspectives d'extension et d'amélioration de DVMS. L'objectif est de disposer à terme d'un gestionnaire décentralisé complet, objectif qui devrait être atteint au travers de l'initiative Discovery qui fait suite à ces travaux. [SPI:OTHER] Engineering Sciences/Other Virtualisation Infrastructures distribuées Ordonnancement dynamique Systèmes multi-agents Gestion événementielle Systèmes coopératifs Systèmes autonomes Passage à l'échelle Réactivité
29	New structure learning algorithms and evaluation methods for large dynamic Bayesian networks Trabelsi, Ghada 13 December 2013 (has links) (PDF) Les réseaux bayésiens dynamiques (RBD) sont une classe de modèles graphiques probabilistes qui est devenu un outil standard pour la modélisation de divers phénomènes stochastiques variant dans le temps. A cause de la complexité induite par l'ajout de la dimension temporelle, l'apprentissage de la structure DBN est une tâche très complexe. Les algorithmes existants sont des adaptations des algorithmes d'apprentissage de structure pour les RB basés sur score mais sont souvent limités lorsque le nombre de variables est élevé. Une autre limitation pour les études d'apprentissage de la structure des RBD, ils utilisent leurs propres Benchmarks et techniques pour l' évaluation. Le probl ème dans le cas dynamique, nous ne trouvons pas de travaux antérieurs qui fournissent des détails sur les réseaux et les indicateurs de comparaison utilisés. Nous nous concentrons dans ce projet à l'apprentissage de la structure des RBD et ses méthodes d'évaluation avec respectivement une autre famille des algorithmes d'apprentissage de la structure, les méthodes de recherche locale, et une nouvelle approche de génération des grandes standard RBD et une métrique d'évaluation. Nous illustrons l'intérêt de ces méthodes avec des résultats expérimentaux. Réseaux Bayésiens Dynamiques Modèles 2-TBN apprentissage de structure passage à l'échelle recherche locale Benchmarking
30	Analyse macroscopique des grands systèmes : émergence épistémique et agrégation spatio-temporelle / Macroscopic Analysis of Large-scale Systems : Epistemic Emergence and Spatiotemporal Aggregation Lamarche-Perrin, Robin 14 October 2013 (has links) L'analyse des systèmes de grande taille est confrontée à des difficultés d'ordre syntaxique et sémantique : comment observer un million d'entités distribuées et asynchrones ? Comment interpréter le désordre résultant de l'observation microscopique de ces entités ? Comment produire et manipuler des abstractions pertinentes pour l'analyse macroscopique des systèmes ? Face à l'échec de l'approche analytique, le concept d'émergence épistémique - relatif à la nature de la connaissance - nous permet de définir une stratégie d'analyse alternative, motivée par le constat suivant : l'activité scientifique repose sur des processus d'abstraction fournissant des éléments de description macroscopique pour aborder la complexité des systèmes. Cette thèse s'intéresse plus particulièrement à la production d'abstractions spatiales et temporelles par agrégation de données. Afin d'engendrer des représentations exploitables lors du passage à l'échelle, il apparaît nécessaire de contrôler deux aspects essentiels du processus d'abstraction. Premièrement, la complexité et le contenu informationnel des représentations macroscopiques doivent être conjointement optimisés afin de préserver les détails pertinents pour l'observateur, tout en minimisant le coût de l'analyse. Nous proposons des mesures de qualité (critères internes) permettant d'évaluer, de comparer et de sélectionner les représentations en fonction du contexte et des objectifs de l'analyse. Deuxièmement, afin de conserver leur pouvoir explicatif, les abstractions engendrées doivent être cohérentes avec les connaissances mobilisées par l'observateur lors de l'analyse. Nous proposons d'utiliser les propriétés organisationnelles, structurelles et topologiques du système (critères externes) pour contraindre le processus d'agrégation et pour engendrer des représentations viables sur les plans syntaxique et sémantique. Par conséquent, l'automatisation du processus d'agrégation nécessite de résoudre un problème d'optimisation sous contraintes. Nous proposons dans cette thèse un algorithme de résolution générique, s'adaptant aux critères formulés par l'observateur. De plus, nous montrons que la complexité de ce problème d'optimisation dépend directement de ces critères. L'approche macroscopique défendue dans cette thèse est évaluée sur deux classes de systèmes. Premièrement, le processus d'agrégation est appliqué à la visualisation d'applications parallèles de grande taille pour l'analyse de performance. Il permet de détecter les anomalies présentes à plusieurs niveaux de granularité dans les traces d'exécution et d'expliquer ces anomalies à partir des propriétés syntaxiques du système. Deuxièmement, le processus est appliqué à l'agrégation de données médiatiques pour l'analyse des relations internationales. L'agrégation géographique et temporelle de l'attention médiatique permet de définir des évènements macroscopiques pertinents sur le plan sémantique pour l'analyse du système international. Pour autant, nous pensons que l'approche et les outils présentés dans cette thèse peuvent être généralisés à de nombreux autres domaines d'application. / The analysis of large-scale systems faces syntactic and semantic difficulties: How to observe millions of distributed and asynchronous entities? How to interpret the disorder that results from the microscopic observation of such entities? How to produce and handle relevant abstractions for the systems' macroscopic analysis? Faced with the failure of the analytic approach, the concept of epistemic emergence - related to the nature of knowledge - allows us to define an alternative strategy. This strategy is motivated by the observation that scientific activity relies on abstraction processes that provide macroscopic descriptions to broach the systems' complexity. This thesis is more specifically interested in the production of spatial and temporal abstractions through data aggregation. In order to generate scalable representations, the control of two essential aspects of the aggregation process is necessary. Firstly, the complexity and the information content of macroscopic representations should be jointly optimized in order to preserve the relevant details for the observer, while minimizing the cost of the analysis. We propose several measures of quality (internal criteria) to evaluate, compare and select the representations depending on the context and the objectives of the analysis. Secondly, in order to preserve their explanatory power, the generated abstractions should be consistent with the background knowledge exploited by the observer for the analysis. We propose to exploit the systems' organisational, structural and topological properties (external criteria) to constrain the aggregation process and to generate syntactically and semantically consistent representations. Consequently, the automation of the aggregation process requires solving a constrained optimization problem. We propose a generic algorithm that adapts to the criteria expressed by the observer. Furthermore, we show that the complexity of this optimization problem directly depend on these criteria. The macroscopic approach supported by this thesis is evaluated on two classes of systems. Firstly, the aggregation process is applied to the visualisation of large-scale distributed applications for performance analysis. It allows the detection of anomalies at several scales in the execution traces and the explanation of these anomalies according to the system syntactic properties. Secondly, the process is applied to the aggregation of news for the analysis of international relations. The geographical and temporal aggregation of media attention allows the definition of semantically consistent macroscopic events for the analysis of the international system. Furthermore, we believe that the approach and the tools presented in this thesis can be extended to a wider class of application domains. Approche macroscopique Passage à l'échelle Émergence épistémique Agrégation de données Représentation multi-échelle Information et complexité Macroscopic Approach Large-scale Systems Epistemic Emergence Data Aggregation Multiscale Representation Information and Complexity 519

Search results