Global ETD Search

1	Proposition d'un cadre générique d'optimisation de requêtes dans les environnements hétérogènes et répartis / On a generic framework for query optimization in heterogeneous and distributed environments Liu, Tianxao 06 June 2011 (has links) Dans cette thèse, nous proposons un cadre générique d'optimisation de requêtes dans les environnements hétérogènes répartis. Nous proposons un modèle générique de description de sources (GSD), qui permet de décrire tous les types d'informations liées au traitement et à l'optimisation de requêtes. Avec ce modèle, nous pouvons en particulier obtenir les informations de coût afin de calculer le coût des différents plans d'exécution. Notre cadre générique d'optimisation fournit les fonctions unitaires permettant de mettre en œuvre les procédures d'optimisation en appliquant différentes stratégies de recherche. Nos résultats expérimentaux mettent en évidence la précision du calcul de coût avec le modèle GSD et la flexibilité de notre cadre générique d'optimisation lors du changement de stratégie de recherche. Notre cadre générique d'optimisation a été mis en œuvre et intégré dans un produit d'intégration de données (DVS) commercialisé par l'entreprise Xcalia - Progress Software Corporation. Pour des requêtes contenant beaucoup de jointures inter-site et interrogeant des sources de grand volume, le temps de calcul du plan optimal est de l'ordre de 2 secondes et le temps d'exécution du plan optimal est réduit de 28 fois par rapport au plan initial non optimisé. / This thesis proposes a generic framework for query optimization in heterogeneous and distributed environments. We propose a generic source description model (GSD), which allows describing any type of information related to query processing and optimization. With GSD, we can use cost information to calculate the costs of execution plans. Our generic framework for query optimization provides a set of unitary functions used to perform optimization by applying different search strategies. Our experimental results show the accuracy of cost calculus when using GSD, and the flexibility of our generic framework when changing search strategies. Our proposed approach has been implemented and integrated in a data integration product (DVS) licensed by Xcalia – Progress Software Corporation. For queries with many inter-site joins accessing large size data sources, the time used for finding the optimal plan is in the order of 2 seconds, and the execution time of the optimized plan is reduced by 28 times, as compared with the execution time of the non optimized original plan. Optimisation de requête Modèle de coût Système de médiation Query optimization Cost model Mediation system
2	Le déploiement, une phase à part entière dans le cycle de vie des entrepôts de données : application aux plateformes parallèles / Deployment, full phase in the data warehouse life cycle : application to parallel platforms Benkrid, Soumia 24 June 2014 (has links) La conception d’un entrepôt de données parallèle consiste à choisir l’architecture matérielle,à fragmenter le schéma d’entrepôt de données, à allouer les fragments générés, à répliquer les fragments pour assurer une haute performance du système et à définir la stratégie de traitement et d’équilibrage de charges. L’inconvénient majeur de ce cycle de conception est son ignorance de l’interdépendance entre les sous-problèmes liés à la conception d’un EDP et l’utilisation des métriques hétérogènes pour atteindre le même objectif. Notre première proposition définie un modèle de coût analytique pour le traitement parallèle des requêtes OLAP dans un environnement cluster. Notre deuxième proposition prend en considération l’interdépendance existante entre la fragmentation et l’allocation. Dans ce contexte, nous avons proposé une nouvelle approche de conception d’un EDP sur un cluster de machine. Durant le processus de fragmentation, notre approche décide si le schéma de fragmentation généré est pertinent pour le processus d’allocation. Les résultats obtenus sont très encourageant et une validation est faite sur Teradata. Notre troisième proposition consiste à présenter une méthode de conception qui est une extension de notre travail. Dans cette phase, une méthode de réplication originale, basée sur la logique floue, est intégrée. / Designing a parallel data warehouse consists of choosing the hardware architecture, fragmenting the data warehouse schema, allocating the generated fragments, replicating fragments to ensure high system performance and defining the treatment strategy and load balancing.The major drawback of this design cycle is its ignorance of the interdependence between subproblems related to the design of PDW and the use of heterogeneous metrics to achieve thesame goal. Our first proposal defines an analytical cost model for parallel processing of OLAP queries in a cluster environment. Our second takes into account the interdependence existing between fragmentation and allocation. In this context, we proposed a new approach to designa PDW on a cluster machine. During the fragmentation process, our approach determines whether the fragmentation pattern generated is relevant to the allocation process or not. The results are very encouraging and validation is done on Teradata. For our third proposition, we presented a design method which is an extension of our work. In this phase, an original method of replication, based on fuzzy logic is integrated. Fragmentation Allocation Réplication Equilibrage de charge Modèle de coût analytique Fragmentation Allocation Replication Load balancing Analytical cost model
3	Gestion multisite de workflows scientifiques dans le cloud / Multisite management of scientific workflows in the cloud Liu, Ji 03 November 2016 (has links) Les in silico expérimentations scientifiques à grande échelle contiennent généralement plusieurs activités de calcule pour traiter big data. Workflows scientifiques (SWfs) permettent aux scientifiques de modéliser les activités de traitement de données. Puisque les SWfs moulinent grandes quantités de données, les SWfs orientés données deviennent un problème important. Dans un SWf orienté donnée, les activités sont liées par des dépendances de données ou de contrôle et une activité correspond à plusieurs tâches pour traiter les différentes parties de données. Afin d’exécuter automatiquement les SWfs orientés données, Système de management pour workflows scientifiques (SWfMSs) peut être utilisé en exploitant High Perfmance Comuting (HPC) fournisse par un cluster, grille ou cloud. En outre, SWfMSs génèrent des données de provenance pour tracer l’exécution des SWfs.Puisque le cloud fournit des services stables, diverses ressources, la capacité de calcul et de stockage virtuellement infinie, il devient une infrastructure intéressante pour l’exécution de SWf. Le cloud données essentiellement trois types de services, i.e. Infrastructure en tant que Service (IaaS), Plateforme en tant que Service (PaaS) et Logiciel en tant que Service (SaaS). SWfMSs peuvent être déployés dans le cloud en utilisant des Machines Virtuelles (VMs) pour exécuter les SWfs orientés données. Avec la méthode de pay-as-you-go, les utilisateurs de cloud n’ont pas besoin d’acheter des machines physiques et la maintenance des machines sont assurée par les fournisseurs de cloud. Actuellement, le cloud généralement se compose de plusieurs sites (ou centres de données), chacun avec ses propres ressources et données. Du fait qu’un SWf orienté donnée peut-être traite les données distribuées dans différents sites, l’exécution de SWf orienté donnée doit être adaptée aux multisite cloud en utilisant des ressources de calcul et de stockage distribuées.Dans cette thèse, nous étudions les méthodes pour exécuter SWfs orientés données dans un environnement de multisite cloud. Certains SWfMSs existent déjà alors que la plupart d’entre eux sont conçus pour des grappes d’ordinateurs, grille ou cloud d’un site. En outre, les approches existantes sont limitées aux ressources de calcul statique ou à l’exécution d’un seul site. Nous vous proposons des algorithmes pour partitionner SWfs et d’un algorithme d’ordonnancement des tâches pour l’exécution des SWfs dans un multisite cloud. Nos algorithmes proposés peuvent réduire considérablement le temps global d’exécution d’un SWf dans un multisite cloud.En particulier, nous proposons une solution générale basée sur l’ordonnancement multi-objectif afin d’exécuter SWfs dans un multisite cloud. La solution se compose d’un modèle de coût, un algorithme de provisionnement de VMs et un algorithme d’ordonnancement des activités. L’algorithme de provisionnement de VMs est basé sur notre modèle de coût pour générer les plans à provisionner VMs pour exécuter SWfs dans un cloud d’un site. L’algorithme d’ordonnancement des activités permet l’exécution de SWf avec le coût minimum, composé de temps d’exécution et le coût monétaire, dans un multisite cloud. Nous avons effectué beaucoup d’expérimentations et les résultats montrent que nos algorithmes peuvent réduire considérablement le coût global pour l’exécution de SWf dans un multisite cloud. / Large-scale in silico scientific experiments generally contain multiple computational activities to process big data. Scientific Workflows (SWfs) enable scientists to model the data processing activities. Since SWfs deal with large amounts of data, data-intensive SWfs is an important issue. In a data-intensive SWf, the activities are related by data or control dependencies and one activity may consist of multiple tasks to process different parts of experimental data. In order to automatically execute data-intensive SWfs, Scientific Work- flow Management Systems (SWfMSs) can be used to exploit High Performance Computing (HPC) environments provided by a cluster, grid or cloud. In addition, SWfMSs generate provenance data for tracing the execution of SWfs.Since a cloud offers stable services, diverse resources, virtually infinite computing and storage capacity, it becomes an interesting infrastructure for SWf execution. Clouds basically provide three types of services, i.e. Infrastructure-as-a-Service (IaaS), Platform- as-a-Service (PaaS) and Software-as-a-Service (SaaS). SWfMSs can be deployed in the cloud using Virtual Machines (VMs) to execute data-intensive SWfs. With a pay-as-you- go method, the users of clouds do not need to buy physical machines and the maintenance of the machines are ensured by the cloud providers. Nowadays, a cloud is typically made of several sites (or data centers), each with its own resources and data. Since a data- intensive SWf may process distributed data at different sites, the SWf execution should be adapted to multisite clouds while using distributed computing or storage resources.In this thesis, we study the methods to execute data-intensive SWfs in a multisite cloud environment. Some SWfMSs already exist while most of them are designed for computer clusters, grid or single cloud site. In addition, the existing approaches are limited to static computing resources or single site execution. We propose SWf partitioning algorithms and a task scheduling algorithm for SWf execution in a multisite cloud. Our proposed algorithms can significantly reduce the overall SWf execution time in a multisite cloud.In particular, we propose a general solution based on multi-objective scheduling in order to execute SWfs in a multisite cloud. The general solution is composed of a cost model, a VM provisioning algorithm, and an activity scheduling algorithm. The VM provisioning algorithm is based on our proposed cost model to generate VM provisioning plans to execute SWfs at a single cloud site. The activity scheduling algorithm enables SWf execution with the minimum cost, composed of execution time and monetary cost, in a multisite cloud. We made extensive experiments and the results show that our algorithms can reduce considerably the overall cost of the SWf execution in a multisite cloud. Gestion de données Workflows scientifiques Cloud Systèmes distribués Ordonnancement Modèle de coût Data management Scientific workflows Cloud Distributed systems Scheduling Cost model
4	Groupement d'Objets Multidimensionnels Etendus avec un Modèle de Coût Adaptatif aux Requêtes Saita, Cristian-Augustin 13 January 2006 (has links) (PDF) Nous proposons une méthode de groupement en clusters d'objets multidimensionnels étendus, basée sur un modèle de co^ut adaptatif aux requêtes, pour accélérer l'exécution des requêtes spatiales de type intervalle (e.g., intersection, inclusion). Notre travail a été motivé par l'émergence de nombreuses applications de dissémination sélective d'informations posant de nouveaux défis au domaine de l'indexation multidimensionnelle. Dans ce contexte, les approches d'indexation existantes (e.g., R-trees) ne sont pas adaptées aux besoins applicatifs tels que scalabilité (beaucoup d'objets avec des dimensions élevées et des extensions spatiales), performance de recherche (taux élevés de requêtes), performance de mise à jour (insertions et suppressions fréquentes d'objets) et adaptabilité (à la distribution des objets et des requêtes, et aux paramètres systèmes). Dans notre méthode, nous relâchons plusieurs propriétés spécifiques aux structures d'indexation arborescentes classiques (i.e. équilibrage de l'arbre et du partitionnement, englobement minimal des objets) en faveur d'une stratégie de groupement basée sur un modèle de co^ut adaptatif. Ce modèle de co^ut tient compte des caractéristiques de la plateforme d'exécution, de la distribution spatiale des objets et surtout de la distribution spatiale des requêtes. Plus précisément, la distribution des requêtes permet de déterminer les dimensions les plus sélectives et discriminantes à utiliser dans le regroupement des objets. Nous avons validé notre approche par des études expérimentales de performance impliquant de grandes collections d'objets et des requêtes d'intervalles avec des distributions uniformes et non-uniformes. [INFO] Computer Science indexation multidimensionnelle objets multidimensionnels étendus groupement requêtes spatiales de type intervalle modèle de coût adaptatif aux requêtes
5	Athapascan-1 : interprétation distribuée du flot de données d'un programme parallèle Galilée, François 22 September 1999 (has links) (PDF) Cette thèse est centrée sur la modélisation de l'exécution d'une application parallèle par un graphe de flot de données. Ce graphe, qui relie les tâches aux données partagées, est construit de manière dynamique. Cette construction, indépendante de l'ordonnancement des tâches effectué, permet de définir la sémantique des accès aux données et de controler la consommation mémoire de toute exécution. Nous étudions dans une première partie les algorithmes permettant la construction et la gestion d'un tel graphe de flot de données dans un environnement distribué. Un point crucial de ces algorithmes est la détection de terminaison des accès des tâches sur les données partagées. Nous proposons un algorithme réactif réalisant cette détection. L'implantation de cet algorithme est au centre de l'implantation distribuée de l'interface de programmation parallèle Athapascan-1. Cette interface permet la description du parallélisme d'une application par création de tâches asynchrones. La sémantique (de type lexicographique) de cette interface est également définie à partir du graphe de flot de données. Nous montrons dans une deuxième partie que la connaissance du flot de données d'une application permet de controler de manière théorique la durée et, surtout, la consommation mémoire de toute exécution. Ce controle est effectué à partir d'un ordonnancement séquentiel implicite des tâches. Nous proposons, implantons dans Athapascan-1 et évaluons deux algorithmes d'ordonnancement distribués permettant de limiter le volume de mémoire requis par toute exécution. Ces expérimentations permettent de valider les résultats théoriques obtenus. Langage parallèle graphe de flot de données terminaison distribuée ordonnancement à la volée modèle de coût en temps et en mémoire
6	Fédération de données semi-structurées avec XML Dang-Ngoc, Tuyet-Tram 18 June 2003 (has links) (PDF) Contrairement aux données traditionnelles, les données semi-structurées sont irrégulières : des données peuvent manquer, des concepts similaires peuvent être représentés par différents types de données, et les structures même peuvent être mal connues. Cette absence de schéma prédéfini, permettant de tenir compte de toutes les données du monde extérieur, présente l'inconvénient de complexifier les algorithmes d'intégration des données de différentes sources. Nous proposons une architecture de médiation basée entièrement sur XML. L'objectif de cette architecture de médiation est de fédérer des sources de données distribuées de différents types. Elle s'appuie sur le langage XQuery, un langage fonctionnel conçu pour formuler des requêtes sur des documents XML. Le médiateur analyse les requêtes exprimées en XQuery et répartit l'exécution de la requête sur les différentes sources avant de recomposer les résultats. L'évaluation des requêtes doit se faire en exploitant au maximum les spécificités des données et permettre une optimisation efficace. Nous décrivons l'algèbre XAlgebre à base d'opérateurs conçus pour XML. Cette algèbre a pour but de construire des plans d'exécution pour l'évaluation de requêtes XQuery et traiter des tuples d'arbres XML. Ces plans d'exécution doivent pouvoir être modélisés par un modèle de coût et celui de coût minimum sera sélectionné pour l'exécution. Dans cette thèse, nous définissons un modèle de coût pour les données semi-structurées adapté à notre algèbre. Les sources de données (SGBD, serveurs Web, moteur de recherche) peuvent être très hétérogènes, elles peuvent avoir des capacités de traitement de données très différentes, mais aussi avoir des modèles de coût plus ou moins définis. Pour intégrer ces différentes informations dans l'architecture de médiation, nous devons déterminer comment communiquer ces informations entre le médiateur et les sources, et comment les intégrer. Pour cela, nous utilisons des langages basés sur XML comme XML-Schema et MathML pour exporter les informations de métadonnées, de formules de coûts et de capacité de sources. Ces informations exportées sont communiquées par l'intermédiaire d'une interface applicative nommée XML/DBC. Enfin, des optimisations diverses spécifiques à l'architecture de médiation doivent être considérées. Nous introduisons pour cela un cache sémantique basé sur un prototype de SGBD stockant efficacement des données XML en natif. médiateur adaptateur modèle de coût cache sémantique données semi-structurées XML base de données hétérogènes algèbre semi-structurées optimisation de requêtes MathML XMLSchema XML/DBC
7	Comportements d'investissement et performances des exploitations agricoles selon la position dans le cycle de vie / Investment decisions of french dairy farms : the case of Brittany Levi, Loïc 12 December 2018 (has links) L'investissement et l'innovation jouent un rôle important dans le secteur agricole, permettant aux exploitations de s'adapter aux changements de politiques et aux conditions du marché. Au cours des dernières décennies, les exploitations agricoles de l'Union européenne (UE) ont été confrontées à des changements substantiels à travers la politique agricole commune (PAC). C'est notamment le cas du secteur laitier, qui a vu la fin du régime de quotas laitiers et également vu une volatilité accrue des prix. De tels changements pourraient affecter la productivité et l’efficacité des exploitations agricoles, la compétitivité du secteur laitier et les changements structurels. Comprendre les mécanismes sous-jacents au comportement d’investissement des exploitations pourrait permettre d’identifier les principaux facteurs qui influent sur les tendances observées. Cela pourrait aider à anticiper les futurs changements structurels, prévoir les besoins des exploitations et aider les décideurs publicet les autres acteurs du secteur agricole à adapter leurs politiques. La thèse contribue à cet objectif en analysant pour les exploitations laitières d'une sous-région de Bretagne (Ille-et-Vilaine) en France, (i) l'impact de la suppression du quota laitier sur les décisions d'investissement des agriculteurs et l'hétérogénéité de leurs réactions (ii) le lien entre la performance agricole et les décisions d'investissement des agriculteurs, (iii) le rôle des interactions sociales liées aux effets de voisinage sur la décision d'investissement des agriculteurs. Les résultats montrent que la fin / : Investment and innovation play an important role in the agricultural sector, allowing farms to adapt to policy changes and market condition changes. In the last decades, farms in the European Union (EU) have faced substantial changes in the Common Agricultural Policy (CAP). This is particularly the case of the dairy sector, which has seen the end of milk quota regime and increased price volatility. Such changes could affect farm productivity and efficiency, the dairy sector’s competitiveness and structural change. Understanding the mechanisms underlying farms’ investment behaviour could allow identifying key drivers that influence the observed trends. This could help anticipate future structural changes, predict farms’ needs and help policy makers and other stakeholders in farming to adapt their policy. The thesis contributes to this objective by analysing for dairy farms in a sub-region of Brittany (Ille-et-Vilaine) in France, (i) the impact of the termination of the milk quota onfarmers’ investment decisions and the heterogeneity of farm investment behaviour, (ii) the link between farm performance and farmers’ investment decisions, (iii) the role of social interactions related to neighbourhood effects on farmers' investment decision. Findings show that the termination of the dairy quota policy increased farmers’ incentive to invest, contributing to the trend towards larger, more capital intensive and more specialised dairy farms. In addition, the thesis underlines the need to take into account farmers’ heterogeneity in modelling investment behaviour. Doing so allows Politique agricole Quota Performance Modèle de coût d’ajustement Effet de voisinage Interaction sociale Secteur laitier France Farm investment Agricultural policy Quota Performance Adjustment cost model Spatial neighbourhood effects Social interaction Dairy sector France
8	Federation de données semi-structurées avec XML Dang Ngoc, Tuyet Tram 10 June 2003 (has links) (PDF) Contrairement aux données traditionnelles, les données semi-structurées<br />sont irrégulières : des données peuvent manquer, des concepts<br />similaires peuvent être représentés par différents types de données,<br />et les structures même peuvent être mal connues. Cette absence <br />de schéma prédéfini, permettant de tenir compte de toutes les données<br />du monde extérieur, présente l'inconvénient de complexifier les<br />algorithmes d'intégration des données de différentes sources.<br /><br />Nous proposons une architecture de médiation basée entièrement sur XML.<br />L'objectif de cette architecture de médiation est de fédérer des sources de<br />données distribuées de différents types.<br />Elle s'appuie sur le langage XQuery, un langage fonctionnel<br />conçu pour formuler des requêtes sur des documents XML. Le médiateur analyse<br />les requêtes exprimées en XQuery et répartit l'exécution de la requête<br />sur les différentes sources avant de recomposer les résultats.<br /><br />L'évaluation des requêtes doit se faire en exploitant au maximum les<br />spécificités des données et permettre une optimisation efficace.<br />Nous décrivons l'algèbre XAlgebre à base d'opérateurs conçus<br />pour XML. Cette algèbre a pour but de construire des plans d'exécution pour<br />l'évaluation de requêtes XQuery et traiter des tuples d'arbres XML.<br /><br />Ces plans d'exécution doivent pouvoir être modélisés par un modèle<br />de coût et celui de coût minimum sera sélectionné pour l'exécution. <br />Dans cette thèse, nous définissons un modèle de coût pour les données<br />semi-structurées adapté à notre algèbre.<br /><br />Les sources de données (SGBD, serveurs Web, moteur de recherche)<br />peuvent être très hétérogènes, elles peuvent avoir des<br />capacités de traitement de données très différentes, mais aussi avoir<br />des modèles de coût plus ou moins définis. <br />Pour intégrer ces différentes informations dans<br />l'architecture de médiation, nous devons déterminer comment communiquer<br />ces informations entre le médiateur et les sources, et comment les intégrer.<br />Pour cela, nous utilisons des langages basés sur XML comme XML-Schema et MathML<br />pour exporter les informations de métadonnées, de formules de coûts<br />et de capacité de sources.<br />Ces informations exportées sont communiquées par l'intermédiaire d'une interface<br />applicative nommée XML/DBC.<br /><br />Enfin, des optimisations diverses spécifiques à l'architecture de médiation<br />doivent être considérées. Nous introduisons pour cela un cache sémantique<br />basé sur un prototype de SGBD stockant efficacement des données XML<br />en natif. médiateur adaptateur modèle de coût cache sémantique <br />données semi-structurées XML base de données hétérogènes <br />algèbre semi-structurées optimisation de requêtes MathML XMLSchema <br />XML/DBC

Search results