• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2047
  • 972
  • 289
  • 8
  • 3
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 3280
  • 1468
  • 668
  • 664
  • 573
  • 552
  • 371
  • 317
  • 293
  • 275
  • 275
  • 248
  • 223
  • 214
  • 212
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Etude de méthodes et mécanismes pour un accès transparent et efficace aux données dans un système multiprocesseur sur puce

Guironnet De Massas, P. 12 November 2009 (has links) (PDF)
Afin de fournir toujours plus de puissance de calcul les architectes intègrent plusieurs dizaines de processeurs dans une même puce. Le but de nos travaux est d'améliorer l'efficacité des accès aux données à l'aide de solutions entièrement transparentes au logiciel. Notre contexte vise les machines multiprocesseurs à base de NoC qui possèdent des caches L1 et de la mémoire partagée et distribuée. Dans une première partie nous montrons que la redéfinition des contraintes dans les systèmes embarqués rend l'utilisation du protocole de cohérence write-through invalidate envisageable. Nous présentons également une solution innovante pour évaluer et comparer les protocoles de cohérence mémoire. Dans une deuxième partie nous présentons une solution innovante à la migration des données dans la puce. Celle-ci, gérée par le matériel, vise à placer dynamiquement et intelligemment les données afin de diminuer le coût d'accès moyen à la mémoire.
72

Optimisation de la performance des entrepôts de données XML par fragmentation et répartition

Mahboubi, Hadj 08 December 2008 (has links) (PDF)
Les entrepôts de données XML forment une base intéressante pour les applications décisionnelles qui exploitent des données hétérogènes et provenant de sources multiples. Cependant, les Systèmes de Gestion de Bases de Données (SGBD) natifs XML actuels présentent des limites en termes de volume de données gérable, d'une part, et de performance des requêtes d'interrogation complexes, d'autre part. Il apparaît donc nécessaire de concevoir des méthodes pour optimiser ces performances.<br /><br />Pour atteindre cet objectif, nous proposons dans ce mémoire de pallier conjointement ces limitations par fragmentation puis par répartition sur une grille de données. Pour cela, nous nous sommes intéressés dans un premier temps à la fragmentation des entrepôts des données XML et nous avons proposé des méthodes qui sont à notre connaissance les premières contributions dans ce domaine. Ces méthodes exploitent une charge de requêtes XQuery pour déduire un schéma de fragmentation horizontale dérivée.<br /><br />Nous avons tout d'abord proposé l'adaptation des techniques les plus efficaces du domaine relationnel aux entrepôts de données XML, puis une méthode de fragmentation originale basée sur la technique de classification k-means. Cette dernière nous a permis de contrôler le nombre de fragments. Nous avons finalement proposé une approche de répartition d'un entrepôt de données XML sur une grille. Ces propositions nous ont amené à proposer un modèle de référence pour les entrepôts de données XML qui unifie et étend les modèles existants dans la littérature.<br /><br />Nous avons finalement choisi de valider nos méthodes de manière expérimentale. Pour cela, nous avons conçu et développé un banc d'essais pour les entrepôts de données XML : XWeB. Les résultats expérimentaux que nous avons obtenus montrent que nous avons atteint notre objectif de maîtriser le volume de données XML et le temps de traitement de requêtes décisionnelles complexes. Ils montrent également que notre méthode de fragmentation basée sur les k-means fournit un gain de performance plus élevé que celui obtenu par les méthodes de fragmentation horizontale dérivée classiques, à la fois en terme de gain de performance et de surcharge des algorithmes.
73

Les formulaires complexes dans les bases de données multimédia

Collet, Christine 23 November 1987 (has links) (PDF)
Un modèle de formulaires complexes et les opérations associes sont présentes. Il s'attache à la classe des modèles de données relationnelles "non sons première forme normale". Il offre un cadre formel pour décrire et traiter la structure, la dynamique et la présentation des objets d'une application comme des formulaires
74

l'intégrité et la mise à jour dans un système de gestion de bases de données réparties : projet POLYPHEME

Andrade, Juan Manuel 29 October 1980 (has links) (PDF)
On fait le point sur l'ensemble des travaux menés dans le cadre du projet POLYPHEME. On présente l'architecture et les caractéristiques de la maquette réalisée. On étudie les problèmes d'intégrité qui se posent lorsque l'on désire faire coopérer des données dans un environnement reparti, on aborde en particulier l'intégrité sémantique et le traitement des opérations de mise à jour. On propose un formalisme pour exprimer le comportement des mises a jour sur une relation abstraite construite sur d'autres relations.
75

Contribution à la conception de services de partage de données pour les grilles de calcul

Antoniu, Gabriel 05 March 2009 (has links) (PDF)
Ce manuscrit décrit les travaux de recherche que nous avons mené pendant les six dernières années sur le thème du partage transparent des données réparties à grande échelle. L'infrastructure visée a été celle des grilles de calcul. Notre objectif a été de répondre à la question: comment serait-il possible de construire un système fournissant un modèle transparent d'accès aux données, tout en tenant compte des contraintes spécifiques aux infrastructures physiques utilisées (architecture hiérarchique, distribution à grande échelle, volatilité, tolérance aux défaillances, etc.)? En réponse à ce défi, nous avons proposé le concept de service de partage de données pour grilles, pour lequel nous avons défini une spécification, une architecture et une mise en oeuvre. Ce travail se situe à la frontière de plusieurs domaines: systèmes à mémoire virtuellement partagée, systèmes pair-à-pair, systèmes tolérants aux fautes. En nous appuyant sur des résultats déjà existants qui proposaient des solutions partielles à notre problème, notre approche a consisté à étendre, adapter et coupler ces solutions partielles et à rajouter les "briques" manquantes, afin de construire une solution globale, plus complexe, mais qui satisfasse l'ensemble des propriétés recherchées. Un résultat issu de cette approche est la notion de groupe hiérarchique auto-organisant, qui combine des protocoles de cohérence issus des systèmes à mémoire virtuellement partagée avec des protocoles de gestion de groupe tolérants aux fautes. Sur cette notion repose notre approche pour la définition de protocoles de cohérence tolérants aux fautes, adaptés aux grilles. Nous avons attaché une importance particulière à la validation expérimentale} de notre proposition par une mise en oeuvre et par une évaluation sur des plates-formes réelles à travers des prototypes expérimentaux. Ceci nous a permis de réaliser des expériences multisites en grandeur nature sur la plate-forme Grid'5000, avec l'objectif d'évaluer les bénéfices apportés par notre service de partage de données aux environnements de calcul réparti sur grille. A cet effet, nous avons évalué la capacité de JuxMem à s'intégrer avec plusieurs modèles de programmation pour grille d'une part (GridRPC, modèles à base de composants) et avec d'autres technologies de stockage d'autre part (Gfarm, ASSIST). Cette intégration a été réalisée en collaboration avec des équipes françaises, telles que les équipes-projets REGAL et GRAAL de l'INRIA, mais aussi avec des équipes étrangères des universités de Pise et de Calabre en Italie, d'Illinois/Urbana-Champaign aux Etats-Unis et de Tsukuba au Japon. Enfin, nous avons travaillé en étroite concertation avec l'équipe JXTA de Sun Microsystems (Santa Clara, Etats-Unis), qui a soutenu nos efforts à travers un contrat de collaboration industrielle.
76

TEMPOS : une plate-forme pour le développement d'applications temporelles au dessus de SGBD à objets

Dumas Menjivar, Marlon 26 June 2000 (has links) (PDF)
Les données temporelles sont présentes dans de nombreuses applications utilisant des Systèmes de Gestion de Bases de Données (SGBD). Aussi, la plupart de ces systèmes offrent des types correspondant aux concepts de date et de durée, grâce auxquels il est possible de modéliser des associations temporelles simples, comme par exemple la date de naissance ou l'âge d'une personne. Toutefois, à quelques nuances près, aucun de ces systèmes n'offre des abstractions dédiées à la modélisation d'associations temporelles plus complexes, telles que l'historique du salaire d'un employé, ou la séquence d'annotations attachées à une vidéo. Dès lors, ces associations doivent être codées au travers de constructeurs de type tels que ''liste'' et ''n-uplet'', et la sémantique de ce codage doit être intégrée dans la logique des programmes applicatifs, accroissant par là leur complexité. Pour combler ces lacunes, des extensions dites ''temporelles'' de modèles et de langages pour Bases de Données ont été proposées. Cette thèse analyse et unifie les contributions de ces travaux, dans le but de les intégrer dans une extension temporelle du standard pour SGBD à objets de l'ODMG. Le résultat est une plate-forme logicielle baptisée TEMPOS, fondée sur trois modèles de sophistication croissante : un modèle du temps, un modèle d'historiques et un modèle d'objets et de propriétés temporels. Ce dernier fournit des fonctionnalités facilitant la transformation de bases de données conformes à l'ODMG en des bases de données temporelles. à partir de ces trois modèles, des extensions des langages de spécification de schéma et d'interrogation de l'ODMG sont définies. Enfin, un outil de visualisation basé sur un nouveau paradigme de navigation interactive au travers d'objets temporels est développé. L'ensemble des propositions sont formalisées, implantées au dessus d'un SGBD commercial, et validées par des études de cas.
77

Médiation et sélection de sources de données pour des organisations virtuelles distribuées à grande échelle

Pomares, Alexandra 26 July 2010 (has links) (PDF)
La sélection de sources de données est un des processus des plus critiques pour les systèmes de médiation dans des contextes grande échelle. C'est le cas notamment des grandes organisations virtuelles où le grand nombre de sources de données, la distribution, l'hétérogénéité, la fragmentation et la duplication des données rendent difficile l'identification des sources pertinentes à l'évaluation d'une requête. Cette thèse aborde cette problématique et propose OptiSource, une stratégie de sélection de sources de données créée pour des tels contextes. OptiSource est particulièrement performante dans des configurations où un grand nombre de sources sont susceptibles de contribuer à une requête selon leur niveau intentionnel (schéma), mais seulement un petit nombre d'entre elles peuvent effectivement le faire au niveau extensionnel (le contenu). OptiSource propose un processus itératif basé sur la sélection des sources de données dominantes pour chaque condition de la requête. Les sources dominantes sont désignées selon leur contribution attendue. Cette estimation utilise un modèle qui priorise les sources en fonction du rôle qu'elles peuvent jouer dans la requête, et optimise la répartition des sous-requêtes en utilisant un modèle d'optimisation combinatoire. OptiSource fait partie d'un système de médiation créé pour organisations virtuelles qui peut choisir dynamiquement la stratégie de sélection de sources la plus approprié au contexte. Notre domaine d'application privilégié a été le médical. Nous avons validé nos propositions sur divers types de contextes de grande taille.
78

Fouille de données billettiques pour l'analyse de la mobilité dans les transports en commun / Analysis of Mobility in Public Transport Systems Through Machine Learning Applied to Ticketing Log Data

Briand, Anne-Sarah 05 December 2017 (has links)
Les données billettiques sont de plus en plus utilisées pour l'analyse de la mobilité dans les transports en commun. Leur richesse spatiale et temporelle ainsi que leur volume, en font un bon matériel pour une meilleure compréhension des habitudes des usagers, pour prédire les flux de passagers ou bien encore pour extraire des informations sur les événements atypiques (ou anomalies), correspondant par exemple à un accroissement ou à une baisse inhabituelle du nombre de validations enregistrées sur le réseau.Après une présentation des travaux ayant été menés sur les données billettiques, cette thèse s'est attachée à développer de nouveaux outils de traitement de ces données. Nous nous sommes particulièrement intéressés à deux challenges nous semblant non encore totalement résolus dans la littérature : l'aide à la mise en qualité des données et la modélisation et le suivi des habitudes temporelles des usagers.Un des principaux challenges de la mise en qualité des données consiste en la construction d'une méthodologie robuste qui soit capable de détecter des plages de données potentiellement problématique correspondant à des situations atypiques et ce quel que soit le contexte (jour de la semaine, vacances, jours fériés, ...). Pour cela une méthodologie en deux étapes a été déployée, à savoir le clustering pour la détermination du contexte et la détection d'anomalies. L'évaluation de la méthodologie proposée a été entreprise sur un jeu de données réelles collectées sur le réseau de transport en commun rennais. En croisant les résultats obtenus avec les événements sociaux et culturels de la ville, l'approche a permis d'évaluer l'impact de ces événements sur la demande en transport, en termes de sévérité et d'influence spatiale sur les stations voisines.Le deuxième volet de la thèse concerne la modélisation et le suivi de l'activité temporelle des usagers. Un modèle de mélange de gaussiennes a été développé pour partitionner les usagers dans les clusters en fonction des heures auxquelles ils utilisent les transports en commun. L'originalité de la méthodologie proposée réside dans l'obtention de profils temporels continus pour décrire finement les routines temporelles de chaque groupe d'usager. Les appartenance aux clusters ont également été croisées avec les données disponibles sur les usagers (type de carte) en vue d'obtenir une description plus précise de chaque cluster. L'évolution de l'appartenance aux clusters au cours des années a également été analysée afin d'évaluer la stabilité de l'utilisation des transports d'une année sur l'autre. / Ticketing logs are being increasingly used to analyse mobility in public transport. The spatial and temporal richness as well as the volume of these data make them useful for understanding passenger habits and predicting origin-destination flows. Information on the operations carried out on the transportation network can also be extracted in order to detect atypical events (or anomalies), such as an unusual increase or decrease in the number of validations.This thesis focuses on developing new tools to process ticketing log data. We are particularly interested in two challenges that seem to be not yet fully resolved in the literature: help with data quality as well as the modeling and monitoring of passengers' temporal habits.One of the main challenges in data quality is the construction of a robust methodology capable of detecting atypical situations in any context (day of the week, holidays, public holidays, etc.). To this end, two steps were deployed, namely clustering for context estimation and detection of anomalies. The evaluation of the proposed methodology is conducted on a real dataset collected on the Rennes public transport network. By cross-comparing the obtained results with the social and cultural events of the city, it is possible to assess the impact of these events on transport demand, in terms, of severity and spatial influence on neighboring stations.The second part of the thesis focuses on the modeling and the tracking of the temporal activity of passengers. A Gaussian mixture model is proposed to partition passengers into clusters according to the hours they use public transport. The originality of the methodology compared to existing approaches lies in obtaining continuous time profiles in order to finely describe the time routines of each passenger cluster. Cluster memberships are also cross-referenced with passenger data (card type) to obtain a more accurate description of each cluster. The cluster membership over the years has also been analyzed in order to study how the use of transport evolves
79

Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données / Contextual data quality : Detection and cleaning guided by data semantics

Ben salem, Aïcha 31 March 2015 (has links)
De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur. / Nowadays, complex applications such as knowledge extraction, data mining, e-learning or web applications use heterogeneous and distributed data. The quality of any decision depends on the quality of the used data. The absence of rich, accurate and reliable data can potentially lead an organization to make bad decisions.The subject covered in this thesis aims at assisting the user in its quality ap-proach. The goal is to better extract, mix, interpret and reuse data. For this, the data must be related to its semantic meaning, data types, constraints and comments.The first part deals with the semantic schema recognition of a data source. This enables the extraction of data semantics from all the available information, inculding the data and the metadata. Firstly, it consists of categorizing the data by assigning it to a category and possibly a sub-category, and secondly, of establishing relations between columns and possibly discovering the semantics of the manipulated data source. These links detected between columns offer a better understanding of the source and the alternatives for correcting data. This approach allows automatic detection of a large number of syntactic and semantic anomalies.The second part is the data cleansing using the reports on anomalies returned by the first part. It allows corrections to be made within a column itself (data homogeni-zation), between columns (semantic dependencies), and between lines (eliminating duplicates and similar data). Throughout all this process, recommendations and analyses are provided to the user.
80

Sampling, qualification and analysis of data streams / Échantillonnage, qualification et analyse des flux de données

El Sibai, Rayane 04 July 2018 (has links)
Un système de surveillance environnementale collecte et analyse continuellement les flux de données générés par les capteurs environnementaux. L'objectif du processus de surveillance est de filtrer les informations utiles et fiables et d'inférer de nouvelles connaissances qui aident l'exploitant à prendre rapidement les bonnes décisions. L'ensemble de ce processus, de la collecte à l'analyse des données, soulève deux problèmes majeurs : le volume de données et la qualité des données. D'une part, le débit des flux de données générés n'a pas cessé d'augmenter sur les dernières années, engendrant un volume important de données continuellement envoyées au système de surveillance. Le taux d'arrivée des données est très élevé par rapport aux capacités de traitement et de stockage disponibles du système de surveillance. Ainsi, un stockage permanent et exhaustif des données est très coûteux, voire parfois impossible. D'autre part, dans un monde réel tel que les environnements des capteurs, les données sont souvent de mauvaise qualité, elles contiennent des valeurs bruitées, erronées et manquantes, ce qui peut conduire à des résultats défectueux et erronés. Dans cette thèse, nous proposons une solution appelée filtrage natif, pour traiter les problèmes de qualité et de volume de données. Dès la réception des données des flux, la qualité des données sera évaluée et améliorée en temps réel en se basant sur un modèle de gestion de la qualité des données que nous proposons également dans cette thèse. Une fois qualifiées, les données seront résumées en utilisant des algorithmes d'échantillonnage. En particulier, nous nous sommes intéressés à l'analyse de l'algorithme Chain-sample que nous comparons à d'autres algorithmes de référence comme l'échantillonnage probabiliste, l'échantillonnage déterministe et l'échantillonnage pondéré. Nous proposons aussi deux nouvelles versions de l'algorithme Chain-sample améliorant sensiblement son temps d'exécution. L'analyse des données du flux est également abordée dans cette thèse. Nous nous intéressons particulièrement à la détection des anomalies. Deux algorithmes sont étudiés : Moran scatterplot pour la détection des anomalies spatiales et CUSUM pour la détection des anomalies temporelles. Nous avons conçu une méthode améliorant l'estimation de l'instant de début et de fin de l'anomalie détectée dans CUSUM. Nos travaux ont été validés par des simulations et aussi par des expérimentations sur deux jeux de données réels et différents : Les données issues des capteurs dans le réseau de distribution de l'eau potable fournies dans le cadre du projet Waves et les données relatives au système de vélo en libre-service (Velib). / An environmental monitoring system continuously collects and analyzes the data streams generated by environmental sensors. The goal of the monitoring process is to filter out useful and reliable information and to infer new knowledge that helps the network operator to make quickly the right decisions. This whole process, from the data collection to the data analysis, will lead to two keys problems: data volume and data quality. On the one hand, the throughput of the data streams generated has not stopped increasing over the last years, generating a large volume of data continuously sent to the monitoring system. The data arrival rate is very high compared to the available processing and storage capacities of the monitoring system. Thus, permanent and exhaustive storage of data is very expensive, sometimes impossible. On the other hand, in a real world such as sensor environments, the data are often dirty, they contain noisy, erroneous and missing values, which can lead to faulty and defective results. In this thesis, we propose a solution called native filtering, to deal with the problems of quality and data volume. Upon receipt of the data streams, the quality of the data will be evaluated and improved in real-time based on a data quality management model that we also propose in this thesis. Once qualified, the data will be summarized using sampling algorithms. In particular, we focus on the analysis of the Chain-sample algorithm that we compare against other reference algorithms such as probabilistic sampling, deterministic sampling, and weighted sampling. We also propose two new versions of the Chain-sample algorithm that significantly improve its execution time. Data streams analysis is also discussed in this thesis. We are particularly interested in anomaly detection. Two algorithms are studied: Moran scatterplot for the detection of spatial anomalies and CUSUM for the detection of temporal anomalies. We have designed a method that improves the estimation of the start time and end time of the anomaly detected in CUSUM. Our work was validated by simulations and also by experimentation on two real and different data sets: The data issued from sensors in the water distribution network provided as part of the Waves project and the data relative to the bike sharing system (Velib).

Page generated in 0.1012 seconds