Spelling suggestions: "subject:"qualité dde données"" "subject:"qualité dee données""
31 |
Recherche de technicouleur avec l'expérience ATLAS. Développement d'outils et étude des performances du calorimètre à argon liquide / Looking for Technicolor using ATLAS. Tools development and performances study of the Liquid Argon Calorimeter.Helary, Louis 09 December 2011 (has links)
En 2011, le LHC a fourni près de 5 fb−1 de données aux expériences. Ces données ont été utilisées pour comprendre plus avant les détecteurs, leurs performances et effectuer des analyses de physique. Cette thèse est organisée en cinq chapitres. Le premier est une introduction théorique au Modèle Standard et à une de ses extensions possible : la TechniCouleur. Le deuxième chapitre donne un bref aperçu de l'accélérateur LHC et de l'expérience ATLAS. Dans le troisième chapitre, l'un des principaux sous-système de l'expérience ATLAS est présenté : le calorimètre à argon liquide. L'algorithme de contrôle de l'acquisition et de la qualité des données que j'ai développé au cours de ma thèse est également présenté. Le quatrième chapitre présente une étude des performances de la reconstruction des jets basée sur l'ensemble des données acquises en 2010. Cette étude a montré qu'en 2010, la résolution en énergie des jets dans le Monte-Carlo a été sous-estimée d'un facteur relatif d'environ 10% par rapport aux données. Cette étude a été ensuite reconduite pour évaluer l'impact de la réduction de la HV dans des zones du calorimètre sur la résolution en énergie des jets. Cet impact a été jugée négligeable. Pour des jets produits avec une rapidité |y| < 0.8, l'augmentation de la résolution en énergie due à la réduction de la HV, est évaluée à moins de 3 % pour un jet de pT = 30 GeV jet, et moins de 0,1 % pour un jet de pT = 500 GeV. Enfin, le dernier chapitre de cette thèse présente une étude de l'état final Wgamma. La contribution des différents processus du MS participant à cet état final a été estimée à partir du Monte Carlo et des données. Une recherche de résonances étroites a ensuite été effectuée en utilisant la distribution M(W,gamma) dans un intervalle [220,440] GeV, mais aucun écart significatif des prédictions du MS n'a été observé. Cette étude a permis de fixer des limites sur la production de particules TC correspondant à M(a_{T}) > 265 GeV ou M(\rho_{T}) > 243 GeV. / In 2011 the LHC has provided almost 5 fb-1 of data to the experiments. These data have been used to perform a deep commissioning of the detectors, understand the performances of the detector and perform physics analysis. This thesis is organized in five chapter. The first one is a theoretical introduction to the Standard Model and to one of its possible extension: the TechniColor. The second chapter gives a brief overview of the LHC and the ATLAS experiments. In the third chapter one of the key subsystem of the ATLAS experiment is presented: the LAr calorimeters. The monitoring of the data acquisition developed during my thesis is also presented in this chapter. The fourth chapter presents a study of the jet performances based on the data set acquired in 2010. This study has shown that in 2010, the Monte Carlo was underestimating the jet energy resolution by a relative factor of about $10\%$. This study was refocused to evaluate the impact of the reduced LAr HV area on the jet energy resolution. The impact of the HV reduced region was found to be negligible. For jets produced with a rapidity |y|<0.8, the increase of energy resolution due to the HV reduction, is evaluated at less than 3% for a pT=30 GeV jet, and less than 0.1% for a pT=500 GeV jet. Finally the last chapter of this thesis present a study of the Wgamma final state. The standard model backgrounds contributing to this final state were estimated from Monte Carlo and from data. A search for narrow resonances was then conducted using the M(Wgamma) distribution in a range [220,440] GeV, but no significant deviation from the SM was observed. This study has allowed to set limits on the production of TC particles corresponding to M(a_{T}) > 265 GeV or M(\rho_{T}) > 243 GeV.
|
32 |
Partage de données biomédicales : modèles, sémantique et qualitéChoquet, Rémy 16 December 2011 (has links) (PDF)
Le volume de données disponibles dans les systèmes d'information est de plus en plus important et pour autant, nous n'avons jamais autant essayer d'interconnecter cette information pour en extraire de la connaissance sans véritable succès généralisable. L'origine du problème est multiple. Tout d'abord, l'information est représentée dans des structures différentes. Ensuite, les vocabulaires utilisés pour exprimer les données sont hétérogènes. Enfin, la qualité de l'information est souvent trop mauvaise pour utiliser une information et en déduire des connaissances. Ce diagnostic est d'autant plus vrai dans le cadre du partage d'information dans le domaine biomédical où il reste difficile de s'entendre sur des représentations (structures et vocabulaires) pivots d'un domaine de la médecine, et donc où il apparaît difficile de résoudre le problème du partage d'information par l'imposition de standard de codage et de structuration de l'information. Plus récemment, l'introduction de la sémantique dans des processus de partage d'information, nous offre la possibilité de mettre en oeuvre des représentations pivots indépendantes de la structuration ou du nommage d'une donnée. Cette thèse s'inscrit dans cette problématique de partage de données biomédicales dans le cadre de l'évaluation de l'évolution de la résistance des bactéries aux antibiotiques en Europe. L'hypothèse générale de travail que nous proposons est la suivante: comment partager de l'information biomédicale de manière non ambigüe, en temps réel, et à la demande en Europe. Cette hypothèse pose diverses problématiques que nous abordons dans ce mémoire. La problématique de la qualité des données. Celle de la représentation des données à travers leur structure, leur vocabulaire et de leur sémantique. Nous aborderons aussi les problèmes d'alignement de données aux ontologies de domaine et de la fédération de données aidée d'ontologie. Enfin, nous présenterons un système d'interopérabilité sémantique basé sur des règles qui aborde le problème d'alignement sémantique de systèmes hétérogènes appliqué à notre domaine. Nous discuterons finalement de l'apport de la sémantique pour le partage d'information et des limites des outils et méthodes actuels.
|
33 |
La démographie des centenaires québécois : validation des âges au décès, mesure de la mortalité et composante familiale de la longévitéBeaudry-Godin, Mélissa 06 1900 (has links)
L’explosion récente du nombre de centenaires dans les pays à faible mortalité n’est pas étrangère à la multiplication des études portant sur la longévité, et plus spécifiquement sur ses déterminants et ses répercussions. Alors que certains tentent de découvrir les gènes pouvant être responsables de la longévité extrême, d’autres s’interrogent sur l’impact social, économique et politique du vieillissement de la population et de l’augmentation de l’espérance de vie ou encore, sur l’existence d’une limite biologique à la vie humaine. Dans le cadre de cette thèse, nous analysons la situation démographique des centenaires québécois depuis le début du 20e siècle à partir de données agrégées (données de recensement, statistiques de l’état civil, estimations de population). Dans un deuxième temps, nous évaluons la qualité des données québécoises aux grands âges à partir d’une liste nominative des décès de centenaires des générations 1870-1894. Nous nous intéressons entre autres aux trajectoires de mortalité au-delà de cent ans. Finalement, nous analysons la survie des frères, sœurs et parents d’un échantillon de semi-supercentenaires (105 ans et plus) nés entre 1890 et 1900 afin de se prononcer sur la composante familiale de la longévité.
Cette thèse se compose de trois articles. Dans le cadre du premier, nous traitons de l’évolution du nombre de centenaires au Québec depuis les années 1920. Sur la base d’indicateurs démographiques tels le ratio de centenaires, les probabilités de survie et l’âge maximal moyen au décès, nous mettons en lumière les progrès remarquables qui ont été réalisés en matière de survie aux grands âges. Nous procédons également à la décomposition des facteurs responsables de l’augmentation du nombre de centenaires au Québec. Ainsi, au sein des facteurs identifiés, l’augmentation de la probabilité de survie de 80 à 100 ans s’inscrit comme principal déterminant de l’accroissement du nombre de centenaires québécois.
Le deuxième article traite de la validation des âges au décès des centenaires des générations 1870-1894 d’origine canadienne-française et de confession catholique nés et décédés au Québec. Au terme de ce processus de validation, nous pouvons affirmer que les données québécoises aux grands âges sont d’excellente qualité. Les trajectoires de mortalité des centenaires basées sur les données brutes s’avèrent donc représentatives de la réalité. L’évolution des quotients de mortalité à partir de 100 ans témoigne de la décélération de la mortalité. Autant chez les hommes que chez les femmes, les quotients de mortalité plafonnent aux alentours de 45%.
Finalement, dans le cadre du troisième article, nous nous intéressons à la composante familiale de la longévité. Nous comparons la survie des frères, sœurs et parents des semi-supercentenaires décédés entre 1995 et 2004 à celle de leurs cohortes de naissance respectives. Les différences de survie entre les frères, sœurs et parents des semi-supercentenaires sous observation et leur génération « contrôle » s’avèrent statistiquement significatives à un seuil de 0,01%. De plus, les frères, sœurs, pères et mères des semi-supercentenaires ont entre 1,7 (sœurs) et 3 fois (mères) plus de chance d’atteindre 90 ans que les membres de leur cohorte de naissance correspondante. Ainsi, au terme de ces analyses, il ne fait nul doute que la longévité se concentre au sein de certaines familles. / The recent rise in the number of centenarians within low mortality countries has led to multiple studies conducted on longevity, and more specifically on its determinants and repercussions. Some are trying to identify genes that could be responsible for extreme longevity. Others are studying the social, economic and political impact of the rise in life expectancy and population aging, or questioning themselves about the existence of a biological limit to the human life span. In this thesis, we first study the demographic situation of centenarians from Quebec using aggregated data (census data, vital statistics, and population estimations). Then, we evaluate the quality of Quebec data at the oldest ages using the death records of centenarians belonging to the 1870-1894 birth cohorts. We are particularly interested in the mortality trajectories beyond 100 years old. Finally, we analyze the survival of siblings and parents of a semi-supercentenarians (105 years and over) sample in order to assess the familial component of longevity.
The thesis is divided into three articles. In the first article, we study the evolution of the centenarian population from the 1920s in Quebec. With demographic indicators such as the centenarian ratio, the survival probabilities and the maximal age at death, we try to demonstrate the remarkable progress realised in old age mortality. We also analyze the determinants of the increase in the number of centenarians in Quebec. Among the factors identified, the improvement in late mortality is the main determinant of the increase of the number of centenarians in Quebec.
The second article deals with the validation of the ages at death of French-Canadian centenarians born in Quebec between 1870-1894. The validation results confirm that Quebec data at the highest ages at death are of very good quality. Therefore, the measure of centenarian mortality based on all death records is representative of the true trends. The evolution of age-specific life table death rates beyond 100 years old assesses the mortality deceleration at the highest ages. Among men and women, the death rates reach a plateau at around 45%.
Finally, in the third article, we study the familial predisposition for longevity. We compare the survival probabilities of siblings and parents of semi-supercentenarians deceased between 1995 and 2004 to those of their birth cohort-matched counterparts. The survival differences between the siblings and parents of semi-supercentenarians and their respective birth cohorts are statistically significant at a 0,01% level of significance. The siblings and parents have a 1,7 to 3 times greater probability of survival from age 50 to 90 then members of their respective birth cohorts. These findings support the existence of a substantial familial component to longevity.
|
34 |
Une approche automatisée basée sur des contraintes d'intégrité définies en UML et OCL pour la vérification de la cohérence logique dans les systèmes SOLAP : Applications dans le domaine agri-environnementalBoulil, Kamal 26 October 2012 (has links) (PDF)
Les systèmes d'Entrepôts de Données et OLAP spatiaux (EDS et SOLAP) sont des technologies d'aide à la décision permettant l'analyse multidimensionnelle de gros volumes de données spatiales. Dans ces systèmes, la qualité de l'analyse dépend de trois facteurs : la qualité des données entreposées, la qualité des agrégations et la qualité de l'exploration des données. La qualité des données entreposées dépend de critères comme la précision, l'exhaustivité et la cohérence logique. La qualité d'agrégation dépend de problèmes structurels (e.g. les hiérarchies non strictes qui peuvent engendrer le comptage en double des mesures) et de problèmes sémantiques (e.g. agréger les valeurs de température par la fonction Sum peut ne pas avoir de sens considérant une application donnée). La qualité d'exploration est essentiellement affectée par des requêtes utilisateur inconsistantes (e.g. quelles ont été les valeurs de température en URSS en 2010 ?). Ces requêtes peuvent engendrer des interprétations erronées des résultats. Cette thèse s'attaque aux problèmes d'incohérence logique qui peuvent affecter les qualités de données, d'agrégation et d'exploration. L'incohérence logique est définie habituellement comme la présence de contradictions dans les données. Elle est typiquement contrôlée au moyen de Contraintes d'Intégrité (CI). Dans cette thèse nous étendons d'abord la notion de CI (dans le contexte des systèmes SOLAP) afin de prendre en compte les incohérences relatives aux agrégations et requêtes utilisateur. Pour pallier les limitations des approches existantes concernant la définition des CI SOLAP, nous proposons un Framework basé sur les langages standards UML et OCL. Ce Framework permet la spécification conceptuelle et indépendante des plates-formes des CI SOLAP et leur implémentation automatisée. Il comporte trois parties : (1) Une classification des CI SOLAP. (2) Un profil UML implémenté dans l'AGL MagicDraw, permettant la représentation conceptuelle des modèles des systèmes SOLAP et de leurs CI. (3) Une implémentation automatique qui est basée sur les générateurs de code Spatial OCL2SQL et UML2MDX qui permet de traduire les spécifications conceptuelles en code au niveau des couches EDS et serveur SOLAP. Enfin, les contributions de cette thèse ont été appliquées dans le cadre de projets nationaux de développement d'applications (S)OLAP pour l'agriculture et l'environnement.
|
35 |
Recherche de technicouleur avec l'expérience ATLAS. Développement d'outils et étude des performances du calorimètre à argon liquideHelary, Louis 09 December 2011 (has links) (PDF)
En 2011, le LHC a fourni près de 5 fb−1 de données aux expériences. Ces données ont été utilisées pour comprendre plus avant les détecteurs, leurs performances et effectuer des analyses de physique. Cette thèse est organisée en cinq chapitres. Le premier est une introduction théorique au Modèle Standard et à une de ses extensions possible : la TechniCouleur. Le deuxième chapitre donne un bref aperçu de l'accélérateur LHC et de l'expérience ATLAS. Dans le troisième chapitre, l'un des principaux sous-système de l'expérience ATLAS est présenté : le calorimètre à argon liquide. L'algorithme de contrôle de l'acquisition et de la qualité des données que j'ai développé au cours de ma thèse est également présenté. Le quatrième chapitre présente une étude des performances de la reconstruction des jets basée sur l'ensemble des données acquises en 2010. Cette étude a montré qu'en 2010, la résolution en énergie des jets dans le Monte-Carlo a été sous-estimée d'un facteur relatif d'environ 10% par rapport aux données. Cette étude a été ensuite reconduite pour évaluer l'impact de la réduction de la HV dans des zones du calorimètre sur la résolution en énergie des jets. Cet impact a été jugée négligeable. Pour des jets produits avec une rapidité |y| < 0.8, l'augmentation de la résolution en énergie due à la réduction de la HV, est évaluée à moins de 3 % pour un jet de pT = 30 GeV jet, et moins de 0,1 % pour un jet de pT = 500 GeV. Enfin, le dernier chapitre de cette thèse présente une étude de l'état final Wgamma. La contribution des différents processus du MS participant à cet état final a été estimée à partir du Monte Carlo et des données. Une recherche de résonances étroites a ensuite été effectuée en utilisant la distribution M(W,gamma) dans un intervalle [220,440] GeV, mais aucun écart significatif des prédictions du MS n'a été observé. Cette étude a permis de fixer des limites sur la production de particules TC correspondant à M(a_{T}) > 265 GeV ou M(\rho_{T}) > 243 GeV.
|
36 |
Détection de dysfonctionements et d'actes malveillants basée sur des modèles de qualité de données multi-capteurs / Detection of dysfunctions and malveillant acts based on multi-sensor data quality modelsMerino Laso, Pedro 07 December 2017 (has links)
Les systèmes navals représentent une infrastructure stratégique pour le commerce international et les activités militaires. Ces systèmes sont de plus en plus informatisés afin de réaliser une navigation optimale et sécurisée. Pour atteindre cet objectif, une grande variété de systèmes embarqués génèrent différentes informations sur la navigation et l'état des composants, ce qui permet le contrôle et le monitoring à distance. Du fait de leur importance et de leur informatisation, les systèmes navals sont devenus une cible privilégiée des pirates informatiques. Par ailleurs, la mer est un environnement rude et incertain qui peut produire des dysfonctionnements. En conséquence, la prise de décisions basée sur des fausses informations à cause des anomalies, peut être à l'origine de répercussions potentiellement catastrophiques.Du fait des caractéristiques particulières de ces systèmes, les méthodologies classiques de détection d'anomalies ne peuvent pas être appliquées tel que conçues originalement. Dans cette thèse nous proposons les mesures de qualité comme une potentielle alternative. Une méthodologie adaptée aux systèmes cyber-physiques a été définie pour évaluer la qualité des flux de données générés par les composants de ces systèmes. À partir de ces mesures, une nouvelle approche pour l'analyse de scénarios fonctionnels a été développée. Des niveaux d'acceptation bornent les états de normalité et détectent des mesures aberrantes. Les anomalies examinées par composant permettent de catégoriser les détections et de les associer aux catégories définies par le modèle proposé. L'application des travaux à 13 scénarios créés pour une plate-forme composée par deux cuves et à 11 scénarios pour deux drones aériens a servi à démontrer la pertinence et l'intérêt de ces travaux. / Naval systems represent a strategic infrastructure for international commerce and military activity. Their protection is thus an issue of major importance. Naval systems are increasingly computerized in order to perform an optimal and secure navigation. To attain this objective, on board vessel sensor systems provide navigation information to be monitored and controlled from distant computers. Because of their importance and computerization, naval systems have become a target for hackers. Maritime vessels also work in a harsh and uncertain operational environments that produce failures. Navigation decision-making based on wrongly understood anomalies can be potentially catastrophic.Due to the particular characteristics of naval systems, the existing detection methodologies can't be applied. We propose quality evaluation and analysis as an alternative. The novelty of quality applications on cyber-physical systems shows the need for a general methodology, which is conceived and examined in this dissertation, to evaluate the quality of generated data streams. Identified quality elements allow introducing an original approach to detect malicious acts and failures. It consists of two processing stages: first an evaluation of quality; followed by the determination of agreement limits, compliant with normal states to identify and categorize anomalies. The study cases of 13 scenarios for a simulator training platform of fuel tanks and 11 scenarios for two aerial drones illustrate the interest and relevance of the obtained results.
|
37 |
Évaluation et requêtage de données multisources : une approche guidée par la préférence et la qualité des données : application aux campagnes marketing B2B dans les bases de données de prospection / A novel quality-based, preference-driven data evaluation and brokering : approaches in multisource environments : application to marketing prospection databasesBen Hassine, Soumaya 10 October 2014 (has links)
Avec l’avènement du traitement distribué et l’utilisation accrue des services web inter et intra organisationnels alimentée par la disponibilité des connexions réseaux à faibles coûts, les données multisources partagées ont de plus en plus envahi les systèmes d’informations. Ceci a induit, dans un premier temps, le changement de leurs architectures du centralisé au distribué en passant par le coopératif et le fédéré ; et dans un deuxième temps, une panoplie de problèmes d’exploitation allant du traitement des incohérences des données doubles à la synchronisation des données distribuées. C’est le cas des bases de prospection marketing où les données sont enrichies par des fichiers provenant de différents fournisseurs.Nous nous intéressons au cadre particulier de construction de fichiers de prospection pour la réalisation de campagnes marketing B-to-B, tâche traitée manuellement par les experts métier. Nous visons alors à modéliser le raisonnement de brokers humains, afin d’optimiser et d’automatiser la sélection du « plan fichier » à partir d’un ensemble de données d’enrichissement multisources. L’optimisation en question s’exprimera en termes de gain (coût, qualité) des données sélectionnées, le coût se limitant à l’unique considération du prix d’utilisation de ces données.Ce mémoire présente une triple contribution quant à la gestion des bases de données multisources. La première contribution concerne l’évaluation rigoureuse de la qualité des données multisources. La deuxième contribution porte sur la modélisation et l’agrégation préférentielle des critères d’évaluation qualité par l’intégrale de Choquet. La troisième contribution concerne BrokerACO, un prototype d’automatisation et d’optimisation du brokering multisources basé sur l’algorithme heuristique d’optimisation par les colonies de fourmis (ACO) et dont la Pareto-optimalité de la solution est assurée par l’utilisation de la fonction d’agrégation des préférences des utilisateurs définie dans la deuxième contribution. L’efficacité du prototype est montrée par l’analyse de campagnes marketing tests effectuées sur des données réelles de prospection. / In Business-to-Business (B-to-B) marketing campaigns, manufacturing “the highest volume of sales at the lowest cost” and achieving the best return on investment (ROI) score is a significant challenge. ROI performance depends on a set of subjective and objective factors such as dialogue strategy, invested budget, marketing technology and organisation, and above all data and, particularly, data quality. However, data issues in marketing databases are overwhelming, leading to insufficient target knowledge that handicaps B-to-B salespersons when interacting with prospects. B-to-B prospection data is indeed mainly structured through a set of independent, heterogeneous, separate and sometimes overlapping files that form a messy multisource prospect selection environment. Data quality thus appears as a crucial issue when dealing with prospection databases. Moreover, beyond data quality, the ROI metric mainly depends on campaigns costs. Given the vagueness of (direct and indirect) cost definition, we limit our focus to price considerations.Price and quality thus define the fundamental constraints data marketers consider when designing a marketing campaign file, as they typically look for the "best-qualified selection at the lowest price". However, this goal is not always reachable and compromises often have to be defined. Compromise must first be modelled and formalized, and then deployed for multisource selection issues. In this thesis, we propose a preference-driven selection approach for multisource environments that aims at: 1) modelling and quantifying decision makers’ preferences, and 2) defining and optimizing a selection routine based on these preferences. Concretely, we first deal with the data marketer’s quality preference modelling by appraising multisource data using robust evaluation criteria (quality dimensions) that are rigorously summarized into a global quality score. Based on this global quality score and data price, we exploit in a second step a preference-based selection algorithm to return "the best qualified records bearing the lowest possible price". An optimisation algorithm, BrokerACO, is finally run to generate the best selection result.
|
38 |
Qualité des données dans le système d'information sanitaire de routine et facteurs associés au Bénin: place de l'engagement au travail / Data quality in the routine health information system and related factors: work engagement positionGlele Ahanhanzo, Yolaine 22 October 2014 (has links)
La qualité des données est un enjeu essentiel dans les systèmes d’information sanitaire vue l’importance de ces derniers pour la prise de décision. Ce travail de recherche a un objectif double :i) d’une part, celui de mesurer la qualité des données dans le système d’information sanitaire de routine au Bénin, et, ii) d’autre part, celui d’identifier les facteurs associés à cette qualité des données en déterminant la place de l’engagement au travail au sein de ces interactions. Le but visé est finalement de fournir des outils opérationnels et des pistes de réflexion pour la santé publique et dans le domaine la recherche, pour l’amélioration de la qualité des données.<p>Dans les centres de santé de 1er échelon des départements de l’Atlantique et du Littoral, au sud du Bénin, nous avons développé six études pour atteindre les objectifs de recherche. Les études 1 et 2 basées respectivement sur les méthodologies lot quality assurance sampling et capture recapture sont destinées à mesurer la qualité des données. Les études 3 et 4, transversales, analysent l’engagement au travail des agents de santé responsables du SISR au niveau opérationnel. Les études 5 et 6, respectivement transversale et prospective, identifient les facteurs associés à la qualité des données.<p>Il ressort de ces analyses que :<p>•\ / Doctorat en Sciences de la santé publique / info:eu-repo/semantics/nonPublished
|
39 |
Une approche automatisée basée sur des contraintes d’intégrité définies en UML et OCL pour la vérification de la cohérence logique dans les systèmes SOLAP : applications dans le domaine agri-environnemental / An automated approach based on integrity constraints defined in UML and OCL for the verification of logical consistency in SOLAP systems : applications in the agri-environmental fieldBoulil, Kamal 26 October 2012 (has links)
Les systèmes d'Entrepôts de Données et OLAP spatiaux (EDS et SOLAP) sont des technologies d'aide à la décision permettant l'analyse multidimensionnelle de gros volumes de données spatiales. Dans ces systèmes, la qualité de l'analyse dépend de trois facteurs : la qualité des données entreposées, la qualité des agrégations et la qualité de l’exploration des données. La qualité des données entreposées dépend de critères comme la précision, l'exhaustivité et la cohérence logique. La qualité d'agrégation dépend de problèmes structurels (e.g. les hiérarchies non strictes qui peuvent engendrer le comptage en double des mesures) et de problèmes sémantiques (e.g. agréger les valeurs de température par la fonction Sum peut ne pas avoir de sens considérant une application donnée). La qualité d'exploration est essentiellement affectée par des requêtes utilisateur inconsistantes (e.g. quelles ont été les valeurs de température en URSS en 2010 ?). Ces requêtes peuvent engendrer des interprétations erronées des résultats. Cette thèse s'attaque aux problèmes d'incohérence logique qui peuvent affecter les qualités de données, d'agrégation et d'exploration. L'incohérence logique est définie habituellement comme la présence de contradictions dans les données. Elle est typiquement contrôlée au moyen de Contraintes d'Intégrité (CI). Dans cette thèse nous étendons d'abord la notion de CI (dans le contexte des systèmes SOLAP) afin de prendre en compte les incohérences relatives aux agrégations et requêtes utilisateur. Pour pallier les limitations des approches existantes concernant la définition des CI SOLAP, nous proposons un Framework basé sur les langages standards UML et OCL. Ce Framework permet la spécification conceptuelle et indépendante des plates-formes des CI SOLAP et leur implémentation automatisée. Il comporte trois parties : (1) Une classification des CI SOLAP. (2) Un profil UML implémenté dans l'AGL MagicDraw, permettant la représentation conceptuelle des modèles des systèmes SOLAP et de leurs CI. (3) Une implémentation automatique qui est basée sur les générateurs de code Spatial OCL2SQL et UML2MDX qui permet de traduire les spécifications conceptuelles en code au niveau des couches EDS et serveur SOLAP. Enfin, les contributions de cette thèse ont été appliquées dans le cadre de projets nationaux de développement d'applications (S)OLAP pour l'agriculture et l'environnement. / Spatial Data Warehouse (SDW) and Spatial OLAP (SOLAP) systems are Business Intelligence (BI) allowing for interactive multidimensional analysis of huge volumes of spatial data. In such systems the quality ofanalysis mainly depends on three components : the quality of warehoused data, the quality of data aggregation, and the quality of data exploration. The warehoused data quality depends on elements such accuracy, comleteness and logical consistency. The data aggregation quality is affected by structural problems (e.g., non-strict dimension hierarchies that may cause double-counting of measure values) and semantic problems (e.g., summing temperature values does not make sens in many applications). The data exploration quality is mainly affected by inconsistent user queries (e.g., what are temperature values in USSR in 2010?) leading to possibly meaningless interpretations of query results. This thesis address the problems of logical inconsistency that may affect the data, aggregation and exploration qualities in SOLAP. The logical inconsistency is usually defined as the presence of incoherencies (contradictions) in data ; It is typically controlled by means of Integrity Constraints (IC). In this thesis, we extends the notion of IC (in the SOLAP domain) in order to take into account aggregation and query incoherencies. To overcome the limitations of existing approaches concerning the definition of SOLAP IC, we propose a framework that is based on the standard languages UML and OCL. Our framework permits a plateforme-independent conceptual design and an automatic implementation of SOLAP IC ; It consists of three parts : (1) A SOLAP IC classification, (2) A UML profile implemented in the CASE tool MagicDraw, allowing for a conceptual design of SOLAP models and their IC, (3) An automatic implementation based on the code generators Spatial OCLSQL and UML2MDX, which allows transforming the conceptual specifications into code. Finally, the contributions of this thesis have been experimented and validated in the context of French national projetcts aimming at developping (S)OLAP applications for agriculture and environment.
|
40 |
Facilitating mobile crowdsensing from both organizers’ and participants’ perspectives / Facilitation de la collecte participative des données mobiles (mobile crowdsensing) au point de vue des organisateurs et des participantsWang, Leye 18 May 2016 (has links)
La collecte participative des données mobiles est un nouveau paradigme dédié aux applications de détection urbaines utilisant une foule de participants munis de téléphones intelligents. Pour mener à bien les tâches de collecte participative des données mobiles, diverses préoccupations relatives aux participants et aux organisateurs doivent être soigneusement prises en considération. Pour les participants, la principale préoccupation porte sur la consommation d'énergie, le coût des données mobiles, etc. Pour les organisateurs, la qualité des données et le budget sont les deux préoccupations essentielles. Dans cette thèse, deux mécanismes de collecte participative des données mobiles sont proposés : le téléchargement montant collaboratif des données et la collecte clairsemée des données mobiles. Pour le téléchargement montant collaboratif des données, deux procédés sont proposés 1) « effSense », qui fournit la meilleure solution permettant d’économiser la consommation d'énergie aux participants ayant un débit suffisant, et de réduire le coût des communications mobiles aux participants ayant un débit limité; 2) « ecoSense », qui permet de réduire le remboursement incitatif par les organisateurs des frais associés au coût des données mobiles des participants. Dans la collecte clairsemée des données mobiles, les corrélations spatiales et temporelles entre les données détectées sont exploitées pour réduire de manière significative le nombre de tâches allouées et, par conséquent, le budget associé aux organisateurs, tout en assurant la qualité des données. De plus, l’intimité différentielle est afin de répondre au besoin de préservation de la localisation des participants / Mobile crowdsensing is a novel paradigm for urban sensing applications using a crowd of participants' sensor-equipped smartphones. To successfully complete mobile crowdsensing tasks, various concerns of participants and organizers need to be carefully considered. For participants, primary concerns include energy consumption, mobile data cost, privacy, etc. For organizers, data quality and budget are two critical concerns. In this dissertation, to address both participants' and organizers' concerns, two mobile crowdsensing mechanisms are proposed - collaborative data uploading and sparse mobile crowdsensing. In collaborative data uploading, participants help each other through opportunistic encounters and data relays in the data uploading process of crowdsensing, in order to save energy consumption, mobile data cost, etc. Specifically, two collaborative data uploading procedures are proposed (1) effSense, which helps participants with enough data plan to save energy consumption, and participants with little data plan to save mobile data cost; (2) ecoSense, which reduces organizers' incentive refund that is paid for covering participants' mobile data cost. In sparse mobile crowdsensing, spatial and temporal correlations among sensed data are leveraged to significantly reduce the number of allocated tasks thus organizers' budget, still ensuring data quality. Specifically, a sparse crowdsensing task allocation framework, CCS-TA, is implemented with compressive sensing, active learning, and Bayesian inference techniques. Furthermore, differential privacy is introduced into sparse mobile crowdsensing to address participants' location privacy concerns
|
Page generated in 0.0987 seconds