Spelling suggestions: "subject:"intégration dde données"" "subject:"intégration dee données""
21 |
Apprentissage statistique pour l'intégration de données omiques / Statistical learning for omics data integrationMariette, Jérôme 15 December 2017 (has links)
Les avancées des nouvelles techniques de séquençage ont permis de produire des données hétérogènes, volumineuse, de grande dimension et à différentes échelles du vivant. L'intégration de ces différentes données représente un défi en biologie des systèmes, défi qu'il est critique d'aborder pour tirer le meilleur parti possible de l'accumulation d'informations biologiques pour leur interprétation et leur exploitation dans un but finalisé. Cette thèse regroupe plusieurs contributions méthodologiques utiles à l'exploration simultanée de plusieurs jeux de données omiques de natures hétérogènes. Pour aborder cette question, les noyaux et les méthodes à noyaux offrent un cadre naturel, car ils permettent de prendre en compte la nature propre de chacun des tableaux de données tout en permettant leur combinaison. Toutefois, lorsque le nombre d'observations à traiter est grand, les méthodes à noyaux souffrent d'un manque d'interprétabilité et d'une grande complexité algorithmique. Une première partie de mon travail a porté sur l'adaptation de deux méthodes exploratoires à noyaux : l'analyse en composantes principales (K-PCA) et les cartes auto- organisatrices (K-SOM). Les adaptations développées portent d'une part sur le passage à l'échelle du K-SOM et de la K-PCA au domaine des omiques et d'autre part sur l'amélioration de l'interprétabilité des résultats. Dans une seconde partie, je me suis intéressé à l'apprentissage multi-noyaux pour combiner plusieurs jeux de données omiques. L'efficacité des méthodes proposées est illustrée dans le contexte de l'écologie microbienne : huit jeux de données du projet TARA oceans ont été intégrés et analysés à l'aide d'une K-PCA. / The development of high-throughput sequencing technologies has lead to produce high dimensional heterogeneous datasets at different living scales. To process such data, integrative methods have been shown to be relevant, but still remain challenging. This thesis gathers methodological contributions useful to simultaneously explore heterogeneous multi-omics datasets. To tackle this problem, kernels and kernel methods represent a natural framework because they allow to handle the own nature of each datasets while permitting their combination. However, when the number of sample to process is high, kernel methods suffer from several drawbacks: their complexity is increased and the interpretability of the model is lost. A first part of my work is focused on the adaptation of two exploratory kernel methods: the principal component analysis (K-PCA) and the self-organizing map (K-SOM). The proposed adaptations first address the scaling problem of both K-SOM and K-PCA to omics datasets and second improve the interpretability of the models. In a second part, I was interested in multiple kernel learning to combine multiple omics datasets. The proposed methods efficiency is highlighted in the domain of microbial ecology: eight TARA oceans datasets are integrated and analysed using a K-PCA.
|
22 |
Interopérabilité des données médicales dans le domaine des maladies rares dans un objectif de santé publique / Interoperability of medical data for the rare diseases field in a public health objectiveMaaroufi, Meriem 07 November 2016 (has links)
La santé se digitalise et de multiples projets d’e-santé se développent. Dans le contexte des maladies rares (MR), un champ qui est devenu parmi les priorités de la stratégie de santé publique en France, l’e-santé pourrait constituer une solution pour améliorer les connaissances sur l’épidémiologie des MR. La Banque Nationale de Données Maladies Rares (BNDMR) propose de centraliser la conduite de ces études épidémiologiques pour toutes les MR et tous les patients, atteints de ces maladies, suivis dans le système de soin français. La BNDMR doit se développer au sein d’un paysage numérique dense et hétérogène. Développer l’interopérabilité de la BNDMR constitue l’objectif des travaux de cette thèse. Comment identifier les patients, incluant les fœtus ? Comment fédérer les identités des patients? Comment chainer des données pour permettre la conduite des études ? En réponse à ces questions, nous proposons une méthode universelle d’identification des patients qui respecte les contraintes de protection des données de santé. Quelles données recueillir dans la BNDMR ? Comment améliorer l’interopérabilité entre ces données et celles issues du large éventail des systèmes existants ? En réponse à ces questions, nous proposons de standardiser le recueil d’un set minimal de données pour toutes les MR. L’implémentation de standards internationaux assure un premier pas vers l’interopérabilité. Nous proposons aussi d’aller à la découverte de correspondances. Minimiser l’intervention humaine en adoptant des techniques d’alignement automatisé et rendre fiables et exploitables les résultats de ces alignements ont constitué les principales motivations de notre proposition. / The digitalization of healthcare is on and multiple e-health projects are unceasingly coming up. In the rare diseases context, a field that has become a public health policy priority in France, e-health could be a solution to improve rare diseases epidemiology and to propose a better care for patients. The national data bank for rare diseases (BNDMR) offers the centralization of these epidemiological studies conduction for all rare diseases and all affected patients followed in the French healthcare system. The BNDMR must grow in a dense and heterogeneous digital landscape. Developing the BNDMR interoperability is the objective of this thesis’ work. How to identify patients, including fetuses? How to federate patients’ identities to avoid duplicates creation? How to link patients’ data to allow studies’ conduction? In response to these questions, we propose a universal method for patients’ identification that meets the requirements of health data protection. Which data should be collected in the national data bank? How to improve and facilitate the development of interoperability between these data and those from the wide range of the existing systems? In response to these questions, we first propose the collection of a standardized minimum data set for all rare diseases. The implementation of international standards provides a first step toward interoperability. We then propose to move towards the discovery of mappings between heterogeneous data sources. Minimizing human intervention by adopting automated alignment techniques and making these alignments’ results reliable and exploitable were the main motivations of our proposal.
|
23 |
Mathematical modelling and integration of complex biological data : analysis of the heterosis phenomenon in yeast / Modélisation mathématique et intégration de données biologiques complexes : analyse du phénomène d’hétérosis chez la levurePetrizzelli, Marianyela 08 July 2019 (has links)
Le cadre général de cette thèse est la question de la relation génotype-phénotype, abordée à travers l'analyse du phénomène d'hétérosis chez la levure, dans une approche associant biologie, mathématiques et statistiques. Antérieurement à ce travail, un très gros jeu de données hétérogènes, correspondant à différents niveaux d'organisation (protéomique, caractères de fermentation et traits d'histoire de vie), avait été recueilli sur un dispositif demi-diallèle entre 11 souches appartenant à deux espèces. Ce type de données est idéalement adapté pour la modélisation multi-échelle et pour tester des modèles de prédiction de la variation de phénotypes intégrés à partir de caractères protéiques et métaboliques (flux), tout en tenant compte des structures de dépendance entre variables et entre observations. J’ai d'abord décomposé, pour chaque caractère, la variance génétique totale en variances des effets additifs, de consanguinité et d'hétérosis, et j’ai montré que la distribution de ces composantes permettait de définir des groupes bien tranchés de protéines dans lesquels se plaçaient la plupart des caractères de fermentation et de traits d'histoire de vie. Au sein de ces groupes, les corrélations entre les variances des effets d'hétérosis et de consanguinité pouvaient être positives, négatives ou nulles, ce qui a constitué la première mise en évidence expérimentale d’un découplage possible entre les deux phénomènes. Le second volet de la thèse a consisté à interfacer les données de protéomique quantitative avec un modèle stœchiométrique du métabolisme carboné central de la levure, en utilisant une approche de modélisation à base de contraintes. M'appuyant sur un algorithme récent, j’ai cherché, dans l'espace des solutions possibles, celle qui minimisait la distance entre le vecteur de flux et le vecteur des abondances observées des protéines. J’ai ainsi pu prédire un ensemble de flux et comparer les patrons de corrélations entre caractères à plusieurs niveaux d'intégration. Les données révèlent deux grandes familles de caractères de fermentation ou de traits d'histoire de vie dont l'interprétation biochimique est cohérente en termes de trade-off, et qui n'avaient pas été mises en évidence à partir des seules données de protéomique quantitative. L'ensemble de mes travaux permet de mieux comprendre l'évolution de la relation entre génotype et phénotype. / The general framework of this thesis is the issue of the genotype-phenotype relationship, through the analysis of the heterosis phenomenon in yeast, in an approach combining biology, mathematics and statistics. Prior to this work, a very large set of heterogeneous data, corresponding to different levels of organization (proteomics, fermentation and life history traits), had been collected on a semi-diallel design involving 11 strains belonging to two species. This type of data is ideally suited for multi-scale modelling and for testing models for predicting the variation of integrated phenotypes from protein and metabolic (flux) traits, taking into account dependence patterns between variables and between observations. I first decomposed, for each trait, the total genetic variance into variances of additive, inbreeding and heterosis effects, and showed that the distribution of these components made it possible to define well-defined groups of proteins in which most of the characters of fermentation and life history traits took place. Within these groups, the correlations between the variances of heterosis and inbreeding effects could be positive, negative or null, which was the first experimental demonstration of a possible decoupling between the two phenomena. The second part of the thesis consisted of interfacing quantitative proteomic data with the yeast genome-scale metabolic model using a constraint-based modelling approach. Using a recent algorithm, I looked, in the space of possible solutions, for the one that minimized the distance between the flux vector and the vector of the observed abundances of proteins. I was able to predict unobserved fluxes, and to compare correlation patterns at different integration levels. Data allowed to distinguish between two major types of fermentation or life history traits whose biochemical interpretation is consistent in terms of trade-off, and which had not been highlighted from quantitative proteomic data alone. Altogether, my thesis work allows a better understanding of the evolution of the genotype-phenotype map.
|
24 |
Prise en compte des dépendances entre données thématiques utilisateur et données topographiques lors d’un changement de niveau de détail / Taking into account the dependences between user thematic data and topographic data when the level of detail is changedJaara, Kusay 10 March 2015 (has links)
Avec l'importante disponibilité de données topographiques de référence, la création des données géographiques n'est plus réservée aux professionnels de l'information géographique. De plus en plus d'utilisateurs saisissent leurs propres données, que nous appelons données thématiques, en s'appuyant sur ces données de référence qui jouent alors le rôle de données support. Les données thématiques ainsi saisies font sens en tant que telles, mais surtout de par leurs relations avec les données topographiques. La non prise en compte des relations entre données thématiques et topographiques lors de traitements modifiant les unes ou les autres peut engendrer des incohérences, notamment pour les traitements liés au changement de niveau de détail. L'objectif de la thèse est de définir une méthodologie pour préserver la cohérence entre les données thématiques et topographiques lors d'un changement de niveau de détail. Nous nous concentrons sur l'adaptation des données thématiques suite à une modification des données topographiques, processus que nous appelons migration des données thématiques. Nous proposons d'abord un modèle pour la migration de données thématiques ponctuelles sur réseau composé de : (1) un modèle pour décrire le référencement des données thématiques sur les données topographiques par des relations spatiales (2) une méthode de relocalisation basée sur ces relations. L'approche consiste à identifier les relations finales attendues en fonction des relations initiales et des changements sur les données topographiques entre les états initial et final. La relocalisation est alors effectuée grâce à une méthode multicritère de manière à respecter au mieux les relations attendues. Une mise en œuvre est présentée sur des cas d'étude jouets et sur un cas réel fourni par un service de l'Etat gestionnaire de réseau routier. Nous discutons enfin l'extension du modèle proposé pour traiter la prise en compte des relations pour d'autres applications que la migration de données thématiques / With the large availability of reference topographic data, creating geographic data is not exclusive to experts of geographic information any more. More and more users rely on reference data to create their own data, hereafter called thematic data. Reference data then play the role of support for thematic data. Thematic data make sense by themselves, but even more by their relations with topographic data. Not taking into account the relations between thematic and topographic data during processes that modify the former or the latter may cause inconsistencies, especially for processes that are related to changing the level of detail. The objective of this thesis is to define a methodology to preserve the consistency between thematic and topographic when the level of detail is modified. This thesis focuses on the adaptation of thematic data after a modification of topographic data: we call this process thematic data migration. We first propose a model for the migration of punctual thematic data hosted by a network. This model is composed of: (1) a model to describe the referencing of thematic data on topographic data using spatial relations (2) a method to re-locate thematic data based on these relations. The approach consists in identifying the expected final relations according to the initial relations and the modifications of topographic data between the initial and the final state. The thematic data are then re-located using a multi-criteria method in order to satisfy, as much as possible, the expected relations. An implementation is presented on toy problems and on a real use case provided by a French public authority in charge of road network management. The extension of the proposed model to take into account the relations for other applications than thematic data migration is also discussed
|
25 |
Découverte de biomarqueurs prédictifs en cancer du sein par intégration transcriptome-interactome / Biomarkers discovery in breast cancer by Interactome-Transcriptome IntegrationGarcia, Maxime 20 December 2013 (has links)
L’arrivée des technologies à haut-débit pour mesurer l’expression des gènes a permis l’utilisation de signatures génomiques pour prédire des conditions cliniques ou la survie du patient. Cependant de telles signatures ont des limitations, comme la dépendance au jeu de données d’entrainement et le manque de généralisation. Nous proposons un nouvel algorithme, Integration Transcriptome-Interactome (ITI) (Garcia et al.) pour extraire une signature generalisable prédisant la rechute métastatique dans le cancer du sein par superimposition d’un très large jeu de données d’interaction protèine-protèine sur de multiples jeux de données d’expression des gènes. Cette méthode ré-implemente l’algorithme Chuang et al. , avec la capacité supplémentaire d’extraire une signature génomique à partir de plusieurs jeux de donnés d’expression des gènes simultanément. Une analyse non-supervisée et une analyse supervisée ont été réalisés sur un compendium de jeux de donnés issus de puces à ADN en cancer du sein. Les performances des signatures trouvées par ITI ont été comparé aux performances des signatures préalablement publiées (Wang et al. , Van De Vijver et al. , Sotiriou et al. ). Nos résultats montrent que les signatures ITI sont plus stables et plus généralisables, et sont plus performantes pour classifier un jeu de données indépendant. Nous avons trouvés des sous-réseaux formant des complexes précédement relié à des fonctions biologiques impliquées dans la nétastase et le cancer du sein. Plusieurs gènes directeurs ont été détectés, dont CDK1, NCK1 et PDGFB, certains n’étant pas déjà relié à la rechute métastatique dans le cancer du sein. / High-throughput gene-expression profiling technologies yeild genomic signatures to predict clinical condition or patient outcome. However, such signatures have limitations, such as dependency on training set, and lack of generalization. We propose a novel algorithm, Interactome-Transcriptome Integration (ITI) (Garcia et al.) extract a generalizable signature predicting breast cancer relapse by superimposition of a large-scale protein-protein interaction data over several gene-expression data sets. This method re-implements the Chuang et al. algorithm, with the added capability to extract a genomic signature from several gene expression data sets simultaneously. A non-supervised and a supervised analysis were made with a breast cancer compendium of DNA microarray data sets. Performances of signatures found with ITI were compared with previously published signatures (Wang et al. , Van De Vijver et al. , Sotiriou et al. ). Our results show that ITI’s signatures are more stable and more generalizable, and perfom better when classifying an independant dataset. We found that subnetworks formed complexes functionally linked to biological functions related to metastasis and breast cancer. Several drivers genes were detected, including CDK1, NCK1 and PDGFB, some not previously linked to breast cancer relapse.
|
26 |
Integration framework for artifact-centric processes in the internet of things / Cadre d'intégration pour les processus centrés artéfacts dans l'Internet des objetsAbi Assaf, Maroun 09 July 2018 (has links)
La démocratisation des objets communicants fixes ou mobiles pose de nombreux défis concernant leur intégration dans des processus métiers afin de développer des services intelligents. Dans le contexte de l’Internet des objets, les objets connectés sont des entités hétérogènes et dynamiques qui englobent des fonctionnalités et propriétés cyber-physiques et interagissent via différents protocoles de communication. Pour pallier aux défis d’interopérabilité et d’intégration, il est primordial d’avoir une vue unifiée et logique des différents objets connectés afin de définir un ensemble de langages, outils et architectures permettant leur intégration et manipulation à grande échelle. L'artéfact métier a récemment émergé comme un modèle d’objet (métier) autonome qui encapsule ses données, un ensemble de services, et manipulant ses données ainsi qu'un cycle de vie à base d’états. Le cycle de vie désigne le comportement de l’objet et son évolution à travers ses différents états pour atteindre son objectif métier. La modélisation des objets connectés sous forme d’artéfact métier étendu nous permet de construire un paradigme intuitif pour exprimer facilement des processus d’intégration d’objets connectés dirigés par leurs données. Face aux changements contextuels et à la réutilisation des objets connectés dans différentes applications, les processus dirigés par les données, (appelés aussi « artifacts » au sens large) restent relativement invariants vu que leurs structures de données ne changent pas. Or, les processus centrés sur les services requièrent souvent des changements dans leurs flux d'exécution. Cette thèse propose un cadre d'intégration de processus centré sur les artifacts et leur application aux objets connectés. Pour cela, nous avons construit une vue logique unifiée et globale d’artéfact permettant de spécifier, définir et interroger un très grand nombre d'artifacts distribués, ayant des fonctionnalités similaires (maisons intelligentes ou voitures connectées, …). Le cadre d'intégration comprend une méthode de modélisation conceptuelle des processus centrés artifacts, des des algorithmes d'appariement inter-artifacts et une algèbre de définition et de manipulation d’artifacts. Le langage déclaratif, appelé AQL (Artifact Query Language) permet en particulier d’interroger des flux continus d’artifacts. Il s'appuie sur une syntaxe de type SQL pour réduire les efforts d'apprentissage. Nous avons également développé un prototype pour valider nos contributions et mener des expériences dans le contexte de l’Internet des objets. / The emergence of fixed or mobile communicating objects poses many challenges regarding their integration into business processes in order to develop smart services. In the context of the Internet of Things, connected devices are heterogeneous and dynamic entities that encompass cyber-physical features and properties and interact through different communication protocols. To overcome the challenges related to interoperability and integration, it is essential to build a unified and logical view of different connected devices in order to define a set of languages, tools and architectures allowing their integrations and manipulations at a large scale. Business artifact has recently emerged as an autonomous (business) object model that encapsulates attribute-value pairs, a set of services manipulating its attribute data, and a state-based lifecycle. The lifecycle represents the behavior of the object and its evolution through its different states in order to achieve its business objective. Modeling connected devices and smart objects as an extended business artifact allows us to build an intuitive paradigm to easily express integration data-driven processes of connected objects. In order to handle contextual changes and reusability of connected devices in different applications, data-driven processes (or artifact processes in the broad sense) remain relatively invariant as their data structures do not change. However, service-centric or activity-based processes often require changes in their execution flows. This thesis proposes a framework for integrating artifact-centric processes and their application to connected devices. To this end, we introduce a logical and unified view of a "global" artifact allowing the specification, definition and interrogation of a very large number of distributed artifacts, with similar functionalities (smart homes or connected cars, ...). The framework includes a conceptual modeling method for artifact-centric processes, inter-artifact mapping algorithms, and artifact definition and manipulation algebra. A declarative language, called AQL (Artifact Query Language) aims in particular to query continuous streams of artifacts. The AQL relies on a syntax similar to the SQL in relational databases in order to reduce its learning curve. We have also developed a prototype to validate our contributions and conducted experimentations in the context of the Internet of Things.
|
27 |
A Resource-Oriented Architecture for Integration and Exploitation of Linked Data / Conception d'une architecture orientée services pour l'intégration et l'exploitation de données liéesDe Vettor, Pierre 29 September 2016 (has links)
Cette thèse porte sur l'intégration de données brutes provenant de sources hétérogènes sur le Web. L'objectif global est de fournir une architecture générique et modulable capable de combiner, de façon sémantique et intelligente, ces données hétérogènes dans le but de les rendre réutilisables. Ce travail est motivé par un scenario réel de l'entreprise Audience Labs permettant une mise à l'échelle de cette architecture. Dans ce rapport, nous proposons de nouveaux modèles et techniques permettant d'adapter le processus de combinaison et d'intégration à la diversité des sources de données impliquées. Les problématiques sont une gestion transparente et dynamique des sources de données, passage à l'échelle et responsivité par rapport au nombre de sources, adaptabilité au caractéristiques de sources, et finalement, consistance des données produites(données cohérentes, sans erreurs ni doublons). Pour répondre à ces problématiques, nous proposons un méta-modèle pour représenter ces sources selon leurs caractéristiques, liées à l'accès (URI) ou à l'extraction (format) des données, mais aussi au capacités physiques des sources (latence, volume). En s'appuyant sur cette formalisation, nous proposent différentes stratégies d'accès aux données, afin d'adapter les traitements aux spécificités des sources. En se basant sur ces modèles et stratégies, nous proposons une architecture orientée ressource, ou tout les composants sont accessibles par HTTP via leurs URI. En se basant sur les caractéristiques des sources, sont générés des workflows d'exécution spécifiques et adapté, permettant d'orchestrer les différentes taches du processus d'intégration de façon optimale, en donnant différentes priorités à chacune des tâches. Ainsi, les temps de traitements sont diminuées, ainsi que les volumes des données échangées. Afin d'améliorer la qualité des données produites par notre approches, l'accent est mis sur l'incertitude qui peut apparaître dans les données sur le Web. Nous proposons un modèle, permettant de représenter cette incertitude, au travers du concept de ressource Web incertaines, basé sur un modèle probabiliste ou chaque ressource peut avoir plusieurs représentation possibles, avec une certaine probabilité. Cette approche sera à l'origine d'une nouvelle optimisation de l'architecture pour permettre de prendre en compte l'incertitude pendant la combinaison des données / In this thesis, we focus on data integration of raw data coming from heterogeneous and multi-origin data sources on the Web. The global objective is to provide a generic and adaptive architecture able to analyze and combine this heterogeneous, informal, and sometimes meaningless data into a coherent smart data set. We define smart data as significant, semantically explicit data, ready to be used to fulfill the stakeholders' objective. This work is motivated by a live scenario from the French {\em Audience Labs} company. In this report, we propose new models and techniques to adapt the combination and integration process to the diversity of data sources. We focus on transparency and dynamicity in data source management, scalability and responsivity according to the number of data sources, adaptability to data source characteristics, and finally consistency of produced data (coherent data, without errors and duplicates). In order to address these challenges, we first propose a meta-models in order to represent the variety of data source characteristics, related to access (URI, authentication) extraction (request format), or physical characteristics (volume, latency). By relying on this coherent formalization of data sources, we define different data access strategies in order to adapt access and processing to data source capabilities. With help form these models and strategies, we propose a distributed resource oriented software architecture, where each component is freely accessible through REST via its URI. The orchestration of the different tasks of the integration process can be done in an optimized way, regarding data source and data characteristics. This data allows us to generate an adapted workflow, where tasks are prioritized amongst other in order to fasten the process, and by limiting the quantity of data transfered. In order to improve the data quality of our approach, we then focus on the data uncertainty that could appear in a Web context, and propose a model to represent uncertainty in a Web context. We introduce the concept of Web resource, based on a probabilistic model where each resource can have different possible representations, each with a probability. This approach will be the basis of a new architecture optimization allowing to take uncertainty into account during our combination process
|
28 |
Access control and inference problem in data integration systems / Problème d'inférence et contrôle d'accès dans les systèmes d'intégration de donnéesHaddad, Mehdi 01 December 2014 (has links)
Dans cette thèse nous nous intéressons au contrôle d’accès dans un système issu d’une intégration de données. Dans un système d’intégration de données un médiateur est défini. Ce médiateur a pour objectif d’offrir un point d’entrée unique à un ensemble de sources hétérogènes. Dans ce type d’architecture, l’aspect sécurité, et en particulier le contrôle d’accès, pose un défi majeur. En effet, chaque source, ayant été construite indépendamment, définit sa propre politique de contrôle d’accès. Le problème qui émerge de ce contexte est alors le suivant : "Comment définir une politique représentative au niveau du médiateur et qui permet de préserver les politiques des sources de données impliquées dans la construction du médiateur?" Préserver les politiques des sources de données signifie qu’un accès interdit au niveau d’une source doit également l’être au niveau du médiateur. Aussi, la politique du médiateur doit préserver les données des accès indirects. Un accès indirect consiste à synthétiser une information sensible en combinant des informations non sensibles et les liens sémantiques entre ces informations. Détecter tous les accès indirects dans un système est appelé problème d’inférence. Dans ce manuscrit, nous proposons une méthodologie incrémentale qui permet d’aborder le problème d’inférence dans un contexte d’intégration de données. Cette méthodologie est composée de trois phases. La première, phase de propagation, permet de combiner les politiques sources et ainsi générer une politique préliminaire au niveau médiateur. La deuxième phase, phase de détection, caractérise le rôle que peuvent jouer les relations sémantiques entre données afin d’inférer une information confidentielle. Par la suite, nous introduisant, au sein de cette phase, une approche basée sur les graphes afin d’énumérer tous les accès indirects qui peuvent induire l’accès à une information sensible. Afin de remédier aux accès indirects détectés nous introduisons la phase de reconfiguration qui propose deux solutions. La première solution est mise en œuvre au niveau conceptuel. La seconde solution est mise en œuvre lors de l’exécution. / In this thesis we are interested in controlling the access to a data integration system. In a data integration system, a mediator is defined. This mediator aims at providing a unique entry point to several heterogeneous sources. In this kind of architecture security aspects and access control in particular represent a major challenge. Indeed, every source, designed independently of the others, defines its own access control policy. The problem is then: "How to define a representative policy at the mediator level that preserves sources’ policies?" Preserving the sources’ policies means that a prohibited access at the source level should also be prohibited at the mediator level. Also, the policy of the mediator needs to protect data against indirect accesses. An indirect access occurs when one could synthesize sensitive information from the combination of non sensitive information and semantic constraints. Detecting all indirect accesses in a given system is referred to as the inference problem. In this manuscript, we propose an incremental methodology able to tackle the inference problem in a data integration context. This methodology has three phases. The first phase, the propagation phase, allows combining source policies and therefore generating a preliminary policy at the mediator level. The second phase, the detection phase, characterizes the role of semantic constraints in inducing inference about sensitive information. We also introduce in this phase a graph-based approach able to enumerate all indirect access that could induce accessing sensitive information. In order to deal with previously detected indirect access, we introduce the reconfiguration phase which provides two solutions. The first solution could be implemented at design time. The second solution could be implemented at runtime.
|
29 |
Prise en compte des dépendances entre données thématiques utilisateur et données topographiques lors d’un changement de niveau de détail / Taking into account the dependences between user thematic data and topographic data when the level of detail is changedJaara, Kusay 10 March 2015 (has links)
Avec l'importante disponibilité de données topographiques de référence, la création des données géographiques n'est plus réservée aux professionnels de l'information géographique. De plus en plus d'utilisateurs saisissent leurs propres données, que nous appelons données thématiques, en s'appuyant sur ces données de référence qui jouent alors le rôle de données support. Les données thématiques ainsi saisies font sens en tant que telles, mais surtout de par leurs relations avec les données topographiques. La non prise en compte des relations entre données thématiques et topographiques lors de traitements modifiant les unes ou les autres peut engendrer des incohérences, notamment pour les traitements liés au changement de niveau de détail. L'objectif de la thèse est de définir une méthodologie pour préserver la cohérence entre les données thématiques et topographiques lors d'un changement de niveau de détail. Nous nous concentrons sur l'adaptation des données thématiques suite à une modification des données topographiques, processus que nous appelons migration des données thématiques. Nous proposons d'abord un modèle pour la migration de données thématiques ponctuelles sur réseau composé de : (1) un modèle pour décrire le référencement des données thématiques sur les données topographiques par des relations spatiales (2) une méthode de relocalisation basée sur ces relations. L'approche consiste à identifier les relations finales attendues en fonction des relations initiales et des changements sur les données topographiques entre les états initial et final. La relocalisation est alors effectuée grâce à une méthode multicritère de manière à respecter au mieux les relations attendues. Une mise en œuvre est présentée sur des cas d'étude jouets et sur un cas réel fourni par un service de l'Etat gestionnaire de réseau routier. Nous discutons enfin l'extension du modèle proposé pour traiter la prise en compte des relations pour d'autres applications que la migration de données thématiques / With the large availability of reference topographic data, creating geographic data is not exclusive to experts of geographic information any more. More and more users rely on reference data to create their own data, hereafter called thematic data. Reference data then play the role of support for thematic data. Thematic data make sense by themselves, but even more by their relations with topographic data. Not taking into account the relations between thematic and topographic data during processes that modify the former or the latter may cause inconsistencies, especially for processes that are related to changing the level of detail. The objective of this thesis is to define a methodology to preserve the consistency between thematic and topographic when the level of detail is modified. This thesis focuses on the adaptation of thematic data after a modification of topographic data: we call this process thematic data migration. We first propose a model for the migration of punctual thematic data hosted by a network. This model is composed of: (1) a model to describe the referencing of thematic data on topographic data using spatial relations (2) a method to re-locate thematic data based on these relations. The approach consists in identifying the expected final relations according to the initial relations and the modifications of topographic data between the initial and the final state. The thematic data are then re-located using a multi-criteria method in order to satisfy, as much as possible, the expected relations. An implementation is presented on toy problems and on a real use case provided by a French public authority in charge of road network management. The extension of the proposed model to take into account the relations for other applications than thematic data migration is also discussed
|
30 |
Canevas de domaines pour l'intégration de donnéesAlia, Mourad 30 June 2005 (has links) (PDF)
Beaucoup de travaux de recherche autour des systèmes d'intégration de données se sont concentrés sur les problémes liés aux schémas, aux langages et au traitement de requÍtes. Dans cette thèse, nous nous intéressons à la problématique de construction de tels systèmes. Nous appliquons les concepts architecturaux des systèmes répartis, notamment de canevas et de composant logiciel, pour proposer un intergiciel d'intégration de données offrant quatre niveaux d'adaptabilité. Au niveau architectural, nous définissons le canevas de domaine de données qui est le composant central de l'intégration. Un système d'intégration de données est défini par la composition de domaines de données. Au niveau modèle de données, nous adoptons un modèle hybride doté d'un typage flexible, associé au langage d'expression des vues de domaines, qui permet de prendre en compte l'hétérogénéité structurelle des sources (ou domaines) de données à intégrer. Au niveau langage de requêtes, nous proposons un canevas d'expression qui permet de décrire les requêtes à la fois pour l'intégration et pour l'interrogation de domaines, indépendamment d'une syntaxe particulière. Au niveau optimisation, nous proposons un canevas d'optimisation de requêtes adaptable, dans le sens ou il permet de construire et de supporter diverses stratÈgies de recherche. Le canevas d'expression et le canevas d'optimisation de requÍte ont été implantés dans le cadre du consortium ObjectWeb. Ces implantations ont été utilisÈes dans la mise en oeuvre de deux standards de persistance d'objets Java, à savoir JDO (Java Data Object) et EJB-CMP (Container Managed Persistance). Dans le contexte de recherche de composants pour des besoins d'administration des systèmes à large échelle, nous avons proposé une utilisation de notre intergiciel pour proposer un service de requête qui permette de rechercher des composants dans un gisement et dans des systèmes en cours d'exécution, par introspection associative.
|
Page generated in 0.1296 seconds