Spelling suggestions: "subject:"intégration dde données"" "subject:"intégration dee données""
1 |
Statistical methods for robust analysis of transcriptome data by integration of biological prior knowledge / Méthodes statistiques pour une analyse robuste du transcriptome à travers l'intégration d'a priori biologiqueJeanmougin, Marine 16 November 2012 (has links)
Au cours de la dernière décennie, les progrès en Biologie Moléculaire ont accéléré le développement de techniques d'investigation à haut-débit. En particulier, l'étude du transcriptome a permis des avancées majeures dans la recherche médicale. Dans cette thèse, nous nous intéressons au développement de méthodes statistiques dédiées au traitement et à l'analyse de données transcriptomiques à grande échelle. Nous abordons le problème de sélection de signatures de gènes à partir de méthodes d'analyse de l'expression différentielle et proposons une étude de comparaison de différentes approches, basée sur plusieurs stratégies de simulations et sur des données réelles. Afin de pallier les limites de ces méthodes classiques qui s'avèrent peu reproductibles, nous présentons un nouvel outil, DiAMS (DIsease Associated Modules Selection), dédié à la sélection de modules de gènes significatifs. DiAMS repose sur une extension du score-local et permet l'intégration de données d'expressions et de données d'interactions protéiques. Par la suite, nous nous intéressons au problème d'inférence de réseaux de régulation de gènes. Nous proposons une méthode de reconstruction à partir de modèles graphiques Gaussiens, basée sur l'introduction d'a priori biologique sur la structure des réseaux. Cette approche nous permet d'étudier les interactions entre gènes et d'identifier des altérations dans les mécanismes de régulation, qui peuvent conduire à l'apparition ou à la progression d'une maladie. Enfin l'ensemble de ces développements méthodologiques sont intégrés dans un pipeline d'analyse que nous appliquons à l'étude de la rechute métastatique dans le cancer du sein. / Recent advances in Molecular Biology have led biologists toward high-throughput genomic studies. In particular, the investigation of the human transcriptome offers unprecedented opportunities for understanding cellular and disease mechanisms. In this PhD, we put our focus on providing robust statistical methods dedicated to the treatment and the analysis of high-throughput transcriptome data. We discuss the differential analysis approaches available in the literature for identifying genes associated with a phenotype of interest and propose a comparison study. We provide practical recommendations on the appropriate method to be used based on various simulation models and real datasets. With the eventual goal of overcoming the inherent instability of differential analysis strategies, we have developed an innovative approach called DiAMS, for DIsease Associated Modules Selection. This method was applied to select significant modules of genes rather than individual genes and involves the integration of both transcriptome and protein interactions data in a local-score strategy. We then focus on the development of a framework to infer gene regulatory networks by integration of a biological informative prior over network structures using Gaussian graphical models. This approach offers the possibility of exploring the molecular relationships between genes, leading to the identification of altered regulations potentially involved in disease processes. Finally, we apply our statistical developments to study the metastatic relapse of breast cancer.
|
2 |
Mise en place d'approches bioinformatiques innovantes pour l'intégration de données multi-omiques longitudinalesBodein, Antoine 10 February 2024 (has links)
Les nouvelles technologies «omiques» à haut débit, incluant la génomique, l'épigénomique, la transcriptomique, la protéomique, la métabolomique ou encore la métagénomique, ont connues ces dernières années un développement considérable. Indépendamment, chaque technologie omique est une source d'information incontournable pour l'étude du génome humain, de l'épigénome, du transcriptome, du protéome, du métabolome, et également de son microbiote permettant ainsi d'identifier des biomarqueurs responsables de maladies, de déterminer des cibles thérapeutiques, d'établir des diagnostics préventifs et d'accroître les connaissances du vivant. La réduction des coûts et la facilité d'acquisition des données multi-omiques à permis de proposer de nouveaux plans expérimentaux de type série temporelle où le même échantillon biologique est séquencé, mesuré et quantifié à plusieurs temps de mesures. Grâce à l'étude combinée des technologies omiques et des séries temporelles, il est possible de capturer les changements d'expressions qui s'opèrent dans un système dynamique pour chaque molécule et avoir une vision globale des interactions multi-omiques, inaccessibles par une approche simple standard. Cependant le traitement de cette somme de connaissances multi-omiques fait face à de nouveaux défis : l'évolution constante des technologies, le volume des données produites, leur hétérogénéité, la variété des données omiques et l'interprétabilité des résultats d'intégration nécessitent de nouvelles méthodes d'analyses et des outils innovants, capables d'identifier les éléments utiles à travers cette multitude d'informations. Dans cette perspective, nous proposons plusieurs outils et méthodes pour faire face aux challenges liés à l'intégration et l'interprétation de ces données multi-omiques particulières. Enfin, l'intégration de données multi-omiques longitudinales offre des perspectives dans des domaines tels que la médecine de précision ou pour des applications environnementales et industrielles. La démocratisation des analyses multi-omiques et la mise en place de méthodes d'intégration et d'interprétation innovantes permettront assurément d'obtenir une meilleure compréhension des écosystèmes biologiques. / New high-throughput «omics» technologies, including genomics, epigenomics, transcriptomics, proteomics, metabolomics and metagenomics, have expanded considerably in recent years. Independently, each omics technology is an essential source of knowledge for the study of the human genome, epigenome, transcriptome, proteome, metabolome, and also its microbiota, thus making it possible to identify biomarkers leading to diseases, to identify therapeutic targets, to establish preventive diagnoses and to increase knowledge of living organisms. Cost reduction and ease of multi-omics data acquisition resulted in new experimental designs based on time series in which the same biological sample is sequenced, measured and quantified at several measurement times. Thanks to the combined study of omics technologies and time series, it is possible to capture the changes in expression that take place in a dynamic system for each molecule and get a comprehensive view of the multi-omics interactions, which was inaccessible with a simple standard omics approach. However, dealing with this amount of multi-omics data faces new challenges: continuous technological evolution, large volumes of produced data, heterogeneity, variety of omics data and interpretation of integration results require new analysis methods and innovative tools, capable of identifying useful elements through this multitude of information. In this perspective, we propose several tools and methods to face the challenges related to the integration and interpretation of these particular multi-omics data. Finally, integration of longidinal multi-omics data offers prospects in fields such as precision medicine or for environmental and industrial applications. Democratisation of multi-omics analyses and the implementation of innovative integration and interpretation methods will definitely lead to a deeper understanding of eco-systems biology.
|
3 |
MC-Map, un nouvel outil d'intégration de motifsSt-Onge, Nicolas January 2006 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
4 |
Exploration bioinformatique des relations entre mécanismes moléculaires et fonctions cellulairesGaugain,, Claire 18 December 2007 (has links) (PDF)
L'intégration des données biologiques est un des principaux défis de la bioinformatique aujourd'hui. La mise à disposition de quantités importantes de données concernant tous les niveaux d'organisation de la cellule, nécessite la mise en place de stratégies d'intégration pour rassembler toutes ces données, et ainsi mieux comprendre le fonctionnement de la cellule. Nous nous sommes intéressés à l'exploitation du concept de voisinage pour représenter et intégrer des données biologiques. Dans un premier temps, notre travail met l'accent sur l'importance du choix de la représentation pour mener une intégration efficace. Notre étude sur la représentation du métabolisme a montré que les modes élémentaires sont une alternative pertinente à la représentation classique sous forme de voies métaboliques. De plus, les modes élémentaires nous ont permis de trouver des routes métaboliques utilisées par la cellule en réponse à divers stress. Nous avons également exploité le voisinage dans une perspective de génomique comparative. Nous avons cherché à déterminer si le voisinage d'expression peut être une signature pour les gènes, et s'il peut être utilisé pour caractériser des gènes en établissant des équivalences entre des génomes (orthologues ou gènes fonctionnellement similaires). Les résultats présentés confirment l'intérêt de l'exploration du voisinage, des gènes et de leur produit, pour intégrer des données hétérogènes. L'efficacité de cette exploration est fortement liée au choix de la représentation des connaissances.
|
5 |
Cartographie des connaissances : l'intégration et la visualisation au service de la biologie Application à l'ingénierie des connaissances et à l'analyse de données d'expression de gènesJalabert, Fabien 05 December 2007 (has links) (PDF)
Ce mémoire s'inscrit dans un axe stratégique du groupement des Ecoles des Mines : GEMBIO. Dans ce contexte, plusieurs collaborations ont été initiées, notamment avec des chercheurs de l'Institut Pasteur de Paris, de l'Inserm/Hôpitaux de Paris, et du CEA dans le cadre du programme ToxNuc-e. De ces échanges, est née notre problématique. Plus d'un millier de bases de données biologiques sont disponibles en ligne. Leur exploitation et le croisement de leurs contenus entraînent souvent ce constat des chercheurs biologistes : « J'ai souvent une vingtaine de fenêtres ouvertes sur mon écran : je m'y perds ». Souvent l'analyse et le croisement des données est fait par simple copier-coller dans un tableur. Si l'intégration de données à apporté des solutions ponctuelles à des problèmes particuliers, elle ne propose pas pour autant une réponse concrète à la multiplicité des fenêtres pour l'utilisateur, à la surcharge d'information, et à la difficulté de croiser l'information provenant de plusieurs sources hétérogènes. Nous proposons un environnement de cartographie des connaissances biologiques qui facilite l'intégration et la visualisation des données biologiques. Basé sur un métamodèle simple de graphe, I²DEE (Integrated and Interactive Data Exploration Environment) se veut souple et extensible afin de répondre aux besoins des différentes approches existantes de l'intégration. Il permet un accès homogène aux principales ressources biologiques et son adaptabilité offre des réponses visuelles personnalisées à des tâches spécifiques. Après une analyse des besoins des chercheurs biologistes et l'identification des problématiques de traitement de l'information sous-jacentes, un état de l'art de l'intégration de données hétérogènes est présenté. L'approche proposée reprend les principes existants en architecture des IHM et en cartographie géographique. L'environnement I2DEE est alors présenté à partir de son architecture et son métamodèle. Deux modules de l'environnement sont détaillés : l'entrepôt de données biologiques et la boîte à outils graphique permettant de construire rapidement des applications adaptées. Des résultats ont été obtenus dans deux contextes applicatifs distincts : l'ingénierie terminologique et ontologique, et l'analyse de données d'expression de gènes issues de puces à ADN. Ils sont discutés et analysés en regard des objectifs initialement fixés.
|
6 |
Décrypter la réponse thérapeutique des tumeurs en intégrant des données moléculaires, pharmacologiques et cliniques à l’aide de méthodes statistiques et informatiques / Deciphering Tumor Therapeutic Response by Integrating Molecular, Pharmacological and Clinical Data Using Statistical and Computational MethodsCarene, Dimitri 19 December 2019 (has links)
Le cancer est la cause la plus fréquente de décès dans le monde, avec 8,2 millions de décès par an. Des études génomiques à grande échelle ont montré que chaque tumeur est caractérisée par un profil génomique unique, conduisant au développement de la médecine de précision, où le traitement est adapté aux altérations génomiques de la tumeur du patient. Dans le cancer du sein précoce HR+/HER2-, les caractéristiques clinicopathologiques des patientes, bien qu’elles aient une valeur pronostique claire, ne sont pas suffisantes pour expliquer entièrement le risque de rechute à distance. L'objectif principal de ce projet de thèse était de déterminer les altérations génomiques impliquées dans la rechute à distance, en plus des paramètres cliniques des patientes, en utilisant des méthodes statistiques et informatiques. Ce projet a été réalisé à partir de données cliniques et génomiques (nombre de copies et mutations) issues des études PACS04 et METABRIC.Dans la première partie de mon projet de thèse, j’ai tout d’abord évalué la valeur pronostique du nombre de copies de gènes prédéfinis (FGFR1, Fibroblast Growth Factor Receptor 1 ; CCND1, Cyclin D1 ; ZNF217, Zinc Finger protein 217 ; ERBB2 ou HER2, Humain Epidermal Growth Factor) ainsi qu’un panel de mutations de gènes « driver ». Les résultats de l’étude PACS04 ont montrés que l’amplification de FGFR1 augmente le risque de rechute à distance alors que les mutations de MAP3K1 diminuent le risque de rechute. Ensuite, un score génomique fondé sur FGFR1 et MAP3K1 a été créé et a permis de déceler trois niveaux de risques de rechute à distance : risque faible (patientes ayant une mutation du gène MAP3K1), risque modéré (patientes n’ayant pas d’altération du nombre de copies de FGFR1 et n’ayant pas de mutation de MAP3K1) et risque élevé (patientes ayant une amplification de FGFR1 et n’ayant pas de mutation de MAP3K1). Enfin, ce score génomique a été validé sur une base de données publique, METABRIC. Dans la seconde partie de mon projet de thèse, de nouveaux biomarqueurs génomiques pronostiques de la survie ont pu être identifiés grâce aux méthodes pénalisées de type LASSO, prenant en compte la structure en bloc des données.Mots-clés : Altération du nombre de copies, mutations, cancer du sein, biomarqueurs, méthode de sélection de variables, réduction de dimension, modèle de Cox / Cancer is the most frequent cause of death in the world, with 8.2 million death / year. Large-scale genome studies have shown that each cancer is characterized by a unique genomic profile. This has led to the development of precision medicine, which aims at targeting treatment using tumor genomic alterations that are patient-specific. In hormone-receptor positive/human epidermal growth factor receptor-2 negative early breast cancer, clinicopathologic characteristics are not sufficient to fully explain the risk of distant relapse, despite their well-established prognostic value. The main objective of this thesis project was to use statistical and computational methods to assess to what extent genomic alterations are involved in distant breast cancer relapse in addition to classic prognostic clinicopathologic parameters. This project used clinical and genomic data (i.e., copy numbers and driver gene mutations) from the PACS04 and METABRIC trial.In the first part of my thesis project, I first evaluated prognostic value of copy numbers of predefined genes including FGFR1, Fibroblast Growth Factor Receptor 1; CCND1, Cyclin D1; ZNF217, Zinc Finger Protein 217; ERBB2 or HER2, Human Epidermal Growth Factor, as well as a panel of driver gene mutations. Results from the PACS04 trial showed that FGFR1 amplification increases the risk of distant relapse, whereas mutations of MAP3K1 decrease the risk of relapse. Second, a genomic score based on FGFR1 and MAP3K1, allowed to identify three levels of risk of distant relapse: low risk (patients with a MAP3K1 mutation), moderate risk (patients without FGFR1 copy number aberration and without MAP3K1 mutation) and high risk (patients with FGFR1 amplification and without MAP3K1 mutation). Finally, this genomic score was validated in METABRIC, a publicly available database. In the second part of my thesis project, new prognostic genomic biomarkers of survival were identified using penalized methods of LASSO type, taking into account the block structure of the data.Keywords: Copy number aberrations (CNA), mutations, breast cancer (BC), biomarkers, variable selection methods, dimension reduction, cox regression
|
7 |
Interactive mapping specification and repairing in the presence of policy views / Spécification et réparation interactive de mappings en présence de polices de sécuritéComignani, Ugo 19 September 2019 (has links)
La migration de données entre des sources aux schémas hétérogènes est un domaine en pleine croissance avec l'augmentation de la quantité de données en accès libre, et le regroupement des données à des fins d'apprentissage automatisé et de fouilles. Cependant, la description du processus de transformation des données d'une instance source vers une instance définie sur un schéma différent est un processus complexe même pour un utilisateur expert dans ce domaine. Cette thèse aborde le problème de la définition de mapping par un utilisateur non expert dans le domaine de la migration de données, ainsi que la vérification du respect par ce mapping des contraintes d'accès ayant été définies sur les données sources. Pour cela, dans un premier temps nous proposons un système dans lequel l'utilisateur fournit un ensemble de petits exemples de ses données, et est amené à répondre à des questions booléennes simples afin de générer un mapping correspondant à ses besoins. Dans un second temps, nous proposons un système permettant de réécrire le mapping produit de manière à assurer qu'il respecte un ensemble de vues de contrôle d'accès définis sur le schéma source du mapping. Plus précisément, le premier grand axe de cette thèse est la formalisation du problème de la définition interactive de mappings, ainsi que la description d'un cadre formel pour la résolution de celui-ci. Cette approche formelle pour la résolution du problème de définition interactive de mappings est accompagnée de preuves de bonnes propriétés. A la suite de cela, basés sur le cadre formel défini précédemment, nous proposons des algorithmes permettant de résoudre efficacement ce problème en pratique. Ces algorithmes visent à réduire le nombre de questions auxquelles l'utilisateur doit répondre afin d'obtenir un mapping correspondant à ces besoins. Pour cela, les mappings possibles sont ordonnés dans des structures de treillis imbriqués, afin de permettre un élagage efficace de l'espace des mappings à explorer. Nous proposons également une extension de cette approche à l'utilisation de contraintes d'intégrité afin d'améliorer l’efficacité de l'élagage. Le second axe majeur vise à proposer un processus de réécriture de mapping qui, étant donné un ensemble de vues de contrôle d'accès de référence, permet d'assurer que le mapping réécrit ne laisse l'accès à aucune information n'étant pas accessible via les vues de contrôle d'accès. Pour cela, nous définissons un protocole de contrôle d'accès permettant de visualiser les informations accessibles ou non à travers un ensemble de vues de contrôle d'accès. Ensuite, nous décrivons un ensemble d'algorithmes permettant la réécriture d'un mapping en un mapping sûr vis-à-vis d'un ensemble de vues de contrôle d'accès. Comme précédemment, cette approche est complétée de preuves de bonnes propriétés. Afin de réduire le nombre d'interactions nécessaires avec l'utilisateur lors de la réécriture d'un mapping, une approche permettant l'apprentissage des préférences de l'utilisateur est proposée, cela afin de permettre le choix entre un processus interactif ou automatique. L'ensemble des algorithmes décrit dans cette thèse ont fait l'objet d'un prototypage et les expériences réalisées sur ceux-ci sont présentées dans cette thèse / Data exchange between sources over heterogeneous schemas is an ever-growing field of study with the increased availability of data, oftentimes available in open access, and the pooling of such data for data mining or learning purposes. However, the description of the data exchange process from a source to a target instance defined over a different schema is a cumbersome task, even for users acquainted with data exchange. In this thesis, we address the problem of allowing a non-expert user to spec- ify a source-to-target mapping, and the problem of ensuring that the specified mapping does not leak information forbidden by the security policies defined over the source. To do so, we first provide an interactive process in which users provide small examples of their data, and answer simple boolean questions in order to specify their intended mapping. Then, we provide another process to rewrite this mapping in order to ensure its safety with respect to the source policy views. As such, the first main contribution of this thesis is to provide a formal definition of the problem of interactive mapping specification, as well as a formal resolution process for which desirable properties are proved. Then, based on this formal resolution process, practical algorithms are provided. The approach behind these algorithms aims at reducing the number of boolean questions users have to answers by making use of quasi-lattice structures to order the set of possible mappings to explore, allowing an efficient pruning of the space of explored mappings. In order to improve this pruning, an extension of this approach to the use of integrity constraints is also provided. The second main contribution is a repairing process allowing to ensure that a mapping is “safe” with respect to a set of policy views defined on its source schema, i.e., that it does not leak sensitive information. A privacy-preservation protocol is provided to visualize the information leaks of a mapping, as well as a process to rewrite an input mapping into a safe one with respect to a set of policy views. As in the first contribution, this process comes with proofs of desirable properties. In order to reduce the number of interactions needed with the user, the interactive part of the repairing process is also enriched with the possibility of learning which rewriting is preferred by users, in order to obtain a completely automatic process. Last but not least, we present extensive experiments over the open source prototypes built from two contributions of this thesis
|
8 |
Analyse intégrée de données de génomique et d’imagerie pour le diagnostic et le suivi du gliome malin chez l’enfant / Integrated analysis of genomic and imaging data dedicated to the diagnosis and follow-up of pediatric high grade gliomaPhilippe, Cathy 08 December 2014 (has links)
Les tumeurs cérébrales malignes sont la première cause de mortalité par cancer chez l’enfant avec une survie médiane de 12 à 14 mois et une survie globale à 5 ans de 20%, pour les gliomes de haut grade. Ce travail de thèse propose des méthodes innovantes pour l’analyse de blocs de données de génomiques, dans le but d’accroître les connaissances biologiques sur ces tumeurs. Les méthodes proposées étendent les travaux de Tenenhaus et al (2011), introduisant le cadre statistique général : Regularized Generalized Canonical Correlation Analysis (RGCCA). Dans un premier temps, nous étendons RGCCA à la gestion de données en grande dimension via une écriture duale de l’algorithme initial (KGCCA). Dans un deuxième temps, la problématique de la sélection de variables dans un contexte multi-Blocs est étudiée. Nous en proposons une solution avec la méthode SGCCA, qui pénalise la norme L1 des poids des composantes. Dans un troisième temps, nous nous intéressons à la nature des liens entre blocs avec deux autres adaptations. D’une part, la régression logistique multi-Blocs (multiblog) permet de prédire une variable binaire, comme la réponse à un traitement. D’autre part, le modèle de Cox multi-Blocs (multiblox) permet d’évaluer, par exemple, le risque instantané de rechute. Enfin, nous appliquons ces méthodes à l’analyse conjointe des données de transcriptome et d’aberrations du nombre de copies, acquises sur une cohorte de 53 jeunes patients avec un gliome de haut grade primaire. Les résultats sont décrits dans le dernier chapitre du manuscrit. / Cerebral malignant tumors are the leading cause of death among pediatric cancers with a median survival from 12 to 14 months and an overall survival of 20% at 5 years for high grade gliomas. This work proposes some innovative methods for the analysis of heterogeneous genomic multi-Block data, with the main objective of increasing biological knowledge about such tumors. These methods extend works of Tenenhaus and Tenenhaus (2011), who introduce Regularized Generalized Canonical Correlation Analysis (RGCCA) as a general statistical framework for multi-Block data analysis. As a first step, we extended RGCCA to handle large-Scale data with kernel methods (KGCCA). As a second step, SGCCA for variable selection within the RGCCA context is studied and leads to an additional constraint on the L1-Norm of the weight vectors. Then, as a third step, we focused on the nature of the links between blocks, with 2 other developments. On one hand, multi-Block logistic regression (multiblog) enables to predict a binary variable, such as response to treatment. On the other hand, the Cox model for multi-Block data (multiblox) enables the assessment of the instant risk, for instance, of relapse. We applied these methods to the joint analysis of Gene Expression and Copy Number Aberrations, acquired on a cohort of 53 young patients with a primary High Grade Glioma. Results are detailed in the last chapter of this work.
|
9 |
Migration et enrichissement sémantique d’entités culturelles / Migration and Semantic Enrichment of Cultural EntitiesDecourselle, Joffrey 28 September 2018 (has links)
De nombreux efforts ont été faits ces dernières années pour faciliter la gestion et la représentation des entités culturelles. Toutefois, il existe encore un grand nombre de systèmes souvent isolés et encore utilisés dans les institutions culturelles reposant sur des modèles non sémantiques qui rendent difficile la validation et l’enrichissement des données. Cette thèse a pour but de proposer de nouvelles solutions pour améliorer la représentation et l’enrichissement sémantique de données culturelles en utilisant les principes du Web Sémantique. Pour ce faire, la recherche est focalisée d’une part sur l’adoption de modèles plus sémantiques comme selon les principes de FRBR qui permet de représenter des familles bibliographiques complexes en utilisant un modèle entités associations avec différents niveaux d’abstraction. Toutefois, la qualité d’une telle transformation est cruciale et c’est pourquoi des améliorations doivent être faites au niveau de la configuration et de l’évaluation d’un tel processus. En parallèle, la thèse cherche à profiter de ces nouveaux modèles sémantiques pour faciliter l’interconnexion des données avec des sources externes comme celles du Linked Open Data ou des sources moins structurées (Sites Web, Flux). Cela doit permettre de générer des bases de connaissances thématiques plus en accord avec les besoins des utilisateurs. Cependant, l’agrégation d’informations depuis des sources hétérogènes implique des étapes d’alignement à la fois au niveau du schéma et au niveau des entités / Many efforts have been done these last two decades to facilitate the management and representation of cultural heritage data. However, many systems used in cultural institutions are still based on flat models and are generally isolated which prevents any reuse or validation of information. This Ph.D. aims at proposing new solutions for enhancing the representation and enrichment of cultural entities using the Semantic Web technologies. This work consists in two major steps to reach this objective. On the one hand, the research is focused on the metadata migration process to transform the schema of existing knowledge catalogs to new semantic models. This study is based on a real-world case study using the concepts from the Functional Requirements for Bibliographic Records (FRBR) which allows to generate graph-based knowledge bases. Yet, the quality of such a migration is the cornerstone for a successful adoption. Thus, several challenges related to the tuning and the evaluation of such a process must be faced. On the other hand, the research aims at taking advantage of these semantic models to facilitate the linkage of information with external and structured sources (e.g., Linked Open Data) and extracting additional information from other sources (e.g., microblogging) to build a new generation of thematic knowledge bases according to the user needs. However, in this case, the aggregation of information from heterogeneous sources requires additional steps to match and merge both correspondences at schema and instance level
|
10 |
Une approche sémantique pour l’exploitation de données environnementales : application aux données d’un observatoire / A semantic-based approach to exploit environmental data : application to an observatory’s dataTran, Ba Huy 23 November 2017 (has links)
La nécessité de collecter des observations sur une longue durée pour la recherche sur des questions environnementales a entrainé la mise en place de Zones Ateliers par le CNRS. Ainsi, depuis plusieurs années, de nombreuses bases de données à caractère spatio-temporel sont collectées par différentes équipes de chercheurs. Afin de faciliter les analyses transversales entre différentes observations, il est souhaitable de croiser les informations provenant de ces sources de données. Néanmoins, chacune de ces sources est souvent construite de manière indépendante de l'une à l'autre, ce qui pose des problèmes dans l'analyse et l'exploitation. De ce fait, cette thèse se propose d'étudier les potentialités des ontologies à la fois comme objets de modélisation, d'inférence, et d'interopérabilité. L'objectif est de fournir aux experts du domaine une méthode adaptée permettant d'exploiter l'ensemble de données collectées. Étant appliquées dans le domaine environnemental, les ontologies doivent prendre en compte des caractéristiques spatio-temporelles de ces données. Vu le besoin d'une modélisation des concepts et des opérateurs spatiaux et temporaux, nous nous appuyons sur la solution de réutilisation des ontologies de temps et de l'espace. Ensuite, une approche d'intégration de données spatio-temporelles accompagnée d'un mécanisme de raisonnement sur leurs relations a été introduite. Enfin, les méthodes de fouille de données ont été adoptées aux données spatio-temporelles sémantiques pour découvrir de nouvelles connaissances à partir de la base de connaissances. L'approche a ensuite été mise en application au sein du prototype Geminat qui a pour but d'aider à comprendre les pratiques agricoles et leurs relations avec la biodiversité dans la zone atelier Plaine et Val de Sèvre. De l'intégration de données à l'analyse de connaissances, celui-ci offre les éléments nécessaires pour exploiter des données spatio-temporelles hétérogènes ainsi qu'en extraire de nouvelles connaissances. / The need to collect long-term observations for research on environmental issues led to the establishment of "Zones Ateliers" by the CNRS. Thus, for several years, many databases of a spatio-temporal nature are collected by different teams of researchers. To facilitate transversal analysis of different observations, it is desirable to cross-reference information from these data sources. Nevertheless, these sources are constructed independently of each other, which raise problems of data heterogeneity in the analysis.Therefore, this thesis proposes to study the potentialities of ontologies as both objects of modeling, inference, and interoperability. The aim is to provide experts in the field with a suitable method for exploiting heterogeneous data. Being applied in the environmental domain, ontologies must take into account the spatio-temporal characteristics of these data. As the need for modeling concepts and spatial and temporal operators, we rely on the solution of reusing the ontologies of time and space. Then, a spatial-temporal data integration approach with a reasoning mechanism on the relations of these data has been introduced. Finally, data mining methods have been adapted to spatio-temporal RDF data to discover new knowledge from the knowledge-base. The approach was then applied within the Geminat prototype, which aims to help understand farming practices and their relationships with the biodiversity in the "zone atelier Plaine and Val de Sèvre". From data integration to knowledge analysis, it provides the necessary elements to exploit heterogeneous spatio-temporal data as well as to discover new knowledge.
|
Page generated in 0.1224 seconds