Spelling suggestions: "subject:"eeb sémantique"" "subject:"beb sémantique""
61 |
Traitement et raisonnement distribués des flux RDF / Distributed RDF stream processing and reasoningRen, Xiangnan 19 November 2018 (has links)
Le traitement en temps réel des flux de données émanant des capteurs est devenu une tâche courante dans de nombreux scénarios industriels. Dans le contexte de l'Internet des objets (IoT), les données sont émises par des sources de flux hétérogènes, c'est-à-dire provenant de domaines et de modèles de données différents. Cela impose aux applications de l'IoT de gérer efficacement l'intégration de données à partir de ressources diverses. Le traitement des flux RDF est dès lors devenu un domaine de recherche important. Cette démarche basée sur des technologies du Web Sémantique supporte actuellement de nombreuses applications innovantes où les notions de temps réel et de raisonnement sont prépondérantes. La recherche présentée dans ce manuscrit s'attaque à ce type d'application. En particulier, elle a pour objectif de gérer efficacement les flux de données massifs entrants et à avoir des services avancés d’analyse de données, e.g., la détection d’anomalie. Cependant, un moteur de RDF Stream Processing (RSP) moderne doit prendre en compte les caractéristiques de volume et de vitesse rencontrées à l'ère du Big Data. Dans un projet industriel d'envergure, nous avons découvert qu'un moteur de traitement de flux disponible 24/7 est généralement confronté à un volume de données massives, avec des changements dynamiques de la structure des données et les caractéristiques de la charge du système. Pour résoudre ces problèmes, nous proposons Strider, un moteur de traitement de flux RDF distribué, hybride et adaptatif qui optimise le plan de requête logique selon l’état des flux de données. Strider a été conçu pour garantir d'importantes propriétés industrielles telles que l'évolutivité, la haute disponibilité, la tolérance aux pannes, le haut débit et une latence acceptable. Ces garanties sont obtenues en concevant l'architecture du moteur avec des composants actuellement incontournables du Big Data: Apache Spark et Apache Kafka. De plus, un nombre croissant de traitements exécutés sur des moteurs RSP nécessitent des mécanismes de raisonnement. Ils se traduisent généralement par un compromis entre le débit de données, la latence et le coût computationnel des inférences. Par conséquent, nous avons étendu Strider pour prendre en charge la capacité de raisonnement en temps réel avec un support d'expressivité d'ontologies en RDFS + (i.e., RDFS + owl:sameAs). Nous combinons Strider avec une approche de réécriture de requêtes pour SPARQL qui bénéficie d'un encodage intelligent pour les bases de connaissances. Le système est évalué selon différentes dimensions et sur plusieurs jeux de données, pour mettre en évidence ses performances. Enfin, nous avons exploré le raisonnement du flux RDF dans un contexte d'ontologies exprimés avec un fragment d'ASP (Answer Set Programming). La considération de cette problématique de recherche est principalement motivée par le fait que de plus en plus d'applications de streaming nécessitent des tâches de raisonnement plus expressives et complexes. Le défi principal consiste à gérer les dimensions de débit et de latence avec des méthologies efficaces. Les efforts récents dans ce domaine ne considèrent pas l'aspect de passage à l'échelle du système pour le raisonnement des flux. Ainsi, nous visons à explorer la capacité des systèmes distribuées modernes à traiter des requêtes d'inférence hautement expressive sur des flux de données volumineux. Nous considérons les requêtes exprimées dans un fragment positif de LARS (un cadre logique temporel basé sur Answer Set Programming) et proposons des solutions pour traiter ces requêtes, basées sur les deux principaux modèles d’exécution adoptés par les principaux systèmes distribuées: Bulk Synchronous Parallel (BSP) et Record-at-A-Time (RAT). Nous mettons en œuvre notre solution nommée BigSR et effectuons une série d’évaluations. Nos expériences montrent que BigSR atteint un débit élevé au-delà du million de triplets par seconde en utilisant un petit groupe de machines / Real-time processing of data streams emanating from sensors is becoming a common task in industrial scenarios. In an Internet of Things (IoT) context, data are emitted from heterogeneous stream sources, i.e., coming from different domains and data models. This requires that IoT applications efficiently handle data integration mechanisms. The processing of RDF data streams hence became an important research field. This trend enables a wide range of innovative applications where the real-time and reasoning aspects are pervasive. The key implementation goal of such application consists in efficiently handling massive incoming data streams and supporting advanced data analytics services like anomaly detection. However, a modern RSP engine has to address volume and velocity characteristics encountered in the Big Data era. In an on-going industrial project, we found out that a 24/7 available stream processing engine usually faces massive data volume, dynamically changing data structure and workload characteristics. These facts impact the engine's performance and reliability. To address these issues, we propose Strider, a hybrid adaptive distributed RDF Stream Processing engine that optimizes logical query plan according to the state of data streams. Strider has been designed to guarantee important industrial properties such as scalability, high availability, fault-tolerant, high throughput and acceptable latency. These guarantees are obtained by designing the engine's architecture with state-of-the-art Apache components such as Spark and Kafka. Moreover, an increasing number of processing jobs executed over RSP engines are requiring reasoning mechanisms. It usually comes at the cost of finding a trade-off between data throughput, latency and the computational cost of expressive inferences. Therefore, we extend Strider to support real-time RDFS+ (i.e., RDFS + owl:sameAs) reasoning capability. We combine Strider with a query rewriting approach for SPARQL that benefits from an intelligent encoding of knowledge base. The system is evaluated along different dimensions and over multiple datasets to emphasize its performance. Finally, we have stepped further to exploratory RDF stream reasoning with a fragment of Answer Set Programming. This part of our research work is mainly motivated by the fact that more and more streaming applications require more expressive and complex reasoning tasks. The main challenge is to cope with the large volume and high-velocity dimensions in a scalable and inference-enabled manner. Recent efforts in this area still missing the aspect of system scalability for stream reasoning. Thus, we aim to explore the ability of modern distributed computing frameworks to process highly expressive knowledge inference queries over Big Data streams. To do so, we consider queries expressed as a positive fragment of LARS (a temporal logic framework based on Answer Set Programming) and propose solutions to process such queries, based on the two main execution models adopted by major parallel and distributed execution frameworks: Bulk Synchronous Parallel (BSP) and Record-at-A-Time (RAT). We implement our solution named BigSR and conduct a series of evaluations. Our experiments show that BigSR achieves high throughput beyond million-triples per second using a rather small cluster of machines
|
62 |
Interopérabilité sémantique des connaissances des modèles de produits à base de features / Semantic interoperability of knowledge in feature-based CAD modelsAbdul Ghafour, Samer 09 July 2009 (has links)
Dans un environnement collaboratif de développement de produit, plusieurs acteurs, ayant différents points de vue et intervenant dans plusieurs phases du cycle de vie de produit, doivent communiquer et échanger des connaissances entre eux. Ces connaissances, existant sous différents formats hétérogènes, incluent potentiellement plusieurs concepts tels que l’historique de conception, la structure du produit, les features, les paramètres, les contraintes, et d’autres informations sur le produit. Les exigences industrielles de réduction du temps et du coût de production nécessitent l’amélioration de l’interopérabilité sémantique entre les différents processus de développement afin de surmonter ces problèmes d’hétérogénéité tant au niveau syntaxique, structurel, que sémantique. Dans le domaine de la CAO, la plupart des méthodes existantes pour l’échange de données d’un modèle de produit sont, effectivement, basées sur le transfert des données géométriques. Cependant, ces données ne sont pas suffisantes pour saisir la sémantique des données, telle que l’intention de conception, ainsi que l’édition des modèles après leur échange. De ce fait, nous nous sommes intéressés à l’échange des modèles « intelligents », autrement dit, définis en termes d’historique de construction, de fonctions intelligentes de conception appelées features, y compris les paramètres et les contraintes. L’objectif de notre thèse est de concevoir des méthodes permettant d’améliorer l’interopérabilité sémantique des systèmes CAO moyennant les technologies du Web Sémantique comme les ontologies OWL DL et le langage des règles SWRL. Nous avons donc élaboré une approche d’échange basée sur une ontologie commune de features de conception, que nous avons appelée CDFO « Common Design Features Ontology », servant d’intermédiaire entre les différents systèmes CAO. Cette approche s’appuie principalement sur deux grandes étapes. La première étape consiste en une homogénéisation des formats de représentation des modèles CAO vers un format pivot, en l’occurrence OWL DL. Cette homogénéisation sert à traiter les hétérogénéités syntaxiques entre les formats des modèles. La deuxième étape consiste à définir des règles permettant la mise en correspondance sémantique entre les ontologies d’application de CAO et notre ontologie commune. Cette méthode de mise en correspondance se base principalement, d’une part, sur la définition explicite des axiomes et des règles de correspondance permettant l’alignement des entités de différentes ontologies, et d’autre part sur la reconnaissance automatique des correspondances sémantiques supplémentaires à l’aide des capacités de raisonnement fournies par les moteurs d’inférence basés sur les logiques de description. Enfin, notre méthode de mise en correspondance est enrichie par le développement d’une méthode de calcul de similarité sémantique appropriée pour le langage OWL DL, qui repose principalement sur les composants des entités en question tels que leur description et leur contexte. / A major issue in product development is the exchange and sharing of product knowledge among many actors. This knowledge includes many concepts such as design history, component structure, features, parameters, constraints, and more. Heterogeneous tools and multiple designers are frequently involved in collaborative product development, and designers often use their own terms and definitions to represent a product design. Thus, to efficiently share design information among multiple designers, the design intent should be persistently captured and the semantics of the modeling terms should be semantically processed both by design collaborators and intelligent systems. Regarding CAD models, most of the current CAD systems provide feature-based design for the construction of solid models. Features are devised to carry, semantically, product information throughout its life cycle. Consequently, features should be maintained in a CAD model during its migration among different applications. However, existing solutions for exchanging product information are limited to the process of geometrical data, where semantics assigned to product model are completely lost during the translation process. Current standards, such as ISO 10303, known as STEP have attempted to solve this problem, but they define only syntactic data representation so that semantic data integration is not possible. Moreover, STEP does not provide a sound basis to reason with knowledge. Our research investigates the use of Semantic Web technologies, such as ontologies and rule languages; e.g. SWRL, for the exchange of “intelligent” CAD models among different systems, while maintaining the original relations among entities of the model. Thus, we have proposed an ontological approach based on the construction of a common design features ontology, used as an Interlingua for the exchange of product data. This ontology is represented formally with OWL DL. Furthermore, axioms and mapping rules are defined to achieve the semantic integration between the applications ontologies and the common ontology. The integration process relies basically on reasoning capabilities provided by description logics in order to recognize automatically additional mappings among ontologies entities. Furthermore, the mapping process is enhanced with a semantic similarity measure in order to detect similar design features. However, this will enable data analysis, as well as manage and discover implicit relationships among product data based on semantic modeling and reasoning.
|
63 |
Formalisation automatique et sémantique de règles métiers / Automatic and semantic formalization of business rulesKacfah Emani, Cheikh Hito 01 December 2016 (has links)
Cette thèse porte sur la transformation automatique et sémantique de règles métiers en des règles formelles. Ces règles métiers sont originellement rédigées sous la forme de textes en langage naturel, de tableaux et d'images. L'objectif est de mettre à la disposition des experts métiers, un ensemble de services leur permettant d'élaborer des corpus de règles métiers formelles. Le domaine de la Construction est le champ d'application de ces travaux. Disposer d'une version formelle et exécutable de ces règles métiers servira à effectuer des contrôles de conformité automatique sur les maquettes numériques des projets de construction en cours de conception.Pour cela, nous avons mis à disposition des experts métiers les deux principales contributions de cette thèse. La première est la mise sur pied d'un langage naturel contrôlé, dénommé RAINS. Il permet aux experts métiers de réécrire les règles métiers sous la forme de règles formelles. Les règles RAINS se composent de termes du vocabulaire métier et de mots réservés tels que les fonctions de comparaisons, les marques de négation et de quantification universelle et les littéraux. Chaque règle RAINS a une sémantique formelle unique qui s'appuie sur les standards du web sémantique. La seconde contribution majeure est un service de formalisation des règles métiers. Ce service implémente une approche de formalisation proposée dans le cadre de cette thèse et dénommée FORSA. Ce service propose des versions RAINS des règles métiers en langage naturel qui lui sont soumises. FORSA fait appel à des outils du traitement automatique du langage naturel et à des heuristiques. Pour évaluer FORSA, nous avons mis sur pied un benchmark adapté à la tâche de formalisation des règles métiers. Les données de ce benchmark sont issues de normes du domaine de la Construction / This thesis focuses on automatic and semantic transformation of business rules into formal rules. These business rules are originally drafted in the form of natural language text, tables and images. Our goal is to provide to business experts a set of services allowing them to develop corpora of formal business rules. We carry out this work in the field of building engineering construction. Having formal and executable versions of the business rules enables to perform automatic compliance checking of digital mock-ups of construction projects under design.For this we made available to business experts, the two main contributions of this thesis. The first is the development of a controlled natural language, called RAINS. It allows business experts to rewrite business rules in the form of formal rules. A RAINS rule consists of terms of the business vocabulary and reserved words such as comparison predicates, negation and universal quantification markers and literals. Each RAINS rule has a unique formal semantics which is based on the standards of the Semantic Web. The second major contribution is a service for formalization of business rules. This service implements a formalized approach proposed in this thesis and called FORSA. This service offers RAINS versions of natural language business rules submitted to it. FORSA uses natural language processing tools and heuristics. To evaluate FORSA, we have set up a benchmark adapted to the formalization of business rules task. The dataset from this benchmark are from norms in the field of Construction
|
64 |
Using Background Knowledge to Enhance Biomedical Ontology Matching / Utilisation des ressources de connaissances externes pour améliorer l'alignement d'ontologies biomédicalesAnnane, Amina 29 October 2018 (has links)
Les sciences de la vie produisent de grandes masses de données (par exemple, des essais cliniques et des articles scientifiques). L'intégration et l'analyse des différentes bases de données liées à la même question de recherche, par exemple la corrélation entre phénotypes et génotypes, sont essentielles pour découvrir de nouvelles connaissances. Pour cela, la communauté des sciences de la vie a adopté les techniques du Web sémantique pour réaliser l'intégration et l'interopérabilité des données, en particulier les ontologies. En effet, les ontologies représentent la brique de base pour représenter et partager la quantité croissante de données sur le Web. Elles fournissent un vocabulaire commun pour les humains, et des définitions d'entités formelles pour les machines.Un grand nombre d'ontologies et de terminologies biomédicales a été développé pour représenter et annoter les différentes bases de données existantes. Cependant, celles qui sont représentées avec différentes ontologies qui se chevauchent, c'est à dire qui ont des parties communes, ne sont pas interopérables. Il est donc crucial d'établir des correspondances entre les différentes ontologies utilisées, ce qui est un domaine de recherche actif connu sous le nom d'alignement d'ontologies.Les premières méthodes d'alignement d'ontologies exploitaient principalement le contenu lexical et structurel des ontologies à aligner. Ces méthodes sont moins efficaces lorsque les ontologies à aligner sont fortement hétérogènes lexicalement, c'est à dire lorsque des concepts équivalents sont décrits avec des labels différents. Pour pallier à ce problème, la communauté d'alignement d'ontologies s'est tournée vers l'utilisation de ressources de connaissance externes en tant que pont sémantique entre les ontologies à aligner. Cette approche soulève plusieurs nouvelles questions de recherche, notamment : (1) la sélection des ressources de connaissance à utiliser, (2) l'exploitation des ressources sélectionnées pour améliorer le résultat d'alignement. Plusieurs travaux de recherche ont traité ces problèmes conjointement ou séparément. Dans notre thèse, nous avons fait une revue systématique et une comparaison des méthodes proposées dans la littérature. Puis, nous nous sommes intéressés aux deux questions.Les ontologies, autres que celles à aligner, sont les ressources de connaissance externes (Background Knowledge : BK) les plus utilisées. Les travaux apparentés sélectionnent souvent un ensemble d'ontologies complètes en tant que BK même si, seuls des fragments des ontologies sélectionnées sont réellement efficaces pour découvrir de nouvelles correspondances. Nous proposons une nouvelle approche qui sélectionne et construit une ressource de connaissance à partir d'un ensemble d'ontologies. La ressource construite, d'une taille réduite, améliore, comme nous le démontrons, l'efficience et l'efficacité du processus d'alignement basé sur l'exploitation de BK.L'exploitation de BK dans l'alignement d'ontologies est une épée à double tranchant : bien qu'elle puisse augmenter le rappel (i.e., aider à trouver plus de correspondances correctes), elle peut réduire la précision (i.e., générer plus de correspondances incorrectes). Afin de faire face à ce problème, nous proposons deux méthodes pour sélectionner les correspondances les plus pertinentes parmi les candidates qui se basent sur : (1) un ensemble de règles et (2) l'apprentissage automatique supervisé. Nous avons expérimenté et évalué notre approche dans le domaine biomédical, grâce à la profusion de ressources de connaissances en biomédecine (ontologies, terminologies et alignements existants). Nous avons effectué des expériences intensives sur deux benchmarks de référence de la campagne d'évaluation de l'alignement d'ontologie (OAEI). Nos résultats confirment l'efficacité et l'efficience de notre approche et dépassent ou rivalisent avec les meilleurs résultats obtenus. / Life sciences produce a huge amount of data (e.g., clinical trials, scientific articles) so that integrating and analyzing all the datasets related to a given research question like the correlation between phenotypes and genotypes, is a key element for knowledge discovery. The life sciences community adopted Semantic Web technologies to achieve data integration and interoperability, especially ontologies which are the key technology to represent and share the increasing amount of data on the Web. Indeed, ontologies provide a common domain vocabulary for humans, and formal entity definitions for machines.A large number of biomedical ontologies and terminologies has been developed to represent and annotate various datasets. However, datasets represented with different overlapping ontologies are not interoperable. It is therefore crucial to establish correspondences between the ontologies used; an active area of research known as ontology matching.Original ontology matching methods usually exploit the lexical and structural content of the ontologies to align. These methods are less effective when the ontologies to align are lexically heterogeneous i.e., when equivalent concepts are described with different labels. To overcome this issue, the ontology matching community has turned to the use of external knowledge resources as a semantic bridge between the ontologies to align. This approach arises several new issues mainly: (1) the selection of these background resources, (2) the exploitation of the selected resources to enhance the matching results. Several works have dealt with these issues jointly or separately. In our thesis, we made a systematic review and historical evaluation comparison of state-of-the-art approaches.Ontologies, others than the ones to align, are the most used background knowledge resources. Related works often select a set of complete ontologies as background knowledge, even if, only fragments of the selected ontologies are actually effective for discovering new mappings. We propose a novel BK-based ontology matching approach that selects and builds a knowledge resource with just the right concepts chosen from a set of ontologies. The conducted experiments showed that our BK selection approach improves efficiency without loss of effectiveness.Exploiting background knowledge resources in ontology matching is a double-edged sword: while it may increase recall (i.e., retrieve more correct mappings), it may lower precision (i.e., produce more incorrect mappings). We propose two methods to select the most relevant mappings from the candidate ones: (1) based on a set of rules and (2) with Supervised Machine Learning. We experiment and evaluate our approach in the biomedical domain, thanks to the profusion of knowledge resources in biomedicine (ontologies, terminologies and existing alignments).We evaluated our approach with extensive experiments on two Ontology Alignment Evaluation Initiative (OAEI) benchmarks. Our results confirm the effectiveness and efficiency of our approach and overcome or compete with state-of-the-art matchers exploiting background knowledge resources.
|
65 |
Towards RDF normalization / Vers une normalisation RDFTicona Herrera, Regina Paola 06 July 2016 (has links)
Depuis ces dernières décennies, des millions d'internautes produisent et échangent des données sur le Web. Ces informations peuvent être structurées, semi-structurées et/ou non-structurées, tels que les blogs, les commentaires, les pages Web, les contenus multimédias, etc. Afin de faciliter la publication ainsi que l'échange de données, le World Wide Web Consortium (ou W3C) a défini en 1999 le standard RDF. Ce standard est un modèle qui permet notamment de structurer une information sous la forme d'un réseau de données dans lequel il est possible d'y attacher des descriptions sémantiques. Ce modèle permet donc d'améliorer l'interopérabilité entre différentes applications exploitant des données diverses et variées présentes sur le Web.Actuellement, une grande quantité de descriptions RDF est disponible en ligne, notamment grâce à des projets de recherche qui traitent du Web de données liées, comme par exemple DBpedia et LinkedGeoData. De plus, de nombreux fournisseurs de données ont adopté les technologies issues de cette communauté du Web de données en partageant, connectant, enrichissant et publiant leurs informations à l'aide du standard RDF, comme les gouvernements (France, Canada, Grande-Bretagne, etc.), les universités (par exemple Open University) ainsi que les entreprises (BBC, CNN, etc.). Il en résulte que de nombreux acteurs actuels (particuliers ou organisations) produisent des quantités gigantesques de descriptions RDF qui sont échangées selon différents formats (RDF/XML, Turtle, N-Triple, etc.). Néanmoins, ces descriptions RDF sont souvent verbeuses et peuvent également contenir de la redondance d'information. Ceci peut concerner à la fois leur structure ou bien leur sérialisation (ou le format) qui en plus souffre de multiples variations d'écritures possibles au sein d'un même format. Tous ces problèmes induisent des pertes de performance pour le stockage, le traitement ou encore le chargement de ce type de descriptions. Dans cette thèse, nous proposons de nettoyer les descriptions RDF en éliminant les données redondantes ou inutiles. Ce processus est nommé « normalisation » de descriptions RDF et il est une étape essentielle pour de nombreuses applications, telles que la similarité entre descriptions, l'alignement, l'intégration, le traitement des versions, la classification, l'échantillonnage, etc. Pour ce faire, nous proposons une approche intitulée R2NR qui à partir de différentes descriptions relatives à une même information produise une et une seule description normalisée qui est optimisée en fonction de multiples paramètres liés à une application cible. Notre approche est illustrée en décrivant plusieurs cas d'étude (simple pour la compréhension mais aussi plus réaliste pour montrer le passage à l'échelle) nécessitant l'étape de normalisation. La contribution de cette thèse peut être synthétisée selon les points suivants :i. Produire une description RDF normalisée (en sortie) qui préserve les informations d'une description source (en entrée),ii. Éliminer les redondances et optimiser l'encodage d'une description normalisée,iii. Engendrer une description RDF optimisée en fonction d'une application cible (chargement rapide, stockage optimisée...),iv. Définir de manière complète et formelle le processus de normalisation à l'aide de fonctions, d'opérateurs, de règles et de propriétés bien fondées, etc.v. Fournir un prototype RDF2NormRDF (avec deux versions : en ligne et hors ligne) permettant de tester et de valider l'efficacité de notre approche.Afin de valider notre proposition, le prototype RDF2NormRDF a été utilisé avec une batterie de tests. Nos résultats expérimentaux ont montré des mesures très encourageantes par rapport aux approches existantes, notamment vis-à-vis du temps de chargement ou bien du stockage d'une description normalisée, tout en préservant le maximum d'informations. / Over the past three decades, millions of people have been producing and sharing information on the Web, this information can be structured, semi-structured, and/or non-structured such as blogs, comments, Web pages, and multimedia data, etc., which require a formal description to help their publication and/or exchange on the Web. To help address this problem, the Word Wide Web Consortium (or W3C) introduced in 1999 the RDF standard as a data model designed to standardize the definition and use of metadata, in order to better describe and handle data semantics, thus improving interoperability, and scalability, and promoting the deployment of new Web applications. Currently, billions of RDF descriptions are available on the Web through the Linked Open Data cloud projects (e.g., DBpedia and LinkedGeoData). Also, several data providers have adopted the principles and practices of the Linked Data to share, connect, enrich and publish their information using the RDF standard, e.g., Governments (e.g., Canada Government), universities (e.g., Open University) and companies (e.g., BBC and CNN). As a result, both individuals and organizations are increasingly producing huge collections of RDF descriptions and exchanging them through different serialization formats (e.g., RDF/XML, Turtle, N-Triple, etc.). However, many available RDF descriptions (i.e., graphs and serializations) are noisy in terms of structure, syntax, and semantics, and thus may present problems when exploiting them (e.g., more storage, processing time, and loading time). In this study, we propose to clean RDF descriptions of redundancies and unused information, which we consider to be an essential and required stepping stone toward performing advanced RDF processing as well as the development of RDF databases and related applications (e.g., similarity computation, mapping, alignment, integration, versioning, clustering, and classification, etc.). For that purpose, we have defined a framework entitled R2NR which normalizes different RDF descriptions pertaining to the same information into one normalized representation, which can then be tuned both at the graph level and at the serialization level, depending on the target application and user requirements. We illustrate this approach by introducing use cases (real and synthetics) that need to be normalized.The contributions of the thesis can be summarized as follows:i. Producing a normalized (output) RDF representation that preserves all the information in the source (input) RDF descriptions,ii. Eliminating redundancies and disparities in the normalized RDF descriptions, both at the logical (graph) and physical (serialization) levels,iii. Computing a RDF serialization output adapted w.r.t. the target application requirements (faster loading, better storage, etc.),iv. Providing a mathematical formalization of the normalization process with dedicated normalization functions, operators, and rules with provable properties, andv. Providing a prototype tool called RDF2NormRDF (desktop and online versions) in order to test and to evaluate the approach's efficiency.In order to validate our framework, the prototype RDF2NormRDF has been tested through extensive experimentations. Experimental results are satisfactory show significant improvements over existing approaches, namely regarding loading time and file size, while preserving all the information from the original description.
|
66 |
Workflows conceptuels / Conceptual workflowsCerezo, Nadia 20 December 2013 (has links)
Les workflows sont de plus en plus souvent adoptés pour la modélisation de simulations scientifiques de grande échelle, aussi bien en matière de données que de calculs. Ils profitent de l'abondance de sources de données et infrastructures de calcul distribuées. Néanmoins, la plupart des formalismes de workflows scientifiques restent difficiles à exploiter pour des utilisateurs n'ayant pas une grande expertise de l'algorithmique distribuée, car ces formalismes mélangent les processus scientifiques qu'ils modélisent avec les implémentations. Ainsi, ils ne permettent pas de distinguer entre les objectifs et les méthodes, ni de repérer les particularités d'une implémentation ou de l'infrastructure sous-jacente. Le but de ce travail est d'améliorer l'accessibilité aux workflows scientifiques et de faciliter leur création et leur réutilisation. Pour ce faire, nous proposons d'élever le niveau d'abstraction, de mettre en valeur l'expérience scientifique plutôt que les aspects techniques, de séparer les considérations fonctionnelles et non-fonctionnelles et de tirer profit des connaissances et du savoir-faire du domaine.Les principales contributions de ce travail sont : (i) un modèle de workflows scientifiques à structure flexible, sémantique et multi-niveaux appelé "Conceptual Workflow Model", qui permet aux utilisateurs de construire des simulations indépendamment de leur implémentation afin de se concentrer sur les objectifs et les méthodes scientifiques; et (ii) un processus de transformation assisté par ordinateur pour aider les utilisateurs à convertir leurs modèles de simulation de haut niveau en workflows qui peuvent être délégués à des systèmes externes pour exécution. / Workflows are increasingly adopted to describe large-scale data- and compute-intensive scientific simulations which leverage the wealth of distributed data sources and computing infrastructures. Nonetheless, most scientific workflow formalisms remain difficult to exploit for scientists who are neither experts nor enthusiasts of distributed computing, because they mix the scientific processes they model with their implementations, blurring the lines between what is done and how it is done, as well as between what is and what is not infrastructure-dependent. Our objective is to improve scientific workflow accessibility and ease scientific workflow design and reuse, by elevating the abstraction level, emphasizing the scientific experiment over technicalities, ensuring proper separation between functional and non-functional concerns and leveraging domain knowledge and know-how. The main contributions of this work are: (i) a multi-level structurally flexible semantic scientific workflow model, called the Conceptual Workflow Model, which lets users design simulations at a computation-independent level and focus on domain goals and methods; and (ii) a computer-assisted Transformation Process relying on knowledge engineering technologies to help users transform their high-level simulation models into executable workflow artifacts which can be delegated to third-party frameworks for enactment.
|
67 |
Aide à la création et à l'exploitation de réglementations basée sur les modèles et techniques du Web sémantique / Semantic web models to support the creation of technical regulatory documents in building industryBouzidi, Khalil Riad 11 September 2013 (has links)
Les réglementations concernant l’industrie de la construction deviennent de plus en plus complexes et touchent plus d’un domaine à la fois. Elles portent sur les produits, les composants et l'exécution des projets. Elles jouent aussi un rôle important pour garantir la qualité d'un bâtiment, ses caractéristiques et minimiser son impact environnemental. Depuis 30 ans, le CSTB prouve son savoir-faire en la matière au travers du développement du REEF, l’encyclopédie complète des textes techniques et réglementaires de la construction. Dans le cadre d’une collaboration entre le CSTB et le laboratoire I3S, nous avons travaillé à la formalisation et au traitement automatisé des informations technico-réglementaires contenues dans le REEF. Nous avons mis en œuvre notre approche pour aider à la création de nouveaux Avis Techniques. Il s'agit de préciser comment ils sont rédigés et comment standardiser leur structure grâce à la mise en œuvre de services sémantiques adaptés. Nous avons réussi à identifier et à comprendre les problèmes liés à la rédaction d'avis techniques et nous nous sommes focalisés sur le renseignement des dossiers techniques par les industriels. Nos contributions sont les suivantes : Nous avons construit manuellement une ontologie du domaine, qui définit les principaux concepts impliqués dans l’élaboration des Avis Technique. Cette ontologie appelée "OntoDT" est couplée avec le thésaurus du projet REEF. Nous l’avons définie à partir de l’étude des dossiers techniques existants, du thesaurus REEF et en interviewant les instructeurs du CSTB. Nous utilisons conjointement les standards SBVR et SPARQL pour reformuler, à la fois dans un langage contrôlé et dans un langage formel, les contraintes réglementaires présentes dans les Guides pratiques. SBVR représente une assurance de la qualité du texte des contraintes réglementaires présentées à l’utilisateur et SPARQL permet l’automatisation de la vérification de ces contraintes. Ces deux représentations reposent sur l’ontologie de domaine que nous avons développée. Nous intégrons des connaissances expertes sur le processus même de vérification des dossiers techniques. Nous avons organisé en différents processus les requêtes SPARQL représentant des contraintes réglementaires. A chaque composant intervenant dans un dossier technique correspond un processus de vérification de sa conformité à la réglementation en vigueur. Les processus sont représentés de manière déclarative en RDF et un moteur de processus interprète ces descriptions RDF pour ordonner et déclencher l’exécution des requêtes nécessaires à la vérification d’un dossier technique particulier. Enfin, nous représentons de façon déclarative en RDF l’association des représentations SBVR et SPARQL des réglementations et nous utilisons ces annotations pour produire à l’utilisateur un rapport de conformité en langue naturelle pour l’assister dans la rédaction d’un avis technique. / Regulations in the Building industry are becoming increasingly complex and involve more than one technical area. They cover products, components and project implementation. They also play an important role to ensure the quality of a building, and to minimize its environmental impact. For more than 30 years, CSTB has proved its expertise in this field through the development of the complete encyclopedia of French technical and regulatory texts in the building domain: the REEF. In the framework of collaboration between CSTB and the I3S laboratory, we are carrying on research on the acquisition of knowledge from the technical and regulatory information contained in the REEF and the automated processing of this knowledge with the final goal of assisting professionals in the use of these texts and the creation of new texts. We are implementing this work in CSTB to help industrials in the writing of Technical Assessments. The problem is how to specify these assessments and standardize their structure using models and adaptive semantic services. The research communities of Knowledge Engineering and Semantic Web play a key role in providing the models and techniques relevant for our research, whose main objective is to simplify access to technical regulatory information, to support professionals in its implementation, and to facilitate the writing of new regulations while taking into account constraints expressed in the existing regulatory corpus. We focus on Technical Assessments based on technical guides capturing both regulations and knowledge of CSTB experts when producing these documents. A Technical Assessment (in French: Avis Technique or ATec) is a document containing technical information on the usability of a product, material, component or element of construction, which has an innovative character. We chose this Technical Assessment as a case study because CSTB has the mastership and a wide experience in these kinds of technical documents. We are particularly interested in the modeling of the regulatory constraints derived from the Technical Guides used to validate the Assessment. These Guides are regulatory complements offered by CSTB to the various industrials to enable easier reading of technical regulations. They collect execution details with a wide range of possible situations of implementations. Our work aims to formalize the Technical Guides in a machine-processable model to assist the creation of Technical Assessments by automating their validation. For this purpose, we first constructed a domain-ontology, which defines the main concepts involved in the Technical Guides. This ontology called “OntoDT” is coupled with domain thesauri. Several are being developed at CSTB among which one seems the most relevant by its volume and its semantic approach: the thesaurus from the REEF project. Our second contribution is the use of standard SBVR (Semantics of Business Vocabulary and Business Rules) and SPARQL to reformulate the regulatory requirements of guides both in a controlled and formal language Third, our model incorporates expert knowledge on the verification process of Technical Documents. We have organized the SPARQL queries representing regulatory constraints into several processes. Each component involved in the Technical Document corresponds to a elementary process of compliance checking. An elementary process contains a set of SPARQL queries to check the compliance of an elementary component. A full complex process for checking a Technical Document is defined recursively and automatically built as a set of elementary processes relative to the components which have their semantic definition in OntoDT. Finally, we represent in RDF the association between the SBVR rules and SPARQL queries representing the same regulatory constraints. We use annotations to produce a compliance report in natural language to assist users in the writing of Technical Assessments.
|
68 |
Sur la compilation des langages de requêtes pour le web des données : optimisation et évaluation distribuée de SPARQL / On the foundations for the compilation of web data queries : optimization and distributed evaluation of SPARQLJachiet, Louis 13 September 2018 (has links)
Ma thèse porte sur la compilation des langages de requêtes orientés web des données. Plus particulièrement, ma thèse s'intéresse à l'analyse, l'optimisation et l'évaluation distribuée d'un tel langage : SPARQL. Ma contribution principale est l'élaboration d'une méthode nouvelle particulièrement intéressante pour des requêtes contenant de la récursion ou dans le cadre d'une évaluation distribuée. Cette nouvelle méthode s'appuie sur un nouvel outil que nous introduisons : la μ-algèbre. C'est une variation de l'algèbre relationnelle équipée d'un opérateur de point fixe. Nous présentons sa syntaxe et sémantique ainsi qu'une traduction vers la μ-algèbre depuis SPARQL avec Property Paths (une fonctionnalité introduite dans le dernier standard SPARQL qui autorise une forme de récursion).Nous présentons ensuite un système de types et nous montrons comment les termes de la μ-algèbre peuvent être réécrits en d'autres termes (de sémantique équivalente) en utilisant soit des règles de réécriture provenant de l'algèbre relationnelle soit des règles nouvelles, spécifiques à la μ-algèbre. Nous démontrons la correction des nouvelles règles qui sont introduites pour réécrire les points fixes : elles permettent de pousser les filtres, les jointures ou les projections à l'intérieur des points fixes (dépendant des certaines conditions sur le terme).Nous présentons ensuite comment ces termes peuvent être évalués, d'abord de manière générale, puis en considérant le cas particulier d'une évaluation sur une plateforme distribuée. Nous présentons aussi un modèle de coût pour l'évaluation des termes. À l'aide du modèle de coût et de l'évaluateur, plusieurs termes qui sont équivalents d'un point de vue sémantiques peuvent maintenant être vus comme différentes manières d'évaluer les termes avec différents coûts estimés. Nous montrons alors que les termes qui sont considérés grâce aux nouvelles règles de réécritures que nous avons introduites, permettent une exécution plus efficace que ce qui était possible dans les autres approches existantes. Nous confirmons ce résultat théorique par une expérimentation comparant plusieurs exécuteurs sur des requêtes SPARQL contenant de la récursion.Nous avons investigué comment utiliser une plateforme de calcul distribuée (Apache Spark) pour produire un évaluateur efficace de requêtes SPARQL. Cet évaluateur s'appuie sur un fragment de la μ-algèbre, limité aux opérateurs qui ont une traduction en code Spark efficace. Le résultat de ces investigations à résultat en l'implémentation de SPARQLGX, un évaluateur SPARQL distribué en pointe par rapport à l'état de l'art.Pour finir, ma dernière contribution concerne l'estimation de la cardinalité des solutions à un terme de la μ-algèbre. Ces estimateurs sont particulièrement utiles pour l'optimisation. En effet, les modèles de coût reposent généralement sur de telles estimations pour choisir quel sera le terme le plus efficace parmi plusieurs termes équivalents. Pour cette estimation nous nous intéressons tout particulièrement au fragment conjonctif de la μ-algèbre (ce qui correspond au fragment bien connu Basic Graph Pattern de SPARQL). Notre nouvelle estimation de cardinalité s'appuie sur des statistiques sur les données et a été implémenté dans SPARQLGX. Nos expériences montrent que cette méthode permet de grandement accélérer l'évaluation de SPARQL sur SPARQLGX. / The topic of my PhD is the compilation of web data query languages. More particularly, the analysisand the distributed evaluation of a such language: SPARQL. My main contributions concern theevaluation of web data queries especially for recursive queries or for distributed settings.In this thesis, I introduce μ-algebra: it is a kind of relational algebra equipped with a fixpointoperator. I present its syntax, semantics, and a translation from SPARQL with Property Paths (anew feature of SPARQL allowing some form of recursion) to this μ-algebra.I then present a type system and show how μ-algebra terms can be rewritten to terms withequivalent semantics using either classical rewrite rules of the relational world or new rules that arespecific to this μ-algebra. We demonstrate the correctness of these new rules that are introduced tohandle the rewriting of fixpoints: they allow to push filters, joins and projections inside fixpointsor to combine several fixpoints (when some condition holds).I demonstrate how these terms could be evaluated both from a general perspective and in thespecific case of a distributed evaluation. I devise a cost model for μ-algebra terms inspired by thisevaluation. With this cost model and this evaluator, several terms that are semantically equivalentcan be seen as various Query Execution Plans (QEP) for a given query. I show that the μ-algebraand its rewrite rules allow the reach of QEP that are more efficient than all QEP considered in otherexisting approaches and confirm this by an experimental comparison of several query evaluators onSPARQL queries with recursion.I investigate the use of an efficient distributed framework (Spark) to build a fast SPARQL dis-tributed query evaluator. It is based on a fragment of μ-algebra, limited to operators that havea translation into fast Spark code. The result of this has been used to implement SPARQLGX, astate of the art distributed SPARQL query evaluator.Finally, my last contribution concerns the estimation of the cardinality of solutions to a μ-algebraterm. Such estimators are key in the optimization. Indeed, most cost models for QEP rely on suchestimators and are therefore necessary to determine the most efficient QEP. I specifically considerthe conjunctive query fragment of μ-algebra (which corresponds to the well-known Basic GraphPattern fragment of SPARQL). I propose a new cardinality estimation based on statistics about thedata and implemented the method into SPARQLGX. Experiments show that this method improvesthe performance of SPARQLGX.
|
69 |
Tisser le Web Social des Objets : Permettre une Interaction Autonome et Flexible dans l’Internet des Objets / Weaving a Social Web of Things : Enabling Autonomous and Flexible Interaction in the Internet of ThingsCiortea, Andrei-Nicolae 14 January 2016 (has links)
L’Internet des Objets (IoT) vise à créer un eco-système global et ubiquitaire composé d’un grand nombre d’objets hétérogènes. Afin d’atteindre cette vision, le World Wide Web apparaît comme un candidat adapté pour interconnecter objets et services à la couche applicative en un Web des Objets (WoT).Cependant l’évolution actuelle du WoT produit des silos d’objets et empêche ainsi la mise en place de cette vision. De plus, même si le Web facilite la composition d’objets et services hétérogènes, les approches existantes produisent des compositions statiques incapables de s’adapter à des environnements dynamiques et des exigences évolutives. Un autre défi est à relever: permettre aux personnes d’interagir avec le vaste, évolutif et hétérogène IoT.Afin de répondre à ces limitations, nous proposons une architecture pour IoT ouvert et autogouverné, constitué de personnes et d’objets situés, en interaction avec un environnement global via des plateformes hétérogènes. Notre approche consiste de rendre les objets autonomes et d’appliquer la métaphore des réseaux sociaux afin de créer des réseaux flexibles de personnes et d’objets. Nous fondons notre approche sur les résultats issus des domaines des multi-agents et du WoT afin de produit un WoT Social.Notre proposition prend en compte les besoins d’hétérogénéité, de découverte et d’interaction flexible dans l’IoT. Elle offre également un coût minimal pour les développeurs et les utilisateurs via différentes couches d’abstraction permettant de limité la complexité de cet éco-système. Nous démontrons ces caractéristiques par la mise en oeuvre de plus scénarios applicatifs. / The Internet of Things (IoT) aims to create a global ubiquitous ecosystem composed of large numbers of heterogeneous devices. To achieve this vision, the World Wide Web is emerging as a suitable candidate to interconnect IoT devices and services at the application layer into a Web of Things (WoT).However, the WoT is evolving towards large silos of things, and thus the vision of a global ubiquitous ecosystem is not fully achieved. Furthermore, even if the WoT facilitates mashing up heterogeneous IoT devices and services, existing approaches result in static IoT mashups that cannot adapt to dynamic environments and evolving user requirements. The latter emphasizes another well-recognized challenge in the IoT, that is enabling people to interact with a vast, evolving, and heterogeneous IoT.To address the above limitations, we propose an architecture for an open and self-governed IoT ecosystem composed of people and things situated and interacting in a global environment sustained by heterogeneous platforms. Our approach is to endow things with autonomy and apply the social network metaphor to createflexible networks of people and autonomous things. We base our approach on results from multi-agent and WoT research, and we call the envisioned IoT ecosystem the Social Web of Things.Our proposal emphasizes heterogeneity, discoverability and flexible interaction in the IoT. In the same time, it provides a low entry-barrier for developers and users via multiple layers of abstraction that enable them to effectively cope with the complexity of the overall ecosystem. We implement several application scenarios to demonstrate these features.
|
70 |
Tisser le Web Social des Objets : Permettre une Interaction Autonome et Flexible dans l’Internet des Objets / Weaving a Social Web of Things : Enabling Autonomous and Flexible Interaction in the Internet of ThingsCiortea, Andrei-Nicolae 14 January 2016 (has links)
L’Internet des Objets (IoT) vise à créer un eco-système global et ubiquitaire composé d’un grand nombre d’objets hétérogènes. Afin d’atteindre cette vision, le World Wide Web apparaît comme un candidat adapté pour interconnecter objets et services à la couche applicative en un Web des Objets (WoT).Cependant l’évolution actuelle du WoT produit des silos d’objets et empêche ainsi la mise en place de cette vision. De plus, même si le Web facilite la composition d’objets et services hétérogènes, les approches existantes produisent des compositions statiques incapables de s’adapter à des environnements dynamiques et des exigences évolutives. Un autre défi est à relever: permettre aux personnes d’interagir avec le vaste, évolutif et hétérogène IoT.Afin de répondre à ces limitations, nous proposons une architecture pour IoT ouvert et autogouverné, constitué de personnes et d’objets situés, en interaction avec un environnement global via des plateformes hétérogènes. Notre approche consiste de rendre les objets autonomes et d’appliquer la métaphore des réseaux sociaux afin de créer des réseaux flexibles de personnes et d’objets. Nous fondons notre approche sur les résultats issus des domaines des multi-agents et du WoT afin de produit un WoT Social.Notre proposition prend en compte les besoins d’hétérogénéité, de découverte et d’interaction flexible dans l’IoT. Elle offre également un coût minimal pour les développeurs et les utilisateurs via différentes couches d’abstraction permettant de limité la complexité de cet éco-système. Nous démontrons ces caractéristiques par la mise en oeuvre de plus scénarios applicatifs. / The Internet of Things (IoT) aims to create a global ubiquitous ecosystem composed of large numbers of heterogeneous devices. To achieve this vision, the World Wide Web is emerging as a suitable candidate to interconnect IoT devices and services at the application layer into a Web of Things (WoT).However, the WoT is evolving towards large silos of things, and thus the vision of a global ubiquitous ecosystem is not fully achieved. Furthermore, even if the WoT facilitates mashing up heterogeneous IoT devices and services, existing approaches result in static IoT mashups that cannot adapt to dynamic environments and evolving user requirements. The latter emphasizes another well-recognized challenge in the IoT, that is enabling people to interact with a vast, evolving, and heterogeneous IoT.To address the above limitations, we propose an architecture for an open and self-governed IoT ecosystem composed of people and things situated and interacting in a global environment sustained by heterogeneous platforms. Our approach is to endow things with autonomy and apply the social network metaphor to createflexible networks of people and autonomous things. We base our approach on results from multi-agent and WoT research, and we call the envisioned IoT ecosystem the Social Web of Things.Our proposal emphasizes heterogeneity, discoverability and flexible interaction in the IoT. In the same time, it provides a low entry-barrier for developers and users via multiple layers of abstraction that enable them to effectively cope with the complexity of the overall ecosystem. We implement several application scenarios to demonstrate these features.
|
Page generated in 0.052 seconds