Global ETD Search

1	Etude et implantation de l'extraction de requêtes fréquentes dans les bases de données multidimensionnelles. Dieng, Cheikh Tidiane 19 July 2011 (has links) (PDF) Au cours de ces dernières années, le problème de la recherche de requêtes fréquentes dans les bases de données est un problème qui a suscité de nombreuses recherches. En effet, beaucoup de motifs intéressants comme les règles d'association, des dépendances fonction- nelles exactes ou approximatives, des dépendances fonctionnelles conditionnelles exactes ou approximatives peuvent être découverts simplement, contrairement au méthodes clas- siques qui requièrent plusieurs transformations de la base pour extraire de tels motifs. Cependant, le problème de la recherche de requêtes fréquentes dans les bases de données relationnelles est un problème difficile car, d'une part l'espace de recherche est très grand (puisque égal à l'ensemble de toutes les requêtes pouvant être posées sur une base de données), et d'autre part, savoir si deux requêtes sont équivalentes (donc engendrant les calculs de support redondants) est un problème NP-Complet. Dans cette thèse, nous portons notre attention sur les requêtes de type Projection- Selection-Jointure (PSJ), et nous supposons que la base de données est définie selon un schéma étoile. Sous ces hypothèses, nous définissons une relation de pré-ordre (≤) entre les requêtes et nous montrons que : 1. La mesure de support est anti-monotone par rapport à ≤, et 2. En définissant, q ≡ q′ si et seulement si q ≤ q′ et q′ ≤ q, alors toutes les requêtes d'une même classe d'équivalence ont même support. Les principales contributions de cette thèse sont, d'une part d'étudier formellement les propriétés du pré-ordre et de la relation d'équivalence ci-dessus, et d'autre part, de pro- poser un algorithme par niveau de type Apriori pour rechercher l'ensemble des requêtes fréquentes d'une base de données définie sur un schéma étoile. De plus, cet algorithme a été implémenté et les expérimentations que nous avons réalisées montrent que, selon notre approche, le temps de calcul des requêtes fréquentes dans une base de données définie sur un schéma étoile reste acceptable, y compris dans le cas de grandes tables de faits. base de données fouilles de données requêtes motifs algorithme par niveau connaissances
2	Semantic and flexible query processing of medical images using ontologies / Traitement sémantique et flexible de requêtes d'images médicales en utilisant une ontologie Chabane, Yahia 19 December 2016 (has links) L’interrogation efficace d’images en utilisant un système de recherche d’image est un problème qui a attiré l’attention de la communauté de recherche depuis une longue période. Dans le domaine médical, les images sont de plus en plus produites en grandes quantités en raison de leur intérêt croissant pour de nombreuses pratiques médicales comme le diagnostic, la rédaction de rapports et l’enseignement. Cette thèse propose un système d’annotation et recherche sémantique d’images gastroentérologiques basé sur une nouvelle ontologie des polypes qui peut être utilisée pour aider les médecins à décider comment traiter un polype. La solution proposée utilise une ontologie de polype et se base sur une adaptation des raisonnements standard des logiques de description pour permettre une construction semi-automatique de requêtes et d’annotation d’images. Une deuxième contribution de ce travail consiste dans la proposition d’une nouvelle approche pour le calcul de réponses relaxées des requêtes ontologiques basée sur une notion de distance entre un individu donné et une requête donnée. Cette distance est calculée en comptant le nombre d’opérations élémentaires à appliquer à une ABox afin de rendre un individu donné x, une réponse correcte à une requête. Ces opérations élémentaires sont l’ajout à ou la suppression d’une ABox, d’assertions sur des concepts atomiques (ou leur négation) et/ou des rôles atomiques. La thèse propose plusieurs sémantiques formelles pour la relaxation de requêtes et étudie les problèmes de décision et d’optimisation sous-jacents. / Querying efficiently images using an image retrieval system is a long standing and challenging research problem.In the medical domain, images are increasingly produced in large quantities due their increasing interests for many medical practices such as diagnosis, report writing and teaching. This thesis proposes a semantic-based gastroenterological images annotation and retrieval system based on a new polyp ontology that can be used to support physicians to decide how to deal with a polyp. The proposed solution uses a polyp ontology and rests on an adaptation of standard reasonings in description logic to enable semi automatic construction of queries and image annotation.A second contribution of this work lies in the proposition of a new approach for computing relaxed answers of ontological queries based on a notion of an edit distance of a given individual w.r.t. a given query. Such a distance is computed by counting the number of elementary operations needed to be applied to an ABox in order to make a given individual a correct answer to a given query. The considered elementary operations are adding to or removing from an ABox, assertions on atomic concept, a negation of an atomic concept or an atomic role. The thesis proposes several formal semantics for such query approximation and investigates the underlying decision and optimisation problems. Requêtes ontologiques Raisonnement de relaxation Ontologie de polype Ontological queries Relaxation reasoning Semantic medical image retrieval Polyp ontology
3	Scalable algorithms for cloud-based Semantic Web data management / Algorithmes passant à l’échelle pour la gestion de données du Web sémantique sur les platformes cloud Zampetakis, Stamatis 21 September 2015 (has links) Afin de construire des systèmes intelligents, où les machines sont capables de raisonner exactement comme les humains, les données avec sémantique sont une exigence majeure. Ce besoin a conduit à l’apparition du Web sémantique, qui propose des technologies standards pour représenter et interroger les données avec sémantique. RDF est le modèle répandu destiné à décrire de façon formelle les ressources Web, et SPARQL est le langage de requête qui permet de rechercher, d’ajouter, de modifier ou de supprimer des données RDF. Être capable de stocker et de rechercher des données avec sémantique a engendré le développement des nombreux systèmes de gestion des données RDF.L’évolution rapide du Web sémantique a provoqué le passage de systèmes de gestion des données centralisées à ceux distribués. Les premiers systèmes étaient fondés sur les architectures pair-à-pair et client-serveur, alors que récemment l’attention se porte sur le cloud computing.Les environnements de cloud computing ont fortement impacté la recherche et développement dans les systèmes distribués. Les fournisseurs de cloud offrent des infrastructures distribuées autonomes pouvant être utilisées pour le stockage et le traitement des données. Les principales caractéristiques du cloud computing impliquent l’évolutivité́, la tolérance aux pannes et l’allocation élastique des ressources informatiques et de stockage en fonction des besoins des utilisateurs.Cette thèse étudie la conception et la mise en œuvre d’algorithmes et de systèmes passant à l’échelle pour la gestion des données du Web sémantique sur des platformes cloud. Plus particulièrement, nous étudions la performance et le coût d’exploitation des services de cloud computing pour construire des entrepôts de données du Web sémantique, ainsi que l’optimisation de requêtes SPARQL pour les cadres massivement parallèles.Tout d’abord, nous introduisons les concepts de base concernant le Web sémantique et les principaux composants des systèmes fondés sur le cloud. En outre, nous présentons un aperçu des systèmes de gestion des données RDF (centralisés et distribués), en mettant l’accent sur les concepts critiques de stockage, d’indexation, d’optimisation des requêtes et d’infrastructure.Ensuite, nous présentons AMADA, une architecture de gestion de données RDF utilisant les infrastructures de cloud public. Nous adoptons le modèle de logiciel en tant que service (software as a service - SaaS), où la plateforme réside dans le cloud et des APIs appropriées sont mises à disposition des utilisateurs, afin qu’ils soient capables de stocker et de récupérer des données RDF. Nous explorons diverses stratégies de stockage et d’interrogation, et nous étudions leurs avantages et inconvénients au regard de la performance et du coût monétaire, qui est une nouvelle dimension importante à considérer dans les services de cloud public.Enfin, nous présentons CliqueSquare, un système distribué de gestion des données RDF basé sur Hadoop. CliqueSquare intègre un nouvel algorithme d’optimisation qui est capable de produire des plans massivement parallèles pour des requêtes SPARQL. Nous présentons une famille d’algorithmes d’optimisation, s’appuyant sur les équijointures n- aires pour générer des plans plats, et nous comparons leur capacité à trouver les plans les plus plats possibles. Inspirés par des techniques de partitionnement et d’indexation existantes, nous présentons une stratégie de stockage générique appropriée au stockage de données RDF dans HDFS (Hadoop Distributed File System). Nos résultats expérimentaux valident l’effectivité et l’efficacité de l’algorithme d’optimisation démontrant également la performance globale du système. / In order to build smart systems, where machines are able to reason exactly like humans, data with semantics is a major requirement. This need led to the advent of the Semantic Web, proposing standard ways for representing and querying data with semantics. RDF is the prevalent data model used to describe web resources, and SPARQL is the query language that allows expressing queries over RDF data. Being able to store and query data with semantics triggered the development of many RDF data management systems. The rapid evolution of the Semantic Web provoked the shift from centralized data management systems to distributed ones. The first systems to appear relied on P2P and client-server architectures, while recently the focus moved to cloud computing.Cloud computing environments have strongly impacted research and development in distributed software platforms. Cloud providers offer distributed, shared-nothing infrastructures that may be used for data storage and processing. The main features of cloud computing involve scalability, fault-tolerance, and elastic allocation of computing and storage resources following the needs of the users.This thesis investigates the design and implementation of scalable algorithms and systems for cloud-based Semantic Web data management. In particular, we study the performance and cost of exploiting commercial cloud infrastructures to build Semantic Web data repositories, and the optimization of SPARQL queries for massively parallel frameworks.First, we introduce the basic concepts around Semantic Web and the main components and frameworks interacting in massively parallel cloud-based systems. In addition, we provide an extended overview of existing RDF data management systems in the centralized and distributed settings, emphasizing on the critical concepts of storage, indexing, query optimization, and infrastructure. Second, we present AMADA, an architecture for RDF data management using public cloud infrastructures. We follow the Software as a Service (SaaS) model, where the complete platform is running in the cloud and appropriate APIs are provided to the end-users for storing and retrieving RDF data. We explore various storage and querying strategies revealing pros and cons with respect to performance and also to monetary cost, which is a important new dimension to consider in public cloud services. Finally, we present CliqueSquare, a distributed RDF data management system built on top of Hadoop, incorporating a novel optimization algorithm that is able to produce massively parallel plans for SPARQL queries. We present a family of optimization algorithms, relying on n-ary (star) equality joins to build flat plans, and compare their ability to find the flattest possibles. Inspired by existing partitioning and indexing techniques we present a generic storage strategy suitable for storing RDF data in HDFS (Hadoop’s Distributed File System). Our experimental results validate the efficiency and effectiveness of the optimization algorithm demonstrating also the overall performance of the system. Web sémantique RDF Stratégies d’indexation Systèmes distribués Stockage distribué Traitement des requêtes Optimisation des requêtes MapReduce Hadoop HDFS CliqueSquare AMADA Gestion des données RDF Jointures n-aires Plans plats Semantic Web RDF Commercial cloud services Indexing strategies Distributed systems Distributed storage Query processing Query optimization Query parallelization MapReduce Hadoop HDFS CliqueSquare AMADA RDF data management N-ary joins Flat plans

1

Page generated in 0.066 seconds