Global ETD Search

61	Partitioning XML data, towards distributed and parallel management / Méthode de Partitionnement pour le traitement distribué et parallèle de données XML. Malla, Noor 21 September 2012 (has links) Durant cette dernière décennie, la diffusion du format XML pour représenter les données générées par et échangées sur le Web a été accompagnée par la mise en œuvre de nombreux moteurs d’évaluation de requêtes et de mises à jour XQuery. Parmi ces moteurs, les systèmes « mémoire centrale » (Main-memory Systems) jouent un rôle très important dans de nombreuses applications. La gestion et l’intégration de ces systèmes dans des environnements de programmation sont très faciles. Cependant, ces systèmes ont des problèmes de passage à l’échelle puisqu’ils requièrent le chargement complet des documents en mémoire centrale avant traitement.Cette thèse présente une technique de partitionnement des documents XML qui permet aux moteurs « mémoire principale » d’évaluer des expressions XQuery (requêtes et mises à jour) pour des documents de très grandes tailles. Cette méthode de partitionnement s’applique à une classe de requêtes et mises à jour pertinentes et fréquentes, dites requêtes et mises à jour itératives.Cette thèse propose une technique d'analyse statique pour reconnaître les expressions « itératives ». Cette analyse statique est basée sur l’extraction de chemins à partir de l'expression XQuery, sans utilisation d'information supplémentaire sur le schéma. Des algorithmes sont spécifiés, utilisant les chemins extraits par l’étape précédente, pour partitionner les documents en entrée en plusieurs parties, de sorte que la requête ou la mise à jour peut être évaluée sur chaque partie séparément afin de calculer le résultat final par simple concaténation des résultats obtenus pour chaque partie. Ces algorithmes sont mis en œuvre en « streaming » et leur efficacité est validée expérimentalement.En plus, cette méthode de partitionnement est caractérisée également par le fait qu'elle peut être facilement implémentée en utilisant le paradigme MapReduce, permettant ainsi d'évaluer une requête ou une mise à jour en parallèle sur les données partitionnées. / With the widespread diffusion of XML as a format for representing data generated and exchanged over the Web, main query and update engines have been designed and implemented in the last decade. A kind of engines that are playing a crucial role in many applications are « main-memory » systems, which distinguish for the fact that they are easy to manage and to integrate in a programming environment. On the other hand, main-memory systems have scalability issues, as they load the entire document in main-memory before processing. This Thesis presents an XML partitioning technique that allows main-memory engines to process a class of XQuery expressions (queries and updates), that we dub « iterative », on arbitrarily large input documents. We provide a static analysis technique to recognize these expressions. The static analysis is based on paths extracted from the expression and does not need additional schema information. We provide algorithms using path information for partitioning the input documents, so that the query or update can be separately evaluated on each part in order to compute the final result. These algorithms admit a streaming implementation, whose effectiveness is experimentally validated. Besides enabling scalability, our approach is also characterized by the fact that it is easily implementable into a MapReduce framework, thus enabling parallel query/update evaluation on the partitioned data. XML Requêtes XQuery Mises à jour XQuery Projection Partitionnement de données MapReduce XML XQuery XQuery updates Projection Data partitioning MapReduce
62	Optimization for big joins and recursive query evaluation using intersection and difference filters in MapReduce / Utilisation de filtres d’intersection et de différence pour l’optimisation des jointures à grande échelle et l’exécution de requêtes récursives à l’aide MapReduce Phan, Thuong-Cang 07 July 2014 (has links) La communauté informatique a créé une quantité de données sans précédent grâce aux applications à grande échelle. Ces données massives sont considérées comme une mine d’or, ces informations n’attendant que la puissance de traitement sûre et appropriée à l’évaluation d’algorithmes d’analyse complexe. MapReduce est un des modèles de programmation les plus réputé, connu pour la gestion de ce type de traitement. Il est devenu un standard pour le traitement, l’analyse et la génération de grandes quantités de données en parallèle. Cependant, le modèle de programmation MapReduce souffre d’importantes limites pour des opérations non simples (scans ou regroupements simples), en particulier les traitements avec entrées multiples. Dans ce mémoire, nous étudions et optimisons l’évaluation, dans un environnement MapReduce, d’une des opérations les plus importantes et représentatives : la jointure. Notre travail aborde, en plus de la jointure binaire, des jointures complexes comme la jointure multidimensionnelle et la jointure récursive. Pour atteindre ces objectifs, nous proposons d’abord un nouveau type de filtre appelé filter d’intersection qui utilise un modèle probabiliste pour représenter une approximation de l’intersection des ensembles. Le filtre d’intersection est ensuite appliqué à l’opération de jointure bidirectionnelle pour éliminer la majorité des éléments non-joints dans des ensembles de données d'entrée, avant d’envoyer les données pour le processus de jointure. De plus, nous proposons une extension du filtre d’intersection pour améliorer l’efficacité de la jointure ternaire et de la jointure en cascade correspondant à un cycle de jointure avec plusieurs clés partagées lors de la jointure. Nous utilisons la méthode des multiplicateurs de Lagrange afin de réaliser un choix pertinent entre les différentes solutions proposées pour les jointures multidimensionnelles. Une autre proposition est le filtre de différence, une structure de données probabiliste formée pour représenter un ensemble et examiner des éléments disjoints. Ce filtre peut être appliqué à un grand nombre de problèmes, tels que la réconciliation, la déduplication, la correction d’erreur et en ce qui nous concerne la jointure récursive. Une jointure récursive utilisant un filtre de différence est effectuée comme une répétition de jointures en lieu et place d’une jointure et d’un processus de différenciation. Cette amélioration réduit de moitié le nombre de tâches effectuées et les associés tels que la lecture des données, la génération des données intermédiaires et les communications. Ceci permet notamment une amélioration de l’évaluation de l’algorithme semi-naïf et par conséquent l’évaluation des requêtes récursives en MapReduce. Ensuite, nous fournissons des modèles de coût généraux pour les jointures binaire, à n-aire et récursive. Grâce à ces modèles, nous pouvons comparer les algorithmes de jointure les plus représentatifs. Ainsi, nous pouvons montrer l’intérêt des filtres proposés, grâce notamment à la réduction des coûts E/S (entrée/ sortie) sur disque et sur réseau. De plus, des expérimentations ont été menées, montrant l’efficacité du filtre d’intersection par rapport aux solutions, en comparant en particulier des critères tels que la quantité de données intermédiaires, la quantité de données produites en sortie, le temps d’exécution et la répartition des tâches. Nos propositions pour les opérations de jointure contribuent à l’optimisation en général de la gestion de données à l’aide du paradigme MapReduce sur des infrastructures distribuées à grande échelle. / The information technology community has created unprecedented amount of data through large-scale applications. As a result, the Big Data is considered as gold mines of information that just wait for the processing power to be available, reliable, and apt at evaluating complex analytic algorithms. MapReduce is one of the most popular programming models designed to support such processing. It has become a standard for processing, analyzing and generating large data in a massively parallel manner. However, the MapReduce programming model suffers from severe limitations of operations beyond simple scan/grouping, particularly operations with multiple inputs. In the present dissertation we efficiently investigate and optimize the evaluation, in a MapReduce environment, of one of the most salient and representative such operations: Join. It focuses not only on two-way joins, but also complex joins such as multi-way joins and recursive joins. To achieve these objectives, we first devise a new type of filter called intersection filter using a probabilistic model to represent an approximation of the set intersection. The intersection filter is then applied to two-way join operations to eliminate most non-joining elements in input datasets before sending data to actual join processing. In addition, we make an extension of the intersection filter to improve the performance of three-way joins and chain joins including both cyclic chain joins with many shared join keys. We use the Lagrangian multiplier method to indicate a good choice between our optimized solutions for the multi-way joins. Another important proposal is a difference filter, which is a probabilistic data structure designed to represent a set and examine disjoint elements of the set. It can be applied to a wide range of popular problems such as reconciliation, deduplication, error-correction, especially a recursive join operation. A recursive join using the difference filter is implemented as an iteration of one join job instead of two jobs including a join job and a difference job. This improvement will significantly reduce the number of executed jobs by half, and the related overheads such as data rescanning, intermediate data, and communication for the deduplication and difference operations. Besides, this research also improves the general semi-naive algorithm, as well as the evaluation of recursive queries in MapReduce. We then provide general cost models for two-way joins, multi-way joins, and recursive joins. Thanks to these cost models, we can make comparisons of the join algorithms more persuasive. As a result, with using the proposed filters, the join operations can minimize disk I/O and communication costs. Moreover, the intersection filter-based join operations are demonstrated to be more efficient than existing solutions through experimental evaluations. Experimental comparisons of different algorithms for joins are examined with respect to intermediate data amount, the total output amount, the total execution time, and especially task timelines. Finally, our improvements on the join operations contribute to the global scene of optimizing data management for MapReduce applications on large-scale distributed infrastructures. Données massives MapReduce Filtre Bloom Jointure Évaluation de requêtes récursives Optimisation Big data MapReduce Bloom filter Join Recursive query evaluation Optimization
63	HyQoZ - Optimisation de requêtes hybrides basée sur des contrats SLA / HyQoZ – SLA-aware hybrid query optimization Lopez-Enriquez, Carlos-Manuel 23 October 2014 (has links) On constate aujourd’hui une explosion de la quantité de données largement distribuées et produites par différents dispositifs (e.g. capteurs, dispositifs informatiques, réseaux, processus d’analyse) à travers de services dits de données. Dans ce contexte, il s’agit d’évaluer des requêtes dites hybrides car ils intègrent des aspects de requêtes classiques, mobiles et continues fournies par des services de données, statiques ou mobiles, en mode push ou pull. L’objectif de ma thèse est de proposer une approche pour l’optimisation de ces requêtes hybrides basée sur des préférences multicritère (i.e. SLA – Service Level Agreement). Le principe consiste à combiner les services de données et calcule pour construire un évaluateur de requêtes adapté au SLA requis par l’utilisateur, tout en considérant les conditions de QoS des services et du réseau. / Today we are witnesses of the explosion of data producer massively by largely distributed of data produced by different devices (e.g. sensors, personal computers, laptops, networks) by means of data services. In this context, It is about evaluate queries named hybrid because they entails aspects related with classic queries, mobile and continuous provided by static or nomad data services in mode push or pull. The objective of my thesis is to propose an approach to optimize hybrid queries based in multi-criteria preferences (i.e. SLA – Service Level Agreement). The principle is to combine data services to construct a query evaluator adapted to the preferences expressed in the SLA whereas the state of services and network is considered as QoS measures. Base de données Services de données Optimisation de requêtes Coordination de services Sla Databases Data services Query optimization Service coordination Sla 004
64	Querying existential rule knowledge bases : decidability and complexity / Interrogation de bases de connaissances avec règles existentielles : décidabilité et complexité Rocher, Swan 25 November 2016 (has links) Dans cette thèse, nous nous intéressons au problème d'interrogation de bases de connaissances composées de données et d'une ontologie, qui représente des connaissances générales sur le domaine d'application. Parmi les différents formalismes permettant de représenter les connaissances ontologiques, nous considérons ici un fragment de la logique du premier ordre appelé règles existentielles (aussi connues sous le nom de ``tuple generating dependencies'' et Datalog+/-). Le problème fondamental de conséquence logique au cœur de cette thèse demande si une requête conjonctive est conséquence d'une base de connaissances. Les règles existentielles étant très expressives, ce problème est indécidable. Toutefois, différentes restrictions sur les ensembles de règles ont été proposées afin d'obtenir sa décidabilité.La contribution de cette thèse est double. Premièrement, nous proposons un outil qui nous permet d'unifier puis d'étendre la plupart des classes de règles connues reposant sur des notions d'acyclicité assurant la finitude du chaînage avant. Deuxièmement, nous étudions la compatibilité des classes décidables de règles existentielles connues avec un type de connaissance souvent nécessaire dans les ontologies: la transitivité de relations binaires. Nous aidons à clarifier le paysage des résultats positifs et négatifs liés à cette question et fournissons une approche permettant de combiner la transitivité avec les règles existentielles linéaires. / In this thesis we investigate the issue of querying knowledge bases composed of data and general background knowledge, called an ontology. Ontological knowledge can be represented under different formalisms and we consider here a fragment of first-order logic called existential rules (also known as tuple-generating dependencies and Datalog+/-).The fundamental entailment problem at the core of this thesis asks if a conjunctive query is entailed by an existential rule knowledge base. General existential rules are highly expressive, however at the cost of undecidability. Various restrictions on sets of rules have been proposed to regain the decidability of the entailment problem.Our specific contribution is two-fold. First, we propose a new tool that allows to unify and extend most of the known existential rule classes that rely on acyclicity conditions to tame infinite forward chaining, without increasing the complexity of the acyclicity recognition. Second, we study the compatibility of known decidable rule classes with a frequently required modeling construct, namely transitivity of binary relations. We help clarifying the picture of negative and positive results on this question, and provide a technique to safely combine transitivity with one of the simplest, yet useful, decidable rule classes, namely linear rules. Intelligence artificielle Règles existentielles Datalog+/- Requêtes conjonctives Artificial Intelligence Knowledge Representation and Reasoning Existential Rules Datalog +/- Conjunctive Queries
65	Conjunctive query answering under existential rules : decidability, complexity and algorithms / Interrogation de bases de connaissances avec des règles expressives : décidabilité, complexité et algorithmes Thomazo, Michaël 24 October 2013 (has links) L'objectif du problème appelé "Ontology-based data access" (OBDA) est d'améliorer la réponse à des requêtes en prenant en compte des connaissances d'ordre général durant l'évaluation des requêtes. Ces connaissances générales sont représentées à l'aide d'une ontologie, qui est exprimée dans cette thèse grâce à des formules logiques du premier ordre, appelées règles existentielles, et aussi connues sous le nom de "tuple-generating dependencies" et Datalog+/-. L'expressivité des formules utilisées est telle que l'évaluation de requêtes devient un problème indécidable, et cela a conduit la communauté à définir de nombreux cas décidables, c'est-à-dire des restrictions sur les ensembles de règles existentielles considérés. La contribution de cette thèse est double : tout d'abord, nous proposons une vue unifiée sur une grande fraction des cas décidables connus, et fournissons par là même une analyse de complexité et un algorithme optimal dans le pire des cas. Nous considérons également l'approche couramment utilisée de réécriture de requêtes, et proposons un algorithme générique qui permet de surmonter certaines causes évidentes d'explosion combinatoire qui rendent les approches classiques pratiquement inapplicables. / Ontology-based data access (OBDA) aims at enriching query answering by taking general background knowledge into account when evaluating queries. This background knowledge is represented by means of an ontology, that is expressed in this thesis by a very expressive class of first-order formulas, called existential rules (sometimes also tuple-generating dependencies and Datalog+/-). The high expressivity of the used formalism results in the undecidability of query answering, and numerous decidable classes (that is, restrictions on the sets of existential rules) have been proposed in the literature. The contribution of this thesis is two-fold: first, we propose a unified view of a large part of these classes, together with a complexity analysis and a worst-case optimal algorithm for the introduced generic class. Second, we consider the popular approach of query rewriting, and propose a generic algorithm that overcomes trivial causes of combinatorial explosion that make classical approaches inapplicable. Intelligence artificielle Datalog+/- Règles existentielles Requêtes conjonctives Artificial Intelligence Knowledge representation and reasoning Datalog +/- Existential Rules Conjunctive queries
66	Contributions à la modélisation et la conception des systèmes de gestion de provenance à large échelle / [Contributions to the modelling and conception of large-scale provenance management systems] Sakka, Mohamed Amin 28 September 2012 (has links) Les avancées dans le monde des réseaux et des services informatiques ont révolutionné les modes d’échange, de partage et de stockage de l’information. Nous migrons de plus en plus vers des échanges numériques ce qui implique un gain en terme de rapidité de transfert, facilité de partage et d’accès ainsi qu’une efficacité d’organisation et de recherche de l’information. Malgré ses avantages, l’information numérique a l’inconvénient d’être volatile et modifiable ce qui introduit des problèmes liés à sa provenance, son intégrité et sa valeur probante. Dans ce contexte, la provenance apparait comme une méta-donnée cléqui peut servir pour juger la qualité de l’information et pour vérifier si elle répond à un ensemble d’exigences métier, techniques et légales. Aujourd’hui, une grande partie des applications et des services qui traitent, échangent et gèrent des documents électroniques sur le web ou dans des environnements Cloud génèrent des données de provenance hétérogènes, décentralisées et non interopérables. L’objectif principal de cette thèse est de proposer des solutions génériques et interopérables pour la modélisation de l’information de provenance et de concevoir des architectures de systèmes de gestion de provenance passant à l'échelle tant au niveau du stockage et que de l’exploitation(interrogation). Dans la première partie de la thèse, nous nous intéressons à la modélisation de la provenance. Afin de pallier à l’hétérogénéité syntaxique et sémantique qui existe entre les différents modèles de provenance, nous proposons une approche globale et cohérente pour la modélisation de la provenance basée sur les technologies du web sémantique. Notre approche repose sur un modèle de domaine minimal assurant un niveau d’interprétation minimal et commun pour n’importe quelle source de provenance. Ce modèle peut ensuite être spécialisé en plusieurs modèles de domaine pour modéliser des concepts et des propriétés métier différentes. Cette spécialisation assure l’interopérabilité sémantique souhaitée et permet par la suite de générer des vues métiers différentes sur les mêmes données de provenance. Dans la deuxième partie de la thèse, nous nous focalisons sur la conception des systèmes de gestion de provenance (ou PMS). Nous proposons tout d’abord une architecture logique de PMS indépendante des choix technologiques d’implémentation et de déploiement. Cette architecture détaille les modules assurant les fonctionnalités requises par notre approche de modélisation et sert comme architecture de référence pour la conception d’un PMS. Par la suite, et afin de préserver l’autonomie des sources de provenance, nous proposons une architecture distribuée de PMS à base de médiateur. Ce médiateur a une vision globale sur l’ensemble des sources et possède des capacités de distribution et de traitement de requêtes. Finalement la troisième partie de la thèse valide nos propositions. La validation de notre approche de modélisation a été réalisée dans un cadre industriel chez Novapost, une entreprise proposant des services SaaS pour l’archivage de documents à valeur probante. Ensuite, l’aspect passage à l’ échelle de notre architecture a été testé par l’implémentation de deux prototypes de PMS sur deux technologies de stockage différentes : un système RDF (Sesame) et un SGBD NoSQL (CouchDB). Les tests de montée en charge effectués sur les données de provenance Novapost ont montré les limites de Sesame tant pour le stockage que pour l’interrogation en utilisant le langage de requêtes SPARQL, alors que la version CouchDB associée à un langage de requêtes basé sur map/reduce a démontré sa capacité à suivre la charge de manière linéaire en augmentant le nombre de serveurs / Provenance is a key metadata for assessing electronic documents trustworthiness. It allows to prove the quality and the reliability of its content. With the maturation of service oriented technologies and Cloud computing, more and more data is exchanged electronically and dematerialization becomes one of the key concepts to cost reduction and efficiency improvement. Although most of the applications exchanging and processing documents on the Web or in the Cloud become provenance aware and provide heterogeneous, decentralized and not interoperable provenance data, most of Provenance Management Systems (PMSs) are either dedicated to a specific application (workflow, database, ...) or a specific data type. Those systems were not conceived to support provenance over distributed and heterogeneous sources. This implies that end-users are faced with different provenance models and different query languages. For these reasons, modeling, collecting and querying provenance across heterogeneous distributed sources is considered today as a challenging task. This is also the case for designing scalable PMSs providing these features. In the fist part of our thesis, we focus on provenance modelling. We present a new provenance modelling approach based on semantic Web technologies. Our approach allows to import provenance data from heterogeneous sources, to enrich it semantically to obtain high level representation of provenance. It provides syntactic interoperability between those sources based on a minimal domain model (MDM), supports the construction of rich domain models what allows high level representations of provenance while keeping the semantic interoperability. Our modelling approch supports also semantic correlation between different provenance sources and allows the use of a high level semantic query language. In the second part of our thesis, we focus on the design, implementation and scalability issues of provenance management systems. Based on our modelling approach, we propose a centralized logical architecture for PMSs. Then, we present a mediator based architecture for PMSs aiming to preserve provenance sources distribution. Within this architecture, the mediator has a global vision on all provenance sources and possesses query processing and distribution capabilities. The validation of our modelling approach was performed in a document archival context within Novapost, a company offering SaaS services for documents archiving. Also, we propose a non-functional validation aiming to test the scalability of our architecture. This validation is based on two implementation of our PMS : he first uses an RDF triple store (Sesame) and the second a NoSQL DBMS coupled with the map-reduce parallel model (CouchDB). The tests we performed show the limits of Sesame in storing and querying large amounts of provenance data. However, the PMS based on CouchDB showed a good performance and a linear scalability Modélisation de la provencance Système de gestion de provenance Traitement de requêtes distribuées Passage à l'échelle Provenance data Semantic provenance management systems Scability Provenance modelling
67	Accès aux données dans les systèmes d'information pervasifs Delot, Thierry 03 December 2009 (has links) (PDF) Le développement des réseaux sans fil et des dispositifs mobiles (ordinateurs portables, PDA communicants, capteurs, etc.) constaté ces dernières années entraine de profondes mutations des applications et des services proposés aux utilisateurs. Nous entrons aujourd'hui dans l'ère de l'informatique pervasive avec pour enjeu de proposer des services et de rendre les données disponibles n'importe où et n'importe quand. Le système d'information n'échappe pas à cette évolution et devient lui aussi pervasif. L'information y est stockée partout, dans différents formats et sur différents types de terminaux interconnectés. Notre travail se concentre sur les problèmes liés à l'accès aux données dans les systèmes d'information pervasifs. Ces systèmes, dits « ambiants », évoluent dans un contexte particulièrement dynamique du fait de la mobilité des utilisateurs et des sources de données qui peuvent apparaître et disparaître à tout moment. Les techniques traditionnellement utilisées pour accéder aux données, dans les bases de données réparties ou les systèmes pair-à-pair par exemple, sont ainsi totalement remises en cause. En effet, la mobilité des sources de données et les possibles déconnexions rendent impossibles la gestion et l'exploitation d'un schéma de placement décrivant la localisation des différentes sources de données accessibles. Dans ce contexte, nous proposons donc de nouvelles techniques d'accès dédiées aux systèmes d'information pervasifs. Plus précisément, nos contributions concernent : - Un modèle d'évaluation et d'optimisation de requêtes dans les environnements pair-à-pair hybrides, associant terminaux mobiles et serveurs fixes, adapté à la mobilité des terminaux et à leurs ressources restreintes (e.g., énergie) - Des techniques de partage d'informations dans les environnements pair-à-pair mobiles, où plus aucune infrastructure fixe n'est exploitable et où les échanges de données reposent sur des interactions directes entre les terminaux. Ces travaux ont été appliqués au contexte de la communication inter-véhicules. - Enfin, notre dernière contribution concerne la proposition de mécanismes d'auto-adaptation permettant à un évaluateur de requêtes de se reconfigurer dynamiquement en fonction des changements de contexte (e.g., connectivité, mobilité, autonomie, etc.), particulièrement fréquents dans les systèmes pervasifs. Nos travaux ont été réalisés dans le cadre de différents projets et ont conduit à la soutenance de plusieurs thèses de doctorat et masters recherche. [INFO] Computer Science Systèmes d'information Pervasifs accès aux données évaluation et optimisation de requêtes
68	Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets Boubekeur, Fatiha 01 July 2008 (has links) (PDF) Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence). [INFO] Computer Science Recherche d'information flexible pondération des requêtes indexation<br />sémantique WordNet Règles d'association CP-Nets
69	Réécriture de requêtes en termes de vues en présence de contraintes de valeurs pour un système d'intégration de sources de données agricoles Jaudoin, Hélène 29 November 2005 (has links) (PDF) Cette thèse traite le problème de la réécriture de requêtes en termes de vues en présence de contraintes de valeurs. Les contraintes de valeurs permettent de restreindre le domaine de valeur d'un attribut donné. Elles connaissent un regain d'intérêt depuis leur utilisation dans le cadre du langage d'ontologie du web OWL. Ce travail est motivé par une application réelle qui vise à permettre l'intégration flexible d'un grand nombre de sources de données agricoles. L'étude de la décidabilité de ce problème est basée sur le cadre des logiques de description. Ce travail montre également que le problème de calculer les réécritures engendrées par les contraintes de valeurs se rattache au cadre de découverte des connaissances dans les bases de données introduit par Mannila and Toivonen. Ceci nous permet d'adpter des algorithmes exustants et efficaces pour calculer ces réécritures et proposer un prototype de réécriture qui passe à l'echelle. Systèmes d'intégration de données Contraintes de valeurs Logiques de description Fouille de données
70	TEMPOS : une plate-forme pour le développement d'applications temporelles au dessus de SGBD à objets Dumas Menjivar, Marlon 26 June 2000 (has links) (PDF) Les données temporelles sont présentes dans de nombreuses applications utilisant des Systèmes de Gestion de Bases de Données (SGBD). Aussi, la plupart de ces systèmes offrent des types correspondant aux concepts de date et de durée, grâce auxquels il est possible de modéliser des associations temporelles simples, comme par exemple la date de naissance ou l'âge d'une personne. Toutefois, à quelques nuances près, aucun de ces systèmes n'offre des abstractions dédiées à la modélisation d'associations temporelles plus complexes, telles que l'historique du salaire d'un employé, ou la séquence d'annotations attachées à une vidéo. Dès lors, ces associations doivent être codées au travers de constructeurs de type tels que ''liste'' et ''n-uplet'', et la sémantique de ce codage doit être intégrée dans la logique des programmes applicatifs, accroissant par là leur complexité. Pour combler ces lacunes, des extensions dites ''temporelles'' de modèles et de langages pour Bases de Données ont été proposées. Cette thèse analyse et unifie les contributions de ces travaux, dans le but de les intégrer dans une extension temporelle du standard pour SGBD à objets de l'ODMG. Le résultat est une plate-forme logicielle baptisée TEMPOS, fondée sur trois modèles de sophistication croissante : un modèle du temps, un modèle d'historiques et un modèle d'objets et de propriétés temporels. Ce dernier fournit des fonctionnalités facilitant la transformation de bases de données conformes à l'ODMG en des bases de données temporelles. à partir de ces trois modèles, des extensions des langages de spécification de schéma et d'interrogation de l'ODMG sont définies. Enfin, un outil de visualisation basé sur un nouveau paradigme de navigation interactive au travers d'objets temporels est développé. L'ensemble des propositions sont formalisées, implantées au dessus d'un SGBD commercial, et validées par des études de cas. bases de données temporelles bases de données à objets standard ODMG langage de requêtes visualisation de données

Search results