Global ETD Search

41	Flux XML, Requêtes XPath et Automates Gauwin, Olivier 28 September 2009 (has links) (PDF) Ces dernières années, XML est devenu le format standard pour l'échange de données. Les documents XML sont généralement produits à partir de bases de données, durant le traitement de documents, ou au sein d'applications Web. L'échange de données en flux est fréquemment utilisé lors de l'envoi de données volumineuses par le réseau. Ainsi le transfert par flux est adéquat pour de nombreux traitements XML.<br /><br />Dans cette thèse, nous étudions des algorithmes d'évaluation de requêtes sur des flux XML. Notre objectif est de gérer efficacement la mémoire, afin de pouvoir évaluer des requêtes sur des données volumineuses, tout en utilisant peu de mémoire. Cette tâche s'avère complexe, et nécessite des restrictions importantes sur les langages de requêtes. Nous étudions donc les requêtes définies par des automates déterministes ou par des fragments du standard W3C XPath, plutôt que par des langages plus puissants comme les standards W3C XQuery et XSLT.<br /><br />Nous définissons tout d'abord les Streaming Tree Automata (STAs), qui opèrent sur les arbres d'arité non bornée dans l'ordre du document. Nous prouvons qu'ils sont équivalents aux Nested Word Automata et aux Pushdown Forest Automata. Nous élaborons ensuite un algorithme d'évaluation au plus tôt, pour les requêtes définies par des STAs déterministes. Bien qu'il ne stocke que les candidats nécessaires, cet algorithme est en temps polynomial à chaque événement du flux, et pour chaque candidat. Par conséquent, nous obtenons des résultats positifs pour l'évaluation en flux des requêtes définies par des STAs déterministes. Nous mesurons une telle adéquation d'un langage de requêtes à une évaluation en flux via un nouveau modèle de machines, appelées Streaming Random Access Machines (SRAMs), et via une mesure du nombre de candidats simultanément vivants, appelé concurrence. Nous montrons également qu'il peut être décidé en temps polynomial si la concurrence d'une requête définie par un STA déterministe est bornée. Notre preuve est basée sur une réduction au problème de la valuation bornée des relations reconnaissables d'arbres.<br /><br />Concernant le standard W3C XPath, nous montrons que même de petits fragments syntaxiques ne sont pas adaptés à une évaluation en flux, sauf si P=NP. Les difficultés proviennent du non-déterminisme de ce langage, ainsi que du nombre de conjonctions et de disjonctions. Nous définissons des fragments de Forward XPath qui évitent ces problèmes, et prouvons, par compilation vers les STAs déterministes en temps polynomial, qu'ils sont adaptés à une évaluation en flux. flux XML requêtes arbres automates XPath
42	Médiation de données sémantique dans SenPeer, un système pair-à-pair de gestion de données Faye, David Célestin 22 October 2007 (has links) (PDF) La société de l'information demande un accès efficace à un ensemble d'informations qui sont souvent hétérogènes et distribuées. Dans le but d'un partage efficace de cette information, plusieurs solutions techniques ont été proposées. L'infrastructure Pair-à-Pair (P2P) est un paradigme émergent et offrant de nouvelles opportunités pour la mise en place de systèmes distribués à grande échelle. D'autre part, le concept de base de données distribuée a été introduit dans le but d'organiser une collection multiple de bases de données logiquement liées et distribuées sur un réseau d'ordinateurs. Récemment, les systèmes P2P de gestion de données communément appelés PDMS (Peer Data Management System) ont vu le jour. Ils combinent les avantages des systèmes P2P avec ceux des bases de données distribuées. Dans le but de contribuer à la recherche sur la gestion de données dans un contexte P2P, nous proposons le PDMS SenPeer. SenPeer suit une topologie super-pair basée sur l'organisation des pairs en communautés sémantiques en fonction de leur thème d'intérêt. Pour faciliter l'échange de données entre pairs nous établissons des processus de découverte de correspondances sémantiques et de reformulation de requêtes en présence de plusieurs modèles de données. Ces correspondances sémantiques, en combinaison avec les schémas des pairs sont à la base d'une topologie sémantique au dessus du réseau physique et utilisée pour un routage efficace des requêtes. Les requêtes sont échangées à travers un format commun d'échange de requête et un processus d'optimisation distribué permet de choisir le meilleur plan d'exécution de la requête en fonction des caractéristiques du PDMS. Une validation expérimentale par la mise en place d'un simulateur permet d'affirmer l'utilité et la performance des techniques proposées. Systèmes Pair-à-Pair médiation de données sémantique
43	Méthode de Partitionnement pour le traitement distribué et parallèle de données XML. Malla, Noor 21 September 2012 (has links) (PDF) Durant cette dernière décennie, la diffusion du format XML pour représenter les données générées par et échangées sur le Web a été accompagnée par la mise en œuvre de nombreux moteurs d'évaluation de requêtes et de mises à jour XQuery. Parmi ces moteurs, les systèmes " mémoire centrale " (Main-memory Systems) jouent un rôle très important dans de nombreuses applications. La gestion et l'intégration de ces systèmes dans des environnements de programmation sont très faciles. Cependant, ces systèmes ont des problèmes de passage à l'échelle puisqu'ils requièrent le chargement complet des documents en mémoire centrale avant traitement.Cette thèse présente une technique de partitionnement des documents XML qui permet aux moteurs " mémoire principale " d'évaluer des expressions XQuery (requêtes et mises à jour) pour des documents de très grandes tailles. Cette méthode de partitionnement s'applique à une classe de requêtes et mises à jour pertinentes et fréquentes, dites requêtes et mises à jour itératives.Cette thèse propose une technique d'analyse statique pour reconnaître les expressions " itératives ". Cette analyse statique est basée sur l'extraction de chemins à partir de l'expression XQuery, sans utilisation d'information supplémentaire sur le schéma. Des algorithmes sont spécifiés, utilisant les chemins extraits par l'étape précédente, pour partitionner les documents en entrée en plusieurs parties, de sorte que la requête ou la mise à jour peut être évaluée sur chaque partie séparément afin de calculer le résultat final par simple concaténation des résultats obtenus pour chaque partie. Ces algorithmes sont mis en œuvre en " streaming " et leur efficacité est validée expérimentalement.En plus, cette méthode de partitionnement est caractérisée également par le fait qu'elle peut être facilement implémentée en utilisant le paradigme MapReduce, permettant ainsi d'évaluer une requête ou une mise à jour en parallèle sur les données partitionnées. [INFO:INFO_OH] Computer Science/Other XML requêtes XQuery Mises à jour XQuery Projection Partitionnement de données MapReduce
44	Indexation et recherche de vidéo pour la vidéosurveillance Le, Thi Lan 03 February 2009 (has links) (PDF) L'objectif de cette thèse est de proposer une approche générale pour l'indexation et la recherche de vidéos pour la vidéosurveillance. En se basant sur l'hypothèse que les vidéos sont prétraitées par un module d'analyse vidéo, l'approche proposée comprend deux phases : la phase d'indexation et celle de recherche. Afin d'utiliser les résultats de différents modules d'analyse vidéo, un modèle de données comprenant deux concepts, objets et événements, est proposé. La phase d'indexation visant à préparer des données déterminées dans ce modèle de données effectue trois tâches. Premièrement, deux nouvelles méthodes de détection des blobs représentatifs de la tâche représentation d'objets déterminent un ensemble de blobs associés à leurs poids pour chaque objet. Deuxièmement, la tâche extraction de descripteurs consiste à analyser des descripteurs d'apparence et aussi temporels sur les objets indexés. Finalement, la tâche indexation calcule les attributs des deux concepts et les stocke dans une base de données. La phase de recherche commence avec une requête de l'utilisateur et comprend quatre tâches. Dans la tâche formulation de requêtes, afin de permettre à l'utilisateur d'exprimer ses requêtes, un nouveau langage est proposé. La requête est traitée par la tâche analyse syntaxique. Une nouvelle méthode dans la tâche mise en correspondance permet de retrouver efficacement les résultats pertinents. Deux méthodes dans la tâche retour de pertinence permettent d'interagir avec l'utilisateur afin d'améliorer les résultats de recherche. Dans le but d'évaluer la performance de l'approche proposée, nous utilisons deux bases de vidéos dont l'une provenant du projet CARETAKER et l'autre provenant du projet CAVIAR. Les vidéos du projet CARETAKER sont analysées en utilisant la plate-forme VSIP de l'équipe PULSAR alors que les vidéos du projet CAVIAR sont manuellement annotées. La méthode de détection des blobs représentatifs améliore la performance d'une méthode dans l'état de l'art. L'utilisation du langage de requêtes montre qu'il permet d'exprimer de nombreuses requêtes à différents niveaux. La méthode de mise en correspondance obtient de meilleurs résultats en comparaison avec deux méthodes de l'état de l'art. Les résultats expérimentaux montrent que l'approche proposée retrouve efficacement les objets d'intérêt et les événements complexes. indexation de vidéos recherche de vidéos langage de requêtes mise en correspondance vidéosurveillance
45	Impact des variations morphologiques sur la recherche d'information sur le Web Eddamoun, Said January 2009 (has links) (PDF) Notre travail de recherche est de type exploratoire. Il traite de l'apport des connaissances linguistiques à la recherche d'information sur le Web. Plus spécifiquement, nous avons étudié l'impact des variations morphologiques, notamment les variantes dérivées, en termes de fréquence, sur la pertinence des documents rapportés. À ce sujet, nous avons vérifié s'il y a une corrélation entre la fréquence des termes et des variantes morphologiques extraits des documents rapportés et la pertinence de ces mêmes documents. Les résultats obtenus n'ont pas permis de confirmer, d'une façon évidente, cette corrélation. En d'autres termes, si les données brutes laissent croire que, globalement, il y a une corrélation entre la fréquence des variables et la pertinence des documents, ce n'est pas le cas après l'examen des requêtes d'une façon individuelle, et, aussi, après l'application du test statistique de Jonckheere-Terpstra. En somme, la présence ou non d'une telle corrélation dépend, en partie, de la requête, des mots de la requête, de la nature et de la qualité des variantes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Recherche d'information, Connaissances linguistiques, Variations morphologiques, Reformulation de requêtes, Traitement automatique des langues, Web. Repérage de l'information Linguistique Morphologie (Linguistique) Reformulation de requêtes Traitement du langage naturel Recherche sur Internet
46	L'interaction au service de l'optimisation à grande échelle des entrepôts de données relationnels Kerkad, Amira 11 December 2013 (has links) (PDF) La technologie de base de données est un environnement adéquat pour l'interaction. Elle peutconcerner plusieurs composantes du SGBD : (a) les données, (b) les requêtes, (c) les techniques d'optimisationet (d) les supports de stockage. Au niveau des données, les corrélations entre les attributs sont très communesdans les données du monde réel, et ont été exploitées pour définir les vues matérialisées et les index. Au niveaurequêtes, l'interaction a été massivement étudiée sous le problème d'optimisation multi-requêtes. Les entrepôtsde données avec leurs jointures en étoile augmentent le taux d'interaction. L'interaction des requêtes a étéemployée pour la sélection des techniques d'optimisation comme les index. L'interaction contribue égalementdans la sélection multiple des techniques d'optimisation comme les vues matérialisées, les index, lepartitionnement et le clustering. Dans les études existantes, l'interaction concerne une seule composante. Danscette thèse, nous considérons l'interaction multi-composante, avec trois techniques d'optimisation, où chacuneconcerne une composante : l'ordonnancement des requêtes (niveau requêtes), la fragmentation horizontale(niveau données) et la gestion du buffer (niveau support de stockage). L'ordonnancement des requêtes (OR)consiste à définir un ordre d'exécution optimal pour les requêtes pour permettre à quelques requêtes debénéficier des données pré-calculées. La fragmentation horizontale (FH) divise les instances de chaque relationen sous-ensembles disjoints. La gestion du buffer (GB) consiste à allouer et remplacer les données dans l'espacebuffer disponible pour réduire le coût de la charge. Habituellement, ces problèmes sont traités soit de façonisolée ou par paire comme la GB et l'OR. Cependant, ces problèmes sont similaires et complémentaires. Uneformalisation profonde pour le scénario hors-ligne et en-ligne des problèmes est fournie et un ensembled'algorithmes avancés inspirés du comportement naturel des abeilles sont proposés. Nos propositions sontvalidées en utilisant un simulateur et un SGBD réel (Oracle) avec le banc d'essai star schema benchmark àgrande échelle. [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Optimisation des requêtes Interaction Support de stockage
47	Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable Ellouze, Nebrasse 03 December 2010 (has links) (PDF) Cette thèse aborde les problématiques liées à la construction de Topic Maps et à leur utilisation pour la recherche d'information dans le cadre défini par le Web sémantique (WS). Le WS a pour objectif de structurer les informations disponibles sur le Web. Pour cela, les ressources doivent être sémantiquement étiquetées par des métadonnées afin de permettre d'optimiser l'accès à ces ressources. Ces métadonnées sont actuellement spécifiées à l'aide des deux standards qui utilisent le langage XML : RDF et les Topic Maps. Un contenu à organiser étant très souvent volumineux et sujet à enrichissement perpétuel, il est pratiquement impossible d'envisager une création et gestion d'une Topic Map, le décrivant, de façon manuelle. Plusieurs travaux de recherche ont concerné la construction de Topic Maps à partir de documents textuels [Ellouze et al. 2008a]. Cependant, aucune d'elles ne permet de traiter un contenu multilingue. De plus, bien que les Topic Maps soient, par définition, orientées utilisation (recherche d'information), peu d'entre elles prennent en compte les requêtes des utilisateurs.Dans le cadre de cette thèse, nous avons donc conçu une approche que nous avons nommée ACTOM pour " Approche de Construction d'une TOpic Map Multilingue ". Cette dernière sert à organiser un contenu multilingue composé de documents textuels. Elle a pour avantage de faciliter la recherche d'information dans ce contenu. Notre approche est incrémentale et évolutive, elle est basée sur un processus automatisé, qui prend en compte des documents multilingues et l'évolution de la Topic Map selon le changement du contenu en entrée et l'usage de la Topic Map. Elle prend comme entrée un référentiel de documents que nous construisons suite à la segmentation thématique et à l'indexation sémantique de ces documents et un thésaurus du domaine pour l'ajout de liens ontologiques. Pour enrichir la Topic Map, nous nous basons sur deux ontologies générales et nous explorons toutes les questions potentielles relatives aux documents sources. Dans ACTOM, en plus des liens d'occurrences reliant un Topic à ses ressources, nous catégorisons les liens en deux catégories: (a) les liens ontologiques et (b) les liens d'usage. Nous proposons également d'étendre le modèle des Topic Maps défini par l'ISO en rajoutant aux caractéristiques d'un Topic des méta-propriétés servant à mesurer la pertinence des Topics plus précisément pour l'évaluation de la qualité et l'élagage dynamique de la Topic Map. [INFO] Computer Science Topic Map Recherche d'information Enrichissement Multilingue Thésaurus Elagage Incrémental Requêtes Fusion Evolution
48	Traitement de requêtes de jointures continues dans les systèmes pair-à-pair (P2P) structurés Palma, Wenceslao 18 June 2010 (has links) (PDF) De nombreuses applications distribuées partagent la même nécessité de traiter des flux de données de façon continue, par ex. la surveillance de réseau ou la gestion de réseaux de capteurs. Dans ce contexte, un problème important et difficile concerne le traitement de requêtes continues de jointure qui nécessite de maintenir une fenêtre glissante sur les données la plus grande possible, afin de produire le plus possible de résultats probants. Dans cette thèse, nous proposons une nouvelle méthode pair-à-pair, DHTJoin, qui tire parti d'une Table de Hachage Distribuée (DHT) pour augmenter la taille de la fenêtre glissante en partitionnant les flux sur un grand nombre de nœuds. Contrairement aux solutions concurrentes qui indexent tout les tuples des flux, DHTJoin n'indexe que les tuples requis pour les requêtes et exploite, de façon complémentaire, la dissémination de requêtes. DHTJoin traite aussi le problème de la dynamicité des nœuds, qui peuvent quitter le système ou tomber en panne pendant l'exécution. Notre évaluation de performances montre que DHTJoin apporte une réduction importante du trafic réseau, par rapport aux méthodes concurrentes. Systèmes pair-à-pair Traitement de requêtes
49	Découverte et exploitation de proportions analogiques dans les bases de données relationnelles / Discovering and exploiting analogical proportions in a relational database context Correa Beltran, William 18 July 2016 (has links) Dans cette thèse, nous nous intéressons aux proportions analogiques dans le contexte des bases de données relationnelles. Les proportions analogiques permettent de lier quatre éléments dans une relation du type ''A est à B ce que C est à D''. Par exemple, « Paris est à la France ce que Rome est à l'Italie ». Nous avons étudié le problème de la prédiction de valeurs manquantes dans une base de données en utilisant les proportions analogiques. Un algorithme de classification fondé sur les proportions analogiques a été modifié afin de résoudre ce problème. Puis, nous avons étudié les propriétés des éléments appartenant à l'ensemble d'apprentissage des classificateurs analogiques fréquemment exploités pour calculer la prédiction. Ceci nous a permis de réduire considérablement la taille de cet ensemble par élimination des éléments peu pertinents et par conséquent, de diminuer les temps d'exécution de ces classificateurs. La deuxième partie de la thèse a pour objectif de découvrir de nouveaux patrons basés sur la relation d'analogie, i.e., des parallèles, dans les bases de données. Nous avons montré qu'il est possible d'extraire ces patrons en s'appuyant sur des approches de clustering. Les clusters produits par de telles techniques présentent aussi un intérêt pour l'évaluation de requêtes recherchant des patrons d'analogie dans les bases de données. Dans cette perspective, nous avons proposé d'étendre le langage de requêtes SQL pour pouvoir trouver des quadruplets d'une base de données satisfaisant une proportion analogique. Nous avons proposé différentes stratégies d'évaluation pour de telles requêtes, et avons comparé expérimentalementleurs performances. / In this thesis, we are interested in the notion of analogical proportions in a relational database context. An analogical proportion is a statement of the form “A is to B as C is to D”, expressing that the relation beween A and B is the same as the relation between C and D. For instance, one may say that “Paris is to France as Rome is to Italy”. We studied the problem of imputing missing values in a relational database by means of analogical proportions. A classification algorithm based on analogical proportions has been modified in order to impute missing values. Then, we studied how analogical classifiers work in order to see if their processing could be simplified. We showed how some typeof analogical proportions is more useful than the others when performing classification. We then proposed an algorithm using this information, which allowed us to considerably reduce the size of the training set used by the analogical classificationalgorithm, and hence to reduce its execution time. In the second part of this thesis, we payed a particular attention to the mining of combinations of four tuples bound by an analogical relationship. For doing so, we used several clustering algorithms, and we proposed some modifications to them, in order tomake each obtained cluster represent a set of analogical proportions. Using the results of the clustering algorithms, we studied how to efficiently retrieve the analogical proportions in a database by means of queries. For doing so, we proposed to extend the SQL query language in order to retrieve from a database the quadruples of tuples satisfying an analogical proportion. We proposed severalquery evaluation strategies and experimentally compared their performances. Proportion Analogique Classification Clustering Requêtes Databases Clustering Analogical proportions SQL query language
50	Prédire les performances des requêtes et expliquer les résultats pour assister la consommation de données liées / Predicting query performance and explaining results to assist Linked Data consumption Hasan, Rakebul 04 November 2014 (has links) Prédire les performances des requêtes et expliquer les résultats pour assister la consommation de données liées. Notre objectif est d'aider les utilisateurs à comprendre les performances d'interrogation SPARQL, les résultats de la requête, et dérivations sur les données liées. Pour aider les utilisateurs à comprendre les performances des requêtes, nous fournissons des prévisions de performances des requêtes sur la base de d’historique de requêtes et d'apprentissage symbolique. Nous n'utilisons pas de statistiques sur les données sous-jacentes à nos prévisions. Ce qui rend notre approche appropriée au Linked Data où les statistiques sont souvent absentes. Pour aider les utilisateurs des résultats de la requête dans leur compréhension, nous fournissons des explications de provenance. Nous présentons une approche sans annotation pour expliquer le “pourquoi” des résultats de la requête. Notre approche ne nécessite pas de reconception du processeur de requêtes, du modèle de données, ou du langage de requête. Nous utilisons SPARQL 1.1 pour générer la provenance en interrogeant les données, ce qui rend notre approche appropriée pour les données liées. Nous présentons également une étude sur les utilisateurs montrant l'impact des explications. Enfin, pour aider les utilisateurs à comprendre les dérivations sur les données liées, nous introduisons le concept d’explications liées. Nous publions les métadonnées d’explication comme des données liées. Cela permet d'expliquer les résultats en suivant les liens des données utilisées dans le calcul et les liens des explications. Nous présentons une extension de l'ontologie PROV W3C pour décrire les métadonnées d’explication. Nous présentons également une approche pour résumer ces explications et aider les utilisateurs à filtrer les explications. / Our goal is to assist users in understanding SPARQL query performance, query results, and derivations on Linked Data. To help users in understanding query performance, we provide query performance predictions based on the query execution history. We present a machine learning approach to predict query performances. We do not use statistics about the underlying data for our predictions. This makes our approach suitable for the Linked Data scenario where statistics about the underlying data is often missing such as when the data is controlled by external parties. To help users in understanding query results, we provide provenance-based query result explanations. We present a non-annotation-based approach to generate why-provenance for SPARQL query results. Our approach does not require any re-engineering of the query processor, the data model, or the query language. We use the existing SPARQL 1.1 constructs to generate provenance by querying the data. This makes our approach suitable for Linked Data. We also present a user study to examine the impact of query result explanations. Finally to help users in understanding derivations on Linked Data, we introduce the concept of Linked Explanations. We publish explanation metadata as Linked Data. This allows explaining derived data in Linked Data by following the links of the data used in the derivation and the links of their explanation metadata. We present an extension of the W3C PROV ontology to describe explanation metadata. We also present an approach to summarize these explanations to help users filter information in the explanation, and have an understanding of what important information was used in the derivation. Données liées Performances des requêtes Explication SPARQL Linked data Explanation Query performance Prediction SPARQL

Search results