Global ETD Search

21	Optimisation des requêtes de similarité dans les espaces métriques répondant aux besoins des usagers Ribeiro Porto Ferreira, Monica 22 October 2012 (has links) (PDF) La complexité des données contenues dans les grandes bases de données a augmenté considérablement. Par conséquent, des opérations plus élaborées que les requêtes traditionnelles sont indispensable pour extraire toutes les informations requises de la base de données. L'intérêt de la communauté de base de données a particulièrement augmenté dans les recherches basées sur la similarité. Deux sortes de recherche de similarité bien connues sont la requête par intervalle (Rq) et par k-plus proches voisins (kNNq). Ces deux techniques, comme les requêtes traditionnelles, peuvent être accélérées par des structures d'indexation des Systèmes de Gestion de Base de Données (SGBDs).Une autre façon d'accélérer les requêtes est d'exécuter le procédé d'optimisation des requêtes. Dans ce procédé les données métriques sont recueillies et utilisées afin d'ajuster les paramètres des algorithmes de recherche lors de chaque exécution de la requête. Cependant, bien que l'intégration de la recherche de similarités dans le SGBD ait commencé à être étudiée en profondeur récemment, le procédé d'optimisation des requêtes a été développé et utilisé pour répondre à des requêtes traditionnelles. L'exécution des requêtes de similarité a tendance à présenter un coût informatique plus important que l'exécution des requêtes traditionnelles et ce même en utilisant des structures d'indexation efficaces. Deux stratégies peuvent être appliquées pour accélérer l'execution de quelques requêtes, et peuvent également être employées pour répondre aux requêtes de similarité. La première stratégie est la réécriture de requêtes basées sur les propriétés algébriques et les fonctions de coût. La deuxième stratégie est l'utilisation des facteurs externes de la requête, tels que la sémantique attendue par les usagers, pour réduire le nombre des résultats potentiels. Cette thèse vise à contribuer au développement des techniques afin d'améliorer le procédé d'optimisation des requêtes de similarité, tout en exploitant les propriétés algébriques et les restrictions sémantiques pour affiner les requêtes. [INFO:INFO_OH] Computer Science/Other Requêtes de similarité Algèbre pour similarité L'intérêt des usagers Espaces métriques
22	Algorithms for XML stream processing : massive data, external memory and scalable performance Alrammal, Muath 16 May 2011 (has links) (PDF) Plusieurs applications modernes nécessitent un traitement de flux massifs de données XML, cela crée de défis techniques. Parmi ces derniers, il y a la conception et la mise en ouvre d'outils pour optimiser le traitement des requêtes XPath et fournir une estimation précise des coûts de ces requêtes traitées sur un flux massif de données XML. Dans cette thèse, nous proposons un nouveau modèle de prédiction de performance qui estime a priori le coût (en termes d'espace utilisé et de temps écoulé) pour les requêtes structurelles de Forward XPath. Ce faisant, nous réalisons une étude expérimentale pour confirmer la relation linéaire entre le traitement de flux, et les ressources d'accès aux données. Par conséquent, nous présentons un modèle mathématique (fonctions de régression linéaire) pour prévoir le coût d'une requête XPath donnée. En outre, nous présentons une technique nouvelle d'estimation de sélectivité. Elle se compose de deux éléments. Le premier est le résumé path tree: une présentation concise et précise de la structure d'un document XML. Le second est l'algorithme d'estimation de sélectivité: un algorithme efficace de flux pour traverser le synopsis path tree pour estimer les valeurs des paramètres de coût. Ces paramètres sont utilisés par le modèle mathématique pour déterminer le coût d'une requête XPath donnée. Nous comparons les performances de notre modèle avec les approches existantes. De plus, nous présentons un cas d'utilisation d'un système en ligne appelé "online stream-querying system". Le système utilise notre modèle de prédiction de performance pour estimer le coût (en termes de temps / mémoire) d'une requête XPath donnée. En outre, il fournit une réponse précise à l'auteur de la requête. Ce cas d'utilisation illustre les avantages pratiques de gestion de performance avec nos techniques [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Traitement de flux Données XML Requêtes XPath Estimation de sélectivité Modèle de performance Optimisation de requêtes
23	OLAP query optimization and result visualization / Optimisation de requêtes OLAP et visualisation des résultats Simonenko, Ekaterina 16 September 2011 (has links) Nous explorons différents aspects des entrepôts de données et d’OLAP, le point commun de nos recherches étant le modèle fonctionnel pour l'analyse de données. Notre objectif principal est d'utiliser ce modèle dans l'étude de trois aspects différents, mais liés:- l'optimisation de requêtes par réécriture et la gestion du cache,- la visualisation du résultat d'une requête OLAP,- le mapping d'un schéma relationnel en BCNF vers un schéma fonctionnel. L'optimisation de requêtes et la gestion de cache sont des problèmes cruciaux dans l'évaluation de requêtes en général, et les entrepôts de données en particulier; et la réécriture de requêtes est une des techniques de base pour l'optimisation de requêtes. Nous établissons des conditions d'implication de requêtes analytiques, en utilisant le pré-ordre partiel sur l'ensemble de requêtes, et nous définissons un algorithme sain et complet de réécriture ainsi que une stratégie de gestion de cache optimisée, tous les deux basés sur le modèle fonctionnel.Le deuxième aspect important que nous explorons dans cette thèse est celui de la visualisation du résultat. Nous démontrons l'importance pour la visualisation de reproduire des propriétés essentielles de données qui sont les dépendances fonctionnelles. Nous montrons que la connexion, existante entre les données et leur visualisation, est précisément la connexion entre leurs représentations fonctionnelles. Nous dérivons alors un cadre technique, ayant pour objectif d'établir une telle connexion pour un ensemble de données et un ensemble de visualisations. En plus d'analyse du processus de visualisation, nous utilisons le modèle fonctionnel comme un guide pour la visualisation interactive, et définissons ce qu'on appelle la visualisation paramétrique. Le troisième aspect important de notre travail est l'expérimentation des résultats obtenus dans cette thèse. Les résultats de cette thèse peuvent être utilisés afin d’analyser les données contenues dans une table en Boyce-Codd Normal Form (BCNF), étant donné que le schéma de la table peut être transformé aisément en un schéma fonctionnel. Nous présentons une telle transformation (mapping) dans cette thèse. Une fois le schéma relationnel transformé en un schéma fonctionnel, nous pouvons profiter des résultats sur l'optimisation et la visualisation de requêtes. Nous avons utilisé cette transformation dans l’implémentation de deux prototypes dans le cadre de deux projets différents. / In this thesis, we explore different aspects of Data Warehousing and OLAP, the common point of our proposals being the functional model for data analysis. Our main objective is to use that model in studying three different, but related aspects:- query optimization through rewriting and cache management,- query result visualization,- mapping of a relational BCNF schema to a functional schema.Query optimization and cache management is a crucial issue in query processing in general, and in data warehousing in particular; and query rewriting is one of the basic techniques for query optimization. We establish derivability conditions for analytic functional queries, using a partial pre-order over the set of queries. Then we provide a sound and complete rewriting algorithm, as well as an optimized cache management strategy, both based on the underlying functional model.A second important aspect that we explore in the thesis is that of query result visualization. We show the importance for the visualization to reflect such essential features of the dataset as functional dependencies. We show that the connection existing between data and visualization is precisely the connection between their functional representations. We then define a framework, whose objective is to establish such a connection for a given dataset and a set of visualizations. In addition to the analysis of the visualization process, we use the functional data model as a guide for interactive visualization, and define what we call a parametric visualization. A third important aspect of our work is experimentation with the results obtained in the thesis. In order to be able to analyze the data contained in a Boyce-Codd Normal Form (BCNF) table, one can use the results obtained in this thesis, provided that the schema of the table can be mapped to a functional schema. We present such a mapping in this thesis. Once the relational schema has been transformed into a functional schema, we can take advantage of the query optimization and result visualization results presented in the thesis. We have used this transformation in the implementation of two prototypes in the context of two different projects. Requêtes OLAP Réécriture de requêtes OLAP Visualisation de données Interaction visuelle ‘business intelligence’ Entrepôt de données OLAP query OLAP query rewriting Query optimization Data visualization Visual interaction Business intelligence Data warehouse
24	Algorithms for XML stream processing : massive data, external memory and scalable performance / Algorithmes de traitement de flux XML : masses de données, mémoire externe et performances extensibles Alrammal, Muath 16 May 2011 (has links) Plusieurs applications modernes nécessitent un traitement de flux massifs de données XML, cela crée de défis techniques. Parmi ces derniers, il y a la conception et la mise en ouvre d'outils pour optimiser le traitement des requêtes XPath et fournir une estimation précise des coûts de ces requêtes traitées sur un flux massif de données XML. Dans cette thèse, nous proposons un nouveau modèle de prédiction de performance qui estime a priori le coût (en termes d'espace utilisé et de temps écoulé) pour les requêtes structurelles de Forward XPath. Ce faisant, nous réalisons une étude expérimentale pour confirmer la relation linéaire entre le traitement de flux, et les ressources d'accès aux données. Par conséquent, nous présentons un modèle mathématique (fonctions de régression linéaire) pour prévoir le coût d'une requête XPath donnée. En outre, nous présentons une technique nouvelle d'estimation de sélectivité. Elle se compose de deux éléments. Le premier est le résumé path tree: une présentation concise et précise de la structure d'un document XML. Le second est l'algorithme d'estimation de sélectivité: un algorithme efficace de flux pour traverser le synopsis path tree pour estimer les valeurs des paramètres de coût. Ces paramètres sont utilisés par le modèle mathématique pour déterminer le coût d'une requête XPath donnée. Nous comparons les performances de notre modèle avec les approches existantes. De plus, nous présentons un cas d'utilisation d'un système en ligne appelé "online stream-querying system". Le système utilise notre modèle de prédiction de performance pour estimer le coût (en termes de temps / mémoire) d'une requête XPath donnée. En outre, il fournit une réponse précise à l'auteur de la requête. Ce cas d'utilisation illustre les avantages pratiques de gestion de performance avec nos techniques / Many modern applications require processing of massive streams of XML data, creating difficult technical challenges. Among these, there is the design and implementation of applications to optimize the processing of XPath queries and to provide an accurate cost estimation for these queries processed on a massive steam of XML data. In this thesis, we propose a novel performance prediction model which a priori estimates the cost (in terms of space used and time spent) for any structural query belonging to Forward XPath. In doing so, we perform an experimental study to confirm the linear relationship between stream-processing and data-access resources. Therefore, we introduce a mathematical model (linear regression functions) to predict the cost for a given XPath query. Moreover, we introduce a new selectivity estimation technique. It consists of two elements. The first one is the path tree structure synopsis: a concise, accurate, and convenient summary of the structure of an XML document. The second one is the selectivity estimation algorithm: an efficient stream-querying algorithm to traverse the path tree synopsis for estimating the values of cost-parameters. Those parameters are used by the mathematical model to determine the cost of a given XPath query. We compare the performance of our model with existing approaches. Furthermore, we present a use case for an online stream-querying system. The system uses our performance predicate model to estimate the cost for a given XPath query in terms of time/memory. Moreover, it provides an accurate answer for the query's sender. This use case illustrates the practical advantages of performance management with our techniques Traitement de flux Données XML Requêtes XPath Estimation de sélectivité Modèle de performance Optimisation de requêtes Streaming processing XML data XPath queries Selectivity estimation Performance prediction model Query optimization
25	Canevas de domaines pour l'intégration de données Alia, Mourad 30 June 2005 (has links) (PDF) Beaucoup de travaux de recherche autour des systèmes d'intégration de données se sont concentrés sur les problémes liés aux schémas, aux langages et au traitement de requÍtes. Dans cette thèse, nous nous intéressons à la problématique de construction de tels systèmes. Nous appliquons les concepts architecturaux des systèmes répartis, notamment de canevas et de composant logiciel, pour proposer un intergiciel d'intégration de données offrant quatre niveaux d'adaptabilité. Au niveau architectural, nous définissons le canevas de domaine de données qui est le composant central de l'intégration. Un système d'intégration de données est défini par la composition de domaines de données. Au niveau modèle de données, nous adoptons un modèle hybride doté d'un typage flexible, associé au langage d'expression des vues de domaines, qui permet de prendre en compte l'hétérogénéité structurelle des sources (ou domaines) de données à intégrer. Au niveau langage de requêtes, nous proposons un canevas d'expression qui permet de décrire les requêtes à la fois pour l'intégration et pour l'interrogation de domaines, indépendamment d'une syntaxe particulière. Au niveau optimisation, nous proposons un canevas d'optimisation de requêtes adaptable, dans le sens ou il permet de construire et de supporter diverses stratÈgies de recherche. Le canevas d'expression et le canevas d'optimisation de requÍte ont été implantés dans le cadre du consortium ObjectWeb. Ces implantations ont été utilisÈes dans la mise en oeuvre de deux standards de persistance d'objets Java, à savoir JDO (Java Data Object) et EJB-CMP (Container Managed Persistance). Dans le contexte de recherche de composants pour des besoins d'administration des systèmes à large échelle, nous avons proposé une utilisation de notre intergiciel pour proposer un service de requête qui permette de rechercher des composants dans un gisement et dans des systèmes en cours d'exécution, par introspection associative. Intégration de données Architecture des sytèmes Languages de requêtes Traitement de Requêtes Modèles de données caneva logciels composants logiciels Middlewares Adaptables
26	Optimizing similarity queries in metric spaces meeting user's expectation / Optimisation des requêtes de similarité dans les espaces métriques répondant aux besoins des usagers / Otimização de operações de busca por similaridade em espaços métricos atendendo à expectativa do usuário Ribeiro porto ferreira, Monica 22 October 2012 (has links) La complexité des données contenues dans les grandes bases de données a augmenté considérablement. Par conséquent, des opérations plus élaborées que les requêtes traditionnelles sont indispensable pour extraire toutes les informations requises de la base de données. L'intérêt de la communauté de base de données a particulièrement augmenté dans les recherches basées sur la similarité. Deux sortes de recherche de similarité bien connues sont la requête par intervalle (Rq) et par k-plus proches voisins (kNNq). Ces deux techniques, comme les requêtes traditionnelles, peuvent être accélérées par des structures d'indexation des Systèmes de Gestion de Base de Données (SGBDs).Une autre façon d'accélérer les requêtes est d'exécuter le procédé d'optimisation des requêtes. Dans ce procédé les données métriques sont recueillies et utilisées afin d'ajuster les paramètres des algorithmes de recherche lors de chaque exécution de la requête. Cependant, bien que l'intégration de la recherche de similarités dans le SGBD ait commencé à être étudiée en profondeur récemment, le procédé d'optimisation des requêtes a été développé et utilisé pour répondre à des requêtes traditionnelles. L'exécution des requêtes de similarité a tendance à présenter un coût informatique plus important que l'exécution des requêtes traditionnelles et ce même en utilisant des structures d'indexation efficaces. Deux stratégies peuvent être appliquées pour accélérer l'execution de quelques requêtes, et peuvent également être employées pour répondre aux requêtes de similarité. La première stratégie est la réécriture de requêtes basées sur les propriétés algébriques et les fonctions de coût. La deuxième stratégie est l'utilisation des facteurs externes de la requête, tels que la sémantique attendue par les usagers, pour réduire le nombre des résultats potentiels. Cette thèse vise à contribuer au développement des techniques afin d'améliorer le procédé d'optimisation des requêtes de similarité, tout en exploitant les propriétés algébriques et les restrictions sémantiques pour affiner les requêtes. / The complexity of data stored in large databases has increased at very fast paces. Hence, operations more elaborated than traditional queries are essential in order to extract all required information from the database. Therefore, the interest of the database community in similarity search has increased significantly. Two of the well-known types of similarity search are the Range (Rq) and the k-Nearest Neighbor (kNNq) queries, which, as any of the traditional ones, can be sped up by indexing structures of the Database Management System (DBMS). Another way of speeding up queries is to perform query optimization. In this process, metrics about data are collected and employed to adjust the parameters of the search algorithms in each query execution. However, although the integration of similarity search into DBMS has begun to be deeply studied more recently, the query optimization has been developed and employed just to answer traditional queries.The execution of similarity queries, even using efficient indexing structures, tends to present higher computational cost than the execution of traditional ones. Two strategies can be applied to speed up the execution of any query, and thus they are worth to employ to answer also similarity queries. The first strategy is query rewriting based on algebraic properties and cost functions. The second technique is when external query factors are applied, such as employing the semantic expected by the user, to prune the answer space. This thesis aims at contributing to the development of novel techniques to improve the similarity-based query optimization processing, exploiting both algebraic properties and semantic restrictions as query refinements. / A complexidade dos dados armazenados em grandes bases de dados tem aumentadosempre, criando a necessidade de novas operaoes de consulta. Uma classe de operações de crescente interesse são as consultas por similaridade, das quais as mais conhecidas sãoas consultas por abrangência (Rq) e por k-vizinhos mais próximos (kNNq). Qualquerconsulta é agilizada pelas estruturas de indexaçãodos Sistemas de Gerenciamento deBases de Dados (SGBDs). Outro modo de agilizar as operações de busca é a manutençãode métricas sobre os dados, que são utilizadas para ajustar parâmetros dos algoritmos debusca em cada consulta, num processo conhecido como otimização de consultas. Comoas buscas por similaridade começaram a ser estudadas seriamente para integração emSGBDs muito mais recentemente do que as buscas tradicionais, a otimização de consultas,por enquanto, é um recurso que tem sido utilizado para responder apenas a consultastradicionais.Mesmo utilizando as melhores estruturas existentes, a execução de consultas por similaridadetende a ser mais custosa do que as operações tradicionais. Assim, duas estratégiaspodem ser utilizadas para agilizar a execução de qualquer consulta e, assim, podem serempregadas também para responder às consultas por similaridade. A primeira estratégiaé a reescrita de consultas baseada em propriedades algébricas e em funções de custo. Asegunda técnica faz uso de fatores externos à consulta, tais como a semântica esperadapelo usuário, para restringir o espaço das respostas. Esta tese pretende contribuir parao desenvolvimento de técnicas que melhorem o processo de otimização de consultas porsimilaridade, explorando propriedades algébricas e restrições semânticas como refinamentode consultas Requêtes de similarité Algèbre pour similarité L'intérêt des usagers Espaces métriques Similarity queries Similarity algebra Similarity query optimization User's expectation Metric spaces 005.7 515 516 519
27	Quand le genre s'en mêle : stratégies de requêtes dans les dessins animés Arbore, Marie 11 1900 (has links) A la suite de nombreux travaux sur le genre en sociolinguistique, cette étude quantitative propose d’étudier le genre en s’intéressant à la formulation des requêtes des personnages dans les dessins animés des années 2000-2010. En effet, on retrouve bon nombre de recherches explicitant l’influence des dessins animés dans la socialisation des enfants à qui on demande d’acquérir les codes de leur société et d’apprendre à vivre avec les autres. Ainsi, les dessins animés sont en mesure de leur présenter des modèles de socialisation différents de ceux présents dans leur vie quotidienne. C’est pourquoi la réflexion de ce mémoire s’intéressera particulièrement aux stratégies de requête entre les personnages et tentera de faire le lien entre le genre des personnages-locuteurs mais aussi avec le rôle implicite de chaque locuteur au sein du groupe. La dynamique de groupe est un critère très important dans le choix du corpus de cette étude puisque nous essaierons de comprendre comment les personnages s’organisent entre eux au sein d’une dynamique sociale qui leur est propre à travers leurs différentes stratégies de requête. En s’intéressant à des dessins animés qui présentent justement des dynamiques sociales variées (groupe majoritairement féminin, majoritairement masculin et mixte), nous avons pour but de mettre en lumière les dynamiques propres à ces groupes respectifs, afin d’illustrer leurs différences et leurs similitudes. Pour ce faire, nous proposons d’élaborer une analyse synchronique et diachronique de ces dessins animés diffusés approximativement sur une même période, afin de mettre notre recherche en parallèle avec une évolution progressive de notre société. / Following many works about gender in sociolinguistics, this quantitative study proposes to study gender by focusing on the formulation of by male and female characters requests in cartoons from 2000-2010. Indeed, there is a good deal of research explaining the influence of cartoons in the socialization of children who are asked to acquire the codes of their society and learn to live with others. Thus, cartoons are able to present them socialization patterns, from those present in their daily life. This is why this dissertation will be particularly interested in query strategies between characters and will attempt to establish a link between the gender of the speaker characters but also with the implicit role of each speaker within the group. Group dynamics is a very important criterion in choosing the corpus for this study since we will try to understand how the characters organize themselves within their own social dynamics through their different query strategies. By focusing on cartoons that present varied social dynamics (predominantly female group, predominantly male and mixed), our goal is to highlight the dynamics specific to these respective groups, in order to illustrate their differences and their similarities. To do this, we propose to develop a synchronic and diachronic analysis of these cartoons broadcast over approximately the same period, in order to put our research in parallel with a progressive evolution of our society. Etude du genre Dessins animés Requêtes Stratégies de requêtes Socialisation Taxème de pouvoir Gender studies Cartoons Requests Requests strategies Socialization Taxem of power
28	Etude de l'ambiguïté des requêtes dans un moteur de recherche spécialisé dans l'actualité : exploitation d'indices contextuels / Study of the ambiguity of queries in a news search engine : exploitation of contextual clues Lalleman, Fanny 26 November 2013 (has links) Dans cette thèse, nous envisageons la question de l’ambiguïté des requêtes soumises à un moteur de recherche dans un domaine particulier qui est l’actualité. Nous nous appuyons sur les travaux récents dans le domaine de la recherche d’information (RI) qui ont montré l’apport d’informations contextuelles pour mieux cerner et traiter plus adéquatement le besoin informationnel. Nous faisons ainsi l’hypothèse que les éléments d’information disponibles dans une application de RI (contextes présents dans la base documentaire, répétitions et reformulations de requêtes, dimension diachronique de la recherche) peuvent nous aider à étudier ce problème d’ambiguïté. Nous faisons également l’hypothèse que l’ambiguïté va se manifester dans les résultats ramenés par un moteur de recherche. Dans ce but, nous avons mis en place un dispositif pour étudier l’ambiguïté des requêtes reposant sur une méthode de catégorisation thématique des requêtes, qui s’appuie sur unecatégorisation experte. Nous avons ensuite montré que cette ambiguïté est différente de celle repérée par une ressource encyclopédique telle que Wikipédia. Nous avons évalué ce dispositif de catégorisation en mettant en place deux tests utilisateurs. Enfin, nous fournissons une étude basée sur un faisceau d’indices contextuels afin de saisir le comportement global d’une requête. / In this thesis, we consider the question of the ambiguity of queries submitted to a search engine in a particular area that is news.We build on recent work in the field of information retrieval (IR) that showed the addition of contextual information to better identify and address more adequately the information need. On this basis, we make the hypothesis that the elements of information available in an application of IR (contexts in the collection of documents, repetitions and reformulations of queries, diachronic dimension of the search) can help us to examine this problem of ambiguity. We also postulate that ambiguity will manifest in the results returned by a search engine. In this purpose to evaluate these hypotheses, we set up a device to study the ambiguity of queries based on a method of thematic categorization of queries, which relies on an expert categorization. We then show that this ambiguity is different which is indicated by an encyclopedic resources such as Wikipedia.We evaluate this categorization device by setting up two user tests. Finally, we carry out a study based on a set of contextual clues in order to understand the global behavior of a query. Recherche d'information Analyse des requêtes Actualités Information retrieval Analysis of queries News Natural language processiong
29	Efficient Querying and Analytics of Semantic Web Data / Interrogation et Analyse Efficiente des Données du Web Sémantique Roatis, Alexandra 22 September 2014 (has links) L'utilité et la pertinence des données se trouvent dans l'information qui peut en être extraite.Le taux élevé de publication des données et leur complexité accrue, par exemple dans le cas des données du Web sémantique autodescriptives et hétérogènes, motivent l'intérêt de techniques efficaces pour la manipulation de données.Dans cette thèse, nous utilisons la technologie mature de gestion de données relationnelles pour l'interrogation des données du Web sémantique.La première partie se concentre sur l'apport de réponse aux requêtes sur les données soumises à des contraintes RDFS, stockées dans un système de gestion de données relationnelles. L'information implicite, résultant du raisonnement RDF est nécessaire pour répondre correctement à ces requêtes.Nous introduisons le fragment des bases de données RDF, allant au-delà de l'expressivité des fragments étudiés précédemment.Nous élaborons de nouvelles techniques pour répondre aux requêtes dans ce fragment, en étendant deux approches connues de manipulation de données sémantiques RDF, notamment par saturation de graphes et reformulation de requêtes.En particulier, nous considérons les mises à jour de graphe au sein de chaque approche et proposerons un procédé incrémental de maintenance de saturation. Nous étudions expérimentalement les performances de nos techniques, pouvant être déployées au-dessus de tout moteur de gestion de données relationnelles.La deuxième partie de cette thèse considère les nouvelles exigences pour les outils et méthodes d'analyse de données, issues de l'évolution du Web sémantique.Nous revisitons intégralement les concepts et les outils pour l'analyse de données, dans le contexte de RDF.Nous proposons le premier cadre formel pour l'analyse d'entrepôts RDF. Notamment, nous définissons des schémas analytiques adaptés aux graphes RDF hétérogènes à sémantique riche, des requêtes analytiques qui (au-delà de cubes relationnels) permettent l'interrogation flexible des données et schémas, ainsi que des opérations d'agrégation puissantes de type OLAP. Des expériences sur une plateforme entièrement implémentée démontrent l'intérêt pratique de notre approche. / The utility and relevance of data lie in the information that can be extracted from it.The high rate of data publication and its increased complexity, for instance the heterogeneous, self-describing Semantic Web data, motivate the interest in efficient techniques for data manipulation.In this thesis we leverage mature relational data management technology for querying Semantic Web data.The first part focuses on query answering over data subject to RDFS constraints, stored in relational data management systems. The implicit information resulting from RDF reasoning is required to correctly answer such queries. We introduce the database fragment of RDF, going beyond the expressive power of previously studied fragments. We devise novel techniques for answering Basic Graph Pattern queries within this fragment, exploring the two established approaches for handling RDF semantics, namely graph saturation and query reformulation. In particular, we consider graph updates within each approach and propose a method for incrementally maintaining the saturation. We experimentally study the performance trade-offs of our techniques, which can be deployed on top of any relational data management engine.The second part of this thesis considers the new requirements for data analytics tools and methods emerging from the development of the Semantic Web. We fully redesign, from the bottom up, core data analytics concepts and tools in the context of RDF data. We propose the first complete formal framework for warehouse-style RDF analytics. Notably, we define analytical schemas tailored to heterogeneous, semantic-rich RDF graphs, analytical queries which (beyond relational cubes) allow flexible querying of the data and the schema as well as powerful aggregation and OLAP-style operations. Experiments on a fully-implemented platform demonstrate the practical interest of our approach. RDF Réponse aux requêtes Raisonnement Entrepôt de données OLAP RDF Query answering Reasoning Data warehouse OLAP
30	Evaluation des requêtes hybrides basées sur la coordination des services / Evaluation of hybrid queries based on service coordination Cuevas Vicenttin, Victor 08 July 2011 (has links) Les récents progrès réalisés en matière de communication (réseaux hauts débits, normalisation des protocoles et des architectures à objets répartis, explosion de l'internet) conduisent à l'apparition de systèmes de gestion de données et services largement répartis. Les données sont produites à la demande ou de manière continue au travers de divers dispositifs statiques ou mobiles. Cette thèse présente une approche pour l'évaluation de requêtes dites hybrides car intégrant différents aspects des données mobiles, continues, cachées rencontrées dans des environnements dynamiques. Notre approche consiste à représenter une telle requête comme une coordination de services comprenant des services de données et de calcul. Une telle coordination est définie par le flux de la requête et ceux d'opérateurs sur les données (e.g. join, select, union). Un flux de requête représente une expression construite avec les opérateurs de notre modèle de données. Ce flux est construit par un algorithme de ré-écriture à partir de la requête spécifiée dans notre langage de requête HSQL Les flux dit opérateurs composent des services de calcul afin de permettre l'évaluation d'un opérateur particulier. Le processeur de requêtes basées sur les services hybrides que nous avons développé met en mise en œuvre et valide nos propositions. / Recent trends in information technologies result in a massive proliferation of data which are carried over different kinds of networks, produced in either on-demand or streaming fashion, generated and accessible by a variety of devices, and that can involve mobility aspects. This thesis presents an approach for the evaluation of hybrid queries that integrate the various aspects involved in querying continuous, mobile and hidden data in dynamic environments. Our approach consists of representing such an hybrid query as a service coordination comprising data and computation services. A service coordination is specified by a query workflow and additional operator workflows. A query workflow represents an expression built with the operators of our data model. This workflow is constructed from a query specified in our proposed SQL-like query language, HSQL, by an algorithm we developed based on known results of database theory. Operator workflows enable to compose computation services to enable the evaluation of a particular operator. HYPATIA, a service-based hybrid query processor, implements and validates our approach. Traitement de requêtes Coordination des services Bases de données Query processing Service coordination Databases 004

Search results