• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 175
  • 68
  • 19
  • 1
  • 1
  • 1
  • Tagged with
  • 259
  • 259
  • 92
  • 92
  • 86
  • 43
  • 41
  • 36
  • 35
  • 33
  • 27
  • 27
  • 27
  • 26
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Evaluation des requêtes hybrides basées sur la coordination des services / Evaluation of hybrid queries based on service coordination

Cuevas Vicenttin, Victor 08 July 2011 (has links)
Les récents progrès réalisés en matière de communication (réseaux hauts débits, normalisation des protocoles et des architectures à objets répartis, explosion de l'internet) conduisent à l'apparition de systèmes de gestion de données et services largement répartis. Les données sont produites à la demande ou de manière continue au travers de divers dispositifs statiques ou mobiles. Cette thèse présente une approche pour l'évaluation de requêtes dites hybrides car intégrant différents aspects des données mobiles, continues, cachées rencontrées dans des environnements dynamiques. Notre approche consiste à représenter une telle requête comme une coordination de services comprenant des services de données et de calcul. Une telle coordination est définie par le flux de la requête et ceux d'opérateurs sur les données (e.g. join, select, union). Un flux de requête représente une expression construite avec les opérateurs de notre modèle de données. Ce flux est construit par un algorithme de ré-écriture à partir de la requête spécifiée dans notre langage de requête HSQL Les flux dit opérateurs composent des services de calcul afin de permettre l'évaluation d'un opérateur particulier. Le processeur de requêtes basées sur les services hybrides que nous avons développé met en mise en œuvre et valide nos propositions. / Recent trends in information technologies result in a massive proliferation of data which are carried over different kinds of networks, produced in either on-demand or streaming fashion, generated and accessible by a variety of devices, and that can involve mobility aspects. This thesis presents an approach for the evaluation of hybrid queries that integrate the various aspects involved in querying continuous, mobile and hidden data in dynamic environments. Our approach consists of representing such an hybrid query as a service coordination comprising data and computation services. A service coordination is specified by a query workflow and additional operator workflows. A query workflow represents an expression built with the operators of our data model. This workflow is constructed from a query specified in our proposed SQL-like query language, HSQL, by an algorithm we developed based on known results of database theory. Operator workflows enable to compose computation services to enable the evaluation of a particular operator. HYPATIA, a service-based hybrid query processor, implements and validates our approach.
42

Signatures : detecting and characterizing complex recurrent behavior in sequential data / Détection et caractérisation de comportements complexes récurrents dans des données séquentielles

Gautrais, Clément 16 October 2018 (has links)
Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché. / Cette thèse introduit un nouveau type de motif appelé signature. La signature segmente une séquence d'itemsets, afin de maximiser la taille de l'ensemble d'items qui apparaît dans tous les segments. La signature a été initialement introduite pour identifier les produits favoris d'un consommateur de supermarché à partir de son historique d'achat. L'originalité de la signature vient du fait qu'elle identifie les items récurrents qui 1) peuvent apparaître à différentes échelles temporelles, 2) peuvent avoir des occurrences irrégulières et 3) peuvent être rapidement compris par des analystes. Étant donné que les approches existantes en fouille de motifs n'ont pas ces 3 propriétés, nous avons introduit la signature. En comparant la signature avec les méthodes de l'état de l'art, nous avons montré que la signature est capable d'identifier de nouvelles régularités dans les données, tout en identifiant les régularités détectées par les méthodes existantes. Bien qu'initialement liée au domaine de la fouille de motifs, nous avons également lié le problème de la fouille de signatures au domaine de la segmentation de séquences. Nous avons ensuite défini différents algorithmes, utilisant des méthodes liées à la fouille de motifs et à la segmentation de séquences. Les signatures ont été utilisées pour analyser un large jeu de données issu d'un supermarché français. Une analyse qualitative des signatures calculées sur ces consommateurs réels a montré que les signatures sont capables d'identifier les produits favoris d'un consommateur. Les signatures ont également été capables de détecter et de caractériser l'attrition de consommateurs. Cette thèse définit également 2 extensions de la signature. La première extension est appelée la sky-signature. La sky-signature permet de présenter les items récurrents d'une séquence à différentes échelles de temps. La sky-signature peut être vue comme une manière efficace de résumer les signatures calculées à toutes les échelles de temps possibles. Les sky-signatures ont été utilisées pour analyser les discours de campagne des candidats à la présidentielle américaine de 2016. Les sky-signatures ont identifié les principaux thèmes de campagne de chaque candidat, ainsi que leur rythme de campagne. Cette analyse a également montré que les signatures peuvent être utilisées sur d'autres types de jeux de données. Cette thèse introduit également une deuxième extension de la signature, qui permet de calculer la signature qui correspond le plus aux données. Cette extension utilise une technique de sélection de modèle basée sur le principe de longueur de description minimale, communément utilisée en fouille de motifs. Cette extension a également été utilisée pour analyser des consommateurs de supermarché.
43

Cross-model queries and schemas : complexity and learning / Requêtes et schémas hétérogènes : complexité et apprentissage

Ciucanu, Radu 01 July 2015 (has links)
La spécification de requêtes est généralement une tâche difficile pour les utilisateurs non-experts. Le problème devient encore plus difficile quand les utilisateurs ont besoin d'interroger des bases de données de grande taille et donc difficiles à visualiser. Le schéma pourrait aider à cette spécification, mais celui-ci manque souvent ou est incomplet quand les données viennent de sources hétérogènes. Dans cette thèse, nous abordons le problème de la spécification de requêtes pour les utilisateurs non-experts. Nous identifions deux approches pour attaquer ce problème : apprendre les requêtes à partir d'exemples ou transformer les données dans un format plus facilement interrogeable par l'utilisateur. Nos contributions suivent ces deux directions et concernent trois modèles de données parmi les plus populaires : XML, relationnel et orienté graphe. Cette thèse comprend deux parties, consacrées à (i) la définition et la transformation de schémas, et (ii) l'apprentissage de schémas et de requêtes. Dans la première partie, nous définissons des formalismes de schémas pour les documents XML non-ordonnés et nous analysons leurs propriétés computationnelles; nous étudions également la complexité du problème d'échange de données entre une source relationnelle et une cible orientée graphe. Dans la deuxième partie, nous étudions le problème de l'apprentissage à partir d'exemples pour les schémas XML proposés dans la première partie, ainsi que pour les requêtes de jointures relationnelles et les requêtes de chemins sur les graphes. Nous proposons notamment un scénario interactif qui permet d'aider des utilisateurs non-experts à définir des requêtes dans ces deux classes. / Specifying a database query using a formal query language is typically a challenging task for non-expert users. In the context of big data, this problem becomes even harder because it requires the users to deal with database instances of large size and hence difficult to visualize. Such instances usually lack a schema to help the users specify their queries, or have an incomplete schema as they come from disparate data sources. In this thesis, we address the problem of query specification for non-expert users. We identify two possible approaches for tackling this problem: learning queries from examples and translating the data in a format that the user finds easier to query. Our contributions are aligned with these two complementary directions and span over three of the most popular data models: XML, relational, and graph. This thesis consists of two parts, dedicated to (i) schema definition and translation, and to (ii) learning schemas and queries. In the first part, we define schema formalisms for unordered XML and we analyze their computational properties; we also study the complexity of the data exchange problem in the setting of a relational source and a graph target database. In the second part, we investigate the problem of learning from examples the schemas for unordered XML proposed in the first part, as well as relational join queries and path queries on graph databases. The interactive scenario that we propose for these two classes of queries is immediately applicable to assisting non-expert users in the process of query specification.
44

Mesure de l'exposition médicamenteuse en pharmaco-épidémiologie : étude comparative de données issues des bases de remboursement de l'Assurance Maladie française et de données déclaratives / Assessment of drug exposure in pharmacoepidemiology : comparison of interview data and reimbursement claims data from the French national healthcare insurance system

Noize, Pernelle 15 December 2009 (has links)
En pharmaco-épidémiologie, la mesure de l’exposition médicamenteuse est fondamentale. Des données déclaratives recueillies par interrogatoire des sujets ou des données extraites des bases de remboursement de l’Assurance Maladie peuvent être utilisées. Les objectifs de ce travail étaient de comparer l’exposition mesurée à partir de ces deux sources de données et d’évaluer l’impact du choix de l’une ou l’autre source sur les mesures de risque dans les études étiologiques. Les travaux ont été conduits au sein de l’étude des Trois-Cités, cohorte de sujets âgés pour laquelle étaient disponibles des données déclaratives et de remboursement. La concordance entre les expositions issues des deux sources ou la validité de l’exposition issue de l’une par rapport à celle issue de l’autre ont été évaluées dans différents contextes. La survenue d’événements a été simulée dans la population et des études cas-témoins nichées ont été conduites pour évaluer l’association entre l’exposition issue de chaque source et chaque événement. Pour les médicaments cardiovasculaires, les mesures d’exposition étaient peu différentes entre les deux sources. L’impact du choix de l’une ou l’autre source sur les mesures d’association entre l’exposition et un événement était faible. Pour les benzodiazépines ou les anti-inflammatoires non stéroïdiens, des différences étaient observées entre les expositions issues des deux sources. Pour ces médicaments, l’association avec un événement pouvait varier selon la source utilisée. Pour des médicaments pris de manière irrégulière ou intermittente, le choix de la source de données pour la mesure de l’exposition peut donc être un élément déterminant. / In pharmacoepidemiology, assessment of drug exposure is fundamental. It can rely on data collected through patient interviews or extracted from healthcare insurance system databases recording reimbursement claims. This work aimed to compare drug exposure measured from these two data sources and to evaluate the impact of choosing one source or the other on risk estimates in etiological studies. It was conducted as part of the Three-City Study, a cohort of French elderly persons for which both interview and reimbursement data were available. Agreement between exposures measured from both sources or validity of exposure measured from one source with reference to that measured from the other were evaluated in different backgrounds. Simulated outcomes were generated in the study population and nested case-control studies were conducted in order to estimate the association between the drug exposure measured from each source and each simulated outcome. For cardiovascular system drugs, exposure measured from interview data was close to that measured from reimbursement data. The choice of one source or the other had few impact on the estimated associations between the exposure and an outcome. For benzodiazepines or non-steroidal anti-inflammatory drugs, exposure measured from both sources could differ. For these drugs, the association between the exposure measured from each source and an outcome could vary. For drugs that can be used irregularly or intermittently, the choice of the source of data for drug exposure assessment could thus be of great importance.
45

Apport des bases de données médicoadministratives à l’étude du fardeau de la maladie et de la morbidité évitable dans l’asthme et l’ostéoporose / Use of French claims data to investigate burden of disease and unmet needs in asthma and osteoporosis

Belhassen, Manon 29 June 2016 (has links)
En France, l'usage des bases de données médico-administratives dans le cadre épidémiologique est récent comparativement à d'autres pays d'Europe, du fait notamment de leur complexité, liée à leur développement initial mené dans une optique comptable. Les travaux menés ont porté sur l'apport de ces bases de données à l'étude de la prise en charge et de la morbidité évitable dans l'asthme et dans l'ostéoporose. Dans un premier temps, nous avons montré que ces bases de données permettaient au travers d'algorithmes d'identifier des nourrissons asthmatiques et leurs exacerbations, et que la prise en charge de ces nourrissons n'était pas optimale en France, avec une forte consommation d'antibiotiques et de corticoïdes oraux. Nous avons prolongé ces recherches par la description de la prise en charge des asthmatiques enfants/adolescents et adultes, et les constats ont été les mêmes. Une surconsommation des traitements de crise a pu être mise en évidence, ainsi que des sous-groupes de patients à risque d'exacerbation sévère. Ces résultats nous ont amené à nous intéresser tout particulièrement à l'adhésion aux traitements de fond. Dans une étude menée sur 5 000 patients asthmatiques, le taux de couverture par un traitement de fond était en moyenne de 51%, et seuls 24% des patients avaient un taux de couverture supérieur ou égal au taux minimal recommandé (80%). Enfin, concernant l'ostéoporose, nous nous sommes attachés à décrire la prise en charge des patients ostéoporotiques sur une période de 6 ans, en nous concentrant particulièrement sur les changements de stratégies thérapeutiques / Anglais In France, the use of claims data in the epidemiological context is recent compared to other European countries, in particular because of their complexity, linked to their initial development for accounting purposes. This work was focused on the contribution of these databases to study disease management and unmet needs in asthma and osteoporosis. First, we showed that it was feasible, through algorithms, to identify in these data infants with asthma and their exacerbations, and we noted that management of these infants was not optimal, with high use of antibiotics and oral corticosteroids. We extended this research by describing the treatment of asthmatic children/adolescents and adults, with similar findings. Overuse of reliever therapy was observed, beyond the identification of subgroups at risk of serious exacerbation. These results led us to focus on adherence to controller therapy. In a study including 5,000 asthma patients, the coverage by controller therapy was 51%, and only 24% of patients had a higher coverage than the recommended minimum (80%). Finally, regarding osteoporosis, we described the treatment of osteoporotic patients over 6 years, with a particular focus on treatment switches
46

Introduction à la tolérance sémantique : la prise en compte des exceptions dans le cadre du couplage des bases de données et des bases de connaissances

Esculier, Christian 05 July 1989 (has links) (PDF)
L'approche proposée traduit l'imperfection potentielle des règles en transposant, dans le domaine informatique, le concept de tolérance, classique en ingénierie. Elle s'articule autour d'un prédicat de tolérance qui permet de décider si une instance non conforme est une exception ou une erreur et d'un comportement exceptionnel du système qui assure l'intégration de l'exception et sa gestion ultérieure
47

Analyse et extraction de connaissances des bases de données spatio-temporelles

Zeitouni, Karine 01 December 2006 (has links) (PDF)
Ces dernières années ont vu une croissance phénoménale dans la production et la diffusion des données spatiales de sources aussi variées qu'hétérogènes. Cela a généré des besoins d'intégration dans des entrepôts de données et des perspectives d'analyse exploratoire et de fouille de données spatiales et spatiotemporelles. Nos travaux se placent dans ce contexte visant l'analyse et l'extraction des connaissances depuis les bases de données spatiotemporelles. Ils traitent différents aspects allant de la modélisation avancée des données spatiales, à la fouille de ces données en passant par leur intégration dans un entrepôt, l'optimisation des requêtes et l'analyse en ligne. Ainsi, nous décrivons nos approches pour la modélisation 3D, puis pour la modélisation spatiotemporelle d'objets mobiles. Ensuite, l'intégration de données spatiales est traitées selon deux aspects : l'intégration de formats et l'intégration de données par l'appariement géométrique. Une architecture d'entrepôt de données spatiales basée sur les standards XML et GML est proposée, puis dotée d'une technique d'optimisation de requêtes spatiales basée sur un cache sémantique. L'exploration des données spatiotemporelles a donné lieu à des solutions originales extension de l'OLAP. Enfin, différentes approches sont proposées pour la fouille de données spatiales. Nous avons ouvert le spectre de nos recherches à la fouille d'autres données complexes, telles que les données séquentielles et textuelles. Ces travaux ainsi que les développements futurs sont exposés dans ce mémoire.
48

Ingénierie des données: problèmes de modélisation et d'intégration

Salgado, Ana Carolina 26 May 2008 (has links) (PDF)
Ce rapport présente mes principaux résultats en trois axes de recherche depuis 1989 : les Bases de Données Géographiques, l'Intégration de Données et la prise en compte de la Sémantique dans les Systèmes Pair-a-pair (P2P). Une base de données géographiques est dédiée à la représentation, au stockage et à la récupération d'informations référencées dans l'espace. Les techniques traditionnelles de modélisation n'étaient pas adéquates pour le traitement de ces types de données. La difficulté vient du fait que la plupart des données sont validées en termes de leurs localisation dans l'espace, du temps et de leur disponibilité. Dans ce contexte, notre contribution a été la proposition d'un modèle de données géographiques orienté-objet, MGeo+, et son langage de requête, LinGeo. Nous avons aussi travaillé sur l'analyse des méthodes d'accès spatiales et sur la proposition d'un langage de requêtes visuel et son interface utilisateur. Les systèmes d'intégration de données sont des outils qui offrent un accès uniforme à des sources de données distribuées et hétérogènes. Cela est accompli en identifiant les hétérogénéités et en fournissant une vue unifiée sur les diverses sources. Les utilisateurs envoient leurs requêtes sur cette vue intégrée sans perdre du temps à naviguer sur le Web. Nous travaillons sur la spécification et l'implémentation d'un système d'intégration de données et, en particulier, sur les aspects d'évolution du schéma de médiation et de la qualité des schémas. Les schémas et les instances des sources de données hétérogènes, dynamiques et distribuées contiennent rarement des descriptions sémantiques explicites qui puissent être utilisées pour dériver le sens des éléments du schéma (entité, attributs et associations). L'information sémantique implicite doit être extraite pour clarifier la signification des éléments du schéma. Pour permettre cela, une ontologie du domaine fournira les informations des associations sémantiques entre les termes du vocabulaire partagé par les sources. Cependant, l'information sémantique a un rapport avec la compréhension des gens et est une tâche dépendante du contexte et qui nécessite une connaissance spécifique du domaine. Le concept de contexte peut être employé pour améliorer la prise de décision afin de résoudre l'hétérogénéité sémantique des processus d'intégration de données une fois qu'il aide à la compréhension sémantique du schéma des sources et de leurs contenus. Nous présentons notre proposition d'un modèle de contextes, d'un gestionnaire de contextes indépendant du domaine, d'une ontologie d'informations contextuelles pour l'intégration de données et d'une approche pour la prise en compte des aspects sémantiques dans les systèmes pair-a-pair (P2P).
49

Personnalisation de l'information : une approche de gestion de profils et de reformulation de requêtes

Kostadinov, Dimitre 19 December 2007 (has links) (PDF)
Cette thèse contient deux parties. La première est orientée vers l'étude de l'état de l'art sur la personnalisation et la définition d'un modèle de profil utilisateur. La seconde partie se focalise sur la reformulation de requêtes guidée par le profil utilisateur. La personnalisation a pour objectif de faciliter l'expression du besoin utilisateur et de rendre l'information sélectionnée intelligible à l'usager et exploitable. Elle se définit, entre autres, par un ensemble de préférences individuelles représentées par des couples (attribut, valeur), par des ordonnancements de critères ou par des règles sémantiques spécifiques à chaque utilisateur ou communauté d'utilisateurs. Ces modes de spécification servent à décrire le centre d'intérêt de l'utilisateur, le niveau de qualité des données qu'il désire ou des modalités de présentation de ces données. L'ensemble de ces informations est représenté dans un modèle d'utilisateur appelé souvent profil. Le premier travail de cette thèse est de proposer un modèle ouvert de profil capable d'acquérir toutes les informations décrivant l'utilisateur. La personnalisation de l'information intervient à toutes les étapes du cycle de vie d'une requête. La seconde contribution de cette thèse est l'étude de deux approches de reformulation de requêtes basées sur des techniques de réécriture et d'enrichissement existants et la proposition d'une approche de reformulation avancée qui alterne des étapes d'enrichissement et de réécriture. Les trois approches sont évaluées sur un benchmark défini dans la thèse.
50

Quelques fonctionnalités de bases de données avancées

Nguyen, Gia Toan 19 June 1986 (has links) (PDF)
On utilise une méthode de représentation de l'information basée sur la logique des prédicats du premier ordre pour enrichir la représentation sémantique des données qui peuvent être stockées dans un ensemble de bases de données reparties. On définit ensuite une méthode originale d'évaluation de questions sur des données distribuées basée sur une décomposition dynamique des opérations. On propose enfin une nouvelle approche pour le contrôle des contraintes sémantiques dans une base de données. Elle est basée sur la notion de prototypes logiques d'objets formant un échantillon de la base de données.

Page generated in 0.1233 seconds