Global ETD Search

21	Contributions à la détection des anomalies et au développement des systèmes de recommandation / Contributions to outlier detection and recommendation systems Shu, Wu January 2012 (has links) Le forage de données, appelé également "Découverte de connaissance dans les bases de données" , est un jeune domaine de recherche interdisciplinaire. Le forage de données étudie les processus d'analyse de grands ensembles de données pour en extraire des connaissances, et les processus de transformation de ces connaissances en des structures faciles à comprendre et à utiliser par les humains. Cette thèse étudie deux tâches importantes dans le domaine du forage de données : la détection des anomalies et la recommandation de produits. La détection des anomalies est l'identification des données non conformes aux observations normales. La recommandation de produit est la prédiction du niveau d'intérêt d'un client pour des produits en se basant sur des données d'achats antérieurs et des données socio-économiques. Plus précisément, cette thèse porte sur 1) la détection des anomalies dans de grands ensembles de données de type catégorielles; et 2) les techniques de recommandation à partir des données de classements asymétriques. La détection des anomalies dans des données catégorielles de grande échelle est un problème important qui est loin d'être résolu. Les méthodes existantes dans ce domaine souffrnt d'une faible efficience et efficacité en raison de la dimensionnalité élevée des données, de la grande taille des bases de données, de la complexité élevée des tests statistiques, ainsi que des mesures de proximité non adéquates. Cette thèse propose une définition formelle d'anomalie dans les données catégorielles ainsi que deux algorithmes efficaces et efficients pour la détection des anomalies dans les données de grande taille. Ces algorithmes ont besoin d'un seul paramètre : le nombre des anomalies. Pour déterminer la valeur de ce paramètre, nous avons développé un critère en nous basant sur un nouveau concept qui est l'holo-entropie. Plusieurs recherches antérieures sur les systèmes de recommandation ont négligé un type de classements répandu dans les applications Web, telles que le commerce électronique (ex. Amazon, Taobao) et les sites fournisseurs de contenu (ex. YouTube). Les données de classements recueillies par ces sites se différencient de celles de classements des films et des musiques par leur distribution asymétrique élevée. Cette thèse propose un cadre mieux adapté pour estimer les classements et les préférences quantitatives d'ordre supérieur pour des données de classements asymétriques. Ce cadre permet de créer de nouveaux modèles de recommandation en se basant sur la factorisation de matrice ou sur l'estimation de voisinage. Des résultats expérimentaux sur des ensembles de données asymétriques indiquent que les modèles créés avec ce cadre ont une meilleure performance que les modèles conventionnels non seulement pour la prédiction de classements, mais aussi pour la prédiction de la liste des Top-N produits. Forage de données
22	Données de tests non fonctionnels de l'ombre à la lumière : une approche multidimensionnelle pour déployer une base de données / On the Highlighting of Non-Functional Test Data : A Multidimensional Approach for Database Deployment Brahimi, Lahcene 03 July 2017 (has links) Le choix d'un système de gestion de bases de données (SGBD) et de plateforme d'exécution pour le déploiement est une tâche primordiale pour la satisfaction des besoins non-fonctionnels(comme la performance temporelle et la consommation d'énergie). La difficulté de ce choix explique la multitude de tests pour évaluer la qualité des bases de données (BD) développées.Cette évaluation se base essentiellement sur l'utilisation des métriques associées aux besoins non fonctionnels. En effet, une mine de tests existe couvrant toutes les phases de cycle de vie de conception d'une BD. Les tests et leurs environnements sont généralement publiés dans des articles scientifiques ou dans des sites web dédiés comme le TPC (Transaction Processing Council).Par conséquent, cette thèse contribue à la capitalisation et l'exploitation des tests effectués afin de diminuer la complexité du processus de choix. En analysant finement les tests, nous remarquons que chaque test porte sur les jeux de données utilisés, la plateforme d'exécution, les besoins non fonctionnels, les requêtes, etc. Nous proposons une démarche de conceptualisation et de persistance de toutes .ces dimensions ainsi que les résultats de tests. Cette thèse a donné lieu aux trois contributions. (1) Une conceptualisation basée sur des modélisations descriptive,prescriptive et ontologique pour expliciter les différentes dimensions. (2) Le développement d'un entrepôt de tests multidimensionnel permettant de stocker les environnements de tests et leurs résultats. (3) Le développement d'une méthodologie de prise de décision basée sur un système de recommandation de SGBD et de plateformes. / Choosing appropriate database management systems (DBMS) and/or execution platforms for given database (DB) is complex and tends to be time- and effort-intensive since this choice has an important impact on the satisfaction of non-functional requirements (e.g., temporal performance or energy consumption). lndeed, a large number of tests have been performed for assessing the quality of developed DB. This assessment often involves metrics associated with non-functional requirement. That leads to a mine of tests covering all life-cycle phases of the DB's design. Tests and their environments are usually published in scientific articles or specific websites such as Transaction Processing Council (TPC). Therefore, this thesis bas taken a special interest to the capitalization and the reutilization of performed tests to reduce and mastery the complexity of the DBMS/platforms selection process. By analyzing the test accurately, we identify that tests concem: the data set, the execution platform, the addressed non-functional requirements, the used queries, etc. Thus, we propose an approach of conceptualization and persistence of all dimensions as well as the results of tests. Conseguently, this thesis leads to the following contributions. (1) The design model based on descriptive, prescriptive and ontological concepts to raise the different dimensions. (2) The development of a multidimensional repository to store the test environments and their results. (3) The development of a decision making methodology based on a recommender system for DBMS and platforms selection. Database management system (DMS)
23	Développement d'une base de données sur la résistance aux antibiotiques et son utilisation en génomique Déraspe, Maxime 23 April 2018 (has links) Le projet de maîtrise consistait à développer une base de données (BD) sur la résistance bactérienne aux antibiotiques et de l’utiliser dans les analyses bio-informatiques de deux projets de génomiques. La BD MERGEM (« Mobile Elements and Resistance Genes Enhanced for Metagenomics ») mettait l’emphase sur la bonne nomenclature des gènes et la fiabilité de l’annotation de leurs séquences, qui s’avère un réel problème dans les BD publiques en biologie. La BD MERGEM mit aussi de l’avant l’utilisation de technologies du Web sémantique et de développementWeb pour enrichir et publier son contenu. De plus, un pipeline bio-informatique d’annotations fonctionnelles fut réalisé dans le but de correctement identifier les éléments de MERGEM et leur contexte génomique dans deux projets de séquençages importants : 264 métagénomes du microbiote intestinale et 390 génomes de Pseudomonas aeruginosa. Les résultats démontrent l’utilité de développer des BD spécialisées en génomique. / The current Master’s project consist of the development of a database (DB) on bacterial antibiotic resistance and its use in bioinformatic analyses for two major genomic projects. The DB is called MERGEM (Mobile Elements and Resistance Genes Enhanced for Metagenomics) and puts a particular emphasis on a good genes nomenclature and the reliability of the annotation of their sequences, which is a real problem in biological public databases. The MERGEM database also adopts technologies of the SemanticWeb and utilizesWeb development to enrich and publish its content. Furthermore, a bioinformatic annotation pipeline was developed in order to correctly identify MERGEMs’ genes and their contexts in two important sequencing projects : one with 264 metagenomes from the human gut microbiome and another one consisting of 390 Pseudomonas aeruginosa genomes. The results of this project proves the usefulness of specialized databases in genomic studies. Génomique -- Bases de données
24	Établissement d'une procédure d'acquisition et d'assemblage de données spatiales adaptée au laboratoire mobile Atlantis. Vers une chaîne de traitements intégrés de données spatiales en santé environnementale Toutant, Steve 11 April 2018 (has links) Lors d'une étude en santé environnementale il est primordial pour les chercheurs de connaître et de comprendre les relations entre la santé des populations et l'environnement dans lequel elles évoluent. Notre évaluation des étapes actuelles d'acquisition de données en santé environnementale nous a permis de constater qu'aucune méthodologie d'acquisition n'introduit systématiquement les références spatiales et temporelles lors de leur collecte. Nous estimons que la référence spatio-temporelle complémentaire à une procédure d'acquisition standardisée permettrait de donner un sens nouveau aux données hétérogènes, en les transformant en informations utiles à une plus large communauté d'utilisateurs. Nous avons donc défini une procédure d'acquisition de données spatio-temporelles. Cette procédure formalise, via une interface cartographique disponible sur un ordinateur de poche, le positionnement par GPS ou par toponyme d'échantillons utiles aux études en santé environnementale. De plus, elle automatise le peuplement de la base de données et s'assure de l'intégrité du lien entre l'identifiant de l'échantillon, le lieu et le moment de son acquisition jusqu'au rattachement des résultats d'analyses en laboratoire. Les données sont ensuite transférées et stockées dans une base de données multidimensionnelle (via un SOLAP) et accessibles par Internet. Ceci permet le partage direct des informations à d'autres chercheurs en environnement. La procédure a été implantée et mise à l'épreuve dans le cadre de la première mission du laboratoire mobile Atlantis. Cette mission s'est déroulée aux Bermudes et a permis aux spécialistes en environnement de collecter des échantillons d'eau, de sédiments, de pétoncles et de tissus humains (sang au cordon ombilical et placenta) à l'aide de cette procédure. Les chercheurs ont manifesté beaucoup d'enthousiasme et nos premiers tests montrent que la procédure d'acquisition est conviviale et qu'elle a été d'une grande utilité pour les spécialistes en facilitant leur collecte de données. De plus, il est clair que cette procédure basée sur un référentiel spatial commun favorise le partage des données à la base hétérogènes (toxicologie, microbiologie, chimie) pour parvenir à une analyse réellement intégrée. SD 121 UL 2004 Hygiène du milieu Bases de données spatio-temporelles
25	A conceptual framework and a risk management approach for interoperability between geospatial datacubes Sboui, Tarek 16 April 2018 (has links) De nos jours, nous observons un intérêt grandissant pour les bases de données géospatiales multidimensionnelles. Ces bases de données sont développées pour faciliter la prise de décisions stratégiques des organisations, et plus spécifiquement lorsqu’il s’agit de données de différentes époques et de différents niveaux de granularité. Cependant, les utilisateurs peuvent avoir besoin d’utiliser plusieurs bases de données géospatiales multidimensionnelles. Ces bases de données peuvent être sémantiquement hétérogènes et caractérisées par différent degrés de pertinence par rapport au contexte d’utilisation. Résoudre les problèmes sémantiques liés à l’hétérogénéité et à la différence de pertinence d’une manière transparente aux utilisateurs a été l’objectif principal de l’interopérabilité au cours des quinze dernières années. Dans ce contexte, différentes solutions ont été proposées pour traiter l’interopérabilité. Cependant, ces solutions ont adopté une approche non systématique. De plus, aucune solution pour résoudre des problèmes sémantiques spécifiques liés à l’interopérabilité entre les bases de données géospatiales multidimensionnelles n’a été trouvée. Dans cette thèse, nous supposons qu’il est possible de définir une approche qui traite ces problèmes sémantiques pour assurer l’interopérabilité entre les bases de données géospatiales multidimensionnelles. Ainsi, nous définissons tout d’abord l’interopérabilité entre ces bases de données. Ensuite, nous définissons et classifions les problèmes d’hétérogénéité sémantique qui peuvent se produire au cours d’une telle interopérabilité de différentes bases de données géospatiales multidimensionnelles. Afin de résoudre ces problèmes d’hétérogénéité sémantique, nous proposons un cadre conceptuel qui se base sur la communication humaine. Dans ce cadre, une communication s’établit entre deux agents système représentant les bases de données géospatiales multidimensionnelles impliquées dans un processus d’interopérabilité. Cette communication vise à échanger de l’information sur le contenu de ces bases. Ensuite, dans l’intention d’aider les agents à prendre des décisions appropriées au cours du processus d’interopérabilité, nous évaluons un ensemble d’indicateurs de la qualité externe (fitness-for-use) des schémas et du contexte de production (ex., les métadonnées). Finalement, nous mettons en œuvre l’approche afin de montrer sa faisabilité. / Today, we observe wide use of geospatial databases that are implemented in many forms (e.g., transactional centralized systems, distributed databases, multidimensional datacubes). Among those possibilities, the multidimensional datacube is more appropriate to support interactive analysis and to guide the organization’s strategic decisions, especially when different epochs and levels of information granularity are involved. However, one may need to use several geospatial multidimensional datacubes which may be semantically heterogeneous and having different degrees of appropriateness to the context of use. Overcoming the semantic problems related to the semantic heterogeneity and to the difference in the appropriateness to the context of use in a manner that is transparent to users has been the principal aim of interoperability for the last fifteen years. However, in spite of successful initiatives, today's solutions have evolved in a non systematic way. Moreover, no solution has been found to address specific semantic problems related to interoperability between geospatial datacubes. In this thesis, we suppose that it is possible to define an approach that addresses these semantic problems to support interoperability between geospatial datacubes. For that, we first describe interoperability between geospatial datacubes. Then, we define and categorize the semantic heterogeneity problems that may occur during the interoperability process of different geospatial datacubes. In order to resolve semantic heterogeneity between geospatial datacubes, we propose a conceptual framework that is essentially based on human communication. In this framework, software agents representing geospatial datacubes involved in the interoperability process communicate together. Such communication aims at exchanging information about the content of geospatial datacubes. Then, in order to help agents to make appropriate decisions during the interoperability process, we evaluate a set of indicators of the external quality (fitness-for-use) of geospatial datacube schemas and of production context (e.g., metadata). Finally, we implement the proposed approach to show its feasibility. SD 121 UL 2010
26	Expression et contrôle de l'intégrité sémantique dans les bases de données relationnelles : projet MICROBE Ferrat, Lounas 19 May 1983 (has links) (PDF) Cette thèse présente le sous-système ISIS, une méthode d'expression et de contrôle de l'intégrité sémantique, dans les bases de données relationnelles. Celle-ci est réglée par un ensemble de lois appelées contraintes d'intégrité sémantique (CIS). Une réalisation est effectuée dans le cadre du projet MICROBE bases de données relationnelles SGBD bases de données sémantique algèbre relationnelle arborescence algébrique opérations de mise à jour
27	l'intégrité et la mise à jour dans un système de gestion de bases de données réparties : projet POLYPHEME Andrade, Juan Manuel 29 October 1980 (has links) (PDF) On fait le point sur l'ensemble des travaux menés dans le cadre du projet POLYPHEME. On présente l'architecture et les caractéristiques de la maquette réalisée. On étudie les problèmes d'intégrité qui se posent lorsque l'on désire faire coopérer des données dans un environnement reparti, on aborde en particulier l'intégrité sémantique et le traitement des opérations de mise à jour. On propose un formalisme pour exprimer le comportement des mises a jour sur une relation abstraite construite sur d'autres relations. POLYPHEME projet POLYPHEME intégrité données bases de données bases de données réparties SIRIUS réseau CYCLADES SGBD
28	TEMPOS : une plate-forme pour le développement d'applications temporelles au dessus de SGBD à objets Dumas Menjivar, Marlon 26 June 2000 (has links) (PDF) Les données temporelles sont présentes dans de nombreuses applications utilisant des Systèmes de Gestion de Bases de Données (SGBD). Aussi, la plupart de ces systèmes offrent des types correspondant aux concepts de date et de durée, grâce auxquels il est possible de modéliser des associations temporelles simples, comme par exemple la date de naissance ou l'âge d'une personne. Toutefois, à quelques nuances près, aucun de ces systèmes n'offre des abstractions dédiées à la modélisation d'associations temporelles plus complexes, telles que l'historique du salaire d'un employé, ou la séquence d'annotations attachées à une vidéo. Dès lors, ces associations doivent être codées au travers de constructeurs de type tels que ''liste'' et ''n-uplet'', et la sémantique de ce codage doit être intégrée dans la logique des programmes applicatifs, accroissant par là leur complexité. Pour combler ces lacunes, des extensions dites ''temporelles'' de modèles et de langages pour Bases de Données ont été proposées. Cette thèse analyse et unifie les contributions de ces travaux, dans le but de les intégrer dans une extension temporelle du standard pour SGBD à objets de l'ODMG. Le résultat est une plate-forme logicielle baptisée TEMPOS, fondée sur trois modèles de sophistication croissante : un modèle du temps, un modèle d'historiques et un modèle d'objets et de propriétés temporels. Ce dernier fournit des fonctionnalités facilitant la transformation de bases de données conformes à l'ODMG en des bases de données temporelles. à partir de ces trois modèles, des extensions des langages de spécification de schéma et d'interrogation de l'ODMG sont définies. Enfin, un outil de visualisation basé sur un nouveau paradigme de navigation interactive au travers d'objets temporels est développé. L'ensemble des propositions sont formalisées, implantées au dessus d'un SGBD commercial, et validées par des études de cas. bases de données temporelles bases de données à objets standard ODMG langage de requêtes visualisation de données
29	OntoQL, un langage d'exploitation des bases de données à base ontologique Jean, Stéphane 05 December 2007 (has links) (PDF) Nous appelons Bases de Données à Base Ontologique (BDBO), les bases de données qui contiennent à la fois des données et des ontologies qui en décrivent la sémantique. Dans le contexte du Web Sémantique, de nombreuses BDBO associées à des langages qui permettent d'interroger les données et les ontologies qu'elles contiennent sont apparues. Conçus pour permettre la persistance et l'interrogation des données Web, ces BDBO et ces langages sont spécifiques aux modèles d'ontologies Web, ils se focalisent sur les ontologies conceptuelles et ils ne prennent pas en compte la structure relationnelle inhérente à des données contenues dans une base de données. C'est ce triple problème que vise à résoudre le langage OntoQL proposé dans cette thèse. Ce langage répond au triple problème évoqué précédemment en présentant trois caractéristiques essentielles qui le distinguent des autres langages proposés : (1) le langage OntoQL est indépendant d'un modèle d'ontologies particulier. En effet, ce langage est basé sur un noyau commun aux différents modèles d'ontologies et des instructions de ce langage permettent de l'étendre, (2) le langage OntoQL exploite la couche linguistique qui peut être associée à une ontologie conceptuelle pour permettre d'exprimer des instructions dans différentes langues naturelles et (3) le langage OntoQL est compatible avec le langage SQL, permettant ainsi d'exploiter les données au niveau logique d'une BDBO, et il étend ce langage pour permettre d'accéder aux données au niveau ontologique indépendamment de la représentation logique des données tout en permettant d'en manipuler la structure. Langages d'interrogation Bases de données Ontologie Bases de Données à Base Ontologique OWL PLIB
30	Developing a model and a language to identify and specify the integrity constraints in spatial datacubes Salehi, Mehrdad 16 April 2018 (has links) La qualité des données dans les cubes de données spatiales est importante étant donné que ces données sont utilisées comme base pour la prise de décision dans les grandes organisations. En effet, une mauvaise qualité de données dans ces cubes pourrait nous conduire à une mauvaise prise de décision. Les contraintes d'intégrité jouent un rôle clé pour améliorer la cohérence logique de toute base de données, l'un des principaux éléments de la qualité des données. Différents modèles de cubes de données spatiales ont été proposés ces dernières années mais aucun n'inclut explicitement les contraintes d'intégrité. En conséquence, les contraintes d'intégrité de cubes de données spatiales sont traitées de façon non-systématique, pragmatique, ce qui rend inefficace le processus de vérification de la cohérence des données dans les cubes de données spatiales. Cette thèse fournit un cadre théorique pour identifier les contraintes d'intégrité dans les cubes de données spatiales ainsi qu'un langage formel pour les spécifier. Pour ce faire, nous avons d'abord proposé un modèle formel pour les cubes de données spatiales qui en décrit les différentes composantes. En nous basant sur ce modèle, nous avons ensuite identifié et catégorisé les différents types de contraintes d'intégrité dans les cubes de données spatiales. En outre, puisque les cubes de données spatiales contiennent typiquement à la fois des données spatiales et temporelles, nous avons proposé une classification des contraintes d'intégrité des bases de données traitant de l'espace et du temps. Ensuite, nous avons présenté un langage formel pour spécifier les contraintes d'intégrité des cubes de données spatiales. Ce langage est basé sur un langage naturel contrôlé et hybride avec des pictogrammes. Plusieurs exemples de contraintes d'intégrité des cubes de données spatiales sont définis en utilisant ce langage. Les designers de cubes de données spatiales (analystes) peuvent utiliser le cadre proposé pour identifier les contraintes d'intégrité et les spécifier au stade de la conception des cubes de données spatiales. D'autre part, le langage formel proposé pour spécifier des contraintes d'intégrité est proche de la façon dont les utilisateurs finaux expriment leurs contraintes d'intégrité. Par conséquent, en utilisant ce langage, les utilisateurs finaux peuvent vérifier et valider les contraintes d'intégrité définies par l'analyste au stade de la conception. SD 121 UL 2009 S163 Contraintes (Intelligence artificielle) Entrepôts de données (Informatique) Bases de données multidimensionnelles Bases de données spatio-temporelles

Search results