Spelling suggestions: "subject:"cases dde données."" "subject:"cases dee données.""
1 |
Étude du potentiel de OLAP pour supporter l'analyse spatio-temporelleCaron, Pierre-Yves 24 April 2018 (has links)
Québec Université Laval, Bibliothèque 2014
|
2 |
Approche dirigée par les modèles pour l'implantation de bases de données massives sur des SGBD NoSQLAit Brahim, Amal 31 October 2018 (has links)
La transformation digitale des entreprises et plus largement celle de la société, entraine une évolution des bases de données (BD) relationnelles vers les BD massives. Dans les systèmes informatiques décisionnels actuels, les décideurs doivent pouvoir constituer des bases de données, les réorganiser puis en extraire l’information pertinente pour la prise de décision. Ces systèmes sont donc naturellement impactés par cette évolution où les données sont généralement stockées sur des systèmes NoSQL capables de gérer le volume, la variété et la vélocité. Nos travaux s’inscrivent dans cette mutation ; ils concernent plus particulièrement les mécanismes d’implantation d’une BD massive sur un SGBDNoSQL. Le point de départ du processus d’implantation est constitué d’un modèle contenant la description conceptuelle des données et des contraintes d’intégrité associées.Peu de travaux ont apporté des solutions automatiques complètes portant à la fois sur les structures de données et les contraintes d’intégrité. L’objectif de cette thèse est de proposer une démarche générale qui guide et facilite la tâche de transformation d’un modèle conceptuel en un modèle d’implantation NoSQL. Pour ceci, nous utilisons l’architecture MDA qui est une norme du consortium OMG pour le développement dirigé par les modèles.A partir d'un modèle conceptuel exprimé à l'aide du formalisme UML, notre démarche MDA applique deux processus unifiés pour générer un modèle d’implantation sur une plateforme NoSQL choisie par l’utilisateur : - Le processus de transformation d’un DCL, - Le processus de transformation des contraintes associées, Nos deux processus s’appuient sur :- Trois niveaux de modélisation : conceptuel, logique et physique, où le modèle logique correspond à une représentation générique compatible avec les quatre types de SGBD NoSQL : colonnes, documents, graphes et clé-valeur, - Des métamodèles permettant de vérifier la validité des modèles à chaque niveau, - Des normes de l’OMG pour formaliser l’entrée du processus et l’ensemble des règles de transformation. Afin de vérifier la faisabilité de notre solution, nous avons développé un prototype composé de deux modules. Le premier applique un ensemble de règles de transformation sur un modèle conceptuel et restitue un modèle NoSQL associé à un ensemble de directives d’assistance. Le second module complète le premier en intégrant les contraintes qui ne sont pas prises en compte dans le modèle physique généré. Nous avons montré également la pertinence de nos propositions grâce à une évaluation réalisée par des ingénieurs d’une société spécialisée dans le décisionnel. / Le résumé en anglais n'a pas été communiqué par l'auteur.
|
3 |
Développement de méthodes d'intégration de données biologiques à l'aide d'ElasticsearchOngaro-Carcy, Régis 22 February 2024 (has links)
En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites. / In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits.
|
4 |
Intégration de méthodes informatiques dans le processus de restitution en égyptologieIzza, Hacéne January 2003 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
5 |
Methodologie et structuration d'un outil de decouverte de connaissances base sur la litterture biomedicale : une application basee sur le MeSHPierret, Jean-Dominique 28 February 2006 (has links) (PDF)
L'information disponible dans les bases de données bibliographiques est une information datée, validée par un processus long qui la rend peu innovante. Dans leur mode d'exploitation, les bases de données bibliographiques sont classiquement interrogées de manière booléenne. Le résultat d'une requête est donc un ensemble d'informations connues qui n'apporte en lui-même aucune nouveauté. <br />Pourtant, en 1985, Don Swanson propose une méthode originale pour extraire de bases de donnés une information innovante. Son raisonnement est basé sur une exploitation systématique de la littérature biomédicale afin de dégager des connexions latentes entre différentes connaissances bien établies. Ses travaux montrent le potentiel insoupçonné des bases bibliographiques dans la révélation et la découverte de connaissances. Cet intérêt ne tient pas tant à la nature de l'information disponible qu'à la méthodologie utilisée. Cette méthodologie générale s'applique de façon privilégiée dans un environnement d'information validée et structurée ce qui est le cas de l'information bibliographique. Nous proposons de tester la robustesse de la théorie de Swanson en présentant les méthodes qu'elle a inspirées et qui conduisent toutes aux mêmes conclusions. Nous exposons ensuite, comment à partir de sources d'information biomédicales publiques, nous avons développé un système de découverte de connaissances basé sur la littérature.
|
6 |
Probabilistic relational models learning from graph databases / Apprentissage des modèles probabilistes relationnels à partir des bases de données grapheEl Abri, Marwa 02 October 2018 (has links)
Historiquement, les Modèles Graphiques Probabilistes (PGMs) sont une solution d’apprentissage à partir des données incertaines et plates, appelées aussi données propositionnelles ou représentations attribut-valeur. Au début des années 2000, un grand intérêt a été adressé au traitement des données relationnelles présentant un grand nombre d’objets participant à des différentes relations. Les Modèles Probabilistes Relationnels (PRMs) présentent une extension des PGMs pour le contexte relationnel. Avec l’évolution rapide issue de l’internet, des innovations technologiques et des applications web, les données sont devenues de plus en plus variées et complexes. D’où l’essor du Big Data. Plusieurs types de bases de données ont été créés pour s’adapter aux nouvelles caractéristiques des données, dont les plus utilisés sont les bases de données graphe. Toutefois, tous les travaux d’apprentissage des PRMs sont consacrés à apprendre à partir des données bien structurées et stockées dans des bases de données relationnelles. Les bases de données graphe sont non structurées et n’obéissent pas à un schéma bien défini. Les arcs entre les noeuds peuvent avoir des différentes signatures. En effet, les relations qui ne correspondent pas à un modèle ER peuvent exister dans l'instance de base de données. Ces relations sont considérées comme des exceptions. Dans ce travail de thèse, nous nous intéressons à ce type de bases de données. Nous étudions aussi deux types de PRMs à savoir, Direct Acyclic Probabilistic Entity Relationship (DAPER) et chaines de markov logiques (MLNs). Nous proposons deux contributions majeures. Premièrement, Une approche d’apprentissage des DAPERs à partir des bases de données graphe partiellement structurées. Une deuxième approche consiste à exploiter la logique de premier ordre pour apprendre les DAPERs en utilisant les MLNs pour prendre en considération les exceptions qui peuvent parvenir lors de l’apprentissage. Nous menons une étude expérimentale permettant de comparer nos méthodes proposées avec les approches déjà existantes. / Historically, Probabilistic Graphical Models (PGMs) are a solution for learning from uncertain and flat data, also called propositional data or attributevalue representations. In the early 2000s, great interest was addressed to the processing of relational data which includes a large number of objects participating in different relations. Probabilistic Relational Models (PRMs) present an extension of PGMs to the relational context. With the rise of the internet, numerous technological innovations and web applications are driving the dramatic increase of various and complex data. Consequently, Big Data has emerged. Several types of data stores have been created to manage this new data, including the graph databases. Recently there has been an increasing interest in graph databases to model objects and interactions. However, all PRMs structure learning use wellstructured data that are stored in relational databases. Graph databases are unstructured and schema-free data stores. Edges between nodes can have various signatures. Since, relationships that do not correspond to an ER model could be depicted in the database instance. These relationships are considered as exceptions. In this thesis, we are interested by this type of data stores. Also, we study two kinds of PRMs namely, Direct Acyclic Probabilistic Entity Relationship (DAPER) and Markov Logic Networks (MLNs). We propose two significant contributions. First, an approach to learn DAPERs from partially structured graph databases. A second approach consists to benefit from first-order logic to learn DAPERs using MLN framework to take into account the exceptions that are dropped during DAPER learning. We are conducting experimental studies to compare our proposed methods with existing approaches.
|
7 |
OntoDB2 : un système flexible et efficient de base de données à base ontologique pour le web sémantique et les données techniquesFankam, Chimène 10 December 2009 (has links) (PDF)
Le besoin d'expliciter la sémantique des données dans différents domaines scientifiques (biologie, médecine, géographie, ingénierie, etc.) s'est traduit par la définition de données faisant référence à des ontologies, encore appelées données à base ontologique. Avec la multiplication des ontologies de domaine, et le volume important de données à manipuler, est apparu le besoin de systèmes susceptibles de gérer des données à base ontologique de grande taille. De tels systèmes sont appelés des systèmes de gestion de Bases de Données à Base Ontologique (BDBO). Les principales limitations des systèmes de gestion de BDBO existants sont (1) leur rigidité, due à la prise en compte des constructions d'un unique formalisme d'expression d'ontologies, (2) l'absence de support pour les données non standard (spatiales, temporelles, etc.) et, (3) leur manque d'efficacité pour gérer efficacement les données de grande taille. Nous proposons dans cette thèse un nouveau système de gestion de BDBO permettant (1) de supporter des ontologies basées sur différents formalismes d'ontologies, (2) l'extension de son formalisme d'ontologie pour répondre aux besoins spécifiques des applications, et (3) une gestion originale des données facilitant le passage à grande échelle. Le système que nous proposons dans cette thèse, ontodb2, se fonde sur l'existence d'un ensemble de constructions communes aux différents formalismes d'expression d'ontologies, susceptible de constituer une ontologie noyau, et sur les techniques de gestion des modèles pour permettre l'extension flexible de ce noyau. Nous proposons également une approche originale de gestion des données à base ontologique. Cette approche part du fait que les données à base ontologique peuvent se classifier en données canoniques (instances de classes primitives) et noncanoniques (instances de classes définies). Les instances de classes définies peuvent, sous certaines hypothèses, s'exprimer en termes d'instances de classes primitives. Nous proposons donc de ne représenter que les données canoniques, en transformant sous certaines conditions, toute donnée non-canonique en donnée canonique. Enfin, nous proposons d'exploiter l'interpréteur de requêtes ontologiques pour permettre (1) l'accès aux données non-canoniques ainsi transformées et, (2) d'indexer et pré-calculer les raisonnements en se basant sur les mécanismes du SGBD support. L'ensemble de ces propositions est validé (1) à travers une implémentation sur le SGBD PostgreSQL basée sur les formalismes d'ontologies PLIB, RDFS et OWL Lite, (2) des tests de performances sur des ensembles de données issus de la géographie et du Web.
|
8 |
OMEGA : un SGBD multimedia oriente objet pour les applications geographiquesDamier, Christophe 05 July 1989 (has links) (PDF)
.
|
9 |
Les bases de données textuelles : étude du concept de document et application à deux réalisationsKowarski, Irène 05 July 1983 (has links) (PDF)
Etude du concept de document en vue de l'intégration des textes dans les bases de données. Les documents comportent des aspects externes permettant leur classement et leur recherche, ainsi que des aspects internes. Les documents sont regroupés selon des types, définis en fonction de leur structure. La présentation physique des documents imprimés que l'on produit peut être liée à leur structure. Deux réalisations pratiques sont décrites.
|
10 |
Vers une optimisation du processus d'analyse en ligne de données 3D : cas des fouilles archéologiquesRageul, Nicolas 13 April 2018 (has links)
L'archéologie est une discipline des sciences humaines dont l'objet d'étude est l'ensemble des vestiges matériels laissés par l'Homme (objets, bâtiments, infrastructures, paysages...). Une technique précise, la fouille, est employée afin de tirer toutes les informations possibles des sols et structures fouillés en tenant compte de la localisation exacte des objets découverts, de l'étude de la succession des différentes couches de terrain déblayé afin de pouvoir procéder à une datation stratigraphique. L'analyse d'une fouille archéologique demande souvent beaucoup d'efforts pour l'archéologue car, à ce jour, aucun système informatique n'a permis de clairement les aider dans l'analyse de leurs données. Ainsi, pour exploiter des données issues d'une fouille archéologique, nous avons identifié trois critères : la rapidité et la facilité d'utilisation, la possibilité de faire évoluer les données dans le système (les interprétations de l'archéologue suivant des heuristiques qui ne peuvent pas toujours être formalisées de façon absolue) et la visualisation tridimensionnelle. L'outil d'analyse en ligne de type SOLAP est optimisé pour une analyse interactive dite multidimensionnelle où les requêtes, même celles de types agrégatives sont simples et leurs réponses sont rapides. Reste donc à l'optimiser sur les deux autres critères retenus pour exploiter les données issues d'une fouille archéologique et qui marquent les principales faiblesses de l'outil : l'évolution des données pendant la phase d'analyse et l'intégration de la 3e dimension. Ce projet de maîtrise vise à apporter des nouveaux concepts permettant à un utilisateur de réviser ces données pendant sa phase d'analyse. Par la suite, un prototype appliqué à l'archéologie a été élaboré afin de vérifier simplement si les efforts pour réviser des données pouvaient être compatibles avec les efforts d'un outil d'analyse en ligne en conservant la fluidité d'exploration interactive. D'autre part, ce projet de maîtrise a permis d'étudier la faisabilité d'un SOLAP 3D et de soulever une interrogation sur la nécessité d'introduire la 3e dimension à un outil d'analyse en ligne.
|
Page generated in 0.0803 seconds