Global ETD Search

1	Modelling Cross-Document Interdependencies in Medieval Charters of the St. Katharinenspital in Regensburg Sippl, Colin, Burghardt, Manuel, Wolff, Christian 11 July 2024 (has links) To overcome the limitations of structural XML mark-up, graph-based data models and graph databases, as well as event-based ontologies like CIDOC-CRM (FORTH-ICS 2018) have been considered for the creation of digital editions. We apply the graph-based approach to model charter regests and extend it with the CIDOC-CRM ontology, as it allows us to integrate information from different sources into a flexible data model. By implementing the ontology within the Neo4j graph database (Neo4j 2018) we create a sustainable data source that allows explorative search queries and finally, the integration of the database in various technical systems. Our use case are the charters from the St. Katharinenspital, a former medieval hospital in Regensburg, Germany. By analysing charter abstracts with natural language processing (NLP) methods and using additional data sources related to the charters, we generate additional metadata. The extracted information allows the modelling of cross-document interdependencies of charter regests and their related entities. Building upon this, we develop an exploratory web application that allows to investigate a graph-based digital edition. Thereby, each entity is displayed in its unique context, i.e., it is shown together with its related entities (next neighbours) in the graph. We use this to enhance the result lists of a full-text search, and to generate entity-specific detail pages. info:eu-repo/classification/ddc/000 ddc:000
2	Top-k Differential Queries in Graph Databases Vasilyeva, Elena, Thiele, Maik, Bornhövd, Christof, Lehner, Wolfgang 03 February 2023 (has links) The sheer volume as well as the schema complexity of today’s graph databases impede the users in formulating queries against these databases and often cause queries to “fail” by delivering empty answers. To support users in such situations, the concept of differential queries can be used to bridge the gap between an unexpected result (e.g. an empty result set) and the query intention of users. These queries deliver missing parts of a query graph and, therefore, work with such scenarios that require users to specify a query graph. Based on the discovered information about a missing query subgraph, users may understand which vertices and edges are the reasons for queries that unexpectedly return empty answers, and thus can reformulate the queries if needed. A study showed that the result sets of differential queries are often too large to be manually introspected by users and thus a reduction of the number of results and their ranking is required. To address these issues, we extend the concept of differential queries and introduce top-k differential queries that calculate the ranking based on users’ preferences and therefore significantly support the users’ understanding of query database management systems. The idea consists of assigning relevance weights to vertices or edges of a query graph by users that steer the graph search and are used in the scoring function for top-k differential results. Along with the novel concept of the top-k differential queries, we further propose a strategy for propagating relevance weights and we model the search along the most relevant paths. info:eu-repo/classification/ddc/004 ddc:004
3	Graphdatenbanken für die textorientierten e-Humanities Efer, Thomas 15 February 2017 (has links) (PDF) Vor dem Hintergrund zahlreicher Digitalisierungsinitiativen befinden sich weite Teile der Geistes- und Sozialwissenschaften derzeit in einer Transition hin zur großflächigen Anwendung digitaler Methoden. Zwischen den Fachdisziplinen und der Informatik zeigen sich große Differenzen in der Methodik und bei der gemeinsamen Kommunikation. Diese durch interdisziplinäre Projektarbeit zu überbrücken, ist das zentrale Anliegen der sogenannten e-Humanities. Da Text der häufigste Untersuchungsgegenstand in diesem Feld ist, wurden bereits viele Verfahren des Text Mining auf Problemstellungen der Fächer angepasst und angewendet. Während sich langsam generelle Arbeitsabläufe und Best Practices etablieren, zeigt sich, dass generische Lösungen für spezifische Teilprobleme oftmals nicht geeignet sind. Um für diese Anwendungsfälle maßgeschneiderte digitale Werkzeuge erstellen zu können, ist eines der Kernprobleme die adäquate digitale Repräsentation von Text sowie seinen vielen Kontexten und Bezügen. In dieser Arbeit wird eine neue Form der Textrepräsentation vorgestellt, die auf Property-Graph-Datenbanken beruht – einer aktuellen Technologie für die Speicherung und Abfrage hochverknüpfter Daten. Darauf aufbauend wird das Textrecherchesystem „Kadmos“ vorgestellt, mit welchem nutzerdefinierte asynchrone Webservices erstellt werden können. Es bietet flexible Möglichkeiten zur Erweiterung des Datenmodells und der Programmfunktionalität und kann Textsammlungen mit mehreren hundert Millionen Wörtern auf einzelnen Rechnern und weitaus größere in Rechnerclustern speichern. Es wird gezeigt, wie verschiedene Text-Mining-Verfahren über diese Graphrepräsentation realisiert und an sie angepasst werden können. Die feine Granularität der Zugriffsebene erlaubt die Erstellung passender Werkzeuge für spezifische fachwissenschaftliche Anwendungen. Zusätzlich wird demonstriert, wie die graphbasierte Modellierung auch über die rein textorientierte Forschung hinaus gewinnbringend eingesetzt werden kann. / In light of the recent massive digitization efforts, most of the humanities disciplines are currently undergoing a fundamental transition towards the widespread application of digital methods. In between those traditional scholarly fields and computer science exists a methodological and communicational gap, that the so-called \\\"e-Humanities\\\" aim to bridge systematically, via interdisciplinary project work. With text being the most common object of study in this field, many approaches from the area of Text Mining have been adapted to problems of the disciplines. While common workflows and best practices slowly emerge, it is evident that generic solutions are no ultimate fit for many specific application scenarios. To be able to create custom-tailored digital tools, one of the central issues is to digitally represent the text, as well as its many contexts and related objects of interest in an adequate manner. This thesis introduces a novel form of text representation that is based on Property Graph databases – an emerging technology that is used to store and query highly interconnected data sets. Based on this modeling paradigm, a new text research system called \\\"Kadmos\\\" is introduced. It provides user-definable asynchronous web services and is built to allow for a flexible extension of the data model and system functionality within a prototype-driven development process. With Kadmos it is possible to easily scale up to text collections containing hundreds of millions of words on a single device and even further when using a machine cluster. It is shown how various methods of Text Mining can be implemented with and adapted for the graph representation at a very fine granularity level, allowing the creation of fitting digital tools for different aspects of scholarly work. In extended usage scenarios it is demonstrated how the graph-based modeling of domain data can be beneficial even in research scenarios that go beyond a purely text-based study. Graphdatenbanken Datenmodellierung Recherchesysteme e-Humanities Text Mining Korpusexploration Information Retrieval Graph Databases Data Modeling Research System e-Humanities Text Mining Corpus Exploration Information Retrieval ddc:500
4	Graphdatenbanken für die textorientierten e-Humanities Efer, Thomas 08 February 2017 (has links) Vor dem Hintergrund zahlreicher Digitalisierungsinitiativen befinden sich weite Teile der Geistes- und Sozialwissenschaften derzeit in einer Transition hin zur großflächigen Anwendung digitaler Methoden. Zwischen den Fachdisziplinen und der Informatik zeigen sich große Differenzen in der Methodik und bei der gemeinsamen Kommunikation. Diese durch interdisziplinäre Projektarbeit zu überbrücken, ist das zentrale Anliegen der sogenannten e-Humanities. Da Text der häufigste Untersuchungsgegenstand in diesem Feld ist, wurden bereits viele Verfahren des Text Mining auf Problemstellungen der Fächer angepasst und angewendet. Während sich langsam generelle Arbeitsabläufe und Best Practices etablieren, zeigt sich, dass generische Lösungen für spezifische Teilprobleme oftmals nicht geeignet sind. Um für diese Anwendungsfälle maßgeschneiderte digitale Werkzeuge erstellen zu können, ist eines der Kernprobleme die adäquate digitale Repräsentation von Text sowie seinen vielen Kontexten und Bezügen. In dieser Arbeit wird eine neue Form der Textrepräsentation vorgestellt, die auf Property-Graph-Datenbanken beruht – einer aktuellen Technologie für die Speicherung und Abfrage hochverknüpfter Daten. Darauf aufbauend wird das Textrecherchesystem „Kadmos“ vorgestellt, mit welchem nutzerdefinierte asynchrone Webservices erstellt werden können. Es bietet flexible Möglichkeiten zur Erweiterung des Datenmodells und der Programmfunktionalität und kann Textsammlungen mit mehreren hundert Millionen Wörtern auf einzelnen Rechnern und weitaus größere in Rechnerclustern speichern. Es wird gezeigt, wie verschiedene Text-Mining-Verfahren über diese Graphrepräsentation realisiert und an sie angepasst werden können. Die feine Granularität der Zugriffsebene erlaubt die Erstellung passender Werkzeuge für spezifische fachwissenschaftliche Anwendungen. Zusätzlich wird demonstriert, wie die graphbasierte Modellierung auch über die rein textorientierte Forschung hinaus gewinnbringend eingesetzt werden kann. / In light of the recent massive digitization efforts, most of the humanities disciplines are currently undergoing a fundamental transition towards the widespread application of digital methods. In between those traditional scholarly fields and computer science exists a methodological and communicational gap, that the so-called \\\"e-Humanities\\\" aim to bridge systematically, via interdisciplinary project work. With text being the most common object of study in this field, many approaches from the area of Text Mining have been adapted to problems of the disciplines. While common workflows and best practices slowly emerge, it is evident that generic solutions are no ultimate fit for many specific application scenarios. To be able to create custom-tailored digital tools, one of the central issues is to digitally represent the text, as well as its many contexts and related objects of interest in an adequate manner. This thesis introduces a novel form of text representation that is based on Property Graph databases – an emerging technology that is used to store and query highly interconnected data sets. Based on this modeling paradigm, a new text research system called \\\"Kadmos\\\" is introduced. It provides user-definable asynchronous web services and is built to allow for a flexible extension of the data model and system functionality within a prototype-driven development process. With Kadmos it is possible to easily scale up to text collections containing hundreds of millions of words on a single device and even further when using a machine cluster. It is shown how various methods of Text Mining can be implemented with and adapted for the graph representation at a very fine granularity level, allowing the creation of fitting digital tools for different aspects of scholarly work. In extended usage scenarios it is demonstrated how the graph-based modeling of domain data can be beneficial even in research scenarios that go beyond a purely text-based study. info:eu-repo/classification/ddc/500 ddc:500
5	Einsatz von Graphdatenbanken für das Produktdatenmanagement im Kontext von Industrie 4.0 Sauer, Christopher, Schleich, Benjamin, Wartzack, Sandro 03 January 2020 (has links) Im Zuge der digitalen Transformation im Kontext von Industrie 4.0 tun sich eine Vielzahl neuer Datenquellen auf, die im Produktdatenmanagement berücksichtigt werden müssen. Ein Beispiel neuer Datenquellen sind Daten der Industrie 4.0, die zum Beispiel über Sensoren in der Fertigung erhoben werden. Kennzeichen dieser Datenquellen sind die zunehmende Heterogenität der Daten, die nicht mehr in einer Tabelle erfasst werden können. So könnten dies unter anderem Bilder einer optischen Bauteilprüfung sein oder Code zur Bauteilprüfung. Dieser Umstand führt zum Aufbau vieler einzelner neuer Silos, in denen die Daten separat und getrennt vom PDM-System ver-rbeitet werden müssen. Zudem werden dort abgeschottet von den restlichen Silos Daten gespeichert. Daneben führt eine Vielzahl neuer Autorensysteme (Prüfsoftware, Kundenmanagement, Anforderungsmanagement) zu einer gesteigerten Datenmenge, die nicht mehr in klassischen tabellenbasierten und rein-relationalen Datenbanksystemen sinnvoll erfasst werden können. Um an Informationen zu gelangen, sind im Fall rein-relationaler Datenbanksysteme oft komplizierte Abfragen nötig. Diese greifen dann auf mehrere unterschiedliche Tabellen innerhalb der Datenbank zu und stellen daraus wiederum relevante Informationen bereit. Je mehr größer jedoch diese Datenbanken werden und je mehr Informationen miteinander relational verbunden werden müssen, desto mehr Expertenwissen über das jeweilige Datenbanksystem wird benötigt. Somit büßen rein-relationale (SQL-basierte) Systeme auch einen Großteil der Vorteile ihres logischen strukturellen Aufbaus ein. Um den oben genannten Problemen zu begegnen, können neue Ansätze aus dem Bereich der Linked Data herangezogen werden. Bei Linked Data werden nicht nur die reinen Daten verwendet, sondern auch beschreibende und verknüpfende Informationen um die Daten zu interpretieren verwendet und weitergegeben. Durch diesen Mehrwert an Information wird es in einem ersten Schritt möglich, heterogene Produkt- und Prozessdaten, also Daten aus verschiedensten Quellen, wie zum Beispiel Konstruktion, Simulation und Qualitätssicherung, miteinander zu verknüpfen. Durch diese Verknüpfung kann eine höherwertige Darstellungsform geschaffen werden, die neben den reinen Daten auch die sinnvolle Verknüpfung enthält und so eine semantisch höherwertige Repräsentation darstellt. Die so entstehende, vernetzte Datenbank kann z.B. über eine graphenorientierte Datenbank oder Graphdatenbank implementiert werden. Im vorliegenden Beitrag wird untersucht, inwieweit die Modellierung mit gegenwärtig existierenden Lösungen für Graphdatenbanken möglich ist. Ausgehend von einem Beispiel mit einem vereinfachten Produkt- und Prozessdatenmodell der Blechmassivumformung, wird eine allgemeine Methode vorgestellt, durch die ein SQL-basiertes Datenbanksystem in eine Graphdatenbank überführt werden kann. Anhand dieser Methode wird dargestellt, wie bestehende Lösungen teilweise auch parallel zu neuartigen Linked Data Datenbanken existieren können, um diese Schritt für Schritt in eine Graphdatenbank zu überführen. Die Ergebnisse des Beitrags sind auf der einen Seite das allgemeine Vorgehensmodell zur Einführung von Graphdatenbanken und auf der anderen Seite Aussagen über die Nutzbarkeit der vorgestellten Lösung für das Produkt- & Prozessdatenmanagement. [... aus der Einleitung] info:eu-repo/classification/ddc/620 ddc:620
6	Answering “Why Empty?” and “Why So Many?” queries in graph databases Vasilyeva, Elena, Thiele, Maik, Bornhövd, Christof, Lehner, Wolfgang 04 July 2023 (has links) Graph databases provide schema-flexible storage and support complex, expressive queries. However, the flexibility and expressiveness in these queries come at additional costs: queries can result in unexpected empty answers or too many answers, which are difficult to resolve manually. To address this, we introduce subgraph-based solutions for graph queries “Why Empty?” and “Why So Many?” that give an answer about which part of a graph query is responsible for an unexpected result. We also extend our solutions to consider the specifics of the used graph model and to increase efficiency and experimentally evaluate them in an in-memory column database. info:eu-repo/classification/ddc/004 ddc:004

1

Page generated in 0.0652 seconds