111 |
The ITS2 Database - Application and ExtensionSelig, Christian January 2007 (has links) (PDF)
Der internal transcribed spacer 2 (ITS2) des ribosomalen Genrepeats ist ein zunehmend wichtiger phylogenetischer Marker, dessen RNA-Sekundärstruktur innerhalb vieler eukaryontischer Organismen konserviert ist. Die ITS2-Datenbank hat zum Ziel, eine umfangreiche Ressource für ITS2-Sequenzen und -Sekundärstrukturen auf Basis direkter thermodynamischer als auch homologiemodellierter RNA-Faltung zu sein. Ergebnisse: (a) Eine komplette Neufassung der ursprünglichen die ITS2-Datenbank generierenden Skripte, angewandt auf einen aktuellen NCBI-Datensatz, deckte mehr als 65.000 ITS2-Strukturen auf. Dies verdoppelt den Inhalt der ursprünglichen Datenbank und verdreifacht ihn, wenn partielle Strukturen mit einbezogen werden. (b) Die Endbenutzer-Schnittstelle wurde neu geschrieben, erweitert und ist jetzt in der Lage, benutzerdefinierte Homologiemodellierungen durchzuführen. (c) Andere möglichen RNA-Strukturaufklärungsmethoden (suboptimales und formenbasiertes Falten) sind hilfreich, können aber Homologiemodellierung nicht ersetzen. (d) Ein Anwendungsfall der ITS2-Datenbank in Zusammenhang mit anderen am Lehrstuhl entwickelten Werkzeugen gab Einblick in die Verwendung von ITS2 für molekulare Phylogenie. / The internal transcribed spacer 2 (ITS2) of the ribosomal gene repeat is an increasingly important phylogenetic marker whose RNA secondary structure is widely conserved across eukaryotic organisms. The ITS2 database aims to be a comprehensive resource on ITS2 sequence and secondary structure, based on direct thermodynamic as well as homology modelled RNA folds. Results: (a) A rebuild of the original ITS2 database generation scripts applied to a current NCBI dataset reveal more than 60,000 ITS2 structures. This more than doubles the contents of the original database and triples it when including partial structures. (b) The end-user interface was rewritten, extended and now features user-defined homology modelling. (c) Other possible RNA structure discovery methods (namely suboptimal and shape folding) prove helpful but are not able to replace homology modelling. (d) A use case of the ITS2 database in conjunction with other tools developed at the department gave insight into molecular phylogenetic analysis with ITS2.
|
112 |
ANNIS: A graph-based query system for deeply annotated text corporaKrause, Thomas 11 January 2019 (has links)
Diese Dissertation beschreibt das Design und die Implementierung eines effizienten Suchsystems für linguistische Korpora. Das bestehende und auf einer relationalen Datenbank basierende System ANNIS ist spezialisiert darin, Korpora mit verschiedenen Arten von Annotationen zu unterstützen und nutzt Graphen als einheitliche Repräsentation der verschiedener Annotationen. Für diese Dissertation wurde eine Hauptspeicher-Datenbank, die rein auf Graphen basiert, als Nachfolger für ANNIS entwickelt. Die Korpora werden in Kantenkomponenten partitioniert und für verschiedene Typen von Subgraphen werden unterschiedliche Implementationen zur Darstellung und Suche in diesen Komponenten genutzt. Operationen der Anfragesprache AQL (ANNIS Query Language) werden als Kombination von Erreichbarkeitsanfragen auf diesen verschiedenen Komponenten implementiert und jede Implementierung hat optimierte Funktionen für diese Art von Anfragen. Dieser Ansatz nutzt die verschiedenen Strukturen der unterschiedlichen Annotationsarten aus, ohne die einheitliche Darstellung als Graph zu verlieren. Zusätzliche Optimierungen, wie die parallele Ausführung von Teilen der Anfragen, wurden ebenfalls implementiert und evaluiert. Da AQL eine bestehende Implementierung besitzt und diese für Forscher offen als webbasierter Service zu Verfügung steht, konnten echte AQL-Anfragen aufgenommen werden. Diese dienten als Grundlage für einen Benchmark der neuen Implementierung. Mehr als 4000 Anfragen über 18 Korpora wurden zu einem realistischen Workload zusammengetragen, der sehr unterschiedliche Arten von Korpora und Anfragen mit einem breitem Spektrum von Komplexität enthält. Die neue graphbasierte Implementierung wurde mit der existierenden, die eine relationale Datenbank nutzt, verglichen. Sie führt den Anfragen im Workload im Vergleich ~10 schneller aus und die Experimente zeigen auch, dass die verschiedenen Implementierungen für die Kantenkomponenten daran einen großen Anteil haben. / This dissertation describes the design and implementation of an efficient system for linguistic corpus queries. The existing system ANNIS is based on a relational database and is focused on providing support for corpora with very different kinds of annotations and uses graphs as unified representations of the different annotations. For this dissertation, a main memory and solely graph-based successor of ANNIS has been developed. Corpora are divided into edge components and different implementations for representation and search of these components are used for different types of subgraphs. AQL operations are interpreted as a set of reachability queries on the different components and each component implementation has optimized functions for this type of queries. This approach allows exploiting the different structures of the different kinds of annotations without losing the common representation as a graph. Additional optimizations, like parallel executions of parts of the query, are also implemented and evaluated. Since AQL has an existing implementation and is already provided as a web-based service for researchers, real-life AQL queries have been recorded and thus can be used as a base for benchmarking the new implementation. More than 4000 queries from 18 corpora (from which most are available under an open-access license) have been compiled into a realistic workload that includes very different types of corpora and queries with a wide range of complexity. The new graph-based implementation was compared against the existing one, which uses a relational database. It executes the workload ~10 faster than the baseline and experiments show that the different graph storage implementations had a major effect in this improvement.
|
113 |
Inferring hypotheses from complex profile data - by means of CSB.DB, a comprehensive systems-biology database / Inferring hypotheses from complex profile data - by means of CSB.DB, a comprehensive systems-biology databaseSteinhauser, Dirk January 2004 (has links)
The past decades are characterized by various efforts to provide complete sequence information of genomes regarding various organisms. The availability of full genome data triggered the development of multiplex high-throughput assays allowing simultaneous measurement of transcripts, proteins and metabolites. With genome information and profiling technologies now in hand a highly parallel experimental biology is offering opportunities to explore and discover novel principles governing biological systems. Understanding biological complexity through modelling cellular systems represents the driving force which today allows shifting from a component-centric focus to integrative and systems level investigations. The emerging field of systems biology integrates discovery and hypothesis-driven science to provide comprehensive knowledge via computational models of biological systems.<br><br>
Within the context of evolving systems biology, investigations were made in large-scale computational analyses on transcript co-response data through selected prokaryotic and plant model organisms. CSB.DB - a comprehensive systems-biology database - (http://csbdb.mpimp-golm.mpg.de/) was initiated to provide public and open access to the results of biostatistical analyses in conjunction with additional biological knowledge. The database tool CSB.DB enables potential users to infer hypothesis about functional interrelation of genes of interest and may serve as future basis for more sophisticated means of elucidating gene function. The co-response concept and the CSB.DB database tool were successfully applied to predict operons in Escherichia coli by using the chromosomal distance and transcriptional co-responses. Moreover, examples were shown which indicate that transcriptional co-response analysis allows identification of differential promoter activities under different experimental conditions. The co-response concept was successfully transferred to complex organisms with the focus on the eukaryotic plant model organism Arabidopsis thaliana. The investigations made enabled the discovery of novel genes regarding particular physiological processes and beyond, allowed annotation of gene functions which cannot be accessed by sequence homology. GMD - the Golm Metabolome Database - was initiated and implemented in CSB.DB to integrated metabolite information and metabolite profiles. This novel module will allow addressing complex biological questions towards transcriptional interrelation and extent the recent systems level quest towards phenotyping. / Die vergangenen Jahrzehnte waren gekennzeichnet durch umfangreiche Bemühungen, die Genomsequenz verschiedener Organismen vollständig zu entschlüsseln. Die Verfügbarkeit vollständiger genomischer Daten löste die Entwicklung von modernen Hochdurchsatzmethoden aus, welche die gleichzeitige Messung von verschiedenen Transkripten, Proteinen und Metaboliten erlauben. Mittels genomischer Informationen und Hochdurchsatztechnologien erlaubt eine hoch parallelisierte experimentelle Biologie die Erforschung von Gesetzmäßigkeiten, welchen biologischen Systemen zugrunde liegen. Das Verständnis biologischer Komplexität durch Modellierung zellulärer Systeme repräsentiert die treibende Kraft, welche heutzutage den Element-zentrierten Focus auf integrative und ganzheitliche Untersuchungen lenkt. Das sich entwickelnde Feld der Systembiologie integriert Entdeckungs- und Hypothesen-getriebene Wissenschaft um ein umfangreiches Wissen durch Computermodelle biologischer Systeme bereitzustellen.<br><br>
Im Kontext der sich neu entwickelnden Systembiologie investierte ich in umfangreiche Computeranalysen zur Transkript Co-Response bezüglich ausgewählter prokaryotischer und pflanzlicher eukaryotischer Organismen. CSB.DB - a comprehensive systems-biology database - (http://csbdb.mpimp-golm.mpg.de/) wurde initiiert, um freien Zugang zu den biostatistischen Ergebnissen als auch zu weiterem biologischem Wissen zu bieten. Die Datenbank CSB.DB ermöglicht potentiellen Anwendern die Hypothesengenerierung bezüglich der funktionalen Wechselbeziehungen von Genen von Interesse und kann zukünftig die Grundlage für einen fortgeschrittenen Weg der Zuordnung von Genfunktionen darstellen. Unter Verwendung chromosomaler Distanzen und Transkript Co-Response konnte das Konzept und CSB.DB angewandt werden, um bakterielle Operons in Escherichia coli erfolgreich vorherzusagen. Darüber hinaus werden Beispiele gezeigt, die andeuten, dass die Transkript Co-Response Analyse eine Identifizierung differentieller Promoteraktivität in verschiedenen experimentellen Bedingungen ermöglicht. Das Co-Response Konzept wurde, mit dem Schwerpunkt auf die eukaryotische Modellpflanze Arabidopsis thaliana, erfolgreich auf komplexere Organismen angewandt. Die durchgeführten Untersuchungen ermöglichten die Identifizierung neuer Gene hinsichtlich physiologischer Prozesse und darüber hinaus die Zuweisung von Genfunktionen, welche nicht durch Sequenzhomologie ermöglicht werden kann. GMD - The Golm Metabolome Database - wurde initiiert und in CSB.DB implementiert, um Metaboliten Informationen als auch Metaboliten Profile zu integrieren. Dieses neue Modul ermöglicht die Ausrichtung auf komplexere biologische Fragen und erweitert die derzeitige systembiologische Fragestellung in Richtung Phänotypus-Zuordnung.
|
114 |
Cache conscious column organization in in-memory column storesSchwalb, David, Krüger, Jens, Plattner, Hasso January 2013 (has links)
Cost models are an essential part of database systems, as they are the basis of query performance optimization. Based on predictions made by cost models, the fastest query execution plan can be chosen and executed or algorithms can be tuned and optimised. In-memory databases shifts the focus from disk to main memory accesses and CPU costs, compared to disk based systems where input and output costs dominate the overall costs and other processing costs are often neglected. However, modelling memory accesses is fundamentally different and common models do not apply anymore.
This work presents a detailed parameter evaluation for the plan operators scan with equality selection, scan with range selection, positional lookup and insert in in-memory column stores. Based on this evaluation, a cost model based on cache misses for estimating the runtime of the considered plan operators using different data structures is developed. Considered are uncompressed columns, bit compressed and dictionary encoded columns with sorted and unsorted dictionaries. Furthermore, tree indices on the columns and dictionaries are discussed. Finally, partitioned columns consisting of one partition with a sorted and one with an unsorted dictionary are investigated. New values are inserted in the unsorted dictionary partition and moved periodically by a merge process to the sorted partition. An efficient attribute merge algorithm is described, supporting the update performance required to run enterprise applications on read-optimised databases. Further, a memory traffic based cost model for the merge process is provided. / Kostenmodelle sind ein essentieller Teil von Datenbanksystemen und bilden die Basis für Optimierungen von Ausführungsplänen. Durch Abschätzungen der Kosten können die entsprechend schnellsten Operatoren und Algorithmen zur Abarbeitung einer Anfrage ausgewählt und ausgeführt werden. Hauptspeicherresidente Datenbanken verschieben den Fokus von I/O Operationen hin zu Zugriffen auf den Hauptspeicher und CPU Kosten, verglichen zu Datenbanken deren primäre Kopie der Daten auf Sekundärspeicher liegt und deren Kostenmodelle sich in der Regel auf die kostendominierenden Zugriffe auf das Sekundärmedium beschränken.
Kostenmodelle für Zugriffe auf Hauptspeicher unterscheiden sich jedoch fundamental von Kostenmodellen für Systeme basierend auf Festplatten, so dass alte Modelle nicht mehr greifen. Diese Arbeit präsentiert eine detaillierte Parameterdiskussion, sowie ein Kostenmodell basierend auf Cache-Zugriffen zum Abschätzen der Laufzeit von Datenbankoperatoren in spaltenorientierten und hauptspeicherresidenten Datenbanken wie das Selektieren von Werten einer Spalte mittels einer Gleichheitsbedingung oder eines Wertebereichs, das Nachschlagen der Werte einzelner Positionen oder dem Hinzufügen neuer Werte. Dabei werden Kostenfunktionen für die Operatoren erstellt, welche auf unkomprimierten Spalten, mittels Substitutionskompression komprimierten Spalten sowie bit-komprimierten Spalten operieren. Des Weiteren werden Baumstrukturen als Index Strukturen auf Spalten und Wörterbüchern in die Betrachtung gezogen. Abschließend werden partitionierte Spalten eingeführt, welche aus einer lese- und einer schreib-optimierten Partition bestehen. Neu Werte werden in die schreiboptimierte Partition eingefügt und periodisch von einem Attribut-Merge-Prozess mit der leseoptimierten Partition zusammengeführt. Beschrieben wird eine Effiziente Implementierung für den Attribut-Merge-Prozess und ein Hauptspeicher-bandbreitenbasiertes Kostenmodell aufgestellt.
|
115 |
Effiziente Schemamigration in der modellgetriebenen DatenbankanwendungsentwicklungClaußnitzer, Ralf 30 May 2008 (has links) (PDF)
Unter dem Terminus der MDA (Model Driven Architecture)versteht man eine Methode, Anwendungen im Rahmen der UML zu spezifizieren und ablauffähigen Programm-Code durch automatische Generierung zu erzeugen. Am Lehrstuhl für Datenbanken existiert in diesem Zusammenhang das GignoMDA-Projekt, daß sich mit der modellgetriebenen Entwicklung von Datenbankenanwendungen beschäftigt. Als wesentlicher Bestandteil der jeweiligen Anwendung sind Datenmodelle jedoch, genau wie die Anwendungsarchitektur selbst, Anpassungen an sich veränderte Zielstellungen und Umgebungsbedingungen unterworfen. Es stellt sich also die Notwendigkeit der Überführung von Datenbeständen in neu generierte Zielsysteme, als Bestandteil eines vollständig modellgetriebenen Ansatzes dar. Diese Arbeit stellt ein Konzept zur Schema- und Datenmigration bei der Weiterentwicklung der Anwendungs-Datenbankmodelle vor. Dabei werden Datenmigrationen, gemäß dem MDA-Ansatz, als Modell in UML ausgedrückt und anschließend zur automatischen Erzeugung von plattformabhängigen Migrationsmodellen genutzt. Aus diesen Migrationsmodellen können so, Datenbanktechnik basierte Programme (ETL, Stored Procedures) zur effizienten Ausführung von Migrationen generiert werden.
|
116 |
Lingo – ein System zur automatischen Indexierung – Anwendung und EinsatzmöglichkeitenMüller, Thomas 26 January 2011 (has links) (PDF)
Die heterogenen musealen Bestände (Text, Bild, gegenständliche Objekte)
im Haus der Geschichte der Bundesrepublik Deutschland umfassen
derzeit über 365.000 Objektbeschreibungen zeithistorischer Objekte. Auf
der Basis des Open Source Indexierungssystems lingo wird eine automatische
Indexierung entwickelt, die - aufsetzend auf den existierenden
Rahmenbedingungen - normierte Beschreibungsmerkmale generiert und
als Indexterme für das Retrieval zur Verfügung stellt. Zielvorstellung ist
es, eine einheitliche Suche über die Objektbeschreibungen anhand der
sprachlichen und semantischen Vereinheitlichung der Indexterme zu realisieren.
|
117 |
Discriminative connectionist approaches for automatic speech recognition in carsMarí Hilario, Joan. Unknown Date (has links) (PDF)
Brandenburgische Techn. University, Diss., 2004--Cottbus.
|
118 |
MAGPIE: Simplifying access and execution of computational models in the life sciencesBaldow, Christoph, Salentin, Sebastian, Schroeder, Michael, Roeder, Ingo, Glauche, Ingmar 06 June 2018 (has links) (PDF)
Over the past decades, quantitative methods linking theory and observation became increasingly important in many areas of life science. Subsequently, a large number of mathematical and computational models has been developed. The BioModels database alone lists more than 140,000 Systems Biology Markup Language (SBML) models. However, while the exchange within specific model classes has been supported by standardisation and database efforts, the generic application and especially the re-use of models is still limited by practical issues such as easy and straight forward model execution. MAGPIE, a Modeling and Analysis Generic Platform with Integrated Evaluation, closes this gap by providing a software platform for both, publishing and executing computational models without restrictions on the programming language, thereby combining a maximum on flexibility for programmers with easy handling for non-technical users. MAGPIE goes beyond classical SBML platforms by including all models, independent of the underlying programming language, ranging from simple script models to complex data integration and computations. We demonstrate the versatility of MAGPIE using four prototypic example cases. We also outline the potential of MAGPIE to improve transparency and reproducibility of computational models in life sciences. A demo server is available at magpie.imb.medizin.tu-dresden.de.
|
119 |
Deciphering Demotic DigitallyKorte, Jannik, Maderna-Sieben, Claudia, Wespi, Fabian January 2016 (has links)
In starting the Demotic Palaeographical Database Project, we intend to build up an online database which pays special attention to the actual appearance of Demotic papyri and texts down to the level of the individual sign. Our idea is to analyse a papyrus with respect to its visual nature, inasmuch as it shall be possible to compare each Demotic sign to other representations of the same sign in other texts and to study its occurrences in different words. Words shall not only be analysed in their textual context but also by their orthography and it should be possible to study even the papyrus itself by means of its material features. Therefore, the Demotic Palaeographical Database Project aims for the creation of a modern and online accessible Demotic palaeography, glossary of word spellings and corpus of manuscripts, which will not only be a convenient tool for Egyptologists and researchers interested in the Demotic writing system or artefacts inscribed with Demotic script but also will serve the conservation of cultural heritage. In our paper, we will present our conceptual ideas and the preliminary version of the database in order to demonstrate its functionalities and possibilities.
|
120 |
The Ancient Egyptian Demonology Project: Second Millennium BCEWeber, Felicitas January 2016 (has links)
“The Ancient Egyptian Demonology Project: Second Millennium BCE” was intended and funded as a three-year project (2013-2016) to explore the world of Ancient Egyptian demons in the 2nd millennium BC. It intends to create a classification and ontology of benevolent and malevolent demons. Whereas ancient Egyptians did not use a specific term denoting “demons”, liminal beings known from various other cultures such as δαίμονες, ghosts, angels, Mischwesen, genies, etc., were nevertheless described in texts and illustrations. The project aims to collect philological, iconographical and archaeological evidence to understand the religious beliefs, practices, interactions and knowledge not only of the ancient Egyptians’ daily life but also their perception of the afterlife. Till today scholars, as well as interested laymen, have had no resource to consult for specific examples of those beings, except for rather general encyclopaedias that include all kinds of divine beings or the Iconography of Deities and Demons (IDD) project that is ongoing. Neither provides, however, a searchable platform for both texts and images. The database created by the Demonology Project: 2K is designed to remedy this gap. The idea is to provide scholars and the public with a database that allows statistical analyses and innovative data visualisation, accessible and augmentable from all over the world to stimulate the dialogue and open communication not only within Egyptology but also with neighbouring disciplines. For the time-span of the three year project a pilot database was planned as a foundation for further data-collection and analysis. The data that were chosen date to the 2nd Millennium BCE and originate from objects of daily life (headrests and ivory wands), as well as from objects related to the afterlife, (coffins and ‘Book of the Dead’ manuscripts). This material, connected by its religious purposes, nevertheless provides a cross-section through ancient Egyptian religious practice. The project is funded by the Leverhulme Trust and includes Kasia Szpakowska (director) who supervises the work of the two participating PhD students in Egyptology. The project does not include funds for computer scientists or specialists in digital humanities. Therefore, the database is designed, developed and input by the members of the team only. The focus of my presentation will be the structure of the database that faces the challenge to include both textual and iconographical evidence. I will explain the organisation of the data, search patterns and the opportunities of their visualisation and possible research outcome. Furthermore, I will discuss the potentials the database already possesses and might generate in the future for scholars and the public likewise. Since the evidence belongs to numerous collections from all over the world, I would like to address the problems of intellectual property and copyright with the solution we pursue for releasing the database for registered usage onto the internet.
|
Page generated in 0.0783 seconds