Global ETD Search

161	Semi-automated Ontology Generation for Biocuration and Semantic Search Wächter, Thomas 27 October 2010 (has links) Background: In the life sciences, the amount of literature and experimental data grows at a tremendous rate. In order to effectively access and integrate these data, biomedical ontologies – controlled, hierarchical vocabularies – are being developed. Creating and maintaining such ontologies is a difficult, labour-intensive, manual process. Many computational methods which can support ontology construction have been proposed in the past. However, good, validated systems are largely missing. Motivation: The biocuration community plays a central role in the development of ontologies. Any method that can support their efforts has the potential to have a huge impact in the life sciences. Recently, a number of semantic search engines were created that make use of biomedical ontologies for document retrieval. To transfer the technology to other knowledge domains, suitable ontologies need to be created. One area where ontologies may prove particularly useful is the search for alternative methods to animal testing, an area where comprehensive search is of special interest to determine the availability or unavailability of alternative methods. Results: The Dresden Ontology Generator for Directed Acyclic Graphs (DOG4DAG) developed in this thesis is a system which supports the creation and extension of ontologies by semi-automatically generating terms, definitions, and parent-child relations from text in PubMed, the web, and PDF repositories. The system is seamlessly integrated into OBO-Edit and Protégé, two widely used ontology editors in the life sciences. DOG4DAG generates terms by identifying statistically significant noun-phrases in text. For definitions and parent-child relations it employs pattern-based web searches. Each generation step has been systematically evaluated using manually validated benchmarks. The term generation leads to high quality terms also found in manually created ontologies. Definitions can be retrieved for up to 78% of terms, child ancestor relations for up to 54%. No other validated system exists that achieves comparable results. To improve the search for information on alternative methods to animal testing an ontology has been developed that contains 17,151 terms of which 10% were newly created and 90% were re-used from existing resources. This ontology is the core of Go3R, the first semantic search engine in this field. When a user performs a search query with Go3R, the search engine expands this request using the structure and terminology of the ontology. The machine classification employed in Go3R is capable of distinguishing documents related to alternative methods from those which are not with an F-measure of 90% on a manual benchmark. Approximately 200,000 of the 19 million documents listed in PubMed were identified as relevant, either because a specific term was contained or due to the automatic classification. The Go3R search engine is available on-line under www.Go3R.org. info:eu-repo/classification/ddc/006 ddc:006 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/576 ddc:576
162	Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight Walde, Peter 15 December 2010 (has links) Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar. Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen. Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence. Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration. Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale. Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2 Danksagung 3 Inhaltsverzeichnis 5 Tabellenverzeichnis 9 Abbildungsverzeichnis 10 A – EINLEITUNG 13 1 Hintergrund und Motivation 13 2 Beitrag und Aufbau der Arbeit 16 B – THEORIE 20 B0 – Digital Intelligence 20 3 Herleitung und Definition der Digital Intelligence 21 4 Abgrenzung zur Business Intelligence 23 5 Übersicht über unterschiedliche Textsorten 24 6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29 7 Informationssysteme im Kontext der Digital Intelligence 31 B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36 8 Strategische Frühaufklärung 37 8.1 Facetten und historische Entwicklung 37 8.2 Methoden 41 8.3 Prozess 42 8.4 Bestimmung wiederkehrender Termini 44 8.5 Grundlagen der Innovations- und Diffusionsforschung 49 B2 – Informatik-Grundlagen der Digital Intelligence 57 9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59 9.1 Zeit – eine Begriffsbestimmung 59 9.1.1 Zeitliche Grundelemente und Operatoren 59 9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62 9.1.3 Zeitliche (Un)Bestimmtheit 62 9.1.4 Zeitliche Granularität 63 9.2 Text 63 9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63 9.2.2 Von Signalen und Daten zu Information und Wissen 65 9.3 Daten 65 9.3.1 Herkunft 65 9.3.2 Datengröße 66 9.3.3 Datentyp und Wertebereich 66 9.3.4 Datenstruktur 67 9.3.5 Dimensionalität 68 9.4 Metadaten 69 9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70 10 Zeitorientierte Datenexplorationsmethoden 73 10.1 Zeitorientierte Datenbankabfragen und OLAP 76 10.2 Zeitorientiertes Information Retrieval 78 10.3 Data Mining und Temporal Data Mining 79 10.3.1 Repräsentationen zeitorientierter Daten 81 10.3.2 Aufgaben des Temporal Data Mining 86 10.4 Text Mining und Temporal Text Mining 91 10.4.1 Grundlagen des Text Mining 98 10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107 10.4.3 Formen des Temporal Text Mining 110 10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110 10.4.3.2 Identifikation von Abweichungen und Volatilität 111 10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112 10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116 10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117 10.4.3.6 Halbautomatische Identifikation von Trends 121 10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123 10.5 Web Mining und Temporal Web Mining 124 10.5.1 Web Content Mining 125 10.5.2 Web Structure Mining 126 10.5.3 Web Usage Mining 127 10.5.4 Temporal Web Mining 127 10.6 Informationsvisualisierung 128 10.6.1 Visualisierungstechniken 130 10.6.1.1 Visualisierungstechniken nach Datentypen 130 10.6.1.2 Visualisierungstechniken nach Darstellungsart 132 10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137 10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139 10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139 10.6.2 Zeitorientierte Visualisierungstechniken 140 10.6.2.1 Statische Repräsentationen 141 10.6.2.2 Dynamische Repräsentationen 145 10.6.2.3 Ereignisbasierte Repräsentationen 147 10.7 Zusammenfassung 152 11 Konzeptuelle Strukturen 154 12 Synopsis für die zeitorientierte Datenexploration 163 C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166 13 Bestimmung textbasierter Indikatoren 167 14 Anforderungen an ein Digital-Intelligence-System 171 15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174 15.1 Konzept einer Dienstleistung der Digital Intelligence 175 15.1.1 Portalnutzung 177 15.1.2 Steckbriefe 178 15.1.3 Tiefenanalysen 180 15.1.4 Technologiescanning 185 15.2 Relevante Daten für die Digital Intelligence (Beispiel) 187 15.3 Frühaufklärungs-Plattform 188 15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197 15.5 SemanticTalk 200 15.6 Halbautomatische Identifikation von Trends 204 15.6.1 Zeitreihenkorrelation 205 15.6.2 HD-SOM-Scanning 207 D – ZUSAMMENFASSUNG 217 Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223 Anhang B: Synopsis der zeitorientierten Datenexploration 230 Literaturverzeichnis 231 Selbstständigkeitserklärung 285 Wissenschaftlicher Werdegang des Autors 286 Veröffentlichungen 287 info:eu-repo/classification/ddc/000 ddc:000 info:eu-repo/classification/ddc/003 ddc:003 info:eu-repo/classification/ddc/004 ddc:004 info:eu-repo/classification/ddc/006 ddc:006 info:eu-repo/classification/ddc/020 ddc:020 info:eu-repo/classification/ddc/025 ddc:025 info:eu-repo/classification/ddc/028 ddc:028

Search results

Semi-automated Ontology Generation for Biocuration and Semantic Search

Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresight