Spelling suggestions: "subject:"info:entrepo/classification/ddc/006"" "subject:"info:restrepo/classification/ddc/006""
161 |
Semi-automated Ontology Generation for Biocuration and Semantic SearchWächter, Thomas 27 October 2010 (has links)
Background:
In the life sciences, the amount of literature and experimental data grows at a tremendous rate. In order to effectively access and integrate these data, biomedical ontologies – controlled, hierarchical vocabularies – are being developed.
Creating and maintaining such ontologies is a difficult, labour-intensive, manual process. Many computational methods which can support ontology construction have been proposed in the past. However, good, validated systems are largely missing.
Motivation:
The biocuration community plays a central role in the development of ontologies. Any method that can support their efforts has the potential to have a huge impact in the life sciences.
Recently, a number of semantic search engines were created that make use of biomedical ontologies for document retrieval. To transfer the technology to other knowledge domains, suitable ontologies need to be created. One area where ontologies may prove particularly useful is the search for alternative methods to animal testing, an area where comprehensive search is of special interest to determine the availability or unavailability of alternative methods.
Results:
The Dresden Ontology Generator for Directed Acyclic Graphs (DOG4DAG) developed in this thesis is a system which supports the creation and extension of ontologies by semi-automatically generating terms, definitions, and parent-child relations from text in PubMed, the web, and PDF repositories. The system is seamlessly integrated into OBO-Edit and Protégé, two widely used ontology editors in the life sciences. DOG4DAG generates terms by identifying statistically significant noun-phrases in text. For definitions and parent-child relations it employs pattern-based web searches. Each generation step has been systematically evaluated using manually validated benchmarks. The term generation leads to high quality terms also found in manually created ontologies. Definitions can be retrieved for up to 78% of terms, child ancestor relations for up to 54%. No other validated system exists that achieves comparable results.
To improve the search for information on alternative methods to animal testing an ontology has been developed that contains 17,151 terms of which 10% were newly created and 90% were re-used from existing resources. This ontology is the core of Go3R, the first semantic search engine in this field. When a user performs a search query with Go3R, the search engine expands this request using the structure and terminology of the ontology. The machine classification employed in Go3R is capable of distinguishing documents related to alternative methods from those which are not with an F-measure of 90% on a manual benchmark. Approximately 200,000 of the 19 million documents listed in PubMed were identified as relevant, either because a specific term was contained or due to the automatic classification. The Go3R search engine is available on-line under www.Go3R.org.
|
162 |
Digital Intelligence – Möglichkeiten und Umsetzung einer informatikgestützten Frühaufklärung: Digital Intelligence – opportunities and implementation of a data-driven foresightWalde, Peter 15 December 2010 (has links)
Das Ziel der Digital Intelligence bzw. datengetriebenen Strategischen Frühaufklärung ist, die Zukunftsgestaltung auf Basis valider und fundierter digitaler Information mit vergleichsweise geringem Aufwand und enormer Zeit- und Kostenersparnis zu unterstützen. Hilfe bieten innovative Technologien der (halb)automatischen Sprach- und Datenverarbeitung wie z. B. das Information Retrieval, das (Temporal) Data, Text und Web Mining, die Informationsvisualisierung, konzeptuelle Strukturen sowie die Informetrie. Sie ermöglichen, Schlüsselthemen und latente Zusammenhänge aus einer nicht überschaubaren, verteilten und inhomogenen Datenmenge wie z. B. Patenten, wissenschaftlichen Publikationen, Pressedokumenten oder Webinhalten rechzeitig zu erkennen und schnell und zielgerichtet bereitzustellen. Die Digital Intelligence macht somit intuitiv erahnte Muster und Entwicklungen explizit und messbar.
Die vorliegende Forschungsarbeit soll zum einen die Möglichkeiten der Informatik zur datengetriebenen Frühaufklärung aufzeigen und zum zweiten diese im pragmatischen Kontext umsetzen.
Ihren Ausgangspunkt findet sie in der Einführung in die Disziplin der Strategischen Frühaufklärung und ihren datengetriebenen Zweig – die Digital Intelligence.
Diskutiert und klassifiziert werden die theoretischen und insbesondere informatikbezogenen Grundlagen der Frühaufklärung – vor allem die Möglichkeiten der zeitorientierten Datenexploration.
Konzipiert und entwickelt werden verschiedene Methoden und Software-Werkzeuge, die die zeitorientierte Exploration insbesondere unstrukturierter Textdaten (Temporal Text Mining) unterstützen. Dabei werden nur Verfahren in Betracht gezogen, die sich im Kontext einer großen Institution und den spezifischen Anforderungen der Strategischen Frühaufklärung pragmatisch nutzen lassen. Hervorzuheben sind eine Plattform zur kollektiven Suche sowie ein innovatives Verfahren zur Identifikation schwacher Signale.
Vorgestellt und diskutiert wird eine Dienstleistung der Digital Intelligence, die auf dieser Basis in einem globalen technologieorientierten Konzern erfolgreich umgesetzt wurde und eine systematische Wettbewerbs-, Markt- und Technologie-Analyse auf Basis digitaler Spuren des Menschen ermöglicht.:Kurzzusammenfassung 2
Danksagung 3
Inhaltsverzeichnis 5
Tabellenverzeichnis 9
Abbildungsverzeichnis 10
A – EINLEITUNG 13
1 Hintergrund und Motivation 13
2 Beitrag und Aufbau der Arbeit 16
B – THEORIE 20
B0 – Digital Intelligence 20
3 Herleitung und Definition der Digital Intelligence 21
4 Abgrenzung zur Business Intelligence 23
5 Übersicht über unterschiedliche Textsorten 24
6 Informetrie: Bibliometrie, Szientometrie, Webometrie 29
7 Informationssysteme im Kontext der Digital Intelligence 31
B1 – Betriebswirtschaftliche Grundlagen der Digital Intelligence 36
8 Strategische Frühaufklärung 37
8.1 Facetten und historische Entwicklung 37
8.2 Methoden 41
8.3 Prozess 42
8.4 Bestimmung wiederkehrender Termini 44
8.5 Grundlagen der Innovations- und Diffusionsforschung 49
B2 – Informatik-Grundlagen der Digital Intelligence 57
9 Von Zeit, Daten, Text, Metadaten zu multidimensionalen zeitorientierten (Text)Daten 59
9.1 Zeit – eine Begriffsbestimmung 59
9.1.1 Zeitliche Grundelemente und Operatoren 59
9.1.2 Lineare, zyklische und verzweigte Entwicklungen 62
9.1.3 Zeitliche (Un)Bestimmtheit 62
9.1.4 Zeitliche Granularität 63
9.2 Text 63
9.2.1 Der Text und seine sprachlich-textuellen Ebenen 63
9.2.2 Von Signalen und Daten zu Information und Wissen 65
9.3 Daten 65
9.3.1 Herkunft 65
9.3.2 Datengröße 66
9.3.3 Datentyp und Wertebereich 66
9.3.4 Datenstruktur 67
9.3.5 Dimensionalität 68
9.4 Metadaten 69
9.5 Zusammenfassung und multidimensionale zeitorientierte Daten 70
10 Zeitorientierte Datenexplorationsmethoden 73
10.1 Zeitorientierte Datenbankabfragen und OLAP 76
10.2 Zeitorientiertes Information Retrieval 78
10.3 Data Mining und Temporal Data Mining 79
10.3.1 Repräsentationen zeitorientierter Daten 81
10.3.2 Aufgaben des Temporal Data Mining 86
10.4 Text Mining und Temporal Text Mining 91
10.4.1 Grundlagen des Text Mining 98
10.4.2 Entwickelte, genutzte und lizensierte Anwendungen des Text Mining 107
10.4.3 Formen des Temporal Text Mining 110
10.4.3.1 Entdeckung kausaler und zeitorientierter Regeln 110
10.4.3.2 Identifikation von Abweichungen und Volatilität 111
10.4.3.3 Identifikation und zeitorientierte Organisation von Themen 112
10.4.3.4 Zeitorientierte Analyse auf Basis konzeptueller Strukturen 116
10.4.3.5 Zeitorientierte Analyse von Frequenz, Vernetzung und Hierarchien 117
10.4.3.6 Halbautomatische Identifikation von Trends 121
10.4.3.7 Umgang mit dynamisch aktualisierten Daten 123
10.5 Web Mining und Temporal Web Mining 124
10.5.1 Web Content Mining 125
10.5.2 Web Structure Mining 126
10.5.3 Web Usage Mining 127
10.5.4 Temporal Web Mining 127
10.6 Informationsvisualisierung 128
10.6.1 Visualisierungstechniken 130
10.6.1.1 Visualisierungstechniken nach Datentypen 130
10.6.1.2 Visualisierungstechniken nach Darstellungsart 132
10.6.1.3 Visualisierungstechniken nach Art der Interaktion 137
10.6.1.4 Visualisierungstechniken nach Art der visuellen Aufgabe 139
10.6.1.5 Visualisierungstechniken nach Visualisierungsprozess 139
10.6.2 Zeitorientierte Visualisierungstechniken 140
10.6.2.1 Statische Repräsentationen 141
10.6.2.2 Dynamische Repräsentationen 145
10.6.2.3 Ereignisbasierte Repräsentationen 147
10.7 Zusammenfassung 152
11 Konzeptuelle Strukturen 154
12 Synopsis für die zeitorientierte Datenexploration 163
C – UMSETZUNG EINES DIGITAL-INTELLIGENCESYSTEMS 166
13 Bestimmung textbasierter Indikatoren 167
14 Anforderungen an ein Digital-Intelligence-System 171
15 Beschreibung der Umsetzung eines Digital-Intelligence-Systems 174
15.1 Konzept einer Dienstleistung der Digital Intelligence 175
15.1.1 Portalnutzung 177
15.1.2 Steckbriefe 178
15.1.3 Tiefenanalysen 180
15.1.4 Technologiescanning 185
15.2 Relevante Daten für die Digital Intelligence (Beispiel) 187
15.3 Frühaufklärungs-Plattform 188
15.4 WCTAnalyze und automatische Extraktion themenspezifischer Ereignisse 197
15.5 SemanticTalk 200
15.6 Halbautomatische Identifikation von Trends 204
15.6.1 Zeitreihenkorrelation 205
15.6.2 HD-SOM-Scanning 207
D – ZUSAMMENFASSUNG 217
Anhang A: Prozessbilder entwickelter Anwendungen des (Temporal) Text Mining 223
Anhang B: Synopsis der zeitorientierten Datenexploration 230
Literaturverzeichnis 231
Selbstständigkeitserklärung 285
Wissenschaftlicher Werdegang des Autors 286
Veröffentlichungen 287
|
Page generated in 0.0938 seconds