Global ETD Search

Return to search

Extracting and Aggregating Temporal Events from Texts

Das Finden von zuverlässigen Informationen über gegebene Ereignisse aus großen und dynamischen Textsammlungen, wie dem Web, ist ein wichtiges Thema. Zum Beispiel sind Rettungsteams und Versicherungsunternehmen an prägnanten Fakten über Schäden nach Katastrophen interessiert, die heutzutage online in Web-Blogs, Zeitungsartikeln, Social Media etc. zu finden sind. Solche Fakten helfen, die erforderlichen Hilfsmaßnahmen zu bestimmen und unterstützen deren Koordination. Allerdings ist das Finden, Extrahieren und Aggregieren nützlicher Informationen ein hochkomplexes Unterfangen: Es erfordert die Ermittlung geeigneter Textquellen und deren zeitliche Einordung, die Extraktion relevanter Fakten in diesen Texten und deren Aggregation zu einer verdichteten Sicht auf die Ereignisse, trotz Inkonsistenzen, vagen Angaben und Veränderungen über die Zeit. In dieser Arbeit präsentieren und evaluieren wir Techniken und Lösungen für jedes dieser Probleme, eingebettet in ein vierstufiges Framework. Die angewandten Methoden beruhen auf Verfahren des Musterabgleichs, der Verarbeitung natürlicher Sprache und des maschinellen Lernens. Zusätzlich berichten wir über die Ergebnisse zweier Fallstudien, basierend auf dem Einsatz des gesamten Frameworks: Die Ermittlung von Daten über Erdbeben und Überschwemmungen aus Webdokumenten. Unsere Ergebnisse zeigen, dass es unter bestimmten Umständen möglich ist, automatisch zuverlässige und zeitgerechte Daten aus dem Internet zu erhalten. / Finding reliable information about given events from large and dynamic text collections, such as the web, is a topic of great interest. For instance, rescue teams and insurance companies are interested in concise facts about damages after disasters, which can be found today in web blogs, online newspaper articles, social media, etc. Knowing these facts helps to determine the required scale of relief operations and supports their coordination. However, finding, extracting, and condensing specific facts is a highly complex undertaking: It requires identifying appropriate textual sources and their temporal alignment, recognizing relevant facts within these texts, and aggregating extracted facts into a condensed answer despite inconsistencies, uncertainty, and changes over time. In this thesis, we present and evaluate techniques and solutions for each of these problems, embedded in a four-step framework. Applied methods are pattern matching, natural language processing, and machine learning. We also report the results for two case studies applying our entire framework: gathering data on earthquakes and floods from web documents. Our results show that it is, under certain circumstances, possible to automatically obtain reliable and timely data from the web.

Dokumentenretrieval

Query Expansion

Temporal Alignment

Informationsextraktion

Named Entity Recognition

Information Extraction

Named Entity Recognition

Relationship Extraction

004 Datenverarbeitung; Informatik

ST 530

ddc:004

Identifer	oai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/19133
Date	11 October 2017
Creators	Döhling, Lars
Contributors	Leser, Ulf, Gertz, Michael, Pinkwart, Niels
Publisher	Humboldt-Universität zu Berlin
Source Sets	Humboldt University of Berlin
Language	English
Detected Language	German
Type	doctoralThesis, doc-type:doctoralThesis
Format	application/pdf
Rights	Namensnennung-NichtKommerziell-KeineBearbeitung 3.0 Deutschland, http://creativecommons.org/licenses/by-nc-nd/3.0/de/

Page generated in 0.0026 seconds

Extracting and Aggregating Temporal Events from Texts

Description

Links & Downloads

Tags

Additional Fields