• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 31
  • 10
  • Tagged with
  • 41
  • 24
  • 24
  • 12
  • 12
  • 12
  • 12
  • 10
  • 7
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Software-Infrastruktur und Entwicklungsumgebung für selbstorganisierende multimediale Ensembles in Ambient-Intelligence-Umgebungen

Hellenschmidt, Michael. Unknown Date (has links)
Darmstadt, Techn. Universiẗat, Diss., 2007. / Dateien im PDF-Format.
12

Financial risk management with Bayesian estimation of GARCH models theory and applications

Ardia, David January 2008 (has links)
Zugl.: Fribourg, Univ., Diss., 2008 u.d.T.: Ardia, David: Bayesian estimation of single regime and regime switching GARCH models
13

Regression models for ordinal valued time series estimation and applications in finance /

Müller, Gernot. Unknown Date (has links)
Techn. University, Diss., 2004--München.
14

Korrektes Schliessen bei unvollständiger Information : Anwendung des Prinzips der maximalen Entropie in einem probabilistischen Expertensystem /

Meyer, Carl-Heinz. January 1998 (has links)
Zugleich: Diss. Hagen, 1997. / Literaturverz.
15

Computing the least common subsumer and the most specific concept in the presence of cyclic ALN-concept descriptions

Baader, Franz, Küsters, Ralf 19 May 2022 (has links)
Computing least common subsumers (lcs) and most specific concepts (msc) are inference tasks that can be used to support the „bottom up” construction of knowledge bases for KR systems based on description logic. For the description logic ALN, the msc need not always exist if one restricts the attention to acyclic concept descriptions. In this paper, we extend the notions lcs and msc to cyclic descriptions, and show how they can be computed. Our approach is based on the automata-theoretic characterizations of fixed-point semantics for cyclic terminologies developed in previous papers. / An abridged version of this technical report has been published at KI'98.
16

Wissensintegration von generischem und fallbasiertem Wissen, uniforme Repräsentation, Verwendung relationaler Datenbanksysteme sowie Problemlösen mit Concept Based und Case Based Reasoning sowie Bayesschen Netzen in medizinischen wissensbasierten Systemen

Zimmer, Sandra 27 June 2023 (has links)
Ein wissensbasiertes System soll den Mediziner im Rahmen der Diagnosestellung unterstützen, indem relevante Informationen bereitgestellt werden. Aus komplexen Symptomkonstellationen soll eine zuverlässige Diagnose und damit verbundene medizinische Maßnahmen abgeleitet werden. Grundlage dafür bildet das im System adäquat repräsentierte Wissen, das effizient verarbeitet wird. Dieses Wissen ist in der medizinischen Domäne sehr heterogen und häufig nicht gut strukturiert. In der Arbeit wird eine Methodik entwickelt, die die begriffliche Erfassung und Strukturierung der Anwendungsdomäne über Begriffe, Begriffshierarchien, multiaxiale Komposition von Begriffen sowie Konzeptdeklarationen ermöglicht. Komplexe Begriffe können so vollständig, eindeutig und praxisrelevant abgebildet werden. Darüber hinaus werden mit der zugrunde liegenden Repräsentation Dialogsysteme, fallbasierte und generische Problemlösungsmethoden sowie ihr Zusammenspiel mit relationalen Datenbanken in einem System vorgestellt. Dies ist vor allem im medizinischen Diskursbereich von Bedeutung, da zur Problemlösung generisches Wissen (Lehrbuchwissen) und Erfahrungswissen (behandelte Fälle) notwendig ist. Die Wissensbestände können auf relationalen Datenbanken uniform gespeichert werden. Um das vorliegende Wissen effizient verarbeiten zu können, wird eine Methode zur semantischen Indizierung vorgestellt und deren Anwendung im Bereich der Wissensrepräsentation beschrieben. Ausgangspunkt der semantischen Indizierung ist das durch Konzepthierarchien repräsentierte Wissen. Ziel ist es, den Knoten (Konzepten) Schlüssel zuzuordnen, die hierarchisch geordnet und syntaktisch sowie semantisch korrekt sind. Mit dem Indizierungsalgorithmus werden die Schlüssel so berechnet, dass die Konzepte mit den spezifischeren Konzepten unifizierbar sind und nur semantisch korrekte Konzepte zur Wissensbasis hinzugefügt werden dürfen. Die Korrektheit und Vollständigkeit des Indizierungsalgorithmus wird bewiesen. Zur Wissensverarbeitung wird ein integrativer Ansatz der Problemlösungsmethoden des Concept Based und Case Based Reasoning vorgestellt. Concept Based Reasoning kann für die Diagnose-, Therapie- und Medikationsempfehlung und -evaluierung über generisches Wissen verwendet werden. Mit Hilfe von Case Based Reasoning kann Erfahrungswissen von Patientenfällen verarbeitet werden. Weiterhin werden zwei neue Ähnlichkeitsmaße (Kompromissmengen für Ähnlichkeitsmaße und multiaxiale Ähnlichkeit) für das Retrieval ähnlicher Patientenfälle entwickelt, die den semantischen Kontext adäquat berücksichtigen. Einem ausschließlichen deterministischen konzeptbasiertem Schließen sind im medizinischen Diskursbereich Grenzen gesetzt. Für die diagnostische Inferenz unter Unsicherheit, Unschärfe und Unvollständigkeit werden Bayessche Netze untersucht. Es können so die gültigen allgemeinen Konzepte nach deren Wahrscheinlichkeit ausgegeben werden. Dazu werden verschiedene Inferenzmechanismen vorgestellt und anschließend im Rahmen der Entwicklung eines Prototypen evaluiert. Mit Hilfe von Tests wird die Klassifizierung von Diagnosen durch das Netz bewertet.:1 Einleitung 2 Medizinische wissensbasierte Systeme 3 Medizinischer Behandlungsablauf und erweiterter wissensbasierter Agent 4 Methoden zur Wissensrepräsentation 5 Uniforme Repräsentation mit Begriffshierachien, Konzepten, generischem und fallbasierten Schließen 6 Semantische Indizierung 7 Medizinisches System als Beispielanwendung 8 Ähnlichkeitsmaße, Kompromissmengen, multiaxiale Ähnlichkeit 9 Inferenzen mittels Bayesscher Netze 10 Zusammenfassung und Ausblick A Ausgewählte medizinische wissensbasierte Systeme zur Entscheidungsunterstützung aus der Literatur B Realisierung mit Softwarewerkzeugen C Causal statistic modeling and calculation of distribution functions of classification features / A knowledge-based system is designed to support the medical professionals in the diagnostic process by providing relevant information. A reliable diagnosis and associated medical measures are to be derived from complex symptom constellations. It is based on the knowledge adequately represented in the system, which is processed efficiently. This knowledge is very heterogeneous in the medical domain and often not well structured. In this work, a methodology is developed that enables the conceptual capture and structuring of the application domain via concepts, conecpt hierarchies, multiaxial composition of concepts as well as concept declarations. Complex concepts can thus be mapped completely, clearly and with practical relevance. Furthermore, the underlying representation introduces dialogue systems, \acrlong{abk:CBR} and generic problem solving methods as well as their interaction with relational databases in one system. This is particularly important in the field of medical discourse, since generic knowledge (textbook knowledge) and experiential knowledge (treated cases) are necessary for problem solving. The knowledge can be stored uniformly on relational databases. In order to be able to process the available knowledge efficiently, a method for semantic indexing is presented and its application in the field of knowledge representation is described. The starting point of semantic indexing is the knowledge represented by concept hierarchies. The goal is to assign keys to the nodes (concepts) that are hierarchically ordered and syntactically and semantically correct. With the indexing algorithm, the keys are calculated in such a way that the concepts are unifiable with the more specific concepts and only semantically correct concepts may be added to the knowledge base. The correctness and completeness of the indexing algorithm is proven. An integrative approach of the problem-solving methods of Concept Based and \acrlong{abk:CBR} is presented for knowledge processing. Concept Based Reasoning can be used for diagnosis, therapy and medication recommendation and evaluation via generic knowledge. Case Based Reasoning can be used to process experiential knowledge of patient cases. Furthermore, two new similarity measures (compromise sets for similarity measures and multiaxial similarity) are developed for the retrieval of similar patient cases that adequately consider the semantic context. There are limits to an exclusively deterministic Concept Based Reasoning in the medical domain. For diagnostic inference under uncertainty, vagueness and incompleteness Bayesian networks are investigated. The method is based on an adequate uniform representation of the necessary knowledge. Thus, the valid general concepts can be issued according to their probability. To this end, various inference mechanisms are introduced and subsequently evaluated within the context of a developed prototype. Tests are employed to assess the classification of diagnoses by the network.:1 Einleitung 2 Medizinische wissensbasierte Systeme 3 Medizinischer Behandlungsablauf und erweiterter wissensbasierter Agent 4 Methoden zur Wissensrepräsentation 5 Uniforme Repräsentation mit Begriffshierachien, Konzepten, generischem und fallbasierten Schließen 6 Semantische Indizierung 7 Medizinisches System als Beispielanwendung 8 Ähnlichkeitsmaße, Kompromissmengen, multiaxiale Ähnlichkeit 9 Inferenzen mittels Bayesscher Netze 10 Zusammenfassung und Ausblick A Ausgewählte medizinische wissensbasierte Systeme zur Entscheidungsunterstützung aus der Literatur B Realisierung mit Softwarewerkzeugen C Causal statistic modeling and calculation of distribution functions of classification features
17

Essays on using machine learning for causal inference

Jacob, Daniel 01 March 2022 (has links)
Um Daten am effektivsten zu nutzen, muss die moderne Ökonometrie ihren Werkzeugkasten an Modellen erweitern und neu denken. Das Feld, in dem diese Transformation am besten beobachtet werden kann, ist die kausale Inferenz. Diese Dissertation verfolgt die Absicht Probleme zu untersuchen, Lösungen zu präsentieren und neue Methoden zu entwickeln Machine Learning zu benutzen, um kausale Parameter zu schätzen. Dafür werden in der Dissertation zuerst verschiedene neuartige Methoden, welche als Ziel haben heterogene Treatment Effekte zu messen, eingeordnet. Im zweiten Schritt werden, basierend auf diesen Methoden, Richtlinien für ihre Anwendung in der Praxis aufgestellt. Der Parameter von Interesse ist der „conditional average treatment effect“ (CATE). Es kann gezeigt werden, dass ein Vergleich mehrerer Methoden gegenüber der Verwendung einer einzelnen Methode vorzuziehen ist. Ein spezieller Fokus liegt dabei auf dem Aufteilen und Gewichten der Stichprobe, um den Verlust in Effizienz wettzumachen. Ein unzulängliches Kontrollieren für die Variation durch verschiedene Teilstichproben führt zu großen Unterschieden in der Präzision der geschätzten Parameter. Wird der CATE durch Bilden von Quantilen in Gruppen unterteilt, führt dies zu robusteren Ergebnissen in Bezug auf die Varianz. Diese Dissertation entwickelt und untersucht nicht nur Methoden für die Schätzung der Heterogenität in Treatment Effekten, sondern auch für das Identifizieren von richtigen Störvariablen. Hierzu schlägt diese Dissertation sowohl die „outcome-adaptive random forest“ Methode vor, welche automatisiert Variablen klassifiziert, als auch „supervised randomization“ für eine kosteneffiziente Selektion der Zielgruppe. Einblicke in wichtige Variablen und solche, welche keine Störung verursachen, ist besonders in der Evaluierung von Politikmaßnahmen aber auch im medizinischen Sektor wichtig, insbesondere dann, wenn kein randomisiertes Experiment möglich ist. / To use data effectively, modern econometricians need to expand and rethink their toolbox. One field where such a transformation has already started is causal inference. This thesis aims to explore further issues, provide solutions, and develop new methods on how machine learning can be used to estimate causal parameters. I categorize novel methods to estimate heterogeneous treatment effects and provide a practitioner’s guide for implementation. The parameter of interest is the conditional average treatment effect (CATE). It can be shown that an ensemble of methods is preferable to relying on one method. A special focus, with respect to the CATE, is set on the comparison of such methods and the role of sample splitting and cross-fitting to restore efficiency. Huge differences in the estimated parameter accuracy can occur if the sampling uncertainty is not correctly accounted for. One feature of the CATE is a coarser representation through quantiles. Estimating groups of the CATE leads to more robust estimates with respect to the sampling uncertainty and the resulting high variance. This thesis not only develops and explores methods to estimate treatment effect heterogeneity but also to identify confounding variables as well as observations that should receive treatment. For these two tasks, this thesis proposes the outcome-adaptive random forest for automatic variable selection, as well as supervised randomization for a cost-efficient selection of the target group. Insights into important variables and those that are not true confounders are very helpful for policy evaluation and in the medical sector when randomized control trials are not possible.
18

Bayesian Inference for High-Dimensional Data with Applications to Portfolio Theory

Bauder, David 06 December 2018 (has links)
Die Gewichte eines Portfolios liegen meist als als Kombination des Produkts der Präzisionsmatrix und des Erwartungswertvektors vor. In der Praxis müssen diese Parameter geschätzt werden, allerdings ist die Beschreibung der damit verbundenen Schätzunsicherheit über eine Verteilung dieses Produktes eine Herausforderung. In dieser Arbeit wird demonstriert, dass ein geeignetes bayesianisches Modell nicht nur zu einer leicht zugänglichen Posteriori-Verteilung führt, sondern auch zu leicht interpretierbaren Beschreibungen des Portfoliorisikos, wie beispielsweise einer Ausfallwahrscheinlichkeit des gesamten Portfolios zu jedem Zeitpunkt. Dazu werden die Parameter mit ihren konjugierten Prioris ausgestatet. Mit Hilfe bekannter Ergebnisse aus der Theorie multivariater Verteilungen ist es möglich, eine stochastische Darstellung für relevante Ausdrücke wie den Portfoliogewichten oder des effizienten Randes zu geben. Diese Darstellungen ermöglichen nicht nur die Bestimmung von Bayes-Schätzern der Parameter, sondern sind auch noch rechentechnisch hoch effizient, da Zufallszahlen nur aus bekannten und leicht zugänglichen Verteilungen gezogen werden. Insbesondere aber werden Markov-Chain-Monte-Carlo Methoden nicht benötigt. Angewendet wird diese Methodik an einem mehrperiodigen Portfoliomodell für eine exponentielle Nutzenfunktion, am Tangentialportfolio, zur Schätzung des effizienten Randes, des globalen Minimum-Varianz-Portfolios wie auch am gesamten Mittelwert-Varianz Ansatzes. Für alle behandelten Portfoliomodelle werden für wichtige Größen stochastische Darstellungen oder Bayes-Schätzer gefunden. Die Praktikabilität und Flexibilität wie auch bestimmte Eigenschaften werden in Anwendungen mit realen Datensätzen oder Simulationen illustriert. / Usually, the weights of portfolio assets are expressed as a comination of the product of the precision matrix and the mean vector. These parameters have to be estimated in practical applications. But it is a challenge to describe the associated estimation risk of this product. It is demonstrated in this thesis, that a suitable Bayesian approach does not only lead to an easily accessible posteriori distribution, but also leads to easily interpretable risk measures. This also includes for example the default probability of the portfolio at all relevant points in time. To approach this task, the parameters are endowed with their conjugate priors. Using results from the theory of multivariate distributions, stochastic representations for the portfolio parameter are derived, for example for the portfolio weights or the efficient frontier. These representations not only allow to derive Bayes estimates of these parameters, but are computationally highly efficient since all th necessary random variables are drawn from well known and easily accessible distributions. Most importantly, Markov-Chain-Monte-Carlo methods are not necessary. These methods are applied to a multi-period portfolio for an exponential utility function, to the tangent portfolio, to estimate the efficient frontier and also to a general mean-variance approach. Stochastic representations and Bayes estimates are derived for all relevant parameters. The practicability and flexibility as well as specific properties are demonstrated using either real data or simulations.
19

The Sense of Agency: Underlying Neurocognitive Mechanisms and its Attribution to Human and Non-Human Co-Actors

Goldberg, Michael 12 April 2018 (has links)
Das Gefühl der Kontrolle über die eigenen körperlichen Handlungen, und dadurch über die externe Umwelt ist einer der Grundpfeiler unserer menschlichen Existenz. Dieser fundamentale Aspekt der Identität ist bekannt als ‘Sense of Agency’ (SoA). Innerhalb der Neurowissenschaften begann die intensive Untersuchung dieses faszinierenden Konzepts erst innerhalb der letzten zwei Jahrzehnte. Das vorliegende Forschungsprojekt befasst sich mit zwei zentralen Aspekten des Sense of Agency. Zum einen wurden die zwei zugrundeliegenden neurokognitiven Mechanismen ‘Vorhersage’ und ‘Retrospektive Inferenz’ untersucht. Zum anderen wurde die Zuschreibung von Agency bei weiteren Ko-Akteuren, mit denen eine gemeinsame Aufgabe bewältigt werden musste untersucht. Das durchgeführte Forschungsprojekt trägt somit zu einem tieferen Verständnis menschlicher Agency auf individueller Ebene und im sozialen Kontext bei. Außerdem liefert es Implikationen für die Mensch-Maschine-Interaktion und die Verbesserung zukünftiger Mensch-Maschine-Schnittstellen. / The seamless feeling of control over one’s own bodily actions, and through them, over the external environment is one of the cornerstones of our existence as human beings. This fundamental aspect of personal identity has been termed the sense of agency (SoA). It is only within the last two decades that this intriguing concept has begun to be intensively studied in the cognitive neurosciences. In the current research project we addressed two central aspects of the sense of agency. First, we investigated its underlying neurocognitive mechanisms: prediction and retrospective inference. Second, we looked into the attribution of agency to other co-actors when cooperating in a joint task. Overall, the current research project has made a step towards a better and deeper understanding of human agency in the individual as well as the social contexts. Additionally, the findings presented in this work inform the field of human-computerinteraction and contribute to the improvement of future interface designs.
20

Extraktion und Identifikation von Entitäten in Textdaten im Umfeld der Enterprise Search / Extraction and identification of entities in text data in the field of enterprise search

Brauer, Falk January 2010 (has links)
Die automatische Informationsextraktion (IE) aus unstrukturierten Texten ermöglicht völlig neue Wege, auf relevante Informationen zuzugreifen und deren Inhalte zu analysieren, die weit über bisherige Verfahren zur Stichwort-basierten Dokumentsuche hinausgehen. Die Entwicklung von Programmen zur Extraktion von maschinenlesbaren Daten aus Texten erfordert jedoch nach wie vor die Entwicklung von domänenspezifischen Extraktionsprogrammen. Insbesondere im Bereich der Enterprise Search (der Informationssuche im Unternehmensumfeld), in dem eine große Menge von heterogenen Dokumenttypen existiert, ist es oft notwendig ad-hoc Programm-module zur Extraktion von geschäftsrelevanten Entitäten zu entwickeln, die mit generischen Modulen in monolithischen IE-Systemen kombiniert werden. Dieser Umstand ist insbesondere kritisch, da potentiell für jeden einzelnen Anwendungsfall ein von Grund auf neues IE-System entwickelt werden muss. Die vorliegende Dissertation untersucht die effiziente Entwicklung und Ausführung von IE-Systemen im Kontext der Enterprise Search und effektive Methoden zur Ausnutzung bekannter strukturierter Daten im Unternehmenskontext für die Extraktion und Identifikation von geschäftsrelevanten Entitäten in Doku-menten. Grundlage der Arbeit ist eine neuartige Plattform zur Komposition von IE-Systemen auf Basis der Beschreibung des Datenflusses zwischen generischen und anwendungsspezifischen IE-Modulen. Die Plattform unterstützt insbesondere die Entwicklung und Wiederverwendung von generischen IE-Modulen und zeichnet sich durch eine höhere Flexibilität und Ausdrucksmächtigkeit im Vergleich zu vorherigen Methoden aus. Ein in der Dissertation entwickeltes Verfahren zur Dokumentverarbeitung interpretiert den Daten-austausch zwischen IE-Modulen als Datenströme und ermöglicht damit eine weitgehende Parallelisierung von einzelnen Modulen. Die autonome Ausführung der Module führt zu einer wesentlichen Beschleu-nigung der Verarbeitung von Einzeldokumenten und verbesserten Antwortzeiten, z. B. für Extraktions-dienste. Bisherige Ansätze untersuchen lediglich die Steigerung des durchschnittlichen Dokumenten-durchsatzes durch verteilte Ausführung von Instanzen eines IE-Systems. Die Informationsextraktion im Kontext der Enterprise Search unterscheidet sich z. B. von der Extraktion aus dem World Wide Web dadurch, dass in der Regel strukturierte Referenzdaten z. B. in Form von Unternehmensdatenbanken oder Terminologien zur Verfügung stehen, die oft auch die Beziehungen von Entitäten beschreiben. Entitäten im Unternehmensumfeld haben weiterhin bestimmte Charakteristiken: Eine Klasse von relevanten Entitäten folgt bestimmten Bildungsvorschriften, die nicht immer bekannt sind, auf die aber mit Hilfe von bekannten Beispielentitäten geschlossen werden kann, so dass unbekannte Entitäten extrahiert werden können. Die Bezeichner der anderen Klasse von Entitäten haben eher umschreibenden Charakter. Die korrespondierenden Umschreibungen in Texten können variieren, wodurch eine Identifikation derartiger Entitäten oft erschwert wird. Zur effizienteren Entwicklung von IE-Systemen wird in der Dissertation ein Verfahren untersucht, das alleine anhand von Beispielentitäten effektive Reguläre Ausdrücke zur Extraktion von unbekannten Entitäten erlernt und damit den manuellen Aufwand in derartigen Anwendungsfällen minimiert. Verschiedene Generalisierungs- und Spezialisierungsheuristiken erkennen Muster auf verschiedenen Abstraktionsebenen und schaffen dadurch einen Ausgleich zwischen Genauigkeit und Vollständigkeit bei der Extraktion. Bekannte Regellernverfahren im Bereich der Informationsextraktion unterstützen die beschriebenen Problemstellungen nicht, sondern benötigen einen (annotierten) Dokumentenkorpus. Eine Methode zur Identifikation von Entitäten, die durch Graph-strukturierte Referenzdaten vordefiniert sind, wird als dritter Schwerpunkt untersucht. Es werden Verfahren konzipiert, welche über einen exakten Zeichenkettenvergleich zwischen Text und Referenzdatensatz hinausgehen und Teilübereinstimmungen und Beziehungen zwischen Entitäten zur Identifikation und Disambiguierung heranziehen. Das in der Arbeit vorgestellte Verfahren ist bisherigen Ansätzen hinsichtlich der Genauigkeit und Vollständigkeit bei der Identifikation überlegen. / The automatic information extraction (IE) from unstructured texts enables new ways to access relevant information and analyze text contents, which goes beyond existing technologies for keyword-based search in document collections. However, the development of systems for extracting machine-readable data from text still requires the implementation of domain-specific extraction programs. In particular in the field of enterprise search (the retrieval of information in the enterprise settings), in which a large amount of heterogeneous document types exists, it is often necessary to develop ad-hoc program-modules and to combine them with generic program components to extract by business relevant entities. This is particularly critical, as potentially for each individual application a new IE system must be developed from scratch. In this work we examine efficient methods to develop and execute IE systems in the context of enterprise search and effective algorithms to exploit pre-existing structured data in the business context for the extraction and identification of business entities in documents. The basis of this work is a novel platform for composition of IE systems through the description of the data flow between generic and application-specific IE modules. The platform supports in particular the development and reuse of generic IE modules and is characterized by a higher flexibility as compared to previous methods. A technique developed in this work interprets the document processing as data stream between IE modules and thus enables an extensive parallelization of individual modules. The autonomous execution of each module allows for a significant runtime improvement for individual documents and thus improves response times, e.g. for extraction services. Previous parallelization approaches focused only on an improved throughput for large document collections, e.g., by leveraging distributed instances of an IE system. Information extraction in the context of enterprise search differs for instance from the extraction from the World Wide Web by the fact that usually a variety of structured reference data (corporate databases or terminologies) is available, which often describes the relationships among entities. Furthermore, entity names in a business environment usually follow special characteristics: On the one hand relevant entities such as product identifiers follow certain patterns that are not always known beforehand, but can be inferred using known sample entities, so that unknown entities can be extracted. On the other hand many designators have a more descriptive character (concatenation of descriptive words). The respective references in texts might differ due to the diversity of potential descriptions, often making the identification of such entities difficult. To address IE applications in the presence of available structured data, we study in this work the inference of effective regular expressions from given sample entities. Various generalization and specialization heuristics are used to identify patterns at different syntactic abstraction levels and thus generate regular expressions which promise both high recall and precision. Compared to previous rule learning techniques in the field of information extraction, our technique does not require any annotated document corpus. A method for the identification of entities that are predefined by graph structured reference data is examined as a third contribution. An algorithm is presented which goes beyond an exact string comparison between text and reference data set. It allows for an effective identification and disambiguation of potentially discovered entities by exploitation of approximate matching strategies. The method leverages further relationships among entities for identification and disambiguation. The method presented in this work is superior to previous approaches with regard to precision and recall.

Page generated in 0.0786 seconds