1 |
Detection, Extraction and Analysis of Vossian Antonomasia in Large Text Corpora Using Machine LearningSchwab, Michel 02 July 2024 (has links)
Rhetorische Stilmittel, werden seit jeher in Texten verwendet, um Bilder zu erzeugen, Leser zu fesseln und wichtige Punkte hervorzuheben. Unter diesen Stilmitteln ist die Vossianische Antonomasie besonders für den Einsatz von Eigennamen als rhetorische Elemente beliebt. Genauer definiert beinhaltet die Vossianische Antonomasie, dass einem Eigennamen eine bestimmte Menge von Eigenschaften oder Attributen zugeordnet wird, indem ein anderer Eigenname, der für die entsprechenden Eigenschaften allgemein bekannt ist, genannt wird. Modifizierende Phrasen, die typischerweise in Kombination mit dem letztgenannten Eigennamen auftreten, helfen, diese Attribute zu kontextualisieren. Trotz ihrer Allgegenwärtigkeit in modernen Medien ist die Forschung zu ihrer Identifizierung, Verwendung und Interpretation selten. Dies motiviert das Thema dieser Arbeit: die automatische Erkennung, Extraktion und Analyse der Vossianischen Antonomasie.
Wir präsentieren mehrere Methoden zur automatisierten Erkennung des Phänomens und entwickeln einen annotierten Datensatz.
Die Methoden basieren zumeist auf neuronalen Netzen. Zusätzlich stellen wir verschiedene Ansätze zur Extraktion jedes Teils des Stilmittels in einem Satz vor. Darüber hinaus führen wir sprachübergreifende Extraktionsmodelle ein und verfeinern Erkennungsmethoden für eine verbesserte Leistung bei bisher unbekannten syntaktischen Variationen des Phänomens, indem wir uns ausschließlich auf den Schlüsseleigennamen des Stilmittels konzentrieren. Außerdem befassen wir uns mit einer anderen, aber ergänzenden Aufgabe, nämlich der Extraktion des zu beschreibenden Eigennamens in einem ganzen Textabsatz.
Für ein tieferes Verständnis der Vossianischen Antonomasie präsentieren wir eine explorative Analyse des entwickelten Datensatzes. Wir führen zwei interaktive Visualisierungen ein, die die einzelnen Teile des Phänomens und ihr Zusammenspiel hervorheben, um weitere Einblicke zu gewinnen. / Stylistic devices, also known as figures of speech or rhetorical devices, have always been used in text to create imagery, engage readers, and emphasize key points. Among these devices, Vossian Antonomasia, which is closely related to metaphor and metonymy, is particularly popular for employing named entities as rhetorical elements. Defined more precisely, Vossian Antonomasia involves attributing a particular set of properties or attributes to an entity by naming another named entity that is generally well-known for the respective properties. Modifying phrases, which typically appear in combination with the latter entity, help contextualize these attributes. Despite its ubiquity in modern media, the research on its identification, usage, and interpretation is rare. This motivates the topic of this thesis: The automated detection, extraction and analysis of Vossian Antonomasia. We present several methods for the automated detection of the phenomenon and create an annotated dataset. Mostly, the methods are based on neural networks. Additionally, we introduce several approaches for extracting each chunk of the device in a sentence by modeling the problem as a sequence tagging task. Moreover, we introduce cross-lingual extraction models and refine detection methods for an improved performance on unseen syntactic variations of the phenomenon by focusing solely on the key entity of the device. Furthermore, we tackle a distinct but complementary task, namely, the extraction of the entity being described in an entire text paragraph. For a deeper understanding of Vossian Antonomasia, we present an exploratory analysis of the developed dataset. We introduce two interactive visualizations that highlight the chunks of the phenomenon and their interplay to gain more insights.
|
2 |
ANNIS: A graph-based query system for deeply annotated text corporaKrause, Thomas 11 January 2019 (has links)
Diese Dissertation beschreibt das Design und die Implementierung eines effizienten Suchsystems für linguistische Korpora. Das bestehende und auf einer relationalen Datenbank basierende System ANNIS ist spezialisiert darin, Korpora mit verschiedenen Arten von Annotationen zu unterstützen und nutzt Graphen als einheitliche Repräsentation der verschiedener Annotationen. Für diese Dissertation wurde eine Hauptspeicher-Datenbank, die rein auf Graphen basiert, als Nachfolger für ANNIS entwickelt. Die Korpora werden in Kantenkomponenten partitioniert und für verschiedene Typen von Subgraphen werden unterschiedliche Implementationen zur Darstellung und Suche in diesen Komponenten genutzt. Operationen der Anfragesprache AQL (ANNIS Query Language) werden als Kombination von Erreichbarkeitsanfragen auf diesen verschiedenen Komponenten implementiert und jede Implementierung hat optimierte Funktionen für diese Art von Anfragen. Dieser Ansatz nutzt die verschiedenen Strukturen der unterschiedlichen Annotationsarten aus, ohne die einheitliche Darstellung als Graph zu verlieren. Zusätzliche Optimierungen, wie die parallele Ausführung von Teilen der Anfragen, wurden ebenfalls implementiert und evaluiert. Da AQL eine bestehende Implementierung besitzt und diese für Forscher offen als webbasierter Service zu Verfügung steht, konnten echte AQL-Anfragen aufgenommen werden. Diese dienten als Grundlage für einen Benchmark der neuen Implementierung. Mehr als 4000 Anfragen über 18 Korpora wurden zu einem realistischen Workload zusammengetragen, der sehr unterschiedliche Arten von Korpora und Anfragen mit einem breitem Spektrum von Komplexität enthält. Die neue graphbasierte Implementierung wurde mit der existierenden, die eine relationale Datenbank nutzt, verglichen. Sie führt den Anfragen im Workload im Vergleich ~10 schneller aus und die Experimente zeigen auch, dass die verschiedenen Implementierungen für die Kantenkomponenten daran einen großen Anteil haben. / This dissertation describes the design and implementation of an efficient system for linguistic corpus queries. The existing system ANNIS is based on a relational database and is focused on providing support for corpora with very different kinds of annotations and uses graphs as unified representations of the different annotations. For this dissertation, a main memory and solely graph-based successor of ANNIS has been developed. Corpora are divided into edge components and different implementations for representation and search of these components are used for different types of subgraphs. AQL operations are interpreted as a set of reachability queries on the different components and each component implementation has optimized functions for this type of queries. This approach allows exploiting the different structures of the different kinds of annotations without losing the common representation as a graph. Additional optimizations, like parallel executions of parts of the query, are also implemented and evaluated. Since AQL has an existing implementation and is already provided as a web-based service for researchers, real-life AQL queries have been recorded and thus can be used as a base for benchmarking the new implementation. More than 4000 queries from 18 corpora (from which most are available under an open-access license) have been compiled into a realistic workload that includes very different types of corpora and queries with a wide range of complexity. The new graph-based implementation was compared against the existing one, which uses a relational database. It executes the workload ~10 faster than the baseline and experiments show that the different graph storage implementations had a major effect in this improvement.
|
Page generated in 0.0202 seconds