Global ETD Search

Return to search

Semantic Relations in WordNet and the BNC

From the introduction: It is not always easy to define what a word means. We can choose between a variety of possibilities, from simply pointing at the correct object as we say its name to lengthy definitions in encyclopaedias, which can sometimes fill multiple pages. Although the former approach is pretty straightforward and is also very important for first language acquisition, it is obviously not a practical solution for defining the semantics of the whole lexicon. The latter approach is more widely accepted in this context, but it turns out that defining dictionary and encyclopaedia entries is not an easy task. In order to simplify the challenge of defining the meaning of words, it is of great advantage to organize the lexicon in a way that the structure in which the words are integrated gives us information about the meaning of the words by showing their relation to other words. These semantic relations are the focal point of this paper. In the first chapter, different ways to describe meaning will be discussed. It will become obvious why semantic relations are a very good instrument to organizing the lexicon. The second chapter deals with WordNet, an electronic lexical database which follows precisely this approach. We will examine the semantic relations which are used in WordNet and we will study the distinct characteristics of each of them. Furthermore, we will see which contribution is made by which relation to the organization of the lexicon. Finally, we will look at the downside of the fact that WordNet is a manually engineered network by examining the shortcomings of WordNet. In the third chapter, an alternative approach to linguistics is introduced. We will discuss the principles of corpus linguistics and, using the example of the British National Corpus, we will consider possibilities to extract semantic relations from language corpora which could help to overcome the deficiencies of the knowledge based approach. In the fourth chapter, I will describe a project the goal of which is to extend WordNet by findings from cognitive linguistics. Therefore, I will discuss the development process of a piece of software that has been programmed in the course of this thesis. Furthermore, the results from a small‐scale study using this software will be analysed and evaluated in order to check for the success of the project. / Der Verfasser beschäftigt sich in seiner Magisterarbeit auf sehr detaillierte Weise mit semantischen Relationen von Wörtern. In einer Projektstudie versucht Herr Ferschke, auf der Basis eines bestehenden semantischen Netzes bestimmte kognitiv-relevante Objekte halb-automatisch herauszufiltern. Untermauert wird sein Projekt durch. eine Befragung Studierender zur konzeptuellen Einordnung dieser Objekte. Im ersten Kapitel legt Oliver Ferschke auf sehr fundierter linguistischer Basis verschiedene Möglichkeiten zur Beschreibung von Bedeutung dar. Er unterscheidet unterschiedliche Sichtweisen, was "Bedeutung" ausmacht und stellt diese klar gegenüber. Das zweite Kapitel widmet sich dem semantischen Netzwerk WordNet, welches sogenannte synsets für das Englische beschreibt. Aufbauend auf den in WordNet dargestellten semantischen Relationen stellt der Verfasser an ausgewählten Beispielen dar, wie englische Wörter in dieses Netzwerk eingebunden sind. Er bezieht sich dabei auf semantische Beziehungen wie Hyponymie, Meronymie, Gegenteile, Polysemie und belegt diese mit Beispielen. Darüber hinaus geht er auf einige Desiderata in WordNet ein. Das British National Corpus (BNC) wird im dritten Teil dieser Magisterarbeit eingehend vorgestellt. Für die Projektstudie werden aus diesem Korpus Informationen zur Häufigkeit herangezogen, um spätere Kategorisierungen auf eine möglichst quantitativ-valide Basis zu stellen. Herr Ferschke zeigt die wichtigsten Unterschiede zwischen korpuslinguistischen Herangehensweisen auf der einen Seite sowie strukturalistischen Untersuchungen und solchen, die der generativen Schule angehören, auf der anderen Seite auf. Er schließt seine Betrachtungen zu einer syntaktisch orientierten Angehensweise auf der Basis von patterns ab, die durch häufige syntaktische Muster auf bestimmte semantische Relationen schließen lassen (können). Der Verfasser stellt exemplarisch dar, wie diese patterns in einen CQLquery integriert werden können. Ebenso zeigt Herr Ferschke anhand von möglichen Konstituenten der Nominal- bzw. Präpositionalphrase, wie diese durch automatische Prozeduren im BNC identifiziert werden können. Das vierte Kapitel der vorliegenden Magisterarbeit widmet sich der Projektstudie. Es geht darum, dass Erkenntnisse der Prototypentheorie auf die Struktur von WordNet angewendet werden sollen. Mit Hilfe selbst entwickelter Software wird der Versuch unternommen, bestimmte kognitiv-relevante Ebenen der semantischen Beschreibungen zu identifizieren. Herr Ferschke verfolgt das Ziel, basic level objects innerhalb der Hierarchien von WordNet durch semi-automatische Prozeduren herauszufiltern. Seine Studie besteht aus zwei Teilen: In einem ersten voll automatischen Teil werden Wörter, die bestimmte semantische und quantitative Kriterien erfüllen, durch automatische Prozeduren identifiziert. Diese basic level objects werden im zweiten Teil des Projekts von Probanden in Bezug auf ihre Eigenschaften bewertet. Der Verfasser hat drei unterschiedliche semantische Bereiche ausgewählt, zu denen basic level objects bestimmt werden sollen: athletics, furniture, vehicle. In seinen Auswertungen stellt Herr Ferschke dar, welche potentiellen basic level objects von den Teilnehmern der Studie als solche ausgewählt wurden. Dabei werden sowohl Probleme angesprochen, die den Aufbau von WordNet betreffen und dadurch einen wesentlichen Einfluss auf die Auswahl der Wörter als basic level objects haben können. Ein zweites Problem, welches Herr Ferschke, diskutiert, ist die Sprachkompetenz der Probanden. Ein weiteres - vom Verfasser nicht genanntes Problem - besteht darin, inwiefern eine vorgegebene Wortdefinition die Bewertung der Studienteilnehmer beeinflusst hat. Ein nicht unwesentlicher Teil der Magisterarbeit besteht in der Konzeption und Umsetzung der Software für die Projektstudie. Dafür sind nicht nur detaillierte Kenntnisse aus dem Bereich der Informatik notwendig, sondern auch ein fundiertes Wissen im Bereich der Linguistik. Durch den Aufbau des Projekts macht Herr Ferschke sehr eindringlich klar, dass er beide Gebiete sehr gut beherrscht. Die vorliegende Arbeit ist aus linguistischer Sicht absolut fundiert und hervorragend dargestellt. Sie umfasst ein breites Spektrum linguistischer Theorien und Erklärungsmodelle und stellt die für dieses Thema wichtigen Aspekte umfassend dar. Die computerlinguistische Komponente ist ebenfalls als sehr gut zu beurteilen, zumal eine Verknüpfung zwischen der Prototypentheorie auf der einen Seite und WordNet auf der anderen Seite nicht ganz einfach ist. Das Problem liegt in erster Linie darin, die gegebene Struktur von WordNet für Aspekte der Prototypentheorie nutzbar zu machen. Dies ist Oliver Ferschke ohne Zweifel gelungen. Die vorliegende Magisterarbeit verdient die Note 'sehr gut' (1,0).

Angewandte Linguistik

Java 2 Enterprise Edition

Identifer	oai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:3768
Date	January 2009
Creators	Ferschke, Oliver
Source Sets	University of Würzburg
Language	English
Detected Language	German
Type	masterthesis, doc-type:masterthesis
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.003 seconds

Semantic Relations in WordNet and the BNC

Description

Links & Downloads

Tags

Additional Fields