• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 34
  • 24
  • 1
  • 1
  • 1
  • Tagged with
  • 61
  • 23
  • 19
  • 19
  • 13
  • 12
  • 12
  • 12
  • 11
  • 11
  • 8
  • 7
  • 7
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Analyse von webbasierten eGovernment-Anwendungen hinsichtlich der Optimierung von Suchmechanismen mit Methoden der Automatischen Sprachverarbeitung

Mairif, Patrick 20 October 2017 (has links)
Als Vertreter einer webbasierten eGovernment-Anwendung wird die Website der Stadt Leipzig in Hinblick einer möglichen Optimierung der Suchmechanismen analysiert. Dazu wird zu Beginn die Ausgangssituation auf vorhandene Daten und existierende Probleme untersucht. Es wird eine These bzgl. des unterschiedlichen Sprachgebrauchs auf Redaktions- und auf Nutzerseite formuliert. Der Analyse liegen die Dokumente der Website, sowie Suchanfragen der Nutzer zu Grunde. Aus den Dokumenten werden Fachbegriffe mit Hilfe des ConceptComposers extrahiert und diese zusätzlich mit den Suchanfragen verglichen. Andersherum werden auch die Suchanfragen mit den Dokumenten der Website verglichen und spezifische Begriffe des Sprachgebrauchs der Nutzer ermittelt. Während der Analyse wird eingehend auf das Thema Mehrwortbegriffe eingegangen, sowie verschiedene Methoden der Automatischen Sprachverarbeitung beleuchtet. Im direkten Zusammenhang mit der Analyse sind Werkzeuge entstanden, die es ermöglichen die Analyse in andere Umgebungen zu portieren. Es ist ein einfaches Framework für die Integration von Verfahren zur Berechnung von Synonymen entstanden, das auf die gewonnen Daten aufsetzt und es werden Wege für die Generierung eines Wörterbuches 'Amt-Bürgersprache' aufgewiesen.
32

Vererbungsalgorithmen von semantischen Eigenschaften auf Assoziationsgraphen und deren Nutzung zur Klassifikation von natürlichsprachlichen Daten

Bordag, Stefan 20 October 2017 (has links)
Ziel dieser Arbeit ist es, Kollokationen auf Satzbasis aus dem Wortschatz-Lexikon Leipzig als Datenbasis nehmend, ein Verfahren zu entwickeln, welches die den Satzkollokationen immanenten Beziehungen zwischen den Wörtern erkennen und handhaben kann. Weiterhin ist es Ziel, diese Beziehungen für wortbedeutungsorientierte Klassifikationsverfahren zu erschliessen und deren unmittelbare Anwendung zu demonstrieren, indem Sachgebietszuweisungen über diese Beziehungen weitervererbt werden können. Es wird gezeigt, dass Cluster in den Satzkollokationen mit einer Approximation für die maximale Clustersuche mit rechnerisch geringem Aufwand gefunden werden können, wenn diese als ein Graph mit der seit kurzem untersuchten small-world Eigenschaft betrachtet werden. Es wird daraufhin ein Disambiguierungsverfahren konstruiert, welches Beziehungen zwischen einem Wort und seinen unmittelbar angrenzenden Clustern berechnet, wobei die verschiedenen Cluster den diversen Gebrauchskontexten und damit auch unter anderem den Bedeutungen des Wortes entsprechen. Dieses Disambiguierungsverfahren dient dann als Grundlage für den Entwurf eines Sachgebietsklassifizierungsverfahrens, welches zu einer inhaltlich homogenen Wortgruppe, zum Beispiel einem Sachgebiet, weitere passende Wörter finden kann. Die vorgeschlagenen Verfahren wurden prototypisch implementiert und Beispiele werden auch im Hinblick auf eine Praxisanwendung diskutiert.
33

Automatischer Aufbau eines multilingualen Thesaurus durch Extraktion semantischer und lexikalischer Relationen aus der Wikipedia

Kinzler, Daniel 26 October 2017 (has links)
Die vorliegende Diplomarbeit beschreibt und analysiert Methoden, um aus den Datenbeständen der Wikipedia in verschiedenen Sprachen einen multilingualen Thesaurus zu erstellen. Dabei sollen insbesondere die Beziehungen zwischen Termen (Wörtern, Wortformen, Phrasen) zu sprachunabhängigen Konzepten extrahiert werden sowie die Beziehungen zwischen solchen Konzepten, speziell Beziehungen der Über- bzw. Unterordnung (Subsumtion) sowie der semantischen Verwandtheit und Ähnlichkeit. Zu diesem Zweck werden die Anforderungen sowie die verfügbaren Rohdaten analysiert, ein Prototyp zur Extraktion der gewünschten Daten entwickelt und die mit dem Prototyp gewonnenen Daten in Bezug auf die zuvor formulierten Anforderungen evaluiert.
34

Automatische Ermittlung semantischer Zusammenhänge lexikalischer Einheiten und deren graphische Darstellung

Schmidt, Fabian 16 November 2017 (has links)
In verschiedenen Bereichen der Linguistik werden Kollokationen genutzt, beispielsweise als Unterstützung bei der Erstellung von Wörterbüchern oder bei der Übersetzung von Fachtexten. Umfangreiche Kollokationssammlungen können aufgrund ihrer Größe nicht manuell erstellt werden. Deshalb wurden in den letzten Jahren verschiedene Verfahren entwickelt, um die Kollokationssammlungen durch statistische Analyse maschinenlesbarer Textkorpora zu erzeugen. Neben guten Kandidaten ermitteln die meisten herkömmlichen Verfahren auch viele Wortpaare, deren Plausibilität nicht unmitttelbar ersichtlich ist. Darum wird in der vorliegenden Diplomarbeit ein neues, in der Abteilung für Automatische Sprachverarbeitung am Institut für Informatik der Universität unter Leitung von Dr. U. Quasthoff entwickeltes Verfahren zur Berechnung von Kollokationen vorgestellt. Aufbauend auf ein Repertoire der nun vorhandenen Kollokationen kann die Fragestellung nach semantischen Relationen zwischen lexikalischen Einheiten weiter ausgebaut werden. Die in dieser Arbeit eingeführten Kollokationen zweiter Ordnung verfolgen diesen Ansatz. Neben der automatischen Extraktion von Kollokationen stellt auch die adäquate Darstellung derselben ein noch nicht zufriedenstellend gelöstes Problem dar. Für die Visualisierung der im Wortschatzprojekt gefundenen Kollokationen wurde deshalb ein Verfahren entwickelt, das in der Lage ist, eine Menge von Kollokationen in einem Graphen ästhetisch ansprechend und übersichtlich darzustellen.
35

Elektrophysiologische und neuronale Korrelate der sublexikalischen Verarbeitung bei Patienten mit Läsion im Sprachnetzwerk

Mentzel, Julia 16 October 2017 (has links)
Phonotaktik beschreibt die mögliche Anordnung von Phonemen innerhalb eines Wortes, Morphems oder einer Silbe in einer bestimmten Sprache. Im Deutschen ist /br/ ein zulässiger, „legaler“ Silbenkopf und steht am Anfang von Worten wie Brot, breit und Brief. /bz/ hingegen ist ein nicht zulässiger, „illegaler“ Silbenkopf, mit dem kein Wort beginnt. Im Slovakischen hingegen ist /bz/ ein legaler Silbenkopf. Diese Studie untersucht erstmals die Verarbeitung von phonotaktischem Material bei Patienten, die eine Läsion der perisylvischen Sprachareale in der linken Hirnhemisphäre erlitten haben, im Vergleich zu gesunden Probanden. Methodische Grundlagen der Studie sind die Elektroenzephalographie (EEG) und die strukturelle Magnetresonanztomographie (MRT), sowie drei klinische Aphasietests zur phonologischen, semantischen und lexikalischen Unterscheidung (LEMOs). Diese wurden sowohl einzeln ausgewertet, als auch mit der Methode der Voxel-basierten Läsion-Symptom-Kartierung (VLSM) miteinander korreliert. Die EEG soll vor allem den Zeitverlauf darstellen, während die VLSM-Analysen Regionen abgrenzen sollen, die an der Verarbeitung von phonotaktischem Material beteiligt sind. In den vereinzelten Studien, die die neuronale Grundlage phonotaktischer Verarbeitung untersuchten, wurde bisher der Gyrus temporalis superior (STG) dafür identifiziert. Bis dato ist unklar, ob phonotaktische Verarbeitung eher ein sublexikalischer Prozess ist der „Bottom-up“ stattfindet, oder ob er eher „Top-down“ vom Lexikon beeinflusst wird. In der vorliegenden Arbeit wurden 252 einsilbige Pseudowörter den 70 Probanden auditorisch präsentiert und währenddessen ein EEG abgeleitet. Die Stimuli wurden als unabhängige Variable so manipuliert, das je 84 mit legalem und illegalem Silbenkopf begannen, und 84 rückwärts abgespielte Stimuli aus beiden Kategorien waren. Lexikalische Einflüsse wurden durch das Verwenden von Pseudowörtern ausgeschlossen. Hinsichtlich ihrer Sprachnatürlichkeit wurden die Stimuli mit Pseudowörtern kontrolliert, die mit slovakischen Silbenköpfen begannen und die entgegengesetzte Legalität hatten. Die Studie zeigte folgende Ergebnisse: EEG: Es ergab sich ein signifikanter Unterschied zwischen vorwärts und rückwärts abgespielten Stimuli für beide Gruppen (Patienten und Kontrollen) und über alle Elektroden verteilt im Zeitfenster (300-450ms). Zwischen legalen und illegalen Stimuli zeigte sich kein Unterschied im EEG. EEG/MRT (VLSM): Der Kontrast zwischen vorwärts und rückwärts abgespielten Stimuli korrelierte mit Bereichen im hinteren und unteren Parietallappen, einschließlich des Gyrus supramarginalis und Gyrus angularis (IPC/PPC). Der Kontrast zwischen legalen und illegalen Stimuli im EEG korrelierte mit Bereichen im mittleren und vorderen Bereich des mittleren und oberen Temporallappens (MTG/STG). LEMO: In allen drei klinischen Aphasietests (phonologisch, lexikalisch und semantisch) machten die Patienten signifikant mehr Fehler als die Kontrollprobanden. LEMO/MRT (VLSM): Frontale Läsionen im Bereich des IFG korrelierten mit einem schlechteren Ergebnis im semantischen Test (SEM). Läsionen im hinteren temporo-parietalen Bereich (Gyrus angularis) korrelierten mit einem schlechteren Abschneiden im phonologischen Test (PHON). Die Korrelation von Läsion und Ergebnis im lexikalischen Test (LEMO , LEX) wurde nicht signifikant. Die Ergebnisse legen nahe, dass Patienten mit Läsion im Sprachnetzwerk phonotaktisches Material ähnlich wie gesunde Probanden verarbeiten. Insgesamt unterstützt die Studie eher die These eines Top-down lexikalischen Einflusses als einer Bottom-up sublexikalischen Verarbeitung. Rückwärtssprache wird von beiden Gruppen anders als Vorwärtssprache verarbeitet und führt zu einer signifikanten Negativierung im EEG um 400ms. Die Studie bestätigt den Gyrus temporalis superior (STG) als relevante Region zur Unterscheidung von phonotaktischen Merkmalen. Erstmals wurde in diesem Zusammenhang die Methode der Voxel-basierten Läsion-Symptom-Kartierung (VLSM) angewendet. Die Kongruenz der Ergebnisse mit der vorhandenen Literatur gibt erste Hinweise für die Validität dieses Verfahrens, sodass vorgeschlagen wird, es in weiteren Studien zur Sprachverarbeitung fortzuführen und zu etablieren.:Inhalt Zusammenfassung 1 1. Einleitung 3 1.1 Neuronale Netzwerke der Sprachverarbeitung 3 1.1.1 Das duale Pfadsystem 4 1.1.2 Weitere Studien zur Bildgebung von Sprachverarbeitungsmodellen 5 1.2 Psycholinguistische Modelle der Sprachverarbeitung 8 1.3 Phonotaktik 10 1.4 N400 als ereigniskorreliertes Potential in der Wortverarbeitung 12 1.5 Weitere ERPs im Zusammenhang mit phonotaktischer/sublexikalischer Verarbeitung 13 1.6 Phonotaktische/Sublexikalische Verarbeitung in der Bildgebung 13 1.7 Rückwärtssprache 14 1.8 ERPs auf wiederholte Stimuli 14 2. Fragestellung 15 3. Material und Methoden 16 3.1 Probanden 16 3.2 Material 18 3.3 Durchführung 19 3.4 Methodik des EEG 21 3.5 ERPs (Ereigniskorrelierte Potentiale) 22 3.6 Durchführung des EEG 23 3.7 Datenanalyse 24 3.7.1 Auswertung des EEG 24 3.8. Behaviorale Messungen 27 3.8.1 Klinisches Assessment der phonologischen, lexiko-semantischen und semantischen Kompetenz (LEMOs) 27 3.8.2 Reaktionszeit und Hit-Rate 27 3.9 Analyse von Läsion und behavioralen Daten und Läsion und EEG 27 3.9.1 MRT-Daten 27 3.9.2 Voxel-basierte Läsion-Symptom –Kartierung (Voxel-Based Lesion-Symptom Mapping) 28 4. Ergebnisse 29 4.1. EEG globale Analyse (ERP-Daten) 30 4.1.1 Einfaktorielle ANOVA 30 4.1.2 Mehrfaktorielle ANOVAs 34 4.1.3 Trial versus Wiederholung 46 4.3 Verhaltensdaten 62 4.3.1 Klinisches Assessment der phonologischen, lexiko-semantischen und semantischen Kompetenz (LEMOs) 62 4.3.2 Reaktionszeit und Trefferrate 62 4.4 Läsionsanalyse 64 4.4.1 Korrelation von Läsions- und Verhaltensdaten 64 Hinweis zu den Zeitfenstern: 66 4.4.2 Korrelation von Läsion und EEG 66 4.4.3 Übersicht der durch die Läsionsanalysen abgegrenzten Regionen 68 5. Diskussion 69 5.1 Diskussion der Verhaltensdaten 69 5.1.1 Experimentelle Verhaltensdaten: Trefferrate und Reaktionszeit 69 5.1.2 Klinische Verhaltensdaten: Aphasietests 70 5.2 Diskussion der EEG-Daten und Vergleich mit bisherigen Studien zur Phonotaktik 71 5.2.1 Bisherige Erkenntnise zu ERPs und Phonotaktik 71 5.2.2 Top-Down stärker als Bottom-Up (i) 72 5.3.3 Möglicher Einfluss der Aufmerksamkeitsaufgabe (ii) 75 5.2.4 Wahl des Zeitfensters (iii) 77 5.2.5 Rückwärtssprache 77 5.2.6 Zusammenfassung im Hinblick auf die Fragestellungen 78 5.3 Läsionsort und Verarbeitung 78 6. Literaturverzeichnis 81 7. Abbildungsverzeichnis 85 8. Tabellenverzeichnis 86 9. Eigenständigkeitserklärung 87 10. Danksagung 88 11. Anlagen 89
36

Finite-state methods and natural language processing : 6th International Workshop, FSMNLP 2007 Potsdam, Germany, september 14 - 16 ; revised papers

January 2008 (has links)
Proceedings with the revised papers of the FSMNLP (Finite-state Methods and Natural Language Processing) 2007 Workshop in Potsdam / Tagungsband mit den Beiträgen der FSMNLP (Finite-state Methods and Natural Language Processing) 2007 in Potsdam
37

The comprehension of figurative language : electrophysiological evidence on the processing of irony

Regel, Stefanie January 2008 (has links)
Diese Dissertation untersucht das Verstehen figurativer Sprache, im Besonderen die zeitliche Verarbeitung von verbaler Ironie. In sechs Experimenten wurde mittels ereignis-korrelierter Potentiale (EKP) die Gehirnaktivität beim Verstehen ironischer Äußerungen im Vergleich zu entsprechenden nicht-ironischen Äußerungen gemessen und analysiert. Darüberhinaus wurde der Einfluss verschiedener sprachbegleitender Hinweisreize, z.B. von Prosodie oder der Verwendung von Satzzeichen, sowie außersprachlicher Hinweisreize, wie bspw. pragmatischen Wissens, auf das Ironieverstehen untersucht. Auf Grundlage dieser Ergebnisse werden verschiedene psycholinguistische Modelle figurativer Sprachverarbeitung, d.h. 'standard pragmatic model', 'graded salience hypothesis', sowie 'direct access view', diskutiert. / This dissertation investigates the comprehension of figurative language, in particular the temporal processing of verbal irony. In six experiments using event-related potentials(ERP) brain activity during the comprehension of ironic utterances in relation to equivalent non-ironic utterances was measured and analyzed. Moreover, the impact of various language-accompanying cues, e.g., prosody or the use of punctuation marks, as well as non-verbal cues such as pragmatic knowledge has been examined with respect to the processing of irony. On the basis of these findings different models on figurative language comprehension, i.e., the 'standard pragmatic model', the 'graded salience hypothesis', and the 'direct access view', are discussed.
38

The use of focus markers in second language word processing

Sennema-Skowronek, Anke January 2009 (has links)
There are many factors which make speaking and understanding a second language (L2) a highly complex challenge. Skills and competencies in in both linguistic and metalinguistic areas emerge as parts of a multi-faceted, flexible concept underlying bilingual/multilingual communication. On the linguistic level, a combination of an extended knowledge of idiomatic expressions, a broad lexical familiarity, a large vocabulary size, and the ability to deal with phonetic distinctions and fine phonetic detail has been argued necessary for effective nonnative comprehension of spoken language. The scientific interest in these factors has also led to more interest in the L2’s information structure, the way in which information is organised and packaged into informational units, both within and between clauses. On a practical level, the information structure of a language can offer the means to assign focus to a certain element considered important. Speakers can draw from a rich pool of linguistic means to express this focus, and listeners can in turn interpret these to guide them to the highlighted information which in turn facilitates comprehension, resulting in an appropriate understanding of what has been said. If a speaker doesn’t follow the principles of information structure, and the main accent in a sentence is placed on an unimportant word, then there may be inappropriate information transfer within the discourse, and misunderstandings. The concept of focus as part of the information structure of a language, the linguistic means used to express it, and the differential use of focus in native and nonnative language processing are central to this dissertation. Languages exhibit a wide range of ways of directing focus, including by prosodic means, by syntactic constructions, and by lexical means. The general principles underlying information structure seem to contrast structurally across different languages, and they can also differ in the way they express focus. In the context of L2 acquisition, characteristics of the L1 linguistic system are argued to influence the acquisition of the L2. Similarly, the conceptual patterns of information structure of the L1 may influence the organization of information in the L2. However, strategies and patterns used to exploit information structure for succesful language comprehension in the native L1, may not apply at all, or work in different ways or todifferent degrees in the L2. This means that L2 learners ideally have to understand the way that information structure is expressed in the L2 to fully use the information structural benefit in the L2. The knowledge of information structural requirements in the L2 could also imply that the learner would have to make adjustments regarding the use of information structural devices in the L2. The general question is whether the various means to mark focus in the learners’ native language are also accessible in the nonnative language, and whether a L1-L2 transfer of their usage should be considered desirable. The current work explores how information structure helps the listener to discover and structure the forms and meanings of the L2. The central hypothesis is that the ability to access information structure has an impact on the level of the learners’ appropriateness and linguistic competence in the L2. Ultimately, the ability to make use of information structure in the L2 is believed to underpin the L2 learners’ ability to effectively communicate in the L2. The present study investigated how use of focus markers affects processing speed and word recall recall in a native-nonnative language comparison. The predominant research question was whether the type of focus marking leads to more efficient and accurate word processing in marked structures than in unmarked structures, and whether differences in processing patterns can be observed between the two language conditions. Three perception studies were conducted, each concentrating on one of the following linguistic parameters: 1. Prosodic prominence: Does prosodic focus conveyed by sentence accent and by word position facilitate word recognition? 2. Syntactical means: Do cleft constructions result in faster and more accurate word processing? 3. Lexical means: Does focus conveyed by the particles even/only (German: sogar/nur) facilitate word processing and word recall? Experiments 2 and 3 additionally investigated the contribution of context in the form of preceding questions. Furthermore, they considered accent and its facilitative effect on the processing of words which are in the scope of syntactic or lexical focus marking. All three experiments tested German learners of English in a native German language condition and in English as their L2. Native English speakers were included as a control for the English language condition. Test materials consisted of single sentences, all dealing with bird life. Experiment 1 tested word recognition in three focus conditions (broad focus, narrow focus on the target, and narrow focus on a constituent than the target) in one condition using natural unmanipulated sentences, and in the other two conditions using spliced sentences. Experiment 2 (effect of syntactic focus marking) and Experiment 3 (effect of lexical focus marking) used phoneme monitoring as a measure for the speed of word processing. Additionally, a word recall test (4AFC) was conducted to assess the effective entry of target-bearing words in the listeners’ memory. Experiment 1: Focus marking by prosodic means Prosodic focus marking by pitch accent was found to highlight important information (Bolinger, 1972), making the accented word perceptually more prominent (Klatt, 1976; van Santen & Olive, 1990; Eefting, 1991; Koopmans-van Beinum & van Bergem, 1989). However, accent structure seems to be processed faster in native than in nonnative listening (Akker& Cutler, 2003, Expt. 3). Therefore, it is expected that prosodically marked words are better recognised than unmarked words, and that listeners can exploit accent structure better for accurate word recognition in their L1 than they do in the L2 (L1 > L2). Altogether, a difference in word recognition performance in L1 listening is expected between different focus conditions (narrow focus > broad focus). Results of Experiments 1 show that words were better recognized in native listening than in nonnative listening. Focal accent, however, doesn’t seem to help the German subjects recognize accented words more accurately, in both the L1 and the L2. This could be due to the focus conditions not being acoustically distinctive enough. Results of experiments with spliced materials suggest that the surrounding prosodic sentence contour made listeners remember a target word and not the local, prosodic realization of the word. Prosody seems to indeed direct listeners’ attention to the focus of the sentence (see Cutler, 1976). Regarding the salience of word position, VanPatten (2002; 2004) postulated a sentence location principle for L2 processing, stating a ranking of initial > final > medial word position. Other evidence mentions a processing adantage of items occurring late in the sentence (Akker & Cutler, 2003), and Rast (2003) observed in an English L2 production study a trend of an advantage of items occurring at the outer ends of the sentence. The current Experiment 1 aimed to keep the length of the sentences to an acceptable length, mainly to keep the task in the nonnative lnaguage condition feasable. Word length showed an effect only in combination with word position (Rast, 2003; Rast & Dommergues, 2003). Therefore, word length was included in the current experiment as a secondary factor and without hypotheses. Results of Experiment 1 revealed that the length of a word doesn’t seem to be important for its accurate recognition. Word position, specifically the final position, clearly seems to facilitate accurate word recognition in German. A similar trend emerges in condition English L2, confirming Klein (1984) and Slobin (1985). Results don’t support the sentence location principle of VanPatten (2002; 2004). The salience of the final position is interpreted as recency effect (Murdock, 1962). In addition, the advantage of the final position may benefit from the discourse convention that relevant background information is referred to first, and then what is novel later (Haviland & Clark, 1974). This structure is assumed to cue the listener as to what the speaker considers to be important information, and listeners might have reacted according to this convention. Experiment 2: Focus marking by syntactic means Atypical syntactic structures often draw listeners’ attention to certain information in an utterance, and the cleft structure as a focus marking device appears to be a common surface feature in many languages (Lambrecht, 2001). Surface structure influences sentence processing (Foss & Lynch, 1969; Langford & Holmes, 1979), which leads to competing hypotheses in Experiment 2: on the one hand, the focusing effect of the cleft construction might reduce processing times. On the other, cleft constructions in German were found to be used less to mark fo than in English (Ahlemeyer & Kohlhof, 1999; Doherty, 1999; E. Klein, 1988). The complexity of the constructions, and the experience from the native language might work against an advantage of the focus effect in the L2. Results of Experiment 2 show that the cleft structure is an effective device to mark focus in German L1. The processing advantage is explained by the low degree of structural markedness of cleft structures: listeners use the focus function of sentence types headed by the dummy subject es (English: it) due to reliance on 'safe' subject-prominent SVO-structures. The benefit of cleft is enhanced when the sentences are presented with context, suggesting a substantial benefit when focus effects of syntactic surface structure and coherence relation between sentences are integrated. Clefts facilitate word processing for English native speakers. Contrary to German L1, the marked cleft construction doesn’t reduce processing times in English L2. The L1-L2 difference was interpreted as a learner problem of applying specific linguistic structures according to the principles of information structure in the target language. Focus marking by cleft did not help German learners in native or in nonnative word recall. This could be attributed to the phonological similarity of the multiple choice options (Conrad & Hull, 1964), and to a long time span between listening and recall (Birch & Garnsey, 1995; McKoon et al., 1993). Experiment 3: Focus marking by lexical means Focus particles are elements of structure that can indicate focus (König, 1991), and their function is to emphasize a certain part of the sentence (Paterson et al., 1999). I argue that the focus particles even/only (German: sogar/nur) evoke contrast sets of alternatives resp. complements to the element in focus (Ni et al., 1996), which causes interpretations of context. Therefore, lexical focus marking isn’t expected to lead to faster word processing. However, since different mechanisms of encoding seem to underlie word memory, a benefit of the focusing function of particles is expected to show in the recall task: due to focus particles being a preferred and well-used feature for native speakers of German, a transfer of this habitualness is expected, resulting in a better recall of focused words. Results indicated that focus particles seem to be the weakest option to mark focus: Focus marking by lexical particle don’t seem to reduce word processing times in either German L1, English L2, or in English L1. The presence of focus particles is likely to instantiate a complex discourse model which lets the listener await further modifying information (Liversedge et al., 2002). This semantic complexity might slow down processing. There are no indications that focus particles facilitate native language word recall in German L1 and English L1. This could be because focus particles open sets of conditions and contexts that enlarge the set of representations in listeners rather than narrowing it down to the element in the scope of the focus particle. In word recall, the facilitative effect of focus particles emerges only in the nonnative language condition. It is suggested that L2 learners, when faced with more demanding tasks in an L2, use a broad variety of means that identify focus for a better representation of novel words in the memory. In Experiments 2 and 3, evidence suggests that accent is an important factor for efficient word processing and accurate recall in German L1 and English L1, but less so in English L2. This underlines the function of accent as core speech parameter and consistent cue to the perception of prominence native language use (see Cutler & Fodor, 1979; Pitt & Samuel, 1990a; Eriksson et al., 2002; Akker & Cutler, 2003); the L1-L2 difference is attributed to patterns of expectation that are employed in the L1 but not (yet?) in the L2. There seems to exist a fine-tuned sensitivity to how accents are distributed in the native language, listeners expect an appropriate distribution and interpret it accordingly (Eefting, 1991). This pleads for accent placement as extremely important to L2 proficiency; the current results also suggest that accent and its relationship with other speech parameters has to be newly established in the L2 to fully reveal its benefits for efficient processing of speech. There is evidence that additional context facilitates processing of complex syntactic structures but that a surplus of information has no effect if the sentence construction is less challenging for the listener. The increased amount of information to be processed seems to impede better word recall, particularly in the L2. Altogether, it seems that focus marking devices and context can combine to form an advantageous alliance: a substantial benefit in processing efficiency is found when parameters of focus marking and sentence coherence are integrated. L2 research advocates the beneficial aspects of providing context for efficient L2 word learning (Lawson & Hogben, 1996). The current thesis promotes the view that a context which offers more semantic, prosodic, or lexical connections might compensate for the additional processing load that context constitutes for the listeners. A methodological consideration concerns the order in which language conditions are presented to listeners, i.e., L1-L2 or L2-L1. Findings suggest that presentation order could enforce a learning bias, with the performance in the second experiment being influenced by knowledge acquired in the first (see Akker & Cutler, 2003). To conclude this work: The results of the present study suggest that information structure is more accessible in the native language than it is in the nonnative language. There is, however, some evidence that L2 learners have an understanding of the significance of some information-structural parameters of focus marking. This has a beneficial effect on processing efficiency and recall accuracy; on the cognitive side it illustrates the benefits and also the need of a dynamic exchange of information-structural organization between L1 and L2. The findings of the current thesis encourage the view that an understanding of information structure can help the learner to discover and categorise forms and meanings of the L2. Information structure thus emerges as a valuable resource to advance proficiency in a second language. / Das Sprechen und Verstehen einer Fremdsprache (L2) stellt eine komplexe Leistung für einen Nicht-Muttersprachler dar. Kenntnisse und Fertigkeiten auf verschiedenen sprachlichen und außersprachlichen Ebenen wirken dabei zusammen, wie z.B. eine andere Grammatik, neue Lautbildungen in der Aussprache, der Aufbau von Wortschatz, und auch die Sensibilisierung für mögliche kulturell unterschiedliche Kommunikationsformen oder das Training kommunikativer Kompetenz. Eine wichtige Hilfe bei der muttersprachlichen wie der fremdsprachlichen Sprachverarbeitung bieten Mittel, mit denen sprachliche Information gegliedert wird, um sie verständlich zu machen. Die Informationsstruktur ermöglicht es, zum Beispiel den Fokus einer Äußerung zu markieren und damit Intentionen sprachlich zu vermitteln. In gesprochener Sprache sind es vor allem prosodische Mittel wie Satzakzent, die es dem Hörer ermöglichen, die wichtigen Informationen in der Äußerung herauszufinden. Aber auch durch die Verwendung unterschiedlicher grammatischer Strukturen oder durch besondere Wortwahl können Sprecher Satzteile markieren, die sie für besonders wichtig halten, und sie damit hervorheben. Wird die Informationsstruktur eines Satzes verletzt, indem zum Beispiel der Satzakzent auf ein eher unwichtiges Wort gelegt wird, kann der Gesprächspartner/die Gesprächspartnerin einen anderen Teil des Satzes als im Fokus stehend interpretieren als den vom Sprecher eigentlich intendierten Teil. Dies kann - in Kombination mit anderen Faktoren wie ungeschickter Wortwahl - zu Missverständnissen führen. Nun kann eine Sprache prosodische, syntaktische oder lexikalische Möglichkeiten der Markierung besitzen, die entweder in einer anderen Sprache nicht vorkommen, oder die andere Funktionen in Bezug auf die Interpretation von Äußerungen erfüllen, die in dieser Form in der jeweils anderen Sprache nicht existieren. Dies betrifft zum Beispiel Unterschiede zwischen Intonations- und Tonsprachen oder zwischen silbenzählenden und akzentzählenden Sprachen. Ruft der Fremdsprachenlerner die Strukturen sprachlicher Information in der Muttersprache (L1) ab und überträgt sie auf die Fremdsprache, kann dies bei gleicher informationsstruktureller Organisation der Sprache zu einer erfolgreichen Strategie des fremdsprachlichen Verstehens führen. Wird aber Informationsstruktur in der Fremdsprache mit anderen Mitteln als in der Muttersprache ausgedrückt, entsteht ein Spannungsfeld zwischen Verarbeitungsstrategien der Muttersprache und denen der Fremdsprache. Die vorliegende Arbeit befasst sich mit der Rolle informationsstruktureller Parameter in der muttersprachlichen und fremdsprachlichen Sprachverarbeitung. Es wird untersucht, wie Fremdsprachenlerner Fokusmarkierung in der Muttersprache (hier: Deutsch) und in der Fremdsprache (hier: Englisch) zu effizienter Sprachverarbeitung nutzen. Das Ziel ist eine tiefere Einsicht, wie sich Informationsstruktur in der Fremdsprache erschließt; die grundlegende Annahme ist dabei, dass ein Verständnis und eine Sensibilisierung für Informationsstruktur dem Fremdsprachenlerner hilft, Form und Bedeutung von Sprache zu erkennen. Eine solche Einsicht in Informationsstruktur unterstützt die Erweiterung und Festigung fremdsprachlicher Kompetenz. Die Frage nach dem Gebrauch von Informationsstruktur in einer Fremdsprache wird in drei experimentellen Studien untersucht, die sich auf jeweils eines der folgenden sprachlichen Mittel zur Fokusmarkierung konzentrieren: 1. Prosodische Mittel der Fokusmarkierung: Unterstützen Satzakzent und Wortposition im Satz eine bessere Worterkennung? 2. Syntaktische Mittel der Fokusmarkierung: Ermöglicht die Konstruktion eines Spaltsatzes (Englisch: cleft) eine schnellere Verarbeitung des fokussierten Elements im Satz als eine kanonische Wortstellung, und kann sich der Hörer auch zu einem späteren Zeitpunkt noch besser an ein syntaktisch markiertes als an ein unmarkiertes Element erinnern? 3. Lexikalische Mittel der Fokusmarkierung: Bewirken Fokuspartikel (hier: nur/sogar) eine schnellere Verarbeitung des fokussierten Elements, und kann sich der Hörer auch zu einem späteren Zeitpunkt noch besser an das fokussierte als an das nicht-fokussierte Element erinnern? Zusätzlich wird in Experiment 2 und in Experiment 3 untersucht, welchen Einfluss einleitende Fragen haben, die zur Fokusmarkierung eines Elements im Folgesatz dienen. Außerdem wird nachgegangen, welche Rolle es spielt, wenn ein syntaktisch oder lexikalisch fokussiertes Element einen Tonhöheakzent bekommt oder wenn dieser auf dem vorangegangenen Adjektiv realisiert wird. Die Probanden sind deutsche Muttersprachler, die Englisch als Fremdsprache gelernt haben. In den Experimenten werden den Testpersonen jeweils Sprachaufnahmen von deutschen Sätzen und Aufnahmen von parallel dazu konstruierten englischen Sätzen dargeboten. Als Kontrollgruppe für den englischen Teil der Experimente werden englische Muttersprachler getestet, um Referenzdaten für die Ergebnisse der Fremdsprachenlerner zu erhalten. Die Experimente sind als Perzeptionsexperimente konzipiert. Experiment 1 (prosodische Fokusmarkierung) untersucht Worterkennung in drei Bedingungen mitunterschiedlichem Fokus (weiter und enger Fokus, enger Fokus auf anderem Satzelement als dem Zielwort), und zwei Bedingungen mit künstlich durch splicing verändertem Sprachmaterial. In Experiment 2 (syntaktische Fokusmarkierung) und Experiment 3 (lexikalische Fokusmarkierung) wird im Hörexperiment als Methode phoneme monitoring angewandt, wobei die Reaktionszeiten zum Erkennen des fokussierten Worts (welches ein vorher spezifiziertes Phonem enthält) gemessen werden. Im Anschluss an den Hörteil wird in diesen zwei Experimenten außerdem ein Erinnerungstest durchgeführt, bei dem die fokussierten Elemente mit einem Multiple-Choice-Verfahren (4AFC) noch einmal abgefragt werden und die Anzahl der richtigen Antworten gewertet wird. Zu 1.: Prosodische Mittel der Fokusmarkierung Akzentuierung ist ein Mittel, um im Satz wichtige Information hervorzuheben (Bolinger, 1972), was zu einer besseren Wahrnehmung solch akzentuierter Information führt (siehe z.B. van Santen & Olive, 1990; Eefting, 1991). Akzentstruktur scheint jedoch schneller in der L1 als in der L2 verarbeitet zu werden (Akker & Cutler, 2003). Es wird daher angenommen, dass in der L1 eine Fokusmarkierung durch Tonhöheakzent zu besserer Worterkennung eines solchermaßen markierten Wortes führt. Akzentstruktur sollte sich auch in der L2 erschließen, wenn auch in geringerem Maß (L1 > L2). Insgesamt wird ein unterschiedlich starker Fokuseffekt je nach Fokusbedingung erwartet (enger Fokus > weiter Fokus). Die Ergebnisse von Experiment 1 bestätigen, dass Worte in der Muttersprache besser erkannt werden als in der Fremdsprache. Ein unterschiedlicher, als Satzakzent realisierter Fokus hilft allerdings den Probanden weder in der Muttersprache noch in der Fremdssprache, fokussierte Worte schneller zu erkennen. Dies könnte auf ungenügende akustische Unterschiede in der Realisierung der unterschiedlichen Fokuskonditionen in den Sprachaufnahmen zurückzuführen sein. Die Experimente mit synthetisch, durch splicing manipuliertem Sprachmaterial ergeben, dass die umgebende Satzprosodie eher zur Worterkennung beiträgt als die einzelne Akzentmarkierung des Wortes (Cutler, 1976). Für die Salienz der Wortposition im Satz postulierte VanPatten (2004) für fremdsprachliche Wahrnehmung die Reihenfolge von initialer > finaler > medialer Position. Akker und Cutler (2003) erwähnen für L1 und L2 einen Verarbeitungsvorteil von später im Satz auftretenden Worten gegenüber früher Auftretenden. Des weiteren fand Rast (2003) in einer L2-Produktionsstudie einen Vorteil der äußeren Satzpositionen gegenüber der medialen Position. Im vorliegenden Experiment werden die Sätze vor allem wegen der fremdsprachlichen Testbedingung in akzeptabler Länge gehalten, was Aussagen über die Position an den äußeren Satzenden ermöglicht, aber weniger deutliche Effekte für die medial Position erwarten lässt. Wortlänge wurde als Nebenfaktor mit in das Experiment aufgenommen ohne eigenständige Hypothesen dafür zu formulieren. In einer früheren L2 Studie zeigte Wortlänge nur in Abhängigkeit zur Position des Wortes im Satz einen Effekt (Rast, 2003; Rast & Dommergues, 2003). Die Ergebnisse von Experiment 1 zeigen, dass die Länge der Zielworte keine entscheidende Rolle für deren korrekte Erkennung spielt. Die Wortposition im Satz, und hier besonders die finale Position, trägt jedoch entscheidend zur korrekten Worterkennung im Deutschen bei. Ein ähnlicher Trend zeigt sich für die Worterkennung in der Fremdsprache Englisch (siehe Klein, 1984; Slobin, 1985). Das Lokalitätsprinzip von VanPatten (2004) mit dem Verarbeitungsvorteil von initial > final > medial kann nicht bestätigt werden, und die besondere Salienz der finalen Position wird mit Murdock (1962) als recency effect erklärt. Außerdem könnte die finale Position von der Konvention für die Integration neuer Information profitieren: bekannte Information wird vor neuer Information genannt (Haviland & Clark, 1974). Hörer handeln nach dieser üblichen Diskursstruktur und richten ihre Aufmerksamkeit auf Information, die in finaler Position genannt wird. Zu 2.: Syntaktische Mittel der Fokusmarkierung Die Abweichung von kanonischer Satzstruktur lenkt die Aufmerksamkeit auf bestimmte Elemente im Satz, und der Spaltsatz ist in vielen Sprachen eine bekannte Art der Fokussierung (Lambrecht, 2001). Die Oberflächenstruktur eines Satzes beeinflusst seine Verarbeitung (Foss & Lynch, 1969; Langford & Holmes, 1979) und in Experiment 2 stehen zwei Hypothesen gegenüber: Der fokussierende Effekt von Spaltsätzen könnte einen Verarbeitungsvorteil bewirken. Andererseits sind Spaltsätze im Deutschen seltener und weniger gebräuchlich als im Englischen (Ahlemeyer & Kohlhof, 1999; Doherty, 1999; E. Klein, 1988); die syntaktische Komplexität von Spaltsätzen und die Erfahrung der Muttersprache könnten einem Verarbeitungsvorteil in Deutsch L1 und Englisch L2 entgegenwirken. Die Ergebnisse von Experiment 2 zeigen, dass der Spaltsatz ein effektives Mittel der Fokusmarkierung im Deutschen ist. Dies wird auf die geringe strukturelle Markiertheit des Ersatz-Subjekts ‚es’ zurückgeführt, da es an kanonischer, initialer Stelle steht. Die Prominenz dieses Subjekts setzt das nachfolgende Subjekt-Element in Fokus und verleiht ihm Subjekt-Prominenz. Der verarbeitungsfördernde Effekt von Spaltsätzen wird noch erhöht, wenn Oberflächenstruktur (Spaltsatz) und Satzzusammenhang (Kontext) integriert werden. Der Spaltsatz wird jedoch nicht in der Fremdsprache als ein effektives Mittel der Fokusmarkierung genutzt. Englische Muttersprachler nutzen den Fokuseffekt des Spaltsatzes zur schnellen Worterkennung, aber dieses informationsstrukturelle Mittel der L2 wird nicht von Fremdsprachenlernern erkannt und verwertet. Dies wird als Lernerproblem interpretiert: linguistische Strukturen der Muttersprache werden nicht adäquat nach informationsstrukturellen Prinzipien in der Fremdsprache angewandt. Der Spaltsatz trägt weder im Deutschen noch im Englischen zu einer besseren Erinnerungsleistung bei. Das kann zum einen an der starken phonologischen Ähnlichkeit der im Test angebotenen Antwortoptionen liegen (Conrad & Hull, 1964); zum anderen kann es mit der Zeitspanne zusammenhängen, die zwischen Hörexperiment und Erinnerungstest liegen und die die Erinnerung an ein bestimmtes Wort zu sehr erschwert (Birch & Garnsey, 1995; McCoon et.al., 1993). Zu 3.: Lexikalische Mittel der Fokusmarkierung Fokuspartikel sind Exponenten von Fokusstruktur und sie markieren Satzelemente (König, 1991; Paterson et al., 1999). Die untersuchten Fokuspartikel evozieren Kontrast und Alternativmengen zu dem fokussierten Element, was Interpretationen von Kontext bewirkt (Ni et al., 1996; Liversedge et al., 2002). Von daher wird keine schnellere Verarbeitung von fokussierten Worten erwartet. Ihre förderliche Eigenschaft zeigt sich jedoch in der Erinnerungsleistung, da sich dieser Prozess auf andere Erschließungsmechanismen zu stützen scheint: es wird erwartet, dass der bevorzugte Gebrauch von lexikalischen Mitteln zur Fokusmarkierung im Deutschen (König, 1991; Ahlemeyer & Kohlhof, 1999) sich positiv auf die Erinnerung von fokussierten Worten auswirkt. Die Fokuspartikel nur und sogar in Experiment 3 erweisen sich in der Experimentreihe als schwächste Exponenten von Fokusmarkierung: Weder im Deutschen noch in Englischen als Fremdsprache noch in der englischen Kontrollgruppe bewirken diese Fokuspartikel eine schnellere Verarbeitung des fokussierten Elements. Dies erklärt sich durch die Eigenschaft von Fokuspartikeln, eine Menge an Alternativen zu evozieren und dadurch beim Hörer komplexe Diskursmodelle anzuregen, die sowohl das Element in Fokus als auch Alternativen dazu beinhalten (siehe Ni et al., 1996; Liversedge et al., 2002). Verarbeitung und Interpretation der Fokusstruktur benötigen dann einen erhöhten Zeitaufwand. Im Erinnerungstest kommt der Fokuseffekt nur in der fremdsprachlichen Testbedingung zum Tragen: Werden Lerner hinsichtlich mit hinsichtlich ihrer L2-Fertigkeit anspruchsvollen Situationen konfrontiert, wird Fokusstruktur zu einer besseren Repräsentation in der Erinnerung genutzt. Übergreifend zeigt sich aus Experiment 2 und Experiment 3, dass ein zusätzlicher Satzakzent in Sätzen mit syntaktischer oder lexikalischer Fokusmarkierung in muttersprachlichem Deutsch und Englisch genutzt wird, aber in der Fremdsprache nicht gleichermaßen effektiv verarbeitet wird. Ein bedeutender Parameter wie Tonhöheakzent wird in der Fremdsprache scheinbar weniger genutzt, wenn gleichzeitig andere Mittel der Markierung auftreten. Vor allem deutet dieser Effekt jedoch auf eine weitaus differenziertere Wahrnehmung und Interpretation von Tonhöheakzent in der Muttersprache hin. Des weiteren scheint die Reihenfolge, in der die Testsprachen den Probanden angeboten werden (L1-L2,oder L2-L1) von Bedeutung zu sein, da ein Lerneffekt aus der ersten Testsprache die Leistung in der zweiten Testsprache beeinflussen kann. Dies erschwert die Erhebung vergleichbarer Daten für zwei Sprachen von derselben Probandengruppe (siehe Akker & Cutler, 2003). Im Hinblick auf die Auswirkungen von Kontext auf die Wortverarbeitung weisen die Ergebnisse darauf hin, dass vorangestellte Fragen dem Fremdsprachenlerner nur bedingt Hilfe bei der zügigen Verarbeitung von z.B. schwierigeren Satzkonstruktionen bieten. Zusätzlicher Kontext scheint außerdem die Erinnerungsleistung zu erschweren, vor allem in der Fremdsprache. Sowohl in der Fremdsprachenforschung als auch in der Fremdsprachendidaktik hat die Einbettung in einen Kontext bei dem Erlernen von Worten eine große Bedeutung (Lawson & Hogben, 1996). Es wird dahingehend argumentiert, dass eine Form von Kontext, die mehr semantische, prosodische oder lexikalische Verbindungen schafft, den zusätzlichen Verarbeitungsaufwand kompensieren müsste. Die Ergebnisse der vorliegenden Arbeit weisen darauf hin, dass sich Informationsstruktur eher in der Muttersprache als in der Fremdsprache erschließt. Einzelne informationsstrukturelle Parameter werden jedoch sehr wohl von den Fremdsprachenlernern erfolgreich ausgewertet, was sich in einer schnelleren und nachhaltigeren sprachlichen Verarbeitung äußert. Auf der kognitiven Ebene zeigt die vorliegende Arbeit die vorteilhafte Wirkung auf, wenn Informationsstruktur von Mutter- und Fremdsprache in dynamischem Austausch stehen. Die Ergebnisse bestärken die Annahme, dass ein Verständnis von Informationsstruktur dem Fremdsprachenlerner helfen kann, Form und Bedeutung der Fremdsprache zu erkennen. Informationsstruktur erweist sich als potentiell wertvolle Ressource in der Entwicklung und Stärkung fremdsprachlicher Kompetenz.
39

Unsupervised Natural Language Processing for Knowledge Extraction from Domain-specific Textual Resources

Hänig, Christian 25 April 2013 (has links) (PDF)
This thesis aims to develop a Relation Extraction algorithm to extract knowledge out of automotive data. While most approaches to Relation Extraction are only evaluated on newspaper data dealing with general relations from the business world their applicability to other data sets is not well studied. Part I of this thesis deals with theoretical foundations of Information Extraction algorithms. Text mining cannot be seen as the simple application of data mining methods to textual data. Instead, sophisticated methods have to be employed to accurately extract knowledge from text which then can be mined using statistical methods from the field of data mining. Information Extraction itself can be divided into two subtasks: Entity Detection and Relation Extraction. The detection of entities is very domain-dependent due to terminology, abbreviations and general language use within the given domain. Thus, this task has to be solved for each domain employing thesauri or another type of lexicon. Supervised approaches to Named Entity Recognition will not achieve reasonable results unless they have been trained for the given type of data. The task of Relation Extraction can be basically approached by pattern-based and kernel-based algorithms. The latter achieve state-of-the-art results on newspaper data and point out the importance of linguistic features. In order to analyze relations contained in textual data, syntactic features like part-of-speech tags and syntactic parses are essential. Chapter 4 presents machine learning approaches and linguistic foundations being essential for syntactic annotation of textual data and Relation Extraction. Chapter 6 analyzes the performance of state-of-the-art algorithms of POS tagging, syntactic parsing and Relation Extraction on automotive data. The findings are: supervised methods trained on newspaper corpora do not achieve accurate results when being applied on automotive data. This is grounded in various reasons. Besides low-quality text, the nature of automotive relations states the main challenge. Automotive relation types of interest (e. g. component – symptom) are rather arbitrary compared to well-studied relation types like is-a or is-head-of. In order to achieve acceptable results, algorithms have to be trained directly on this kind of data. As the manual annotation of data for each language and data type is too costly and inflexible, unsupervised methods are the ones to rely on. Part II deals with the development of dedicated algorithms for all three essential tasks. Unsupervised POS tagging (Chapter 7) is a well-studied task and algorithms achieving accurate tagging exist. All of them do not disambiguate high frequency words, only out-of-lexicon words are disambiguated. Most high frequency words bear syntactic information and thus, it is very important to differentiate between their different functions. Especially domain languages contain ambiguous and high frequent words bearing semantic information (e. g. pump). In order to improve POS tagging, an algorithm for disambiguation is developed and used to enhance an existing state-of-the-art tagger. This approach is based on context clustering which is used to detect a word type’s different syntactic functions. Evaluation shows that tagging accuracy is raised significantly. An approach to unsupervised syntactic parsing (Chapter 8) is developed in order to suffice the requirements of Relation Extraction. These requirements include high precision results on nominal and prepositional phrases as they contain the entities being relevant for Relation Extraction. Furthermore, accurate shallow parsing is more desirable than deep binary parsing as it facilitates Relation Extraction more than deep parsing. Endocentric and exocentric constructions can be distinguished and improve proper phrase labeling. unsuParse is based on preferred positions of word types within phrases to detect phrase candidates. Iterating the detection of simple phrases successively induces deeper structures. The proposed algorithm fulfills all demanded criteria and achieves competitive results on standard evaluation setups. Syntactic Relation Extraction (Chapter 9) is an approach exploiting syntactic statistics and text characteristics to extract relations between previously annotated entities. The approach is based on entity distributions given in a corpus and thus, provides a possibility to extend text mining processes to new data in an unsupervised manner. Evaluation on two different languages and two different text types of the automotive domain shows that it achieves accurate results on repair order data. Results are less accurate on internet data, but the task of sentiment analysis and extraction of the opinion target can be mastered. Thus, the incorporation of internet data is possible and important as it provides useful insight into the customer\'s thoughts. To conclude, this thesis presents a complete unsupervised workflow for Relation Extraction – except for the highly domain-dependent Entity Detection task – improving performance of each of the involved subtasks compared to state-of-the-art approaches. Furthermore, this work applies Natural Language Processing methods and Relation Extraction approaches to real world data unveiling challenges that do not occur in high quality newspaper corpora.
40

Sprachproduktion : der Zugriff auf das lexikale Gedächtnis beim Sprechen /

Jescheniak, Jörg D., January 2002 (has links) (PDF)
Univ., Habil-Schr./2001--Potsdam, 2000. / Literaturverz. S. [179] - 193.

Page generated in 0.0841 seconds