• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 7
  • 6
  • Tagged with
  • 22
  • 20
  • 10
  • 9
  • 9
  • 9
  • 9
  • 9
  • 8
  • 8
  • 7
  • 7
  • 7
  • 6
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Bimorphism Machine Translation

Quernheim, Daniel 10 April 2017 (has links)
The field of statistical machine translation has made tremendous progress due to the rise of statistical methods, making it possible to obtain a translation system automatically from a bilingual collection of text. Some approaches do not even need any kind of linguistic annotation, and can infer translation rules from raw, unannotated data. However, most state-of-the art systems do linguistic structure little justice, and moreover many approaches that have been put forward use ad-hoc formalisms and algorithms. This inevitably leads to duplication of effort, and a separation between theoretical researchers and practitioners. In order to remedy the lack of motivation and rigor, the contributions of this dissertation are threefold: 1. After laying out the historical background and context, as well as the mathematical and linguistic foundations, a rigorous algebraic model of machine translation is put forward. We use regular tree grammars and bimorphisms as the backbone, introducing a modular architecture that allows different input and output formalisms. 2. The challenges of implementing this bimorphism-based model in a machine translation toolkit are then described, explaining in detail the algorithms used for the core components. 3. Finally, experiments where the toolkit is applied on real-world data and used for diagnostic purposes are described. We discuss how we use exact decoding to reason about search errors and model errors in a popular machine translation toolkit, and we compare output formalisms of different generative capacity.
12

Entwicklung eines generischen Vorgehensmodells für Text Mining

Schieber, Andreas, Hilbert, Andreas 29 April 2014 (has links) (PDF)
Vor dem Hintergrund des steigenden Interesses von computergestützter Textanalyse in Forschung und Praxis entwickelt dieser Beitrag auf Basis aktueller Literatur ein generisches Vorgehensmodell für Text-Mining-Prozesse. Das Ziel des Beitrags ist, die dabei anfallenden, umfangreichen Aktivitäten zu strukturieren und dadurch die Komplexität von Text-Mining-Vorhaben zu reduzieren. Das Forschungsziel stützt sich auf die Tatsache, dass im Rahmen einer im Vorfeld durchgeführten, systematischen Literatur-Review keine detaillierten, anwendungsneutralen Vorgehensmodelle für Text Mining identifiziert werden konnten. Aufbauend auf den Erkenntnissen der Literatur-Review enthält das resultierende Modell daher sowohl induktiv begründete Komponenten aus spezifischen Ansätzen als auch aus literaturbasierten Anforderungen deduktiv abgeleitete Bestandteile. Die Evaluation des Artefakts belegt die Nützlichkeit des Vorgehensmodells im Vergleich mit dem bisherigen Forschungsstand.
13

Finite-state methods and natural language processing : 6th International Workshop, FSMNLP 2007 Potsdam, Germany, september 14 - 16 ; revised papers

January 2008 (has links)
Proceedings with the revised papers of the FSMNLP (Finite-state Methods and Natural Language Processing) 2007 Workshop in Potsdam / Tagungsband mit den Beiträgen der FSMNLP (Finite-state Methods and Natural Language Processing) 2007 in Potsdam
14

Status Quo der Textanalyse im Rahmen der Business Intelligence

Schieber, Andreas, Hilbert, Andreas 26 March 2014 (has links) (PDF)
Vor dem Hintergrund der Zunahme unstrukturierter Daten für Unternehmen befasst sich dieser Beitrag mit den Möglichkeiten, die durch den Einsatz der Business Intelligence für Unternehmen bestehen, wenn durch gezielte Analyse die Bedeutung dieser Daten erfasst, gefiltert und ausgewertet werden können. Allgemein ist das Ziel der Business Intelligence die Unterstützung von Entscheidungen, die im Unternehmen (auf Basis strukturierter Daten) getroffen werden. Die zusätzliche Auswertung von unstrukturierten Daten, d.h. unternehmensinternen Dokumenten oder Texten aus dem Web 2.0, führt zu einer Vergrößerung des Potenzials und dient der Erweiterung des Geschäftsverständnisses der Verbesserung der Entscheidungsfindung. Der Beitrag erläutert dabei nicht nur Konzepte und Verfahren, die diese Analysen ermöglichen, sondern zeigt auch Fallbeispiele zur Demonstration ihrer Nützlichkeit.
15

Generierung von natürlichsprachlichen Texten aus semantischen Strukturen im Prozeß der maschinellen Übersetzung - Allgemeine Strukturen und Abbildungen

Rosenpflanzer, Lutz, Karl, Hans-Ulrich 14 December 2012 (has links) (PDF)
0 VORWORT Bei der maschinellen Übersetzung natürlicher Sprache dominieren mehrere Probleme. Man hat es immer mit sehr großen Datenmengen zu tun. Auch wenn man nur einen kleinen Text übersetzen will, ist diese Aufgabe in umfänglichen Kontext eingebettet, d.h. alles Wissen über Quell- und Zielsprache muß - in möglichst formalisierter Form - zur Verfügung stehen. Handelt es sich um gesprochenes Wort treten Spracherkennungs- und Sprachausgabeaufgaben sowie harte Echtzeitforderungen hinzu. Die Komplexität des Problems ist - auch unter Benutzung moderner Softwareentwicklungskonzepte - für jeden, der eine Implementation versucht, eine nicht zu unterschätzende Herausforderung. Ansätze, die die Arbeitsprinzipien und Methoden der Informatik konsequent nutzen, stellen ihre Ergebnisse meist nur prototyisch für einen sehr kleinen Teil der Sprache -etwa eine Phrase, einen Satz bzw. mehrere Beispielsätze- heraus und folgern mehr oder weniger induktiv, daß die entwickelte Lösung auch auf die ganze Sprache erfolgreich angewendet werden kann, wenn man nur genügend „Lemminge“ hat, die nach allen Seiten ausschwärmend, die „noch notwendigen Routinearbeiten“ schnell und bienenfleißig ausführen könnten.
16

Machine Translation: A Theoretical and Practical Introduction

Riedel, Marion 08 May 2002 (has links)
The paper presents the basics and the development of Machine Translation and explains different methods for evaluating translation machines on the base of a detailed example. / Die im Rahmen des Seminars "Language and Computers" der englischen Sprachwissenschaft entstandene Arbeit behandelt die Grundlagen und die Entwicklung der Maschinellen Übersetzung und gibt anhand eines ausführlichen Beispiels Einblick in Methoden zur Evaluation von Übersetzungsmaschinen.
17

Status Quo der Textanalyse im Rahmen der Business Intelligence

Schieber, Andreas, Hilbert, Andreas January 2014 (has links)
Vor dem Hintergrund der Zunahme unstrukturierter Daten für Unternehmen befasst sich dieser Beitrag mit den Möglichkeiten, die durch den Einsatz der Business Intelligence für Unternehmen bestehen, wenn durch gezielte Analyse die Bedeutung dieser Daten erfasst, gefiltert und ausgewertet werden können. Allgemein ist das Ziel der Business Intelligence die Unterstützung von Entscheidungen, die im Unternehmen (auf Basis strukturierter Daten) getroffen werden. Die zusätzliche Auswertung von unstrukturierten Daten, d.h. unternehmensinternen Dokumenten oder Texten aus dem Web 2.0, führt zu einer Vergrößerung des Potenzials und dient der Erweiterung des Geschäftsverständnisses der Verbesserung der Entscheidungsfindung. Der Beitrag erläutert dabei nicht nur Konzepte und Verfahren, die diese Analysen ermöglichen, sondern zeigt auch Fallbeispiele zur Demonstration ihrer Nützlichkeit.:1 Einführung 2 Business Intelligence 2.1 Definition 2.2 Ordnungsrahmen 2.3 Analyseorientierte BI und Data Mining 3 Text Mining 3.1 Berührungspunkte mit anderen Disziplinen 3.2 Definition 3.3 Prozessmodell nach HIPPNER & RENTZMANN (2006a) 3.3.1 Aufgabendefinition 3.3.2 Dokumentselektion 3.3.3 Dokumentaufbereitung 3.3.4 Text-Mining-Methoden 3.3.5 Interpretation / Evaluation 3.3.6 Anwendung 4 Potenziale der Textanalyse 4.1 Erweiterung des CRM 4.2 Alternative zur Marktforschung 5 Fazit und Ausblick Literaturverzeichnis
18

Entwicklung eines generischen Vorgehensmodells für Text Mining

Schieber, Andreas, Hilbert, Andreas 29 April 2014 (has links)
Vor dem Hintergrund des steigenden Interesses von computergestützter Textanalyse in Forschung und Praxis entwickelt dieser Beitrag auf Basis aktueller Literatur ein generisches Vorgehensmodell für Text-Mining-Prozesse. Das Ziel des Beitrags ist, die dabei anfallenden, umfangreichen Aktivitäten zu strukturieren und dadurch die Komplexität von Text-Mining-Vorhaben zu reduzieren. Das Forschungsziel stützt sich auf die Tatsache, dass im Rahmen einer im Vorfeld durchgeführten, systematischen Literatur-Review keine detaillierten, anwendungsneutralen Vorgehensmodelle für Text Mining identifiziert werden konnten. Aufbauend auf den Erkenntnissen der Literatur-Review enthält das resultierende Modell daher sowohl induktiv begründete Komponenten aus spezifischen Ansätzen als auch aus literaturbasierten Anforderungen deduktiv abgeleitete Bestandteile. Die Evaluation des Artefakts belegt die Nützlichkeit des Vorgehensmodells im Vergleich mit dem bisherigen Forschungsstand.:1 Einführung 1.1 Motivation 1.2 Forschungsziel und Methodik 1.2.1 Systematische Literatur-Review 1.2.2 Design-Science-Research-Ansatz 1.3 Aufbau des Beitrags 2 Stand der Forschung 2.1 Begriffsverständnis 2.2 Merkmale von Vorgehensmodellen für Text Mining 2.3 Aktivitäten im Text-Mining-Prozess 2.4 Zusammenfassung 3 Anforderungen an ein generisches Vorgehensmodell 3.1 Strukturelle Anforderungen 3.2 Funktionelle Anforderungen 3.3 Zusammenfassung 4 Entwicklung des Modells 4.1 Aufgabendefinition 4.2 Dokumentenselektion und -untersuchung 4.3 Dokumentenaufbereitung 4.3.1 Linguistische Aufbereitung 4.3.2 Technische Aufbereitung 4.4 Text-Mining-Verfahren 4.5 Ergebnisevaluation 4.6 Anwendung 4.7 Zusammenfassung 4.7.1 Gesamtmodell 4.7.2 Feedbackschleifen 5 Evaluation 5.1 Evaluationsdesign 5.2 Messung und Auswertung 6 Fazit und Ausblick Literaturverzeichnis Anhang A1 Anwendungsneutrale Vorgehensmodelle A2 Auswirkungen von Grund- und Stammformenreduktion auf die Interpretierbarkeit von Texten A3 Gesamtmodell
19

Generierung von natürlichsprachlichen Texten aus semantischen Strukturen im Prozeß der maschinellen Übersetzung - Allgemeine Strukturen und Abbildungen

Rosenpflanzer, Lutz, Karl, Hans-Ulrich 14 December 2012 (has links)
0 VORWORT Bei der maschinellen Übersetzung natürlicher Sprache dominieren mehrere Probleme. Man hat es immer mit sehr großen Datenmengen zu tun. Auch wenn man nur einen kleinen Text übersetzen will, ist diese Aufgabe in umfänglichen Kontext eingebettet, d.h. alles Wissen über Quell- und Zielsprache muß - in möglichst formalisierter Form - zur Verfügung stehen. Handelt es sich um gesprochenes Wort treten Spracherkennungs- und Sprachausgabeaufgaben sowie harte Echtzeitforderungen hinzu. Die Komplexität des Problems ist - auch unter Benutzung moderner Softwareentwicklungskonzepte - für jeden, der eine Implementation versucht, eine nicht zu unterschätzende Herausforderung. Ansätze, die die Arbeitsprinzipien und Methoden der Informatik konsequent nutzen, stellen ihre Ergebnisse meist nur prototyisch für einen sehr kleinen Teil der Sprache -etwa eine Phrase, einen Satz bzw. mehrere Beispielsätze- heraus und folgern mehr oder weniger induktiv, daß die entwickelte Lösung auch auf die ganze Sprache erfolgreich angewendet werden kann, wenn man nur genügend „Lemminge“ hat, die nach allen Seiten ausschwärmend, die „noch notwendigen Routinearbeiten“ schnell und bienenfleißig ausführen könnten.:0 Vorwort S. 2 1 Allgemeiner Ablauf der Generierung S. 3 1.1 AUFGABE DER GENERIERUNG S. 3 1.2 EINORDNUNG DER GENERIERUNG IN DIE MASCHINELLE ÜBERSETZUNG S.4 1.3 REALISIERUNG S. 4 1.4 MORPHOLOGISCHE GENERIERUNG S.6 2 Strukturen und Abbildungen S. 8 2.1 UNIVERSELLE STRUKTUR: DEFINITION VON GRAPHEN S.8 2.2 FORMALISIERUNG SPEZIELLER SEMANTISCHER STRUKTUREN ALS GRAPHEN S.9 2.3 ABBILDUNG VON STRUKTUREN S.11 2.3.1 Strukturtyperhaltende Funktionen S. 12 2.3.2 Strukturtypverändernde Funktionen S. 19 2.3.3 Komplexe Funktionen S. 20 2.3.4 Abbildung eines gesamten Generierungsprozesses S. 21 4 Beispiel: Generierung von Texten aus prädikatenlogischen Ausdrücken (inkrementeller Algorithmus) S. 23 4.1 ABLAUF S.23 4.2 BEISPIELE VON REGELSTRUKTUREN S.27 5 Zusammenfassung S. 28 6 Quellenverzeichnis S. 30
20

Tracking domain knowledge based on segmented textual sources

Kalledat, Tobias 11 May 2009 (has links)
Die hier vorliegende Forschungsarbeit hat zum Ziel, Erkenntnisse über den Einfluss der Vorverarbeitung auf die Ergebnisse der Wissensgenerierung zu gewinnen und konkrete Handlungsempfehlungen für die geeignete Vorverarbeitung von Textkorpora in Text Data Mining (TDM) Vorhaben zu geben. Der Fokus liegt dabei auf der Extraktion und der Verfolgung von Konzepten innerhalb bestimmter Wissensdomänen mit Hilfe eines methodischen Ansatzes, der auf der waagerechten und senkrechten Segmentierung von Korpora basiert. Ergebnis sind zeitlich segmentierte Teilkorpora, welche die Persistenzeigenschaft der enthaltenen Terme widerspiegeln. Innerhalb jedes zeitlich segmentierten Teilkorpus können jeweils Cluster von Termen gebildet werden, wobei eines diejenigen Terme enthält, die bezogen auf das Gesamtkorpus nicht persistent sind und das andere Cluster diejenigen, die in allen zeitlichen Segmenten vorkommen. Auf Grundlage einfacher Häufigkeitsmaße kann gezeigt werden, dass allein die statistische Qualität eines einzelnen Korpus es erlaubt, die Vorverarbeitungsqualität zu messen. Vergleichskorpora sind nicht notwendig. Die Zeitreihen der Häufigkeitsmaße zeigen signifikante negative Korrelationen zwischen dem Cluster von Termen, die permanent auftreten, und demjenigen das die Terme enthält, die nicht persistent in allen zeitlichen Segmenten des Korpus vorkommen. Dies trifft ausschließlich auf das optimal vorverarbeitete Korpus zu und findet sich nicht in den anderen Test Sets, deren Vorverarbeitungsqualität gering war. Werden die häufigsten Terme unter Verwendung domänenspezifischer Taxonomien zu Konzepten gruppiert, zeigt sich eine signifikante negative Korrelation zwischen der Anzahl unterschiedlicher Terme pro Zeitsegment und den einer Taxonomie zugeordneten Termen. Dies trifft wiederum nur für das Korpus mit hoher Vorverarbeitungsqualität zu. Eine semantische Analyse auf einem mit Hilfe einer Schwellenwert basierenden TDM Methode aufbereiteten Datenbestand ergab signifikant unterschiedliche Resultate an generiertem Wissen, abhängig von der Qualität der Datenvorverarbeitung. Mit den in dieser Forschungsarbeit vorgestellten Methoden und Maßzahlen ist sowohl die Qualität der verwendeten Quellkorpora, als auch die Qualität der angewandten Taxonomien messbar. Basierend auf diesen Erkenntnissen werden Indikatoren für die Messung und Bewertung von Korpora und Taxonomien entwickelt sowie Empfehlungen für eine dem Ziel des nachfolgenden Analyseprozesses adäquate Vorverarbeitung gegeben. / The research work available here has the goal of analysing the influence of pre-processing on the results of the generation of knowledge and of giving concrete recommendations for action for suitable pre-processing of text corpora in TDM. The research introduced here focuses on the extraction and tracking of concepts within certain knowledge domains using an approach of horizontally (timeline) and vertically (persistence of terms) segmenting of corpora. The result is a set of segmented corpora according to the timeline. Within each timeline segment clusters of concepts can be built according to their persistence quality in relation to each single time-based corpus segment and to the whole corpus. Based on a simple frequency measure it can be shown that only the statistical quality of a single corpus allows measuring the pre-processing quality. It is not necessary to use comparison corpora. The time series of the frequency measure have significant negative correlations between the two clusters of concepts that occur permanently and others that vary within an optimal pre-processed corpus. This was found to be the opposite in every other test set that was pre-processed with lower quality. The most frequent terms were grouped into concepts by the use of domain-specific taxonomies. A significant negative correlation was found between the time series of different terms per yearly corpus segments and the terms assigned to taxonomy for corpora with high quality level of pre-processing. A semantic analysis based on a simple TDM method with significant frequency threshold measures resulted in significant different knowledge extracted from corpora with different qualities of pre-processing. With measures introduced in this research it is possible to measure the quality of applied taxonomy. Rules for the measuring of corpus as well as taxonomy quality were derived from these results and advice suggested for the appropriate level of pre-processing.

Page generated in 0.0949 seconds