Global ETD Search

1	Social Semantic Product Idea Mining: Konzeption und Evaluierung Häusl, Martin 11 January 2022 (has links) Im heutigen Zeitalter erwarten Kunden kürzere Produkt- und Dienstleistungsentwicklungszyklen als je zuvor. Unternehmen, die diesem Trend standhalten wollen, müssen folglich auf Innovationen setzen und ihre Innovationsfähigkeit zu einer Kernkompetenz ausbauen. Ein Innovationsprozess, der ein Vorgehensmodell zur Steigerung der Innovationsfähigkeit aufzeigt, beginnt mit der Ideen-generierungsphase. In dieser Phase werden im klassischen Innovationsprozess überwiegend unternehmensinterne Quellen genutzt, um Ideen zu generieren. Tatsächlich werden aber auf dieser Quellenbasis vermehrt Produkte und Dienstleistungen am Kundenbedürfnis vorbei entwickelt. Mit dem Open-Innovation-Ansatz kann eine Verbesserung der Innovationsfähigkeit von Unternehmen durch die Einbindung unternehmensexterner Quellen in den Innovationsprozess erzielt werden. Im Social Web, einer bedeutenden externen Quelle, werden große Mengen an Informationen erzeugt, die für den Innovationsprozess verwendet werden könnten, jedoch werden diese in heutigen Innovationsansätzen nicht oder kaum genutzt. Mit der vorliegenden Arbeit sollen mehrere Beiträge zur Adressierung dieser Problematik geleistet werden. Unter anderem werden etablierte Innovationsprozesse und aktuelle Methoden im Bereich der Ideengenerierung untersucht und miteinander verglichen. Im Rahmen einer Studie werden zudem die Datenstrukturen, Merkmale und Beschaffungsmöglichkeiten von Social-Web-Daten erforscht. Dabei bestätigt sich die These, dass aktuelle Ansätze verfügbare Social-Web-Daten nur rudimentär berücksichtigen. Auf Basis der gewonnenen Erkenntnisse wird darüber hinaus ein generisches Datenmodell entwickelt, das grundlegende Entitäten und Relationen diverser Ausprägungen von Social-Web-Daten abbildet. In diesem Zusammenhang wird aufgezeigt, dass semantische Technologien zur Generierung neuen Produktinnovationswissens überaus nützlich sind. Der Schwerpunkt der Forschungsarbeit liegt daher auf der Nutzung semantischer Technologien zur Verbesserung des Innovationsprozesses, insbesondere im Prozessschritt der Ideation. Die Produkt-, Ideen- und Social-Web-Domäne wird formal in einer neuartigen generischen Ontologie beschrieben, die es erlaubt, axiomatisch auf Basis der Web Ontology Language (OWL) neues Produktinnovationswissen aus dem Social Web zu erschließen und für nachgelagerte Innovationsmanagementsysteme maschinen-interpretierbar bereitzustellen. Anhand einer prototypischen Umsetzung kann die Machbarkeit des eigenen Ansatzes nachgewiesen werden. Dabei wird auch ersichtlich, dass der vorgestellte Lösungsansatz den aktuellen Stand der Technik hinsichtlich der Ideenerkennungsrate übersteigt. info:eu-repo/classification/ddc/004 ddc:004
2	Facets of verb meaning / A distributional investigation of German verbs Roberts, William 14 June 2023 (has links) Diese Dissertation bietet eine empirische Untersuchung deutscher Verben auf der Grundlage statistischer Beschreibungen, die aus einem großen deutschen Textkorpus gewonnen wurden. In einem kurzen Überblick über linguistische Theorien zur lexikalischen Semantik von Verben skizziere ich die Idee, dass die Verbbedeutung wesentlich von seiner Argumentstruktur (der Anzahl und Art der Argumente, die zusammen mit dem Verb auftreten) und seiner Aspektstruktur (Eigenschaften, die den zeitlichen Ablauf des vom Verb denotierten Ereignisses bestimmen) abhängt. Anschließend erstelle ich statistische Beschreibungen von Verben, die auf diesen beiden unterschiedlichen Bedeutungsfacetten basieren. Insbesondere untersuche ich verbale Subkategorisierung, Selektionspräferenzen und Aspekt. Alle diese Modellierungsstrategien werden anhand einer gemeinsamen Aufgabe, der Verbklassifikation, bewertet. Ich zeige, dass im Rahmen von maschinellem Lernen erworbene Merkmale, die verbale lexikalische Aspekte erfassen, für eine Anwendung von Vorteil sind, die Argumentstrukturen betrifft, nämlich semantische Rollenkennzeichnung. Darüber hinaus zeige ich, dass Merkmale, die die verbale Argumentstruktur erfassen, bei der Aufgabe, ein Verb nach seiner Aspektklasse zu klassifizieren, gut funktionieren. Diese Ergebnisse bestätigen, dass diese beiden Facetten der Verbbedeutung auf grundsätzliche Weise zusammenhängen. / This dissertation provides an empirical investigation of German verbs conducted on the basis of statistical descriptions acquired from a large corpus of German text. In a brief overview of the linguistic theory pertaining to the lexical semantics of verbs, I outline the idea that verb meaning is composed of argument structure (the number and types of arguments that co-occur with a verb) and aspectual structure (properties describing the temporal progression of an event referenced by the verb). I then produce statistical descriptions of verbs according to these two distinct facets of meaning: In particular, I examine verbal subcategorisation, selectional preferences, and aspectual type. All three of these modelling strategies are evaluated on a common task, automatic verb classification. I demonstrate that automatically acquired features capturing verbal lexical aspect are beneficial for an application that concerns argument structure, namely semantic role labelling. Furthermore, I demonstrate that features capturing verbal argument structure perform well on the task of classifying a verb for its aspectual type. These findings suggest that these two facets of verb meaning are related in an underlying way. Semantik Verb lexikalisch Verarbeitung natürlicher Sprache maschinelles Lernen semantics verb lexical natural language processing machine learning 410 Linguistik GC 7012 GC 9352 ddc:410
3	Robust relationship extraction in the biomedical domain Thomas, Philippe 25 November 2015 (has links) Seit Jahrhunderten wird menschliches Wissen in Form von natürlicher Sprache ausgetauscht und in Dokumenten schriftlich aufgezeichnet. In den letzten Jahren konnte man auf dem Gebiet der Lebenswissenschaften eine exponentielle Zunahme wissenschaftlicher Publikationen beobachten. Diese Dissertation untersucht die automatische Extraktion von Beziehungen zwischen Eigennamen. Innerhalb dieses Gebietes beschäftigt sich die Arbeit mit der Steigerung der Robustheit für die Relationsextraktion. Zunächst wird der Einsatz von Ensemble-Methoden anhand von Daten aus der "Drug-drug-interaction challenge 2013" evaluiert. Ensemble-Methoden erhöhen die Robustheit durch Aggregation unterschiedlicher Klassifikationssysteme zu einem Modell. Weiterhin wird in dieser Arbeit das Problem der Relationsextraktion auf Dokumenten mit unbekannten Texteigenschaften beschrieben. Es wird gezeigt, dass die Verwendung des halb-überwachten Lernverfahrens self training in solchen Fällen eine höhere Robustheit erzielt als die Nutzung eines Klassifikators, der lediglich auf einem manuell annotierten Korpus trainiert wurde. Zur Ermittlung der Robustheit wird das Verfahren des cross-learnings verwendet. Zuletzt wird die Verwendung von distant-supervision untersucht. Korpora, welche mit der distant-supervision-Methode erzeugt wurden, weisen ein inhärentes Rauschen auf und profitieren daher von robusten Relationsextraktionsverfahren. Es werden zwei verschiedene Methoden untersucht, die auf solchen Korpora trainiert werden. Beide Ansätze zeigen eine vergleichbare Leistung wie vollständig überwachte Klassifikatoren, welche mit dem cross-learning-Verfahren evaluiert wurden. Um die Nutzung von Ergebnissen der Informationsextraktion zu erleichtern, wurde die semantische Suchmaschine GeneView entwickelt. Anforderungen an die Rechenkapazität beim Erstellen von GeneView werden diskutiert und Anwendungen auf den von verschiedenen Text-Mining-Komponenten extrahierten Daten präsentiert. / For several centuries, a great wealth of human knowledge has been communicated by natural language, often recorded in written documents. In the life sciences, an exponential increase of scientific articles has been observed, hindering the effective and fast reconciliation of previous finding into current research projects. This thesis studies the automatic extraction of relationships between named entities. Within this topic, it focuses on increasing robustness for relationship extraction. First, we evaluate the use of ensemble methods to improve performance using data provided by the drug-drug-interaction challenge 2013. Ensemble methods aggregate several classifiers into one model, increasing robustness by reducing the risk of choosing an inappropriate single classifier. Second, this work discusses the problem of applying relationship extraction to documents with unknown text characteristics. Robustness of a text mining component is assessed by cross-learning, where a model is evaluated on a corpus different from the training corpus. We apply self-training, a semi-supervised learning technique, in order to increase cross-learning performance and show that it is more robust in comparison to a classifier trained on manually annotated text only. Third, we investigate the use of distant supervision to overcome the need of manually annotated training instances. Corpora derived by distant supervision are inherently noisy, thus benefiting from robust relationship extraction methods. We compare two different methods and show that both approaches achieve similar performance as fully supervised classifiers, evaluated in the cross-learning scenario. To facilitate the usage of information extraction results, including those developed within this thesis, we develop the semantic search engine GeneView. We discuss computational requirements to build this resource and present some applications utilizing the data extracted by different text-mining components. Relationsextraktion Informationsextraktion Protein-Protein Interaktionen Maschinelles Lernen Verarbeitung natürlicher Sprache Text Mining Information Extraction Natural Language Processing Text Mining Relation Extraction Protein Protein Interactions Machine Learning 004 Informatik 28 Informatik, Datenverarbeitung WC 7700 ddc:004
4	Design of a Robust and Flexible Grammar for Speech Control Ludyga, Tomasz 28 May 2024 (has links) Voice interaction is an established automatization and accessibility feature. While many satisfactory speech recognition solutions are available today, the interpretation of text se-mantic is in some use-cases difficult. Differentiated can be two types of text semantic ex-traction models: probabilistic and pure rule-based. Rule-based reasoning is formalizable into grammars and enables fast language validation, transparent decision-making and easy customization. In this thesis we develop a context-free ANTLR semantic grammar to control software by speech in a medical, smart glasses related, domain. The implementation is preceded by research of state-of-the-art, requirements consultation and a thorough design of reusable system abstractions. Design includes definitions of DSL, meta grammar, generic system ar-chitecture and tool support. Additionally, we investigate trivial and experimental grammar improvement techniques. Due to multifaceted flexibility and robustness of the designed framework, we indicate its usability in critical and adaptive systems. We determine 75% semantic recognition accuracy in the medical main use-case. We compare it against se-mantic extraction using SpaCy and two fine-tuned AI classifiers. The evaluation reveals high accuracy of BERT for sequence classification and big potential of hybrid solutions with AI techniques on top grammars, essentially for detection of alerts. The accuracy is strong dependent on input quality, highlighting the importance of speech recognition tailored to specific vocabulary.:1 Introduction 1 1.1 Motivation 1 1.2 CAIS.ME Project 2 1.3 Problem Statement 2 1.4 Thesis Overview 3 2 Related Work 4 3 Foundational Concepts and Systems 6 3.1 Human-Computer Interaction in Speech 6 3.2 Speech Recognition 7 3.2.1 Open-source technologies 8 3.2.2 Other technologies 9 3.3 Language Recognition 9 3.3.1 Regular expressions 10 3.3.2 Lexical tokenization 10 3.3.3 Parsing 10 3.3.4 Domain Specific Languages 11 3.3.5 Formal grammars 11 3.3.6 Natural Language Processing 12 3.3.7 Model-Driven Engineering 14 4 State-of-the-Art: Grammars 15 4.1 Overview 15 4.2 Workbenches for Grammar Design 16 4.2.1 ANTLR 16 4.2.2 Xtext 17 4.2.3 JetBrains MPS 17 4.2.4 Other tools 18 4.3 Design Approaches 19 5 Problem Analysis 23 5.1 Methodology 23 5.2 Identification of Use-Cases 24 5.3 Requirements Analysis 26 5.3.1 Functional requirements 26 5.3.2 Qualitative requirements 26 5.3.3 Acceptance criteria 27 6 Design 29 6.1 Preprocessing 29 6.2 Underlying Domain Specific Modelling 31 6.2.1 Language model definition 31 6.2.2 Formalization 32 6.2.3 Constraints 32 6.3 Generic Grammar Syntax 33 6.4 Architecture 36 6.5 Integration of AI Techniques 38 6.6 Grammar Improvement 40 6.6.1 Identification of synonyms 40 6.6.2 Automatic addition of synonyms 42 6.6.3 Addition of same-meaning strings 42 6.6.4 Addition and modification of rules 43 6.7 Processing of unrecognized input 44 6.8 Summary 45 7 Implementation and Evaluation 47 7.1 Development Environment 47 7.2 Implementation 48 7.2.1 Grammar model transformation 48 7.2.2 Output construction 50 7.2.3 Testing 50 7.2.4 Reusability for similar use-cases 51 7.3 Limitations and Challenges 52 7.4 Comparison to NLP Solutions 54 8 Conclusion 58 8.1 Summary of Findings 58 8.2 Future Research and Development 60 Acronyms 62 Bibliography 63 List of Figures 73 List of Tables 74 List of Listings 75 info:eu-repo/classification/ddc/006 ddc:006

1

Page generated in 0.0894 seconds