41 |
Extracting and Learning Semantics from Social Web Data / Extraktion und Lernen von Semantik aus Social Web-DatenNiebler, Thomas January 2019 (has links) (PDF)
Making machines understand natural language is a dream of mankind that existed
since a very long time. Early attempts at programming machines to converse with
humans in a supposedly intelligent way with humans relied on phrase lists and simple
keyword matching. However, such approaches cannot provide semantically adequate
answers, as they do not consider the specific meaning of the conversation. Thus, if we
want to enable machines to actually understand language, we need to be able to access
semantically relevant background knowledge. For this, it is possible to query so-called
ontologies, which are large networks containing knowledge about real-world entities
and their semantic relations. However, creating such ontologies is a tedious task, as often
extensive expert knowledge is required. Thus, we need to find ways to automatically
construct and update ontologies that fit human intuition of semantics and semantic
relations. More specifically, we need to determine semantic entities and find relations
between them. While this is usually done on large corpora of unstructured text, previous
work has shown that we can at least facilitate the first issue of extracting entities by
considering special data such as tagging data or human navigational paths. Here, we do
not need to detect the actual semantic entities, as they are already provided because of
the way those data are collected. Thus we can mainly focus on the problem of assessing
the degree of semantic relatedness between tags or web pages. However, there exist
several issues which need to be overcome, if we want to approximate human intuition of
semantic relatedness. For this, it is necessary to represent words and concepts in a way
that allows easy and highly precise semantic characterization. This also largely depends
on the quality of data from which these representations are constructed.
In this thesis, we extract semantic information from both tagging data created by users
of social tagging systems and human navigation data in different semantic-driven social
web systems. Our main goal is to construct high quality and robust vector representations
of words which can the be used to measure the relatedness of semantic concepts.
First, we show that navigation in the social media systems Wikipedia and BibSonomy is
driven by a semantic component. After this, we discuss and extend methods to model
the semantic information in tagging data as low-dimensional vectors. Furthermore, we
show that tagging pragmatics influences different facets of tagging semantics. We then
investigate the usefulness of human navigational paths in several different settings on
Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose
a metric-learning based algorithm in adapt pre-trained word embeddings to datasets
containing human judgment of semantic relatedness.
This work contributes to the field of studying semantic relatedness between words
by proposing methods to extract semantic relatedness from web navigation, learn highquality
and low-dimensional word representations from tagging data, and to learn
semantic relatedness from any kind of vector representation by exploiting human
feedback. Applications first and foremest lie in ontology learning for the Semantic Web,
but also semantic search or query expansion. / Einer der großen Träume der Menschheit ist es, Maschinen dazu zu bringen, natürliche
Sprache zu verstehen. Frühe Versuche, Computer dahingehend zu programmieren, dass
sie mit Menschen vermeintlich intelligente Konversationen führen können, basierten
hauptsächlich auf Phrasensammlungen und einfachen Stichwortabgleichen. Solche
Ansätze sind allerdings nicht in der Lage, inhaltlich adäquate Antworten zu liefern, da
der tatsächliche Inhalt der Konversation nicht erfasst werden kann. Folgerichtig ist es
notwendig, dass Maschinen auf semantisch relevantes Hintergrundwissen zugreifen
können, um diesen Inhalt zu verstehen. Solches Wissen ist beispielsweise in Ontologien
vorhanden. Ontologien sind große Datenbanken von vernetztem Wissen über Objekte
und Gegenstände der echten Welt sowie über deren semantische Beziehungen. Das
Erstellen solcher Ontologien ist eine sehr kostspielige und aufwändige Aufgabe, da oft
tiefgreifendes Expertenwissen benötigt wird. Wir müssen also Wege finden, um Ontologien
automatisch zu erstellen und aktuell zu halten, und zwar in einer Art und Weise,
dass dies auch menschlichem Empfinden von Semantik und semantischer Ähnlichkeit
entspricht. Genauer gesagt ist es notwendig, semantische Entitäten und deren Beziehungen
zu bestimmen. Während solches Wissen üblicherweise aus Textkorpora extrahiert
wird, ist es möglich, zumindest das erste Problem - semantische Entitäten zu bestimmen
- durch Benutzung spezieller Datensätze zu umgehen, wie zum Beispiel Tagging- oder
Navigationsdaten. In diesen Arten von Datensätzen ist es nicht notwendig, Entitäten
zu extrahieren, da sie bereits aufgrund inhärenter Eigenschaften bei der Datenakquise
vorhanden sind. Wir können uns also hauptsächlich auf die Bestimmung von semantischen
Relationen und deren Intensität fokussieren. Trotzdem müssen hier noch einige
Hindernisse überwunden werden. Beispielsweise ist es notwendig, Repräsentationen
für semantische Entitäten zu finden, so dass es möglich ist, sie einfach und semantisch
hochpräzise zu charakterisieren. Dies hängt allerdings auch erheblich von der Qualität
der Daten ab, aus denen diese Repräsentationen konstruiert werden.
In der vorliegenden Arbeit extrahieren wir semantische Informationen sowohl aus
Taggingdaten, von Benutzern sozialer Taggingsysteme erzeugt, als auch aus Navigationsdaten
von Benutzern semantikgetriebener Social Media-Systeme. Das Hauptziel
dieser Arbeit ist es, hochqualitative und robuste Vektordarstellungen von Worten zu
konstruieren, die dann dazu benutzt werden können, die semantische Ähnlichkeit
von Konzepten zu bestimmen. Als erstes zeigen wir, dass Navigation in Social Media Systemen
unter anderem durch eine semantische Komponente getrieben wird. Danach
diskutieren und erweitern wir Methoden, um die semantische Information in Taggingdaten
als niedrigdimensionale sogenannte “Embeddings” darzustellen. Darüberhinaus
demonstrieren wir, dass die Taggingpragmatik verschiedene Facetten der Taggingsemantik
beeinflusst. Anschließend untersuchen wir, inwieweit wir menschliche Navigationspfade
zur Bestimmung semantischer Ähnlichkeit benutzen können. Hierzu betrachten
wir mehrere Datensätze, die Navigationsdaten in verschiedenen Rahmenbedingungen
beinhalten. Als letztes stellen wir einen neuartigen Algorithmus vor, um bereits
trainierte Word Embeddings im Nachhinein an menschliche Intuition von Semantik
anzupassen.
Diese Arbeit steuert wertvolle Beiträge zum Gebiet der Bestimmung von semantischer
Ähnlichkeit bei: Es werden Methoden vorgestellt werden, um hochqualitative semantische
Information aus Web-Navigation und Taggingdaten zu extrahieren, diese mittels
niedrigdimensionaler Vektordarstellungen zu modellieren und selbige schließlich besser
an menschliches Empfinden von semantischer Ähnlichkeit anzupassen, indem aus
genau diesem Empfinden gelernt wird. Anwendungen liegen in erster Linie darin,
Ontologien für das Semantic Web zu lernen, allerdings auch in allen Bereichen, die
Vektordarstellungen von semantischen Entitäten benutzen.
|
42 |
Classifying the high-energy sky with spectral timing methods / Klassifizierung des Hochenergiehimmels mittels spektralen und Zeitreihen-MethodenKreikenbohm, Annika Franziska Eleonore January 2019 (has links) (PDF)
Active galactic nuclei (AGN) are among the brightest and most frequent sources on the extragalactic X-ray and gamma-ray sky. Their central supermassive blackhole generates an enormous luminostiy through accretion of the surrounding gas. A few AGN harbor highly collimated, powerful jets in which are observed across the entire electromagnetic spectrum. If their jet axis is seen in a small angle to our line-of-sight (these objects are then called blazars) jet emission can outshine any other emission component from the system. Synchrotron emission from electrons and positrons clearly prove the existence of a relativistic leptonic component in the jet plasma. But until today, it is still an open question whether heavier particles, especially protons, are accelerated as well. If this is the case, AGN would be prime candidates for extragalactic PeV neutrino sources that are observed on Earth. Characteristic signatures for protons can be hidden in the variable high-energy emission of these objects. In this thesis I investigated the broadband emission, particularly the high-energy X-ray and gamma-ray emission of jetted AGN to address open questions regarding the particle acceleration and particle content of AGN jets, or the evolutionary state of the AGN itself. For this purpose I analyzed various multiwavelength observations from optical to gamma-rays over a period of time using a combination of state-of-the-art spectroscopy and timing analysis. By nature, AGN are highly variable. Time-resolved spectral analysis provided a new dynamic view of these sources which helped to determine distinct emission processes that are difficult to disentangle from spectral or timing methods alone.
Firstly, this thesis tackles the problem of source classification in order to facilitate the search for interesting sources in large data archives and characterize new transient sources. I use spectral and timing analysis methods and supervised machine learning algorithms to design an automated source classification pipeline. The test and training sample were based on the third XMM-Newton point source catalog (3XMM-DR6). The set of input features for the machine learning algorithm was derived from an automated spectral modeling of all sources in the 3XMM-DR6, summing up to 137200 individual detections. The spectral features were complemented by results of a basic timing analysis as well as multiwavelength information provided by catalog cross-matches. The training of the algorithm and application to a test sample showed that the definition of the training sample was crucial: Despite oversampling minority source types with synthetic data to balance out the training sample, the algorithm preferably predicted majority source types for unclassified objects. In general, the training process showed that the combination of spectral, timing and multiwavelength features performed best with the lowest misclassification rate of \\sim2.4\\%.
The methods of time-resolved spectroscopy was then used in two studies to investigate the properties of two individual AGN, Mrk 421 and PKS 2004-447, in detail. Both objects belong to the class of gamma-ray emitting AGN. A very elusive sub-class are gamma-ray emitting Narrow Line Seyfert 1 (gNLS1) galaxies. These sources have been discovered as gamma-ray sources only recently in 2010 and a connection to young radio galaxies especially compact steep spectrum (CSS) radio sources has been proposed. The only gNLS1 on the Southern Hemisphere so far is PKS2004-447 which lies at the lower end of the luminosity distribution of gNLS1. The source is part of the TANAMI VLBI program and is regularly monitored at radio frequencies. In this thesis, I presented and analyzed data from a dedicated multiwavelength campaign of PKS 2004-447 which I and my collaborators performed during 2012 and which was complemented by individual observations between 2013 and 2016. I focussed on the detailed analysis of the X-ray emission and a first analysis of its broadband spectrum from radio to gamma-rays. Thanks to the dynamic SED I could show that earlier studies misinterpreted the optical spectrum of the source which had led to an underestimation of the high-energy emission and had ignited a discussion on the source class. I show that the overall spectral properties are consistent with dominating jet emission comprised of synchrotron radiation and inverse Compton scattering from accelerated leptons. The broadband emission is very similar to typical examples of a certain type of blazars (flat-spectrum radio quasars) and does not present any unusual properties in comparison. Interestingly, the VLBI data showed a compact jet structure and a steep radio spectrum consistent with a compact steep spectrum source. This classified PKS 2004-447 as a young radio galaxy, in which the jet is still developing.
The investigation of Mrk 421 introduced the blazar monitoring program which I and collaborator have started in 2014. By observing a blazar simultaneously from optical, X-ray and gamma-ray bands during a VHE outbursts, the program aims at providing extraordinary data sets to allow for the generation of a series of dynamical SEDs of high spectral and temporal resolution. The program makes use of the dense VHE monitoring by the FACT telescope. So far, there are three sources in our sample that we have been monitoring since 2014. I presented the data and the first analysis of one of the brightest and most variable blazar, Mrk 421, which had a moderate outbreak in 2015 and triggered our program for the first time. With spectral timing analysis, I confirmed a tight correlation between the X-ray and TeV energy bands, which indicated that these jet emission components are causally connected. I discovered that the variations of the optical band were both correlated and anti-correlated with the high-energy emission, which suggested an independent emission component. Furthermore, the dynamic SEDs showed two different flaring behaviors, which differed in the presence or lack of a peak shift of the low-energy emission hump. These results further supported the hypothesis that more than one emission region contributed to the broadband emission of Mrk 421 during the observations.
Overall,the studies presented in this thesis demonstrated that time-resolved spectroscopy is a powerful tool to classify both source types and emission processes of astronomical objects, especially relativistic jets in AGN, and thus provide a deeper understanding and new insights of their physics and properties. / Aktive Galaxienkerne (active galactic nuclei, AGN) gehören zu den hellsten und häufigsten Quellen am extragalaktischen Röntgen- und Gammastrahlenhimmel. Das zentrale supermassive Schwarze Loch erzeugt durch Akkretion des umgebenden Gases eine enorme Leuchtkraft. Einige AGN beherbergen zudem stark kollimierte, leuchtstarke Jets die im gesamten elektromagnetischen Spektrum beobachtet werden. Betrachtet man Jets unter einem kleinen Winkel zu unserer Sichtlinie (sog. Blazare), kann die Jetemission die anderen Strahlungskomponenten des Systems überstrahlen. Die Synchrotronemission von relativistischen Elektronen und Positronen beweist eindeutig die Existenz einer leptonischen Plasmakomponente in Jets. Bis heute aber ist es offen, ob auch schwerere Teilchen, insbesondere Protonen, beschleunigt werden können. Wenn dies der Fall ist, wären AGN vielversprechende Quellen für extragalaktische PeV-Neutrinos, die auf der Erde beobachtet werden. Charakteristische Merkmale von Protonen könnten in der variablen hochenergetischen Emission dieser Objekte verborgen sein. In dieser Arbeit untersuchte ich daher die Breitbandemission, insbesondere die hochenergetische Röntgen- und Gammastrahlung, von AGN mit Jets, um verschiedene offene Fragen bezüglich Jets in AGN zu adressieren. Thematisiert werden sowohl die Teilchenbeschleunigung, wie auch die Plasmakomposition von Jets, oder der evolutionäre Zustand eines AGN selbst. Zu diesem Zweck analysierte ich mittels einer Kombination aus hochmodernen Methoden der Spektroskopie und Zeitreihenanalyse verschiedene Wellenlängenbeobachtungen, die das Breitbandspektrum von optischen bis Gammastrahlen zu verschiedenen Zeitpunkten abdeckten. Von Natur aus sind AGN sehr variabel. Die Kombination der zeitaufgelöster Spektroskopie lieferte somit eine neue dynamische Sicht auf diese Quellen, die dazu beitrug, unterschiedliche Emissionsprozesse zu bestimmen, die sich nur schwer von getrennten Spektral- oder Zeitreihen-Verfahren unterscheiden lassen.
Diese Arbeit behandelt zunächst das Problem der Quellenklassifikation, um die Suche nach interessanten Quellen in großen Datenarchiven zu erleichtern und neue variable Quellen zu charakterisieren. Ich nutzte die Zeit- und Spektralanalyse Methoden sowie überwachte Machine-Learning Algorithmen, um ein automatisiertes Verfahren zur Quellklassifizierung zu entwerfen. Das Auswahl der Test- und Trainingsbeispiele basierte auf dem dritten XMM-Newton Punktquellenkatalog (3XMM-DR6). Die Attribute für den maschinellen Lernalgorithmus wurden aus einer automatisierten Spektralmodellierung aller Quellen in dem 3XMM-DR6 definiert, die über 137200 individuelle Detektionen umfasst. Die spektralen Eigenschaften wurden durch Ergebnisse einer einfachen Zeitreihenanalyse sowie durch Multiwellenlängeninformationen ergänzt. Letztere ergaben sich aus den Abgleichen verschiedener Quellkataloge. Das Trainieren des Algorithmus und die Anwendung auf die Testquellen zeigte, dass die Definition der Trainingsquellen für die Vorhersage von Quellklassen unbekannter Quellen entscheidend war. Obwohl das Trainingsset mittels der Generierung von synthetischen Daten von Minderheitsquellklassen ausbalanciert wurde, prognostizierte der Algorithmus bevorzugt jene Quellentypen für nicht klassifizierte Objekte, die am häufigsten im ursprünglichen Trainingsset vorkamen. Im Allgemeinen zeigte der Trainingsprozess, dass die Kombination von Spektral-, Zeitreihen- und Multiwellenlängenattributen bei der Klassifizierung einer großen Menge von unbekannten Objekten mit der niedrigsten Fehlklassifizierungsrate von \\sim2.4\\% am besten war.
Die zeitaufgelöste Spektroskopie wurde in zwei zusätzlichen Studien an einzelnen außergewöhnlichen Quellen, Mrk 421 und PKS 2004-447, benutzt, um deren Eigenschaften im Detail zu untersuchen. Beide Objekte gehören zu der Klasse von AGN, die Gammastrahlung emittieren. Eine sehr schwer fassbare Unterklasse sind sogenannte $\gamma$-emittierende Narrow Line Seyfert 1 (gNLS1) Galaxien. Gammastrahlung dieser Quellen wurden erst im Jahr 2010 entdeckt. Man vermutet eine Verbindung zu jungen Radiogalaxien, insbesondere zu kompakten Radioquellen mit einem steilen Radiospektrum (sog. Compact Steep Spectrum sources, CSS). Die bisher einzige bestätigte gNLS1 auf der südlichen Hemisphäre ist PKS 2004-447, die am unteren Ende der Helligkeitsverteilung von gNLS1 liegt. Die Quelle ist Teil des TANAMI VLBI-Programms und wird regelmäßig im Radiobereich beobachtet. In dieser Dissertation präsentiere ich Ergebnisse einer Multiwellenlängen-Kampagne von PKS 2004-447, die ich und meine Kollegen 2012 durchgeführt haben und die durch weitere Einzelbeobachtungen zwischen 2013 und 2016 ergänzt wurde. Ich konzentrierte mich auf die detaillierte Analyse der Röntgenemission und eine erste Analyse der dynamischen Multiwellenlängen Spektralen Energieverteilung (spectral energy distribution, SED) von Radio bis Gammastrahlung. Dank der dynamischen SED konnte ich zeigen, dass frühere Studien das optische Spektrum der Quelle falsch interpretierten, was zu einer Unterschätzung der hochenergetischen Emission führte und eine Diskussion über die Quellklasse entfachte. In meiner Studie zeigte ich, dass die gesamten spektralen Eigenschaften konsistent durch Jetemission erklärt werden kann, die Synchrotronstrahlung und Inverse Comptonstreuung von beschleunigten Leptonen umfasst. Die Breitbandemission ist typischen Exemplaren von Flachspektrum-Radio-Quasaren sehr ähnlich und weist im Vergleich keine ungewöhnlichen Eigenschaften auf. Interessanterweise zeigten die hochaufgelöste Radiobeobachtungen eine kompakte Jet-Struktur und ein steiles Radiospektrum, das mit den Eigenschaften von kompakten Quellen mit steilem Radiospektrum (compact steep spectrum sources, CSS sources) verträglich ist. Dies klassifiziert PKS 2004-447 als junge Radiogalaxie, in der sich der Jet noch entwickelt.
Die Untersuchung von Mrk 421 führt das Blazar-Monitoring-Program ein, das ich und meine Mitarbeiter 2014 begonnen haben. Dabei werden Blazare während eines Strahlungsausbruchs im TeV Energieband gleichzeitig in den optischen, Röntgen- und Gammastrahlenbändern beobachtet. Das Ziel des Programms ist die Erzeugung von dynamischen SEDs von hoher spektraler und zeitlicher Auflösung zu ermöglichen. Das Programm nutzt dafür die dichte Überwachung von Blazaren im TeV Bereich durch das FACT-Teleskop. Seit 2014 sind drei markante Blazare Teil unseres Programms. 2015 zeigte eine unserer beobachteten Quellen, Mrk 421, einen moderaten Ausbruch im TeV Band und löste damit unser Programm zum ersten Mal aus. In dieser Arbeit habe ich unsere Beobachtungen im Optischen bis TeV Bereich dieser Quelle benutzt um eine erste zeitaufgelöste Spektroskopie der dynamischen SED dieser Quelle vorzunehmen. Die Analyse der Flussvariabilität in unterschiedlichen Energiebändern bestätigte eine enge Korrelation zwischen der Röntgen- und TeV-Emission. Dies deutet darauf hin, dass diese Strahlungskomponenten im Jet kausal verknüpft sind. Ich entdeckte, dass die Helligkeitsvariationen im optischen Band scheinbar sowohl korreliert als auch antikorreliert mit der Strahlung im Röntgen- und Gammaband waren, was auf eine unabhängige Emissionskomponente hinwies. Darüber hinaus zeigten die dynamischen SEDs zwei unterschiedliche Verhalten bei Strahlungsausbrüchen, die sich im Vorhandensein oder Fehlen einer Verschiebung des niederenergetischen Emissionsmaximums unterschieden. Diese Ergebnisse unterstützen die Hypothese, dass während der Beobachtungen von Mrk 421 mehr als eine Emissionsregion zu dessen Breitbandemission beigetragen haben.
Die Studien in dieser Arbeit zeigen, dass die zeitaufgelöste Spektroskopie ein leistungsfähiges Werkzeug ist, um sowohl Quellentypen als auch die Emissionsprozesse einzelner Quellen zu klassifizieren und so ein tieferes Verständnis und neue Einblicke in die Physik und Eigenschaften astronomischer Objekte, insbesondere relativistischer Jets in AGN zu ermöglichen.
|
43 |
Engineering approaches in biofabrication of vascularized structures / Ingenieurtechnische Ansätze in der Biofabrikation vaskularisierter StrukturenNadernezhad, Ali January 2024 (has links) (PDF)
Biofabrication technologies must address numerous parameters and conditions to reconstruct tissue complexity in vitro. A critical challenge is vascularization, especially for large constructs exceeding diffusion limits. This requires the creation of artificial vascular structures, a task demanding the convergence and integration of multiple engineering approaches. This doctoral dissertation aims to achieve two primary objectives: firstly, to implement and refine engineering methods for creating artificial microvascular structures using Melt Electrowriting (MEW)-assisted sacrificial templating, and secondly, to deepen the understanding of the critical factors influencing the printability of bioink formulations in 3D extrusion bioprinting.
In the first part of this dissertation, two innovative sacrificial templating techniques using MEW are explored. Utilizing a carbohydrate glass as a fugitive material, a pioneering advancement in the processing of sugars with MEW with a resolution under 100 microns was made. Furthermore, by introducing the “print-and-fuse” strategy as a groundbreaking method, biomimetic branching microchannels embedded in hydrogel matrices were fabricated, which can then be endothelialized to mirror in vivo vascular conditions.
The second part of the dissertation explores extrusion bioprinting. By introducing a simple binary bioink formulation, the correlation between physical properties and printability was showcased. In the next step, employing state-of-the-art machine-learning approaches revealed a deeper understanding of the correlations between bioink properties and printability in an extended library of hydrogel formulations.
This dissertation offers in-depth insights into two key biofabrication technologies. Future work could merge these into hybrid methods for the fabrication of vascularized constructs, combining MEW's precision with fine-tuned bioink properties in automated extrusion bioprinting. / Biofabrikationstechnologien müssen zahlreiche Parameter und Bedingungen berücksichtigen, um die Komplexität von Gewebe in vitro zu rekonstruieren. Eine entscheidende Herausforderung ist die Vaskularisierung, insbesondere bei großen Konstrukten, die die Diffusionsgrenzen überschreiten. Dies erfordert die Schaffung künstlicher Gefäßstrukturen, eine Aufgabe, die die Konvergenz und Integration verschiedener technischer Ansätze erfordert. Mit dieser Dissertation sollen zwei Hauptziele erreicht werden: erstens die Implementierung und Verfeinerung technischer Methoden zur Herstellung künstlicher mikrovaskulärer Strukturen mit Hilfe des "Melt Electrowriting" (MEW) und zweitens die Vertiefung des Verständnisses der kritischen Faktoren, die die Druckbarkeit von Biotintenformulierungen beim 3D-Extrusions-Bioprinting beeinflussen.
Im ersten Teil dieser Dissertation werden zwei innovative Opferschablonentechniken unter Verwendung von MEW erforscht. Unter Verwendung eines Kohlenhydratglases als flüchtiges Material wurde ein bahnbrechender Fortschritt bei der Verarbeitung von Zuckern mit MEW mit einer Auflösung von unter 100 Mikrometern erzielt. Darüber hinaus wurden durch die Einführung der "Print-and-Fuse"-Strategie als bahnbrechende Methode biomimetische, verzweigte Mikrokanäle hergestellt, die in Hydrogelmatrizen eingebettet sind und anschließend endothelialisiert werden können, um die vaskulären Bedingungen in vivo wiederzugeben.
Der zweite Teil der Dissertation befasst sich mit dem Extrusions-Bioprinting. Durch die Einführung einer einfachen binären Biotintenformulierung wurde die Korrelation zwischen physikalischen Eigenschaften und Druckbarkeit aufgezeigt. Im nächsten Schritt wurde durch den Einsatz modernster Methoden des maschinellen Lernens ein tieferes Verständnis für die Zusammenhänge zwischen den Eigenschaften der Biotinte und der Druckbarkeit in einer erweiterten Bibliothek von Hydrogelformulierungen gewonnen.
Diese Dissertation bietet tiefe Einblicke in zwei Schlüsseltechnologien der Biofabrikation. Zukünftige Arbeiten könnten diese zu hybriden Methoden für die Herstellung vaskularisierter Konstrukte zusammenführen und dabei die Präzision von MEW mit fein abgestimmten Biotinteneigenschaften im automatisierten Extrusionsbioprinting kombinieren.
|
44 |
From Small to Large Data: Leveraging Synthetic Data for Inventory Management / Von kleinen zu großen Daten: Die Nutzung von synthetischen Daten für das Bestandsmanagementde Graaf [geb. Buttler], Simone Linda January 2024 (has links) (PDF)
In a world of constant change, uncertainty has become a daily challenge for businesses. Rapidly shifting market conditions highlight the need for flexible responses to unforeseen events. Operations Management (OM) is crucial for optimizing business processes, including site planning, production control, and inventory management. Traditionally, companies have relied on theoretical models from microeconomics, game theory, optimization, and simulation. However, advancements in machine learning and mathematical optimization have led to a new research field: data-driven OM.
Data-driven OM uses real data, especially time series data, to create more realistic models that better capture decision-making complexities. Despite the promise of this new research area, a significant challenge remains: the availability of extensive historical training data. Synthetic data, which mimics real data, has been used to address this issue in other machine learning applications.
Therefore, this dissertation explores how synthetic data can be leveraged to improve decisions for data-driven inventory management, focusing on the single-period newsvendor problem, a classic stochastic optimization problem in inventory management.
The first article, "A Meta Analysis of Data-Driven Newsvendor Approaches", presents a standardized evaluation framework for data-driven prescriptive approaches, tested through a numerical study. Findings suggest model performance is not robust, emphasizing the need for a standardized evaluation process.
The second article, "Application of Generative Adversarial Networks in Inventory Management", examines using synthetic data generated by Generative Adversarial Networks (GANs) for the newsvendor problem. This study shows GANs can model complex demand relationships, offering a promising alternative to traditional methods.
The third article, "Combining Synthetic Data and Transfer Learning for Deep Reinforcement Learning in Inventory Management", proposes a method using Deep Reinforcement Learning (DRL) with synthetic and real data through transfer learning. This approach trains a generative model to learn demand distributions, generates synthetic data, and fine-tunes a DRL agent on a smaller real dataset. This method outperforms traditional approaches in controlled and practical settings, though further research is needed to generalize these findings. / In einer Welt des ständigen Wandels ist Unsicherheit zu einer alltäglichen Herausforderung für Unternehmen geworden. Die Covid-19-Pandemie hat deutlich gezeigt, wie schnell sich Marktumfelder verändern können und wie wichtig es ist, flexibel auf unvorhersehbare Ereignisse zu reagieren. In diesem komplexen Entscheidungsumfeld spielt das Operations Management (OM) eine entscheidende Rolle. Das Ziel des OM besteht darin, die Geschäftsprozesse von Unternehmen zu optimieren. Von der Standortplanung über die Produktionssteuerung bis hin zum Bestandsmanagement —OM befasst sich mit den strategischen und operativen Entscheidungen, die erforderlich sind, um den betrieblichen Erfolg sicherzustellen. Traditionell haben Unternehmen bei der Entscheidungsfindung theoretische Modelle aus Bereichen wie Mikroökonomie, Spieltheorie, Optimierung und Simulation genutzt (Mišić und Perakis, 2020). Doch angesichts der Fortschritte im Bereich des maschinellen Lernens und der mathematischen Optimierung der letzten Jahre eröffnete sich ein neues Forschungsgebiet: das datengetriebene OM. Im datengetriebenen OM werden reale Daten, insbesondere Zeitreihendaten, herangezogen, um realistischere Modelle zu entwickeln, welche die Komplexität der Entscheidungsfindung besser erfassen können. Diese Daten können wertvolle Einblicke in vergangene Kundennachfrage und relevante Einflussfaktoren, wie Wetterbedingungen oder Börsentrends, liefern. Durch die Kombination von realen Daten mit Optimierungs- und maschinellen Lernverfahren können Unternehmen fundiertere und präzisere Entscheidungen treffen. Jedoch besteht im Rahmen dieses neuen Forschungsgebiets eine Herausforderung: Studien haben gezeigt, dass einige Modelle optimale Lösungen liefern können, wenn diese eine umfangreiche Menge historischer Trainingsdaten zur Verfügung haben. Jedoch sieht die Realität häufig anders aus. Insbesondere in Teildisziplinen des OM, wie dem Kapazitäts- oder Bestandsmanagement, existiert häufig nur eine begrenzte Anzahl von historischen Beobachtungen, da Entscheidungen über den Einsatz von Ressourcen oder die Auffüllung des Bestands hier nicht in Echtzeit getroffen werden, sondern täglich, wöchentlich oder sogar nur monatlich stattfinden. In anderen Anwendungsbereichen des maschinellen Lernens, in denen die Verfügbarkeit von Daten zum Trainieren von Modellen ebenfalls ein Problem darstellt, hat man damit begonnen, reale Daten durch synthetische Daten zu ergänzen oder sogar zu ersetzen. Synthetische Daten sind künstlich generierte Daten, die die Eigenschaften und Muster realer Daten nachahmen. Neuste Ansätze zur Generierung synthetischer Daten haben zum Ziel, den Entstehungsprozess echter Daten nachzuahmen. Das Verständnis des Entstehungsprozesses von Daten ist auch deshalb so wichtig, weil er kausale Zusammenhänge aufzeigen kann, die es ermöglichen, universellere Modelle zu entwickeln. Verstehen wir beispielsweise den Entstehungsprozess von Nachfragedaten für Bäckereiprodukte, kann dieses Wissen bei jeder Bäckerei der Welt angewandt werden, um beispielsweise die Menge der zu backenden Brötchen zu optimieren. Diese Dissertation untersucht in drei inhaltlich abgeschlossenen Teilen, wie synthetische Daten genutzt werden können, um Trainingsdaten im Bereich des OM anzureichern und dadurch datengetriebene Modelle zur Entscheidungsunterstützung zu verbessern. Der Fokus liegt dabei auf dem Zeitungsjungenproblem, einem klassischen Problem der Bestandsplanung. Hierbei handelt es sich um ein einperiodiges Planungsproblem, bei dem es gilt, die optimale Bestellmenge zu ermitteln, sodass der Gewinn maximiert wird. Dabei muss berücksichtigt werden, dass unverkaufte Produkte am Ende des Tages einen Verlust bedeuten, aber auch ein zu schneller Ausverkauf potenzielle Einnahmen verpassen lässt. Der erste Artikel, „A Meta Analysis of Data-Driven Newsvendor Approaches“, Kapitel 2, dient als Vorstudie zur Verwendung synthetischer Daten. Obwohl bisher in der Literatur mehrere datengetriebene, präskripviii tive Ansätze vorgeschlagen wurden, ist es unklar, wie diese im Vergleich zueinander abschneiden. In dem Artikel wird ein reproduzierbares und einheitliches Bewertungsverfahren für datengetriebene, präskriptive Ansätze präsentiert. Das vorgestellte Bewertungsverfahren kann sowohl von Praktikern zur Modellauswahl als auch von Forschern zum Benchmarking neuer Ansätze verwendet werden. In diesem Artikel wird es in einer umfangreichen numerischen Studie verwendet, die mit einem großen und heterogenen Datensatz durchgeführt wird. Teil dieser Studie ist eine Robustheitsanalyse, um den Einfluss verschiedener Problemparameter zu bewerten, die die Leistung des Modells potenziell beeinflussen können, wie z.B. Eigenschaften des Datensatzes oder des zu lösenden Planungsproblems. Die Ergebnisse deuten darauf hin, dass die Leistung der evaluierten Modelle wenig robust ist und das zu verwendende Modell auf der Grundlage eines standardisierten Evaluierungsprozesses ausgewählt werden sollte, um bestmögliche Ergebnisse zu gewährleisten. Im zweiten Artikel, „Application of Generative Adversarial Networks in Inventory Management“, Kapitel 3, wird die Verwendung synthetischer Daten, die durch Generative Adversarial Networks (GANs) erzeugt wurden, zur Lösung des Zeitungsjungenproblems untersucht. Der Einsatz datengetriebener, präskriptiver Verfahren hat zu einem wachsenden Bedarf an relevanten Trainingsdaten geführt, insbesondere wenn zusätzliche Informationen (Features) eingebunden werden. Daraus ergibt sich ein Bedarf an Techniken, die komplexe Beziehungen zwischen Nachfrage und Zusatzinformationen modellieren können und mit denen große Mengen synthetischer Daten erzeugt werden können. In diesem Artikel wird gezeigt, wie solche synthetischen Daten mit Hilfe von GANs - einem Ansatz des Deep Learning - erzeugt werden können. Da die Leistung von GANs häufig instabil ist, wird eine Selektionsstrategie als Vorstufe zur Anwendung der GAN-generierten Daten im Planungsproblem entwickelt. In numerischen Experimenten wird der vorgeschlagene Ansatz im Praxiskontext einer Bäckereikette angewandt und unter Variation verschiedener Experimentparameter untersucht. Er wird mit traditionelleren Ansätzen, wie dem Distribution Fitting und der Sample Average Approximation (SAA), verglichen. Die Ergebnisse legen nahe, dass die Anwendung von GANs eine vielversprechende Alternative zu diesen traditionellen Ansätzen darstellt. Im dritten Artikel, „Combining Synthetic Data and Transfer Learning for Deep Reinforcement Learning in Inventory Management“, Kapitel 4, wird ein neuartiges, auf Deep Reinforcement Learning (DRL) basierendes Verfahren vorgeschlagen, das synthetische und reale Daten mittels Transfer Learning kombiniert, um OM-Entscheidungsprobleme zu lösen. Die Anwendung von DRL verspricht größere Flexibilität in der Problemdefinition als traditionellere, präskriptive Ansätze. Allerdings erfordert es auch große Mengen an Trainingsdaten. In diesem Artikel wird ein zweistufiges Verfahren vorgeschlagen, um mit weniger echten Trainingsdaten auszukommen. Zunächst wird ein generatives Modell trainiert, um die unbekannte gemeinsame Verteilung von Nachfrage und Features zu lernen. Dieses wird genutzt, um zusätzliche synthetische Trainingsdaten zu generieren. In einem zweiten Schritt wird ein DRL-Agent mit Hilfe des Transfer Learnings trainiert, wobei der DRL-Agent zunächst auf den synthetischen Daten vortrainiert wird und dann ein Feintuning auf der Grundlage eines kleineren realen Datensatzes erfolgt. Dieser Artikel evaluiert das vorgeschlagene Verfahren für ein Zeitungsjungenproblem in zwei verschiedenen numerischen Studiensettings. In dem kontrollierten Studiensetting ist die Verteilung der Daten bekannt, wodurch ein erster Schritt gemacht wird, zu verstehen, was die Leistung des vorgeschlagenen Verfahrens beeinflusst, z.B. die Qualität der generierten synthetischen Daten. Im Praxissetting, in dem die gemeinsame Verteilung der Daten unbekannt ist, wird das vorgeschlagene Verfahren auf Daten einer lokalen Bäckereikette angewandt. In beiden Fällen übertrifft das vorgeschlagene Verfahren die traditionelle präskriptive Methode. Es ist jedoch weitere Forschung erforderlich, um die Generalisierbarkeit dieser Ergebnisse zu beweisen. Insgesamt zeigen die Ergebnisse dieser Dissertation, dass der Einsatz von synthetischen Daten Potential hat, Praxisanwendungen des maschinellen Lernens zu unterstützen. Die untersuchte Methode der Datengenerierung mit GANs ermöglicht die Modellierung komplexer Zusammenhänge in den Daten und unterstützt damit selbst die Anwendung von datenhungrigen Verfahren, wie DRL, zur Lösung von Planungsproblemen. Die Wahl eines guten GAN-Modells ist jedoch mit hohem Aufwand verbunden, sodass Kosten und Nutzen synthetischer Daten bei jeder Anwendung abgewogen werden sollten. Weitere Forschung ist notwendig, um die Generalisierbarkeit der Ergebnisse zu gewährleisten.
|
45 |
Learning Vector Symbolic Architectures for Reactive Robot BehavioursNeubert, Peer, Schubert, Stefan, Protzel, Peter 08 August 2017 (has links) (PDF)
Vector Symbolic Architectures (VSA) combine a hypervector space and a set of operations on these vectors. Hypervectors provide powerful and noise-robust representations and VSAs are associated with promising theoretical properties for approaching high-level cognitive tasks. However, a major drawback of VSAs is the lack of opportunities to learn them from training data. Their power is merely an effect of good (and elaborate) design rather than learning. We exploit high-level knowledge about the structure of reactive robot problems to learn a VSA based on training data. We demonstrate preliminary results on a simple navigation task. Given a successful demonstration of a navigation run by pairs of sensor input and actuator output, the system learns a single hypervector that encodes this reactive behaviour. When executing (and combining) such VSA-based behaviours, the advantages of hypervectors (i.e. the representational power and robustness to noise) are preserved. Moreover, a particular beauty of this approach is that it can learn encodings for behaviours that have exactly the same form (a hypervector) no matter how complex the sensor input or the behaviours are.
|
46 |
Automatisierte Verfahren für die Themenanalyse nachrichtenorientierter TextquellenNiekler, Andreas 20 January 2016 (has links) (PDF)
Im Bereich der medienwissenschaftlichen Inhaltsanalyse stellt die Themenanalyse
einen wichtigen Bestandteil dar. Für die Analyse großer digitaler Textbestände hin-
sichtlich thematischer Strukturen ist es deshalb wichtig, das Potential automatisierter
computergestützter Methoden zu untersuchen. Dabei müssen die methodischen und
analytischen Anforderungen der Inhaltsanalyse beachtet und abgebildet werden, wel-
che auch für die Themenanalyse gelten. In dieser Arbeit werden die Möglichkeiten der
Automatisierung der Themenanalyse und deren Anwendungsperspektiven untersucht.
Dabei wird auf theoretische und methodische Grundlagen der Inhaltsanalyse und auf
linguistische Theorien zu Themenstrukturen zurückgegriffen,um Anforderungen an ei-
ne automatische Analyse abzuleiten. Den wesentlichen Beitrag stellt die Untersuchung
der Potentiale und Werkzeuge aus den Bereichen des Data- und Text-Mining dar, die
für die inhaltsanalytische Arbeit in Textdatenbanken hilfreich und gewinnbringend
eingesetzt werden können. Weiterhin wird eine exemplarische Analyse durchgeführt,
um die Anwendbarkeit automatischer Methoden für Themenanalysen zu zeigen. Die
Arbeit demonstriert auch Möglichkeiten der Nutzung interaktiver Oberflächen, formu-
liert die Idee und Umsetzung einer geeigneten Software und zeigt die Anwendung eines
möglichen Arbeitsablaufs für die Themenanalyse auf. Die Darstellung der Potentiale
automatisierter Themenuntersuchungen in großen digitalen Textkollektionen in dieser
Arbeit leistet einen Beitrag zur Erforschung der automatisierten Inhaltsanalyse.
Ausgehend von den Anforderungen, die an eine Themenanalyse gestellt werden,
zeigt diese Arbeit, mit welchen Methoden und Automatismen des Text-Mining diesen
Anforderungen nahe gekommen werden kann. Zusammenfassend sind zwei Anforde-
rungen herauszuheben, deren jeweilige Erfüllung die andere beeinflusst. Zum einen
ist eine schnelle thematische Erfassung der Themen in einer komplexen Dokument-
sammlung gefordert, um deren inhaltliche Struktur abzubilden und um Themen
kontrastieren zu können. Zum anderen müssen die Themen in einem ausreichenden
Detailgrad abbildbar sein, sodass eine Analyse des Sinns und der Bedeutung der The-
meninhalte möglich ist. Beide Ansätze haben eine methodische Verankerung in den
quantitativen und qualitativen Ansätzen der Inhaltsanalyse. Die Arbeit diskutiert
diese Parallelen und setzt automatische Verfahren und Algorithmen mit den Anforde-
rungen in Beziehung. Es können Methoden aufgezeigt werden, die eine semantische
und damit thematische Trennung der Daten erlauben und einen abstrahierten Über-
blick über große Dokumentmengen schaffen. Dies sind Verfahren wie Topic-Modelle
oder clusternde Verfahren. Mit Hilfe dieser Algorithmen ist es möglich, thematisch
kohärente Untermengen in Dokumentkollektion zu erzeugen und deren thematischen
Gehalt für Zusammenfassungen bereitzustellen. Es wird gezeigt, dass die Themen
trotz der distanzierten Betrachtung unterscheidbar sind und deren Häufigkeiten und
Verteilungen in einer Textkollektion diachron dargestellt werden können. Diese Auf-
bereitung der Daten erlaubt die Analyse von thematischen Trends oder die Selektion
bestimmter thematischer Aspekte aus einer Fülle von Dokumenten. Diachrone Be-
trachtungen thematisch kohärenter Dokumentmengen werden dadurch möglich und
die temporären Häufigkeiten von Themen können analysiert werden. Für die detaillier-
te Interpretation und Zusammenfassung von Themen müssen weitere Darstellungen
und Informationen aus den Inhalten zu den Themen erstellt werden. Es kann gezeigt
werden, dass Bedeutungen, Aussagen und Kontexte über eine Kookurrenzanalyse
im Themenkontext stehender Dokumente sichtbar gemacht werden können. In einer
Anwendungsform, welche die Leserichtung und Wortarten beachtet, können häufig
auftretende Wortfolgen oder Aussagen innerhalb einer Thematisierung statistisch
erfasst werden. Die so generierten Phrasen können zur Definition von Kategorien
eingesetzt werden oder mit anderen Themen, Publikationen oder theoretischen An-
nahmen kontrastiert werden. Zudem sind diachrone Analysen einzelner Wörter, von
Wortgruppen oder von Eigennamen in einem Thema geeignet, um Themenphasen,
Schlüsselbegriffe oder Nachrichtenfaktoren zu identifizieren. Die so gewonnenen Infor-
mationen können mit einem „close-reading“ thematisch relevanter Dokumente ergänzt
werden, was durch die thematische Trennung der Dokumentmengen möglich ist. Über
diese methodischen Perspektiven hinaus lassen sich die automatisierten Analysen
als empirische Messinstrumente im Kontext weiterer hier nicht besprochener kommu-
nikationswissenschaftlicher Theorien einsetzen. Des Weiteren zeigt die Arbeit, dass
grafische Oberflächen und Software-Frameworks für die Bearbeitung von automatisier-
ten Themenanalysen realisierbar und praktikabel einsetzbar sind. Insofern zeigen die
Ausführungen, wie die besprochenen Lösungen und Ansätze in die Praxis überführt
werden können.
Wesentliche Beiträge liefert die Arbeit für die Erforschung der automatisierten
Inhaltsanalyse. Die Arbeit dokumentiert vor allem die wissenschaftliche Auseinan-
dersetzung mit automatisierten Themenanalysen. Während der Arbeit an diesem
Thema wurden vom Autor geeignete Vorgehensweisen entwickelt, wie Verfahren des
Text-Mining in der Praxis für Inhaltsanalysen einzusetzen sind. Unter anderem wur-
den Beiträge zur Visualisierung und einfachen Benutzung unterschiedlicher Verfahren
geleistet. Verfahren aus dem Bereich des Topic Modelling, des Clustering und der
Kookkurrenzanalyse mussten angepasst werden, sodass deren Anwendung in inhalts-
analytischen Anwendungen möglich ist. Weitere Beiträge entstanden im Rahmen der
methodologischen Einordnung der computergestützten Themenanalyse und in der
Definition innovativer Anwendungen in diesem Bereich. Die für die vorliegende Arbeit
durchgeführte Experimente und Untersuchungen wurden komplett in einer eigens ent-
wickelten Software durchgeführt, die auch in anderen Projekten erfolgreich eingesetzt
wird. Um dieses System herum wurden Verarbeitungsketten,Datenhaltung,Visualisie-
rung, grafische Oberflächen, Möglichkeiten der Dateninteraktion, maschinelle Lernver-
fahren und Komponenten für das Dokumentretrieval implementiert. Dadurch werden
die komplexen Methoden und Verfahren für die automatische Themenanalyse einfach
anwendbar und sind für künftige Projekte und Analysen benutzerfreundlich verfüg-
bar. Sozialwissenschaftler,Politikwissenschaftler oder Kommunikationswissenschaftler
können mit der Softwareumgebung arbeiten und Inhaltsanalysen durchführen, ohne
die Details der Automatisierung und der Computerunterstützung durchdringen zu
müssen.
|
47 |
Benchmarking Support Vector MachinesMeyer, David, Leisch, Friedrich, Hornik, Kurt January 2002 (has links) (PDF)
Support Vector Machines (SVMs) are rarely benchmarked against other classification or regression methods. We compare a popular SVM implementation (libsvm) to 16 classification methods and 9 regression methods-all accessible through the software R-by the means of standard performance measures (classification error and mean squared error) which are also analyzed by the means of bias-variance decompositions. SVMs showed mostly good performances both on classification and regression tasks, but other methods proved to be very competitive. / Series: Report Series SFB "Adaptive Information Systems and Modelling in Economics and Management Science"
|
48 |
Online-Unterschriftenverifikation basierend auf Methoden des Maschinellen Lernens /Gruber, Christian. January 2009 (has links)
Zugl.: Passau, Universiẗat, Diss., 2009.
|
49 |
The problem of tuning metaheuristics as seen from the machine learning perspectiveBirattari, Mauro January 2005 (has links)
Zugl.: Brüssel, Univ., Diss., 2005
|
50 |
Kernel methods in chemo- and bioinformaticsFröhlich, Holger January 2006 (has links)
Zugl.: Tübingen, Universität, Diss., 2006
|
Page generated in 0.0824 seconds