• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 240
  • 96
  • 14
  • 2
  • Tagged with
  • 351
  • 304
  • 229
  • 188
  • 181
  • 141
  • 130
  • 130
  • 76
  • 53
  • 42
  • 37
  • 36
  • 35
  • 33
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Prediction of Tool Recipe Runtimes in Semiconductor Manufacturing

Sadek, Karim 25 January 2022 (has links)
To improve throughput, due date adherence, or tool usage in semiconductor manufacturing, it is crucial to model the duration of individual processes such as coating, diffusion, or etching. Equipped with such data, production planning can develop dispatch schemes and schedules for optimized material routing. However, just a few tools indicate how long a process will take. Many variables affect the runtime of tool recipes that are used to realize processes. These variables include wafer processing mode, historical context, batch size, and job handling. In this thesis, a model that allows inferring tool recipe runtimes with adequate accuracy shall be developed. Firstly, predictive models shall be built for selected tools with known runtime behavior to establish a baseline for the methodology. Tools will be selected to cover a broad spectrum of processing modalities. The main predictors will be revealed using variable importance analysis. Furthermore, the analysis shall reveal under which conditions recipe runtime modeling is most accurate. Secondly, a generic approach shall be created to model recipe runtime. By accounting for tool, process, and material context, methods would be investigated from feature selection and automatic model selection. Finally, a pipeline for data cleansing, feature engineering, model building, and metrics will be developed using historical data from a wide range of factory data sources. Finally, a scheme to operationalize the findings shall be outlined. In particular, this requires establishing model serving to enable consumption in applications such as dispatching or operator interfaces.
152

Advanced Analytics in Operations Management and Information Systems: Methods and Applications / Advanced Analytics im Operations Management und Information Systems: Methoden und Anwendungen

Stein, Nikolai Werner January 2019 (has links) (PDF)
Die digitale Transformation der Gesellschaft birgt enorme Potenziale für Unternehmen aus allen Sektoren. Diese verfügen aufgrund neuer Datenquellen, wachsender Rechenleistung und verbesserter Konnektivität über rasant steigende Datenmengen. Um im digitalen Wandel zu bestehen und Wettbewerbsvorteile in Bezug auf Effizienz und Effektivität heben zu können müssen Unternehmen die verfügbaren Daten nutzen und datengetriebene Entscheidungsprozesse etablieren. Dennoch verwendet die Mehrheit der Firmen lediglich Tools aus dem Bereich „descriptive analytics“ und nur ein kleiner Teil der Unternehmen macht bereits heute von den Möglichkeiten der „predictive analytics“ und „prescriptive analytics“ Gebrauch. Ziel dieser Dissertation, die aus vier inhaltlich abgeschlossenen Teilen besteht, ist es, Einsatzmöglichkeiten von „prescriptive analytics“ zu identifizieren. Da prädiktive Modelle eine wesentliche Voraussetzung für „prescriptive analytics“ sind, thematisieren die ersten beiden Teile dieser Arbeit Verfahren aus dem Bereich „predictive analytics.“ Ausgehend von Verfahren des maschinellen Lernens wird zunächst die Entwicklung eines prädiktiven Modells am Beispiel der Kapazitäts- und Personalplanung bei einem IT-Beratungsunternehmen veranschaulicht. Im Anschluss wird eine Toolbox für Data Science Anwendungen entwickelt. Diese stellt Entscheidungsträgern Richtlinien und bewährte Verfahren für die Modellierung, das Feature Engineering und die Modellinterpretation zur Verfügung. Der Einsatz der Toolbox wird am Beispiel von Daten eines großen deutschen Industrieunternehmens veranschaulicht. Verbesserten Prognosen, die von leistungsfähigen Vorhersagemodellen bereitgestellt werden, erlauben es Entscheidungsträgern in einigen Situationen bessere Entscheidungen zu treffen und auf diese Weise einen Mehrwert zu generieren. In vielen komplexen Entscheidungssituationen ist die Ableitungen von besseren Politiken aus zur Verfügung stehenden Prognosen jedoch oft nicht trivial und erfordert die Entwicklung neuer Planungsalgorithmen. Aus diesem Grund fokussieren sich die letzten beiden Teile dieser Arbeit auf Verfahren aus dem Bereich „prescriptive analytics“. Hierzu wird zunächst analysiert, wie die Vorhersagen prädiktiver Modelle in präskriptive Politiken zur Lösung eines „Optimal Searcher Path Problem“ übersetzt werden können. Trotz beeindruckender Fortschritte in der Forschung im Bereich künstlicher Intelligenz sind die Vorhersagen prädiktiver Modelle auch heute noch mit einer gewissen Unsicherheit behaftet. Der letzte Teil dieser Arbeit schlägt einen präskriptiven Ansatz vor, der diese Unsicherheit berücksichtigt. Insbesondere wird ein datengetriebenes Verfahren für die Einsatzplanung im Außendienst entwickelt. Dieser Ansatz integriert Vorhersagen bezüglich der Erfolgswahrscheinlichkeiten und die Modellqualität des entsprechenden Vorhersagemodells in ein „Team Orienteering Problem.“ / The digital transformation of business and society presents enormous potentials for companies across all sectors. Fueled by massive advances in data generation, computing power, and connectivity, modern organizations have access to gigantic amounts of data. Companies seek to establish data-driven decision cultures to leverage competitive advantages in terms of efficiency and effectiveness. While most companies focus on descriptive tools such as reporting, dashboards, and advanced visualization, only a small fraction already leverages advanced analytics (i.e., predictive and prescriptive analytics) to foster data-driven decision-making today. Therefore, this thesis set out to investigate potential opportunities to leverage prescriptive analytics in four different independent parts. As predictive models are an essential prerequisite for prescriptive analytics, the first two parts of this work focus on predictive analytics. Building on state-of-the-art machine learning techniques, we showcase the development of a predictive model in the context of capacity planning and staffing at an IT consulting company. Subsequently, we focus on predictive analytics applications in the manufacturing sector. More specifically, we present a data science toolbox providing guidelines and best practices for modeling, feature engineering, and model interpretation to manufacturing decision-makers. We showcase the application of this toolbox on a large data-set from a German manufacturing company. Merely using the improved forecasts provided by powerful predictive models enables decision-makers to generate additional business value in some situations. However, many complex tasks require elaborate operational planning procedures. Here, transforming additional information into valuable actions requires new planning algorithms. Therefore, the latter two parts of this thesis focus on prescriptive analytics. To this end, we analyze how prescriptive analytics can be utilized to determine policies for an optimal searcher path problem based on predictive models. While rapid advances in artificial intelligence research boost the predictive power of machine learning models, a model uncertainty remains in most settings. The last part of this work proposes a prescriptive approach that accounts for the fact that predictions are imperfect and that the arising uncertainty needs to be considered. More specifically, it presents a data-driven approach to sales-force scheduling. Based on a large data set, a model to predictive the benefit of additional sales effort is trained. Subsequently, the predictions, as well as the prediction quality, are embedded into the underlying team orienteering problem to determine optimized schedules.
153

Methods for the state estimation of lithium-ion batteries / Methoden zur Zustandserkennung von Lithium-Ionen-Batterien

Gold, Lukas January 2023 (has links) (PDF)
This work introduced the reader to all relevant fields to tap into an ultrasound-based state of charge estimation and provides a blueprint for the procedure to achieve and test the fundamentals of such an approach. It spanned from an in-depth electrochemical characterization of the studied battery cells over establishing the measurement technique, digital processing of ultrasonic transmission signals, and characterization of the SoC dependent property changes of those signals to a proof of concept of an ultrasound-based state of charge estimation. The State of the art & theoretical background chapter focused on the battery section on the mechanical property changes of lithium-ion batteries during operation. The components and the processes involved to manufacture a battery cell were described to establish the fundamentals for later interrogation. A comprehensive summary of methods for state estimation was given and an emphasis was laid on mechanical methods, including a critical review of the most recent research on ultrasound-based state estimation. Afterward, the fundamentals of ultrasonic non-destructive evaluation were introduced, starting with the sound propagation modes in isotropic boundary-free media, followed by the introduction of boundaries and non-isotropic structure to finally approach the class of fluid-saturated porous media, which batteries can be counted to. As the processing of the ultrasonic signals transmitted through lithium-ion battery cells with the aim of feature extraction was one of the main goals of this work, the fundamentals of digital signal processing and methods for the time of flight estimation were reviewed and compared in a separate section. All available information on the interrogated battery cell and the instrumentation was collected in the Experimental methods & instrumentation chapter, including a detailed step-by-step manual of the process developed in this work to create and attach a sensor stack for ultrasonic interrogation based on low-cost off-the-shelf piezo elements. The Results & discussion chapter opened with an in-depth electrochemical and post-mortem interrogation to reverse engineer the battery cell design and its internal structure. The combination of inductively coupled plasma-optical emission spectrometry and incremental capacity analysis applied to three-electrode lab cells, constructed from the studied battery cell’s materials, allowed to identify the SoC ranges in which phase transitions and staging occur and thereby directly links changes in the ultrasonic signal properties with the state of the active materials, which makes this work stand out among other studies on ultrasound-based state estimation. Additional dilatometer experiments were able to prove that the measured effect in ultrasonic time of flight cannot originate from the thickness increase of the battery cells alone, as this thickness increase is smaller and in opposite direction to the change in time of flight. Therefore, changes in elastic modulus and density have to be responsible for the observed effect. The construction of the sensor stack from off-the-shelf piezo elements, its electromagnetic shielding, and attachment to both sides of the battery cells was treated in a subsequent section. Experiments verified the necessity of shielding and its negligible influence on the ultrasonic signals. A hypothesis describing the metal layer in the pouch foil to be the transport medium of an electrical coupling/distortion between sending and receiving sensor was formulated and tested. Impedance spectroscopy was shown to be a useful tool to characterize the resonant behavior of piezo elements and ensure the mechanical coupling of such to the surface of the battery cells. The excitation of the piezo elements by a raised cosine (RCn) waveform with varied center frequency in the range of 50 kHz to 250 kHz was studied in the frequency domain and the influence of the resonant behavior, as identified prior by impedance spectroscopy, on waveform and frequency content was evaluated to be uncritical. Therefore, the forced oscillation produced by this excitation was assumed to be mechanically coupled as ultrasonic waves into the battery cells. The ultrasonic waves transmitted through the battery cell were recorded by piezo elements on the opposing side. A first inspection of the raw, unprocessed signals identified the transmission of two main wave packages and allowed the identification of two major trends: the time of flight of ultrasonic wave packages decreases with the center frequency of the RCn waveform, and with state of charge. These trends were to be assessed further in the subsequent sections. Therefore, methods for the extraction of features (properties) from the ultrasonic signals were established, compared, and tested in a dedicated section. Several simple and advanced thresholding methods were compared with envelope-based and cross-correlation methods to estimate the time of flight (ToF). It was demonstrated that the envelope-based method yields the most robust estimate for the first and second wave package. This finding is in accordance with the literature stating that an envelope-based method is best suited for dispersive, absorptive media [204], to which lithium-ion batteries are counted. Respective trends were already suggested by the heatmap plots of the raw signals vs. RCn frequency and SoC. To enable such a robust estimate, an FIR filter had to be designed to preprocess the transmitted signals and thereby attenuate frequency components that verifiably lead to a distorted shape of the envelope. With a robust ToF estimation method selected, the characterization of the signal properties ToF and transmitted energy content (EC) was performed in-depth. A study of cycle-to-cycle variations unveiled that the signal properties are affected by a long rest period and the associated relaxation of the multi-particle system “battery cell” to equilibrium. In detail, during cycling, the signal properties don’t reach the same value at a given SoC in two subsequent cycles if the first of the two cycles follows a long rest period. In accordance with the literature, a break-in period, making up for more than ten cycles post-formation, was observed. During this break-in period, the mechanical properties of the system are said to change until a steady state is reached [25]. Experiments at different C-rate showed that ultrasonic signal properties can sense the non-equilibrium state of a battery cell, characterized by an increasing area between charge and discharge curve of the respective signal property vs. SoC plot. This non-equilibrium state relaxes in the rest period following the discharge after the cut-off voltage is reached. The relaxation in the rest period following the charge is much smaller and shows little C-rate dependency as the state is prepared by constant voltage charging at the end of charge voltage. For a purely statistical SoC estimation approach, as employed in this work, where only instantaneous measurements are taken into account and the historic course of the measurement is not utilized as a source of information, the presence of hysteresis and relaxation leads to a reduced estimation accuracy. Future research should address this issue or even utilize the relaxation to improve the estimation accuracy, by incorporating historic information, e.g., by using the derivative of a signal property as an additional feature. The signal properties were then tested for their correlation with SoC as a function of RCn frequency. This allowed identifying trends in the behavior of the signal properties as a function of RCn frequency and C-rate in a condensed fashion and thereby enabled to predict the frequency range, about 50 kHz to 125 kHz, in which the course of the signal properties is best suited for SoC estimation. The final section provided a proof of concept of the ultrasound-based SoC estimation, by applying a support vector regression (SVR) to before thoroughly studied ultrasonic signal properties, as well as current and battery cell voltage. The included case study was split into different parts that assessed the ability of an SVR to estimate the SoC in a variety of scenarios. Seven battery cells, prepared with sensor stacks attached to both faces, were used to generate 14 datasets. First, a comparison of self-tests, where a portion of a dataset is used for training and another for testing, and cross-tests, which use the dataset of one cell for training and the dataset of another for testing, was performed. A root mean square error (RMSE) of 3.9% to 4.8% SoC and 3.6% to 10.0% SoC was achieved, respectively. In general, it was observed that the SVR is prone to overestimation at low SoCs and underestimation at high SoCs, which was attributed to the pronounced hysteresis and relaxation of the ultrasonic signal properties in this SoC ranges. The fact that higher accuracy is achieved, if the exact cell is known to the model, indicates that a variation between cells exists. This variation between cells can originate from differences in mechanical properties as a result of production variations or from differences in manual sensor placement, mechanical coupling, or resonant behavior of the ultrasonic sensors. To mitigate the effect of the cell-to-cell variations, a test was performed, where the datasets of six out of the seven cells were combined as training data, and the dataset of the seventh cell was used for testing. This reduced the spread of the RMSE from (3.6 - 10.0)% SoC to (5.9 – 8.5)% SoC, respectively, once again stating that a databased approach for state estimation becomes more reliable with a large data basis. Utilizing self-tests on seven datasets, the effect of additional features on the state estimation result was tested. The involvement of an additional feature did not necessarily improve the estimation accuracy, but it was shown that a combination of ultrasonic and electrical features is superior to the training with these features alone. To test the ability of the model to estimate the SoC in unknown cycling conditions, a test was performed where the C-rate of the test dataset was not included in the training data. The result suggests that for practical applications it might be sufficient to perform training with the boundary of the use cases in a controlled laboratory environment to handle the estimation in a broad spectrum of use cases. In comparison with literature, this study stands out by utilizing and modifying off-the-shelf piezo elements to equip state-of-the-art lithium-ion battery cells with ultrasonic sensors, employing a range of center frequencies for the waveform, transmitted through the battery cell, instead of a fixed frequency and by allowing the SVR to choose the frequency that yields the best result. The characterization of the ultrasonic signal properties as a function of RCn frequency and SoC and the assignment of characteristic changes in the signal properties to electrochemical processes, such as phase transitions and staging, makes this work unique. By studying a range of use cases, it was demonstrated that an improved SoC estimation accuracy can be achieved with the aid of ultrasonic measurements – thanks to the correlation of the mechanical properties of the battery cells with the SoC. / Diese Arbeit bot dem Leser eine Einführung in alle Bereiche an, die relevant sind um eine ultraschallbasierte Ladungszustandsbestimmung (Ladezustand – engl.: state of charge, SoC) umzusetzen, und zeigt einen Weg auf, wie ein solcher Ansatz in seinen Grundlagen geprüft und umgesetzt werden kann. Hierzu wurde ein Bogen gespannt von einer eingehenden elektrochemischen Charakterisierung der untersuchten Batteriezellen über die Etablierung der Messtechnik, die digitale Verarbeitung von Ultraschalltransmissionssignalen und die Charakterisierung der Ladezustands-abhängigen Eigenschaftsänderungen dieser Signale bis hin zu einem Proof-of-Concept für eine ultraschallbasierte Ladezustandsbestimmung. Das Kapitel „State of the art & theoretical background“ konzentrierte sich in einem Abschnitt über Batterien auf die Veränderungen der physikalischen Eigenschaften von Lithium-Ionen-Batterien während des Betriebs und der Alterung. Um die Grundlage für die spätere Untersuchung zu schaffen, wurden die Komponenten und die Prozesse zur Herstellung einer Batteriezelle beschrieben. Anschließend wurde ein umfassender Überblick über die Methoden zur Zustandsschätzung gegeben, wobei der Schwerpunkt auf den mechanischen Methoden lag, einschließlich einer kritischen Zusammenstellung der neuesten Forschungsergebnisse zur ultraschallbasierten Zustandsbestimmung. Danach wurden die Grundlagen der zerstörungsfreien Bewertung mit Ultraschall vorgestellt, beginnend mit den Schallausbreitungsmoden in isotropen, unbegrenzten Medien, gefolgt von der Einführung von Grenzen und nicht-isotropen Strukturen, um sich schließlich der Klasse der flüssigkeitsgesättigten porösen Medien zu nähern, zu denen Batterien gezählt werden können. Da die Verarbeitung der durch die Lithium-Ionen-Batteriezellen übertragenen Ultraschallsignale mit dem Ziel der Merkmalsextraktion eines der Hauptziele dieser Arbeit war, wurden die Grundlagen der digitalen Signalverarbeitung und Methoden zur Laufzeitschätzung in einem eigenen Abschnitt behandelt und verglichen. Alle verfügbaren Informationen über die abgefragte Batteriezelle und die verwendeten Messgeräte wurden im Kapitel „Experimental methods & instrumentation“ zusammengestellt, einschließlich einer detaillierten Schritt-für-Schritt-Anleitung des in dieser Arbeit entwickelten Verfahrens zur Erstellung und Anbringung einer Sensoranordnung für die Ultraschallprüfung auf der Grundlage kostengünstiger, handelsüblicher Piezoelemente. Das Kapitel „Results & discussion“ begann mit einer eingehenden elektrochemischen und Post-Mortem-Untersuchung, um das Design der Batteriezelle und ihre interne Struktur zu untersuchen. Durch die Kombination von induktiv gekoppelter Plasma-optischer Emissionsspektrometrie und inkrementeller Kapazitätsanalyse an Drei-Elektroden-Laborzellen, die aus den Materialien der untersuchten Batteriezelle konstruiert wurden, konnten die SoC-Bereiche identifiziert werden, in denen Phasenübergänge auftreten, wodurch Änderungen der Ultraschallsignaleigenschaften direkt mit dem Zustand der Aktivmaterialien verknüpft werden, was diese Arbeit unter anderen Studien zur ultraschallbasierten Zustandsschätzung hervorhebt. Durch zusätzliche Dilatometer-experimente konnte nachgewiesen werden, dass der gemessene Effekt in der Ultraschalllaufzeit nicht allein von der Volumenänderung der Batteriezellen herrühren kann, da diese Volumenänderung kleiner ist und in die Gegenrichtung zur Änderung der Laufzeit verläuft. Entsprechend müssen Änderungen in E-Modul und Dichte der Aktivmaterialien für den beobachteten Effekt verantwortlich sein. Der Aufbau der Sensoranordnung aus handelsüblichen Piezoelementen, seine elektromagnetische Abschirmung und die Befestigung an beiden Seiten der Batteriezellen wurden in einem späteren Abschnitt behandelt. Experimente bestätigten die Notwendigkeit dieser Abschirmung und ihren vernachlässigbaren Einfluss auf die Ultraschallsignale. Es wurde eine Hypothese formuliert, die die Metallschicht in der Pouch-Folie als Transportmedium einer elektrischen Kopplung/Übersprechens zwischen Sende- und Empfangssensor beschreibt. Die Impedanzspektroskopie erwies sich als nützliches Werkzeug zur Charakterisierung des Resonanzverhaltens der Piezoelemente und zur Sicherstellung der mechanischen Kopplung dieser Elemente mit der Oberfläche der Batteriezellen. Die Anregung der Piezoelemente durch eine Raised-Cosine-Wellenform (RCn) mit variierter Mittenfrequenz im Bereich von 50 kHz bis 250 kHz wurde mittels Fourier-Transformation im Frequenzraum untersucht. Der Einfluss des Resonanzverhaltens, welches zuvor durch die Impedanzspektroskopie ermittelt wurde, auf die Wellenform und den Frequenzinhalt wurde als unkritisch bewertet. Daher wurde angenommen, dass die durch die RCn Anregung erzeugte erzwungene Schwingung mechanisch als Ultraschallwellen in die Batteriezellen eingekoppelt wird. Die durch die Batteriezelle transmittierten Ultraschallwellen wurden von Piezoelementen auf der gegenüberliegenden Seite aufgezeichnet. Eine erste Prüfung der rohen, unverarbeiteten Signale ergab die Übertragung von zwei Hauptwellenpaketen und ermöglichte die Identifizierung von zwei Haupttrends: Die Laufzeit der Ultraschallwellenpakete nimmt mit der Mittenfrequenz, der RCn-Wellenform und mit dem Ladezustand ab. Diese Trends sollten in den folgenden Abschnitten weiter bewertet werden. Daher wurden in einem eigenen Abschnitt Methoden zur Extraktion von Merkmalen (Eigenschaften) aus den Ultraschallsignalen implementiert, verglichen und getestet. Mehrere einfache und fortgeschrittene Schwellenwertverfahren wurden mit hüllkurvenbasierten und Kreuzkorrelationsverfahren zur Schätzung der Laufzeit (engl.: „time of flight“, ToF) verglichen. Es wurde gezeigt, dass die hüllkurvenbasierte Methode die stabilste Schätzung für das erste und zweite Wellenpaket liefert. Dieses Ergebnis steht im Einklang mit der Literatur, die beschreibt, dass eine hüllkurvenbasierte Methode am besten für dispersive, absorbierende Medien [234], wie z. B. Lithium-Ionen-Batterien, geeignet ist, was bereits durch die Heatmap-Diagramme der Rohsignale aufgetragen gegen RCn-Frequenz und SoC suggeriert wurde. Um eine solche robuste Laufzeit-Schätzung zu ermöglichen, musste ein FIR-Filter implementiert werden, der die übertragenen Signale vorverarbeitet und dabei Frequenzkomponenten abschwächt, die nachweislich zu einer verzerrten Form der Hüllkurve führen. Nach der Auswahl einer robusten Methode zur ToF-Schätzung die Signaleigenschaften ToF und übertragener Energiegehalt (engl.: energy content, EC) eingehend charakterisiert. Eine Untersuchung der Zyklus-zu-Zyklus-Schwankungen ergab, dass die Signaleigenschaften durch eine lange Ruhephase und die damit verbundene Relaxation des Vielteilchensystems "Batteriezelle" bis zur Erreichung des Gleichgewichtzustands beeinflusst werden. Die Signaleigenschaften erreichten während des Zyklus nicht den gleichen Wert bei einem bestimmten SoC in zwei aufeinanderfolgenden Zyklen, wenn der erste der beiden Zyklen auf eine lange Ruhephase folgte. In Übereinstimmung mit der Literatur wurde eine Einlaufphase (engl.: „break-in period“) beobachtet, die mehr als zehn Zyklen nach der Formierung umfasst. Während dieser Einlaufphase ändern sich die mechanischen Eigenschaften des Systems, bis ein stabiler Zustand erreicht ist [25]. Experimente bei unterschiedlichen C-Raten zeigten, dass die Ultraschallsignaleigenschaften sensitiv für den Nicht-Gleichgewichtszustand einer Batteriezelle sind, der durch eine zunehmende Fläche zwischen der Lade- und Entladekurve der jeweiligen Signaleigenschaft in der Auftragung über SoC gekennzeichnet ist. Dieser Nicht-Gleichgewichtszustand entspannt sich in der Ruhephase nach der Entladung, nachdem die Abschaltspannung erreicht ist. Die Relaxation in der Ruhephase nach dem Laden ist wesentlich geringer und zeigt kaum eine Abhängigkeit von der C-Rate, da der Zustand durch Laden mit konstanter Spannung nach Erreichen der Ladeschlussspannung präpariert wird. Bei einem rein statistischen SoC-Bestimmungsansatz, wie er in dieser Arbeit verwendet wird, bei dem nur instantane Messwerte berücksichtigt werden und die historischen Messwerte nicht als Informationsquelle genutzt wird, führt das Vorhandensein von Hysterese und Relaxation zu einer geringeren Schätzgenauigkeit. Zukünftige Forschungsarbeiten sollten sich mit diesem Problem befassen oder sogar die Relaxation zur Verbesserung der Bestimmungsgenauigkeit nutzen, indem historische Informationen einbezogen werden, z. B. durch Verwendung der Ableitung einer Signaleigenschaft als zusätzliches Merkmal. Die Signaleigenschaften wurden dann auf ihre Korrelation mit SoC als Funktion der RCn-Frequenz getestet. Dies ermöglichte es, Trends innerhalb der Daten in verdichteter Form zu identifizieren und dadurch den Frequenzbereich (etwa 50 kHz bis 125 kHz) vorherzusagen, in dem der Verlauf der Signaleigenschaften am besten für die SoC-Bestimmung geeignet ist. Im letzten Abschnitt wurde ein Proof-of-Concept für die ultraschallbasierte SoC-Schätzung erbracht, indem eine Support-Vektor-Regression (SVR) auf die zuvor eingehend untersuchten Ultraschallsignaleigenschaften sowie auf Strom und Zellspannung der Batterie angewendet wurde. Die enthaltene Fallstudie war in verschiedene Teile aufgeteilt, die die Fähigkeit einer SVR zur Bestimmung des SoC in einer Vielzahl von Szenarien bewerteten. Sieben Batteriezellen, die mit jeweils zwei Sensoranordnungen auf gegenüberliebenden Seiten präpariert wurden, dienten zur Erzeugung von 14 Datensätzen. Zunächst wurde ein Vergleich zwischen Selbsttests, bei denen ein Teil eines Datensatzes zum Training und ein anderer zum Testen verwendet wird, und Kreuztests, bei denen der Datensatz einer Zelle zum Training und der einer anderen zum Testen verwendet wird, durchgeführt. Dabei wurde ein mittlerer Fehler von 3,9% bis 4,8% SoC bzw. 3,6% bis 10,0% SoC erreicht. Im Allgemeinen wurde festgestellt, dass die SVR bei niedrigen SoCs zu einer Überschätzung und bei hohen SoCs zu einer Unterschätzung neigt, was auf die ausgeprägte Hysterese und Relaxation der Ultraschallsignaleigenschaften in diesen SoC-Bereichen zurückgeführt wurde. Die Tatsache, dass eine höhere Genauigkeit erreicht wird, wenn die genaue Zelle dem Regressionsmodell bekannt ist, deutet darauf hin, dass eine Variation zwischen den Zellen besteht. Diese Variation zwischen den Zellen kann auf Unterschiede in den mechanischen Eigenschaften infolge von Produktionsschwankungen oder auf Unterschiede in der manuellen Sensorplatzierung, der mechanischen Kopplung oder dem Resonanzverhalten der Ultraschallsensoren zurückzuführen sein. Um die Auswirkungen der Schwankungen zwischen den Zellen auf die Schätzgenauigkeit abzuschwächen, wurde ein Test durchgeführt, bei dem die Datensätze von sechs der sieben Zellen als Trainingsdaten kombiniert wurden und der Datensatz der siebten Zelle für den Test verwendet wurde. Dadurch verringerte sich die Streuung des mittleren Fehlers von (3,6 - 10,0)% SoC auf (5,9 - 8,5)% SoC, was einmal mehr zeigt, dass ein datenbasierter Ansatz zur Zustandsbestimmung durch eine großen Datenbasis zuverlässiger wird. Anhand von Selbsttests mit sieben Datensätzen wurde die Auswirkung zusätzlicher Merkmale auf das Ergebnis der Zustandsbestimmung getestet. Die Einbeziehung eines zusätzlichen Merkmals verbesserte nicht unbedingt die Schätzgenauigkeit, aber es wurde gezeigt, dass eine Kombination von Ultraschall- und elektrischen Merkmalen dem Training mit diesen Merkmalen allein überlegen ist. Um die Fähigkeit des Modells zur Bestimmung des Ladezustands unter unbekannten Zyklusbedingungen zu testen, wurde ein Test durchgeführt, bei dem die C-Rate des Testdatensatzes nicht in den Trainingsdaten enthalten war. Das Ergebnis deutet darauf hin, dass es für praktische Anwendungen ausreichend sein könnte, das Training mit Datensätzen unter den Grenzbedingungen der Anwendungsfälle in einer kontrollierten Laborumgebung durchzuführen, um die Schätzung in einem breiten Spektrum von Anwendungsfällen zu bewältigen. Im Vergleich zur Literatur hebt sich diese Studie dadurch ab, dass handelsübliche Piezoelemente verwendet und modifiziert wurden, um moderne Lithium-Ionen-Batteriezellen mit Ultraschallsensoren auszustatten, wobei eine Reihe von Mittenfrequenzen für die durch die Batteriezelle übertragene Wellenform anstelle einer festen Frequenz verwendet wird und der SVR die Frequenz wählen kann, die das beste Ergebnis liefert. Die Charakterisierung der Ultraschallsignaleigenschaften als Funktion der RCn-Frequenz und des SoC sowie die Zuordnung charakteristischer Veränderungen der Signaleigenschaften zu elektrochemischen Prozessen wie den Phasenübergängen in den Aktivmaterialien machen diese Arbeit einzigartig. Durch die Untersuchung einer Reihe von Anwendungsfällen konnte gezeigt werden, dass mit Hilfe von Ultraschallmessungen eine verbesserte SoC-Abschätzungsgenauigkeit erreicht werden kann - dank der Korrelation der mechanischen Eigenschaften der Batteriezellen mit dem SoC.
154

Deep Learning for Geospatial Environmental Regression / Deep Learning für Regressionsmodelle mit georäumlichen Umweltdaten

Steininger, Michael January 2023 (has links) (PDF)
Environmental issues have emerged especially since humans burned fossil fuels, which led to air pollution and climate change that harm the environment. These issues’ substantial consequences evoked strong efforts towards assessing the state of our environment. Various environmental machine learning (ML) tasks aid these efforts. These tasks concern environmental data but are common ML tasks otherwise, i.e., datasets are split (training, validatition, test), hyperparameters are optimized on validation data, and test set metrics measure a model’s generalizability. This work focuses on the following environmental ML tasks: Regarding air pollution, land use regression (LUR) estimates air pollutant concentrations at locations where no measurements are available based on measured locations and each location’s land use (e.g., industry, streets). For LUR, this work uses data from London (modeled) and Zurich (measured). Concerning climate change, a common ML task is model output statistics (MOS), where a climate model’s output for a study area is altered to better fit Earth observations and provide more accurate climate data. This work uses the regional climate model (RCM) REMO and Earth observations from the E-OBS dataset for MOS. Another task regarding climate is grain size distribution interpolation where soil properties at locations without measurements are estimated based on the few measured locations. This can provide climate models with soil information, that is important for hydrology. For this task, data from Lower Franconia is used. Such environmental ML tasks commonly have a number of properties: (i) geospatiality, i.e., their data refers to locations relative to the Earth’s surface. (ii) The environmental variables to estimate or predict are usually continuous. (iii) Data can be imbalanced due to relatively rare extreme events (e.g., extreme precipitation). (iv) Multiple related potential target variables can be available per location, since measurement devices often contain different sensors. (v) Labels are spatially often only sparsely available since conducting measurements at all locations of interest is usually infeasible. These properties present challenges but also opportunities when designing ML methods for such tasks. In the past, environmental ML tasks have been tackled with conventional ML methods, such as linear regression or random forests (RFs). However, the field of ML has made tremendous leaps beyond these classic models through deep learning (DL). In DL, models use multiple layers of neurons, producing increasingly higher-level feature representations with growing layer depth. DL has made previously infeasible ML tasks feasible, improved the performance for many tasks in comparison to existing ML models significantly, and eliminated the need for manual feature engineering in some domains due to its ability to learn features from raw data. To harness these advantages for environmental domains it is promising to develop novel DL methods for environmental ML tasks. This thesis presents methods for dealing with special challenges and exploiting opportunities inherent to environmental ML tasks in conjunction with DL. To this end, the proposed methods explore the following techniques: (i) Convolutions as in convolutional neural networks (CNNs) to exploit reoccurring spatial patterns in geospatial data. (ii) Posing the problems as regression tasks to estimate the continuous variables. (iii) Density-based weighting to improve estimation performance for rare and extreme events. (iv) Multi-task learning to make use of multiple related target variables. (v) Semi–supervised learning to cope with label sparsity. Using these techniques, this thesis considers four research questions: (i) Can air pollution be estimated without manual feature engineering? This is answered positively by the introduction of the CNN-based LUR model MapLUR as well as the off-the-shelf LUR solution OpenLUR. (ii) Can colocated pollution data improve spatial air pollution models? Multi-task learning for LUR is developed for this, showing potential for improvements with colocated data. (iii) Can DL models improve the quality of climate model outputs? The proposed DL climate MOS architecture ConvMOS demonstrates this. Additionally, semi-supervised training of multilayer perceptrons (MLPs) for grain size distribution interpolation is presented, which can provide improved input data. (iv) Can DL models be taught to better estimate climate extremes? To this end, density-based weighting for imbalanced regression (DenseLoss) is proposed and applied to the DL architecture ConvMOS, improving climate extremes estimation. These methods show how especially DL techniques can be developed for environmental ML tasks with their special characteristics in mind. This allows for better models than previously possible with conventional ML, leading to more accurate assessment and better understanding of the state of our environment. / Umweltprobleme sind vor allem seit der Verbrennung fossiler Brennstoffe durch den Menschen entstanden. Dies hat zu Luftverschmutzung und Klimawandel geführt, was die Umwelt schädigt. Die schwerwiegenden Folgen dieser Probleme haben starke Bestrebungen ausgelöst, den Zustand unserer Umwelt zu untersuchen. Verschiedene Ansätze des maschinellen Lernens (ML) im Umweltbereich unterstützen diese Bestrebungen. Bei diesen Aufgaben handelt es sich um gewöhnliche ML-Aufgaben, z. B. werden die Datensätze aufgeteilt (Training, Validation, Test), Hyperparameter werden auf den Validierungsdaten optimiert, und die Metriken auf den Testdaten messen die Generalisierungsfähigkeit eines Modells, aber sie befassen sich mit Umweltdaten. Diese Arbeit konzentriert sich auf die folgenden Umwelt-ML-Aufgaben: In Bezug auf Luftverschmutzung schätzt Land Use Regression (LUR) die Luftschadstoffkonzentration an Orten, an denen keine Messungen verfügbar sind auf Basis von gemessenen Orten und der Landnutzung (z. B. Industrie, Straßen) der Orte. Für LUR werden in dieser Arbeit Daten aus London (modelliert) und Zürich (gemessen) verwendet. Im Zusammenhang mit dem Klimawandel ist eine häufige ML-Aufgabe Model Output Statistics (MOS), bei der die Ausgaben eines Klimamodells so angepasst werden, dass sie mit Erdbeobachtungen besser übereinstimmen. Dadurch werden genauere Klimadaten erzeugt. Diese Arbeit verwendet das regionale Klimamodell REMO und Erdbeobachtungen aus dem E-OBS-Datensatz für MOS. Eine weitere Aufgabe im Zusammenhang mit dem Klima ist die Interpolation von Korngrößenverteilungen. Hierbei werden Bodeneigenschaften an Orten ohne Messungen auf Basis von wenigen gemessenen Orten geschätzt, um Klimamodelle mit Bodeninformationen zu versorgen, die für die Hydrologie wichtig sind. Für diese Aufgabe werden in dieser Arbeit Bodenmessungen aus Unterfranken herangezogen. Solche Umwelt-ML-Aufgaben haben oft eine Reihe von Eigenschaften: (i) Georäumlichkeit, d. h. ihre Daten beziehen sich auf Standorte relativ zur Erdoberfläche. (ii) Die zu schätzenden oder vorherzusagenden Umweltvariablen sind normalerweise kontinuierlich. (iii) Daten können unbalanciert sein, was auf relativ seltene Extremereignisse (z. B. extreme Niederschläge) zurückzuführen ist. (iv) Pro Standort können mehrere verwandte potenzielle Zielvariablen verfügbar sein, da Messgeräte oft verschiedene Sensoren enthalten. (v) Zielwerte sind räumlich oft nur spärlich vorhanden, da die Durchführung von Messungen an allen gewünschten Orten in der Regel nicht möglich ist. Diese Eigenschaften stellen eine Herausforderung, aber auch eine Chance bei der Entwicklung von ML-Methoden für derlei Aufgaben dar. In der Vergangenheit wurden ML-Aufgaben im Umweltbereich mit konventionellen ML-Methoden angegangen, wie z. B. lineare Regression oder Random Forests (RFs). In den letzten Jahren hat der Bereich ML jedoch durch Deep Learning (DL) enorme Fortschritte über diese klassischen Modelle hinaus gemacht. Bei DL verwenden die Modelle mehrere Schichten von Neuronen, die mit zunehmender Schichtungstiefe immer abstraktere Merkmalsdarstellungen erzeugen. DL hat zuvor undurchführbare ML-Aufgaben realisierbar gemacht, die Leistung für viele Aufgaben im Vergleich zu bestehenden ML-Modellen erheblich verbessert und die Notwendigkeit für manuelles Feature-Engineering in einigen Bereichen aufgrund seiner Fähigkeit, Features aus Rohdaten zu lernen, eliminiert. Um diese Vorteile für ML-Aufgaben in der Umwelt nutzbar zu machen, ist es vielversprechend, geeignete DL-Methoden für diesen Bereich zu entwickeln. In dieser Arbeit werden Methoden zur Bewältigung der besonderen Herausforderungen und zur Nutzung der Möglichkeiten von Umwelt-ML-Aufgaben in Verbindung mit DL vorgestellt. Zu diesem Zweck werden in den vorgeschlagenen Methoden die folgenden Techniken untersucht: (i) Faltungen wie in Convolutional Neural Networks (CNNs), um wiederkehrende räumliche Muster in Geodaten zu nutzen. (ii) Probleme als Regressionsaufgaben stellen, um die kontinuierlichen Variablen zu schätzen. (iii) Dichtebasierte Gewichtung zur Verbesserung der Schätzungen bei seltenen und extremen Ereignissen. (iv) Multi-Task-Lernen, um mehrere verwandte Zielvariablen zu nutzen. (v) Halbüber- wachtes Lernen, um auch mit wenigen bekannten Zielwerten zurechtzukommen. Mithilfe dieser Techniken werden in der Arbeit vier Forschungsfragen untersucht: (i) Kann Luftverschmutzung ohne manuelles Feature Engineering geschätzt werden? Dies wird durch die Einführung des CNN-basierten LUR-Modells MapLUR sowie der automatisierten LUR–Lösung OpenLUR positiv beantwortet. (ii) Können kolokalisierte Verschmutzungsdaten räumliche Luftverschmutzungsmodelle verbessern? Hierfür wird Multi-Task-Learning für LUR entwickelt, das Potenzial für Verbesserungen mit kolokalisierten Daten zeigt. (iii) Können DL-Modelle die Qualität der Ausgaben von Klimamodellen verbessern? Die vorgeschlagene DL-MOS-Architektur ConvMOS demonstriert das. Zusätzlich wird halbüberwachtes Training von Multilayer Perceptrons (MLPs) für die Interpolation von Korngrößenverteilungen vorgestellt, das verbesserte Eingabedaten liefern kann. (iv) Kann man DL-Modellen beibringen, Klimaextreme besser abzuschätzen? Zu diesem Zweck wird eine dichtebasierte Gewichtung für unbalancierte Regression (DenseLoss) vorgeschlagen und auf die DL-Architektur ConvMOS angewendet, um die Schätzung von Klimaextremen zu verbessern. Diese Methoden zeigen, wie speziell DL-Techniken für Umwelt-ML-Aufgaben unter Berücksichtigung ihrer besonderen Eigenschaften entwickelt werden können. Dies ermöglicht bessere Modelle als konventionelles ML bisher erlaubt hat, was zu einer genaueren Bewertung und einem besseren Verständnis des Zustands unserer Umwelt führt.
155

Verbesserung von maschinellen Lernmodellen durch Transferlernen zur Zeitreihenprognose im Radial-Axial Ringwalzen

Seitz, Johannes, Wang, Qinwen, Moser, Tobias, Brosius, Alexander, Kuhlenkötter, Bernd 28 November 2023 (has links)
Anwendung von maschinellen Lernverfahren (ML) in der Produktionstechnik, in Zeiten der Industrie 4.0, stark angestiegen. Insbesondere die Datenverfügbarkeit ist an dieser Stelle elementar und für die erfolgreiche Umsetzung einer ML-Applikation Voraussetzung. Falls für eine gegebene Problemstellung die Datenmenge oder -qualität nicht ausreichend ist, können Techniken, wie die Datenaugmentierung, der Einsatz von synthetischen Daten sowie das Transferlernen von ähnlichen Datensätzen Abhilfe schaffen. Innerhalb dieser Ausarbeitung wird das Konzept des Transferlernens im Bereich das Radial-Axial Ringwalzens (RAW) angewendet und am Beispiel der Zeitreihenprognose des Außendurchmessers über die Prozesszeit durchgeführt. Das Radial-Axial Ringwalzen ist ein warmumformendes Verfahren und dient der nahtlosen Ringherstellung.
156

Improvement of Machine Learning Models for Time Series Forecasting in Radial-Axial Ring Rolling through Transfer Learning

Seitz, Johannes, Wang, Qinwen, Moser, Tobias, Brosius, Alexander, Kuhlenkötter, Bernd 28 November 2023 (has links)
Due to the increasing computing power and corresponding algorithms, the use of machine learning (ML) in production technology has risen sharply in the age of Industry 4.0. Data availability in particular is fundamental at this point and a prerequisite for the successful implementation of a ML application. If the quantity or quality of data is insufficient for a given problem, techniques such as data augmentation, the use of synthetic data and transfer learning of similar data sets can provide a remedy. In this paper, the concept of transfer learning is applied in the field of radial-axial ring rolling (rarr) and implemented using the example of time series prediction of the outer diameter over the process time. Radial-axial ring rolling is a hot forming process and is used for seamless ring production.
157

Batteriesimulation mittels dynamischer Datenmodelle für die Entwicklung elektrischer Antriebe

Gesner, Philipp Conrad 11 August 2023 (has links)
Der rasante Wandel hin zur Elektromobilität verlangt nach immer kürzeren und effizienteren Entwicklungszyklen. Vielfach steht dabei der elektrische Energiespeicher mit seinen für das Antriebsverhalten relevanten Eigenschaften, wie dem Energieinhalt oder der Leistungsverfügbarkeit, im Fokus. Für die Automobilhersteller sind daher Batteriesimulationen - basierend auf Modellen des elektrischen Batterieverhaltens - ein wesentliches Werkzeug, um schnell und kostengünstig neue Antriebe zu entwickeln. Das dynamische Übertragungsverhalten von Lithium-Ionen Zellen wird im industriellen Kontext typischerweise über phänomenologische Modelle nachgebildet, die vorrangig auf Zellmessungen basieren. Die inhärenten Fehler der Zellmodelle werden bei einer Simulation des gesamten Batteriesystems noch durch unmodellierte Effekte wie die Kontaktierung der Zellen oder inhomogene Temperaturverteilungen ergänzt. Überraschenderweise werden gleichwohl die heute umfangreich erzeugten Batteriedaten kaum genutzt, um die Qualität dieser Simulationen zu erhöhen. Vor allem die herausfordernde Verarbeitung großer und heterogener Datenmengen aus dem regulären Betrieb einer Antriebsbatterie verhindert nach wie vor eine konsequente Nutzung. Daher lautet das Ziel dieser Arbeit, mit neuartigen datenbasierten Ansätzen die Simulationen von Antriebsbatterien noch realitätsnäher zu gestalten. Dies lässt sich dadurch erreichen, dass bestehende phänomenologische Modelle mit datenbasierten Modellen kombiniert werden. Es entstehen hybride Modelle, die die Vorteile aus beiden Welten der Modellierung, wie eine hohe Genauigkeit, Stabilität und Extrapolationsfähigkeit, vereinen. Im ersten Schritt wird daher das phänomenologische Modell in Bezug auf vorhandene Fahrzeugmessungen der Batterie bewertet und im Anschluss verschiedene Hybridstrukturen miteinander verglichen. Die Parallel-Hybridstruktur kompensiert dabei den bestehenden Simulationsfehler am erfolgreichsten. Um gleichzeitig auch eine hohe Robustheit des hybriden Modells zu gewährleisten, erfolgt eine situative Begrenzung des datenbasierten Modells. Hierfür wird die Extrapolation des Modells über eine One-Class Support Vector Machine erkannt. Insbesondere in den Randbereichen der Validierungsdaten lässt sich dadurch der Fehler des hybriden Batteriemodells um weitere 15% reduzieren. Ein Fokus während der Ermittlung des hybriden Batteriemodells liegt auf der Erzeugung einer raumfüllenden Untermenge der verfügbaren Daten. Es wird aufgezeigt, dass sich hierdurch der Trainingsaufwand und die Genauigkeit des datenbasierten Modells weiter optimieren lassen. Zuletzt wird in dieser Arbeit auch ein Vergleich zwischen zwei dynamischen neuronalen Netzen als datenbasiertes Modell durchgeführt. Beide Varianten reduzieren den bestehenden Modellfehler deutlich - um bis zu 46 %. Hinsichtlich der Zuverlässigkeit der Modellausgabe überzeugt jedoch vor allem das Gated-Recurrent-Unit. Die Qualität der Batteriesimulation wird anhand von zwei Anwendungsszenarien am Antriebsprüfstandbewertet. Dabei geht es zum einen um die Dauerlauferprobung und zum anderen um die Reichweitenbestimmung von elektrischen Antrieben. Der direkte Vergleich mit einer realen Antriebsbatterie erbringt den Nachweis, dass in beiden Anwendungsszenarien die Batteriespannung und selbst das Verhalten der elektrischen Antriebsachse wesentlich realistischer nachgestellt werden als mit dem bestehenden phänomenologischen Batteriemodell.
158

Machine-Learning-Based Identification of Tumor Entities, Tumor Subgroups, and Therapy Options / Bestimmung von Tumorentitäten, Tumorsubgruppen und Therapieoptionen basierend auf maschinellem Lernen

Marquardt, André January 2023 (has links) (PDF)
Molecular genetic analyses, such as mutation analyses, are becoming increasingly important in the tumor field, especially in the context of therapy stratification. The identification of the underlying tumor entity is crucial, but can sometimes be difficult, for example in the case of metastases or the so-called Cancer of Unknown Primary (CUP) syndrome. In recent years, methylome and transcriptome utilizing machine learning (ML) approaches have been developed to enable fast and reliable tumor and tumor subtype identification. However, so far only methylome analysis have become widely used in routine diagnostics. The present work addresses the utility of publicly available RNA-sequencing data to determine the underlying tumor entity, possible subgroups, and potential therapy options. Identification of these by ML - in particular random forest (RF) models - was the first task. The results with test accuracies of up to 99% provided new, previously unknown insights into the trained models and the corresponding entity prediction. Reducing the input data to the top 100 mRNA transcripts resulted in a minimal loss of prediction quality and could potentially enable application in clinical or real-world settings. By introducing the ratios of these top 100 genes to each other as a new database for RF models, a novel method was developed enabling the use of trained RF models on data from other sources. Further analysis of the transcriptomic differences of metastatic samples by visual clustering showed that there were no differences specific for the site of metastasis. Similarly, no distinct clusters were detectable when investigating primary tumors and metastases of cutaneous skin melanoma (SKCM). Subsequently, more than half of the validation datasets had a prediction accuracy of at least 80%, with many datasets even achieving a prediction accuracy of – or close to – 100%. To investigate the applicability of the used methods for subgroup identification, the TCGA-KIPAN dataset, consisting of the three major kidney cancer subgroups, was used. The results revealed a new, previously unknown subgroup consisting of all histopathological groups with clinically relevant characteristics, such as significantly different survival. Based on significant differences in gene expression, potential therapeutic options of the identified subgroup could be proposed. Concludingly, in exploring the potential applicability of RNA-sequencing data as a basis for therapy prediction, it was shown that this type of data is suitable to predict entities as well as subgroups with high accuracy. Clinical relevance was also demonstrated for a novel subgroup in renal cell carcinoma. The reduction of the number of genes required for entity prediction to 100 genes, enables panel sequencing and thus demonstrates potential applicability in a real-life setting. / Molekulargenetische Analysen, wie z. B. Mutationsanalysen, gewinnen im Tumorbereich zunehmend an Bedeutung, insbesondere im Zusammenhang mit der Therapiestratifizierung. Die Identifizierung der zugrundeliegenden Tumorentität ist von entscheidender Bedeutung, kann sich aber manchmal als schwierig erweisen, beispielsweise im Falle von Metastasen oder dem sogenannten Cancer of Unknown Primary (CUP)-Syndrom. In den letzten Jahren wurden Methylom- und Transkriptom-Ansätze mit Hilfe des maschinellen Lernens (ML) entwickelt, die eine schnelle und zuverlässige Identifizierung von Tumoren und Tumorsubtypen ermöglichen. Bislang werden jedoch nur Methylomanalysen in der Routinediagnostik eingesetzt. Die vorliegende Arbeit befasst sich mit dem Nutzen öffentlich zugänglicher RNA-Sequenzierungsdaten zur Bestimmung der zugrunde liegenden Tumorentität, möglicher Untergruppen und potenzieller Therapieoptionen. Die Identifizierung dieser durch ML - insbesondere Random-Forest (RF)-Modelle - war die erste Aufgabe. Die Ergebnisse mit Testgenauigkeiten von bis zu 99 % lieferten neue, bisher unbekannte Erkenntnisse über die trainierten Modelle und die entsprechende Entitätsvorhersage. Die Reduktion der Eingabedaten auf die 100 wichtigsten mRNA-Transkripte führte zu einem minimalen Verlust an Vorhersagequalität und könnte eine Anwendung in klinischen oder realen Umgebungen ermöglichen. Durch die Einführung des Verhältnisses dieser Top 100 Gene zueinander als neue Datenbasis für RF-Modelle wurde eine neuartige Methode entwickelt, die die Verwendung trainierter RF-Modelle auf Daten aus anderen Quellen ermöglicht. Eine weitere Analyse der transkriptomischen Unterschiede von metastatischen Proben durch visuelles Clustering zeigte, dass es keine für den Ort der Metastasierung spezifischen Unterschiede gab. Auch bei der Untersuchung von Primärtumoren und Metastasen des kutanen Hautmelanoms (SKCM) konnten keine unterschiedlichen Cluster festgestellt werden. Mehr als die Hälfte der Validierungsdatensätze wiesen eine Vorhersagegenauigkeit von mindestens 80% auf, wobei viele Datensätze sogar eine Vorhersagegenauigkeit von 100% oder nahezu 100% erreichten. Um die Anwendbarkeit der verwendeten Methoden zur Identifizierung von Untergruppen zu untersuchen, wurde der TCGA-KIPAN-Datensatz verwendet, welcher die drei wichtigsten Nierenkrebs-Untergruppen umfasst. Die Ergebnisse enthüllten eine neue, bisher unbekannte Untergruppe, die aus allen histopathologischen Gruppen mit klinisch relevanten Merkmalen, wie z. B. einer signifikant unterschiedlichen Überlebenszeit, besteht. Auf der Grundlage signifikanter Unterschiede in der Genexpression konnten potenzielle therapeutische Optionen für die identifizierte Untergruppe vorgeschlagen werden. Zusammenfassend lässt sich sagen, dass bei der Untersuchung der potenziellen Anwendbarkeit von RNA-Sequenzierungsdaten als Grundlage für die Therapievorhersage gezeigt werden konnte, dass diese Art von Daten geeignet ist, sowohl Entitäten als auch Untergruppen mit hoher Genauigkeit vorherzusagen. Die klinische Relevanz wurde auch für eine neue Untergruppe beim Nierenzellkarzinom demonstriert. Die Verringerung der für die Entitätsvorhersage erforderlichen Anzahl von Genen auf 100 Gene ermöglicht die Sequenzierung von Panels und zeigt somit die potenzielle Anwendbarkeit in der Praxis.
159

Automatisierungsansätze zur Unterstützung der ERP-Kategorienkonfiguration für KMU

Wölfel, Klaus 29 April 2016 (has links) (PDF)
Alternative Geschäftsmodelle wie Software as a Service (SaaS) und Open-Source-Software (OSS) steigern die Attraktivität von Enterprise Resource Planning (ERP) Systemen für Kleine und Mittelständische Unternehmen (KMU). Jedoch stellen die Beratungsleistungen, die für die Konfiguration eines ERP-Systems zur Anpassung an die spezifischen Bedürfnisse eines Unternehmens notwendig sind, eine hohe Einführungshürde dar. Eine Konfigurationsoption, die bei vielen ERP-Systemen eine Rolle spielt, ist die Kategorienkonfiguration. Mit Hilfe einer automatisierten Konfigurationsunterstützung können Geschäftsführer von kleinen Unternehmen die Kategorienkonfiguration selbst durchführen und einen Teil der Einführungskosten einsparen. Im Rahmen der kumulativen Dissertation werden Automatisierungsansätze zur Konfigurationsunterstützung für die ERP-Kategorienkonfiguration generiert und auf das Open-Source ERP-System ERP5 angewandt. Die Automatisierungsansätze basieren auf Ähnlichkeitsberechnungen zu Falldatensätzen von 235 Unternehmen, Kategorien-Konsolidierung durch Umleitungsinformationen in Wikipedia-Artikeln, Templates und Meta-Templates. Die empirische Evaluation in einem Laborexperiment mit 100 Teilnehmern und eine Umfrage bestätigen die Gültigkeit, Nützlichkeit und Effektivität der generierten Ansätze. Die Konfigurationsunterstützung kann durch einen standardisierten Beratungsprozess und die Vermittlung des für eine konkrete ERP-Einführung notwendigen Wissens mittels Massenindividualisierung ergänzt werden. Dieser Ansatz wurde mit und für ERP5 umgesetzt und lässt sich auch auf andere Open-Source-Projekte übertragen.
160

Automating Geospatial RDF Dataset Integration and Enrichment / Automatische geografische RDF Datensatzintegration und Anreicherung

Sherif, Mohamed Ahmed Mohamed 12 December 2016 (has links) (PDF)
Over the last years, the Linked Open Data (LOD) has evolved from a mere 12 to more than 10,000 knowledge bases. These knowledge bases come from diverse domains including (but not limited to) publications, life sciences, social networking, government, media, linguistics. Moreover, the LOD cloud also contains a large number of crossdomain knowledge bases such as DBpedia and Yago2. These knowledge bases are commonly managed in a decentralized fashion and contain partly verlapping information. This architectural choice has led to knowledge pertaining to the same domain being published by independent entities in the LOD cloud. For example, information on drugs can be found in Diseasome as well as DBpedia and Drugbank. Furthermore, certain knowledge bases such as DBLP have been published by several bodies, which in turn has lead to duplicated content in the LOD . In addition, large amounts of geo-spatial information have been made available with the growth of heterogeneous Web of Data. The concurrent publication of knowledge bases containing related information promises to become a phenomenon of increasing importance with the growth of the number of independent data providers. Enabling the joint use of the knowledge bases published by these providers for tasks such as federated queries, cross-ontology question answering and data integration is most commonly tackled by creating links between the resources described within these knowledge bases. Within this thesis, we spur the transition from isolated knowledge bases to enriched Linked Data sets where information can be easily integrated and processed. To achieve this goal, we provide concepts, approaches and use cases that facilitate the integration and enrichment of information with other data types that are already present on the Linked Data Web with a focus on geo-spatial data. The first challenge that motivates our work is the lack of measures that use the geographic data for linking geo-spatial knowledge bases. This is partly due to the geo-spatial resources being described by the means of vector geometry. In particular, discrepancies in granularity and error measurements across knowledge bases render the selection of appropriate distance measures for geo-spatial resources difficult. We address this challenge by evaluating existing literature for point set measures that can be used to measure the similarity of vector geometries. Then, we present and evaluate the ten measures that we derived from the literature on samples of three real knowledge bases. The second challenge we address in this thesis is the lack of automatic Link Discovery (LD) approaches capable of dealing with geospatial knowledge bases with missing and erroneous data. To this end, we present Colibri, an unsupervised approach that allows discovering links between knowledge bases while improving the quality of the instance data in these knowledge bases. A Colibri iteration begins by generating links between knowledge bases. Then, the approach makes use of these links to detect resources with probably erroneous or missing information. This erroneous or missing information detected by the approach is finally corrected or added. The third challenge we address is the lack of scalable LD approaches for tackling big geo-spatial knowledge bases. Thus, we present Deterministic Particle-Swarm Optimization (DPSO), a novel load balancing technique for LD on parallel hardware based on particle-swarm optimization. We combine this approach with the Orchid algorithm for geo-spatial linking and evaluate it on real and artificial data sets. The lack of approaches for automatic updating of links of an evolving knowledge base is our fourth challenge. This challenge is addressed in this thesis by the Wombat algorithm. Wombat is a novel approach for the discovery of links between knowledge bases that relies exclusively on positive examples. Wombat is based on generalisation via an upward refinement operator to traverse the space of Link Specifications (LS). We study the theoretical characteristics of Wombat and evaluate it on different benchmark data sets. The last challenge addressed herein is the lack of automatic approaches for geo-spatial knowledge base enrichment. Thus, we propose Deer, a supervised learning approach based on a refinement operator for enriching Resource Description Framework (RDF) data sets. We show how we can use exemplary descriptions of enriched resources to generate accurate enrichment pipelines. We evaluate our approach against manually defined enrichment pipelines and show that our approach can learn accurate pipelines even when provided with a small number of training examples. Each of the proposed approaches is implemented and evaluated against state-of-the-art approaches on real and/or artificial data sets. Moreover, all approaches are peer-reviewed and published in a conference or a journal paper. Throughout this thesis, we detail the ideas, implementation and the evaluation of each of the approaches. Moreover, we discuss each approach and present lessons learned. Finally, we conclude this thesis by presenting a set of possible future extensions and use cases for each of the proposed approaches.

Page generated in 0.0639 seconds