Spelling suggestions: "subject:"merkmalsausprägung"" "subject:"merkmalsbasierte""
1 |
Machine Learning for Credit Risk AnalyticsKozodoi, Nikita 03 June 2022 (has links)
Der Aufstieg des maschinellen Lernens (ML) und die rasante Digitalisierung der Wirtschaft haben die Entscheidungsprozesse in der Finanzbranche erheblich verändert. Finanzinstitute setzen zunehmend auf ML, um die Entscheidungsfindung zu unterstützen. Kreditscoring ist eine der wichtigsten ML-Anwendungen im Finanzbereich. Die Aufgabe von Kreditscoring ist die Unterscheidung ob ein Antragsteller einen Kredit zurückzahlen wird. Finanzinstitute verwenden ML, um Scorecards zu entwickeln, die die Ausfallwahrscheinlichkeit eines Kreditnehmers einschätzen und Genehmigungsentscheidungen automatisieren.
Diese Dissertation konzentriert sich auf drei große Herausforderungen, die mit dem Aufbau von ML-basierten Scorekarten für die Bewertung von Verbraucherkrediten verbunden sind: (i) Optimierung von Datenerfassungs- und -speicherkosten bei hochdimensionalen Daten von Kreditantragstellern; (ii) Bewältigung der negativen Auswirkungen von Stichprobenverzerrungen auf das Training und die Bewertung von Scorekarten; (iii) Messung und Sicherstellung der Fairness von Instrumenten bei gleichzeitig hoher Rentabilität.
Die Arbeit bietet und testet eine Reihe von Instrumenten, um jede dieser Herausforderungen zu lösen und die Entscheidungsfindung in Finanzinstituten zu verbessern. Erstens entwickeln wir Strategien zur Auswahl von Merkmalen, die mehrere unternehmensbezogene Zielfunktionen optimieren. Unsere Vorschläge reduzieren die Kosten der Datenerfassung und verbessern die Rentabilität der Modelle. Zweitens schlagen wir Methoden zur Abschwächung der negativen Auswirkungen von Stichprobenverzerrungen vor. Unsere Vorschläge gleichen die Verluste aufgrund von Verzerrungen teilweise aus und liefern zuverlässigere Schätzungen der künftigen Scorecard-Leistung. Drittens untersucht die Arbeit faire ML-Praktiken in Kreditscoring. Wir katalogisieren geeignete algorithmische Optionen für die Einbeziehung von Fairness-Zielen und verdeutlichen den Kompromiss zwischen Gewinn und Fairness. / The rise of machine learning (ML) and the rapid digitization of the economy has substantially changed decision processes in the financial industry. Financial institutions increasingly rely on ML to support decision-making. Credit scoring is one of the prominent ML applications in finance. The task of credit scoring is to distinguish between applicants who will pay back the loan or default. Financial institutions use ML to develop scoring models to estimate a borrower's probability of default and automate approval decisions.
This dissertation focuses on three major challenges associated with building ML-based scorecards in consumer credit scoring: (i) optimizing data acquisition and storage costs when dealing with high-dimensional data of loan applicants; (ii) addressing the adverse effects of sampling bias on training and evaluation of scoring models; (iii) measuring and ensuring the scorecard fairness while maintaining high profitability.
The thesis offers a set of tools to remedy each of these challenges and improve decision-making practices in financial institutions. First, we develop feature selection strategies that optimize multiple business-inspired objectives. Our propositions reduce data acquisition costs and improve model profitability and interpretability. Second, the thesis illustrates the adverse effects of sampling bias on model training and evaluation and suggests novel bias correction frameworks. The proposed methods partly recover the loss due to bias, provide more reliable estimates of the future scorecard performance and increase the resulting model profitability. Third, the thesis investigates fair ML practices in consumer credit scoring. We catalog algorithmic options for incorporating fairness goals in the model development pipeline and perform empirical experiments to clarify the profit-fairness trade-off in lending decisions and identify suitable options to implement fair credit scoring and measure the scorecard fairness.
|
2 |
Ein Framework zur Optimierung der Energieeffizienz von HPC-Anwendungen auf der Basis von Machine-Learning-MethodenGocht-Zech, Andreas 03 November 2022 (has links)
Ein üblicher Ansatzpunkt zur Verbesserung der Energieeffizienz im High Performance Computing (HPC) ist, neben Verbesserungen an der Hardware oder einer effizienteren Nachnutzung der Wärme des Systems, die Optimierung der ausgeführten Programme.
Dazu können zum Beispiel energieoptimale Einstellungen, wie die Frequenzen des Prozessors, für verschiedene Programmfunktionen bestimmt werden, um diese dann im späteren Verlauf des Programmes anwenden zu können.
Mit jeder Änderung des Programmes kann sich dessen optimale Einstellung ändern, weshalb diese zeitaufwendig neu bestimmt werden muss.
Das stellt eine wesentliche Hürde für die Anwendung solcher Verfahren dar.
Dieser Prozess des Bestimmens der optimalen Frequenzen kann mithilfe von Machine-Learning-Methoden vereinfacht werden, wie in dieser Arbeit gezeigt wird.
So lässt sich mithilfe von sogenannten Performance-Events ein neuronales Netz erstellen, mit dem während der Ausführung des Programmes die optimalen Frequenzen automatisch geschätzt werden können.
Performance-Events sind prozessorintern und können Einblick in die Abläufe im Prozessor gewähren.
Bei dem Einsatz von Performance-Events gilt es einige Fallstricke zu vermeiden.
So werden die Performance-Events von Performance-Countern gezählt.
Die Anzahl der Counter ist allerdings begrenzt, womit auch die Anzahl der Events, die gleichzeitig gezählt werden können, limitiert ist.
Eine für diese Arbeit wesentliche Fragestellung ist also: Welche dieser Events sind relevant und müssen gezählt werden?
Bei der Beantwortung dieser Frage sind Merkmalsauswahlverfahren hilfreich, besonders sogenannte Filtermethoden, bei denen die Merkmale vor dem Training ausgewählt werden.
Viele bekannte Methoden gehen dabei entweder davon aus, dass die Zusammenhänge zwischen den Merkmalen linear sind, wie z. B. bei Verfahren, die den Pearson-Korrelationskoeffizienten verwenden, oder die Daten müssen in Klassen eingeteilt werden, wie etwa bei Verfahren, die auf der Transinformation beruhen.
Beides ist für Performance-Events nicht ideal.
Auf der einen Seite können keine linearen Zusammenhänge angenommen werden.
Auf der anderen Seite bedeutet das Einteilen in Klassen einen Verlust an Information.
Um diese Probleme zu adressieren, werden in dieser Arbeit bestehende Merkmalsauswahlverfahren mit den dazugehörigen Algorithmen analysiert, neue Verfahren entworfen und miteinander verglichen.
Es zeigt sich, dass mit neuen Verfahren, die auf sogenannten Copulas basieren, auch nichtlineare Zusammenhänge erkannt werden können, ohne dass die Daten in Klassen eingeteilt werden müssen.
So lassen sich schließlich einige Events identifiziert, die zusammen mit neuronalen Netzen genutzt werden können, um die Energieeffizienz von HPC-Anwendung zu steigern.
Das in dieser Arbeit erstellte Framework erfüllt dabei neben der Auswahl der Performance-Events weitere Aufgaben:
Es stellt sicher, dass diverse Programmteile mit verschiedenen optimalen Einstellungen voneinander unterschieden werden können.
Darüber hinaus sorgt das Framework dafür, dass genügend Daten erzeugt werden, um ein neuronales Netz zu trainieren, und dass dieses Netz später einfach genutzt werden kann.
Dabei ist das Framework so flexibel, dass auch andere Machine-Learning-Methoden getestet werden können.
Die Leistungsfähigkeit des Frameworks wird abschließend in einer Ende-zu-Ende-Evaluierung an einem beispielhaften Programm demonstriert.
Die Evaluierung illustriert, dass bei nur 7% längerer Laufzeit eine Energieeinsparung von 24% erzielt werden kann und zeigt damit, dass mit Machine-Learning-Methoden wesentliche Energieeinsparungen erreicht werden können.:1 Einleitung und Motiovation
2 Energieeffizienz und Machine-Learning – eine thematische Einführung
2.1 Energieeffizienz von Programmen im Hochleistungsrechnen
2.1.1 Techniken zur Energiemessung oder -abschätzung
2.1.2 Techniken zur Beeinflussung der Energieeffizienz in der Hardware
2.1.3 Grundlagen zur Performanceanalyse
2.1.4 Regionsbasierte Ansätze zur Erhöhung der Energieeffizienz
2.1.5 Andere Ansätze zur Erhöhung der Energieeffizienz
2.2 Methoden zur Merkmalsauswahl
2.2.1 Merkmalsauswahlmethoden basierend auf der Informationstheorie
2.2.2 Merkmalsauswahl für stetige Merkmale
2.2.3 Andere Verfahren zur Merkmalsauswahl
2.3 Machine-Learning mit neuronalen Netzen
2.3.1 Neuronale Netze
2.3.2 Backpropagation
2.3.3 Aktivierungsfunktionen
3 Merkmalsauswahl für mehrdimensionale nichtlineare Abhängigkeiten
3.1 Analyse der Problemstellung, Merkmale und Zielgröße
3.2 Merkmalsauswahl mit mehrdimensionaler Transinformation für stetige Merkmale
3.2.1 Mehrdimensionale Copula-Entropie und mehrdimensionale Transinformation
3.2.2 Schätzung der mehrdimensionalen Transinformation basierend auf Copula-Dichte
3.3 Normierung
3.4 Vergleich von Copula-basierten Maßzahlen mit der klassischen Transinformation und dem Pearson-Korrelationskoeffizienten
3.4.1 Deterministische Abhängigkeit zweier Variablen
3.4.2 UnabhängigkeitVergleich verschiedener Methoden zur Auswahl stetiger Merkmale
3.5 Vergleich verschiedener Methoden zur Auswahl stetiger Merkmale
3.5.1 Erzeugung synthetischer Daten
3.5.2 Szenario 1 – fünf relevante Merkmale
3.5.3 Szenario 2 – fünf relevante Merkmale, fünf wiederholte Merkmale
3.5.4 Schlussfolgerungen aus den Simulationen
3.6 Zusammenfassung
4 Entwicklung und Umsetzung des Frameworks
4.1 Erweiterungen der READEX Runtime Library
4.1.1 Grundlegender Aufbau der READEX Runtime Library
4.1.2 Call-Path oder Call-Tree
4.1.3 Calibration-Module
4.2 Testsystem
4.2.1 Architektur
4.2.2 Bestimmung des Offsets zur Energiemessung mit RAPL
4.3 Verwendete Benchmarks zur Erzeugung der Datengrundlage
4.3.1 Datensatz 1: Der Stream-Benchmark
4.3.2 Datensatz 2: Eine Sammlung verschiedener Benchmarks
4.4 Merkmalsauswahl und Modellgenerierung
4.4.1 Datenaufbereitung
4.4.2 Merkmalsauswahl Algorithmus
4.4.3 Performance-Events anderer Arbeiten zum Vergleich
4.4.4 Erzeugen und Validieren eines Modells mithilfe von TensorFlow und Keras
4.5 Zusammenfassung
5 Evaluierung des Ansatzes
5.1 Der Stream-Benchmark
5.1.1 Analyse der gewählten Merkmale
5.1.2 Ergebnisse des Trainings
5.2 Verschiedene Benchmarks
5.2.1 Ausgewählte Merkmale
5.2.2 Ergebnisse des Trainings
5.3 Energieoptimierung einer Anwendung
6 Zusammenfassung und Ausblick
Literatur
Abbildungsverzeichnis
Tabellenverzeichnis
Quelltextverzeichnis / There are a variety of different approaches to improve energy efficiency in High Performance Computing (HPC).
Besides advances to the hardware or cooling systems, optimising the executed programmes' energy efficiency is another a promising approach.
Determining energy-optimal settings of program functions, such as the processor frequency, can be applied during the program's execution to reduce energy consumption. However, when the program is modified, the optimal setting might change.
Therefore, the energy-optimal settings need to be determined again, which is a time-consuming process and a significant impediment for applying such methods.
Fortunately, finding the optimal frequencies can be simplified using machine learning methods, as shown in this thesis.
With the help of so-called performance events, a neural network can be trained, which can automatically estimate the optimal processor frequencies during program execution.
Performance events are processor-specific and can provide insight into the procedures of a processor.
However, there are some pitfalls to be avoided when using performance events.
Performance events are counted by performance counters, but as the number of counters is limited, the number of events that can be counted simultaneously is also limited.
This poses the question of which of these events are relevant and need to be counted.
% Though the issue has received some attention in several publications, a convincing solution remains to be found.
In answering this question, feature selection methods are helpful, especially so-called filter methods, where features are selected before the training.
Unfortunately, many feature selection methods either assume a linear correlation between the features, such as methods using the Pearson correlation coefficient or require data split into classes, particularly methods based on mutual information.
Neither can be applied to performance events as linear correlation cannot be assumed, and splitting the data into classes would result in a loss of information.
In order to address that problem, this thesis analyses existing feature selection methods together with their corresponding algorithms, designs new methods, and compares different feature selection methods.
By utilising new methods based on the mathematical concept of copulas, it was possible to detect non-linear correlations without splitting the data into classes.
Thus, several performance events could be identified, which can be utilised together with neural networks to increase the energy efficiency of HPC applications.
In addition to selecting performance events, the created framework ensures that different programme parts, which might have different optimal settings, can be identified.
Moreover, it assures that sufficient data for the training of the neural networks is generated and that the network can easily be applied.
Furthermore, the framework is flexible enough to evaluate other machine learning methods.
Finally, an end-to-end evaluation with a sample application demonstrated the framework's performance.
The evaluation illustrates that, while extending the runtime by only 7%, energy savings of 24% can be achieved, showing that substantial energy savings can be attained using machine learning approaches.:1 Einleitung und Motiovation
2 Energieeffizienz und Machine-Learning – eine thematische Einführung
2.1 Energieeffizienz von Programmen im Hochleistungsrechnen
2.1.1 Techniken zur Energiemessung oder -abschätzung
2.1.2 Techniken zur Beeinflussung der Energieeffizienz in der Hardware
2.1.3 Grundlagen zur Performanceanalyse
2.1.4 Regionsbasierte Ansätze zur Erhöhung der Energieeffizienz
2.1.5 Andere Ansätze zur Erhöhung der Energieeffizienz
2.2 Methoden zur Merkmalsauswahl
2.2.1 Merkmalsauswahlmethoden basierend auf der Informationstheorie
2.2.2 Merkmalsauswahl für stetige Merkmale
2.2.3 Andere Verfahren zur Merkmalsauswahl
2.3 Machine-Learning mit neuronalen Netzen
2.3.1 Neuronale Netze
2.3.2 Backpropagation
2.3.3 Aktivierungsfunktionen
3 Merkmalsauswahl für mehrdimensionale nichtlineare Abhängigkeiten
3.1 Analyse der Problemstellung, Merkmale und Zielgröße
3.2 Merkmalsauswahl mit mehrdimensionaler Transinformation für stetige Merkmale
3.2.1 Mehrdimensionale Copula-Entropie und mehrdimensionale Transinformation
3.2.2 Schätzung der mehrdimensionalen Transinformation basierend auf Copula-Dichte
3.3 Normierung
3.4 Vergleich von Copula-basierten Maßzahlen mit der klassischen Transinformation und dem Pearson-Korrelationskoeffizienten
3.4.1 Deterministische Abhängigkeit zweier Variablen
3.4.2 UnabhängigkeitVergleich verschiedener Methoden zur Auswahl stetiger Merkmale
3.5 Vergleich verschiedener Methoden zur Auswahl stetiger Merkmale
3.5.1 Erzeugung synthetischer Daten
3.5.2 Szenario 1 – fünf relevante Merkmale
3.5.3 Szenario 2 – fünf relevante Merkmale, fünf wiederholte Merkmale
3.5.4 Schlussfolgerungen aus den Simulationen
3.6 Zusammenfassung
4 Entwicklung und Umsetzung des Frameworks
4.1 Erweiterungen der READEX Runtime Library
4.1.1 Grundlegender Aufbau der READEX Runtime Library
4.1.2 Call-Path oder Call-Tree
4.1.3 Calibration-Module
4.2 Testsystem
4.2.1 Architektur
4.2.2 Bestimmung des Offsets zur Energiemessung mit RAPL
4.3 Verwendete Benchmarks zur Erzeugung der Datengrundlage
4.3.1 Datensatz 1: Der Stream-Benchmark
4.3.2 Datensatz 2: Eine Sammlung verschiedener Benchmarks
4.4 Merkmalsauswahl und Modellgenerierung
4.4.1 Datenaufbereitung
4.4.2 Merkmalsauswahl Algorithmus
4.4.3 Performance-Events anderer Arbeiten zum Vergleich
4.4.4 Erzeugen und Validieren eines Modells mithilfe von TensorFlow und Keras
4.5 Zusammenfassung
5 Evaluierung des Ansatzes
5.1 Der Stream-Benchmark
5.1.1 Analyse der gewählten Merkmale
5.1.2 Ergebnisse des Trainings
5.2 Verschiedene Benchmarks
5.2.1 Ausgewählte Merkmale
5.2.2 Ergebnisse des Trainings
5.3 Energieoptimierung einer Anwendung
6 Zusammenfassung und Ausblick
Literatur
Abbildungsverzeichnis
Tabellenverzeichnis
Quelltextverzeichnis
|
3 |
Benchmarking Renewable Energy Supply ForecastsUlbricht, Robert 19 July 2021 (has links)
The ability of generating precise numerical forecasts is important to successful Enterprises in order to prepare themselves for undetermined future developments. For Utility companies, forecasts of prospective energy demand are a crucial component in order to maintain the physical stability and reliability of electricity grids. The constantly increasing capacity of fluctuating renewable energy sources creates a challenge in balancing power supply and demand. To allow for better integration, supply forecasting has become an important topic in the research field of energy data management and many new forecasting methods have been proposed in the literature. However, choosing the optimal solution for a specific forecasting problem remains a time- and work-intensive Task as meaningful benchmarks are rare and there is still no standard, easy-to-use, and robust approach. Many of the models in use are obtained by executing black-box machine learning tools and then manually optimized by human experts via trial-and-error towards the requirements of the underlying use case. Due to the lack of standardized Evaluation methodologies and access to experimental data, these results are not easily comparable. In this thesis, we address the topic of systematic benchmarks for renewable Energy supply forecasts. These usually include two stages, requiring a weather- and an energy forecast model. The latter can be selected amongst the classes of physical, statistical, and hybrid models. The selection of an appropriate model is one of the major tasks included in the forecasting process. We conducted an empirical analysis to assess the most popular forecasting methods. In contrast to the classical time- and resource intensive, mostly manual evaluation procedure, we developed a more efficient decision-support solution. With the inclusion of contextual information, our heuristic approach HMR is able to identify suitable examples in a case base and generates a recommendation out of the results from already existing solutions. The usage of time series representations reduces the dimensions of the original data thus allowing for an efficient search in large data sets. A context-aware evaluation methodology is introduced to assess a forecast’s quality based on its monetary return in the corresponding market environment. Results otherwise usually evaluated using statistical accuracy criteria become more interpretable by estimating
real-world impacts. Finally, we introduced the ECAST framework as an open and easy to-use online platform that supports the benchmarking of energy time series forecasting methods. It aides inexperienced practitioners by supporting the execution of automated tasks, thus making complex benchmarks much more efficient and easy to handle. The integration of modules like the Ensembler, the Recommender, and the Evaluator provide additional value for forecasters. Reliable benchmarks can be conducted on this basis, while analytical functions for output explanation provide transparency for the user.:1 INTRODUCTION 11
2 ENERGY DATA MANAGEMENT CHALLENGES 17
2.1 Market Relevance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 EDMS Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Core Components . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Typical Energy Data Management Processes . . . . . . . . . . . 23
2.2.3 System Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1 Smart Metering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Energy Forecasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Energy Saving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.4 Mobile Consumption Devices . . . . . . . . . . . . . . . . . . . . . 30
2.3.5 Smart Grids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 ENERGY SUPPLY FORECASTING CONCEPTS 35
3.1 Energy Supply Forecasting Approaches . . . . . . . . . . . . . . . . . . . 36
3.1.1 Weather Forecast Models . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.2 Energy Forecast Models . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Energy Forecasting Process . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.1 Iterative Standard Process Model . . . . . . . . . . . . . . . . . . . 43
3.2.2 Context-Awareness . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Model Selection - A Benchmark Case Study . . . . . . . . . . . . . . . . 48
3.3.1 Use Case Description . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.2 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.3 Result Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 RELEVANCE OF RENEWABLE ENERGY FORECASTING METHODS 55
4.1 Scientific Relevance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.1 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.2 Quantitative Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3 Qualitative Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2 Practical Relevance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.1 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.2 Feedback from Software Providers . . . . . . . . . . . . . . . . . . 61
4.2.3 Feedback from Software Users . . . . . . . . . . . . . . . . . . . . . 62
4.3 Forecasting Competitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 HEURISTIC MODEL RECOMMENDATION 67
5.1 Property-based Similarity Determination . . . . . . . . . . . . . . . . . . 67
5.1.1 Time Series Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.2 Reducing Dimensionality with Property Extraction . . . . . . . . . 69
5.1.3 Correlation Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.1 Feature Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.2 Feature Pre-Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2.3 Property-based Least Angle Regression . . . . . . . . . . . . . . . 85
5.3 HMR Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3.1 Formalized Foundations . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3.2 Procedure Description . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3.3 Quality Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.1 Case Base Composition . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4.2 Classifier Performance on univariate Models . . . . . . . . . . . . 95
5.4.3 HMR performance on multivariate models . . . . . . . . . . . . . 99
5.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6 VALUE-BASED RESULT EVALUATION METHODOLOGY 105
6.1 Accuracy evaluation in energy forecasting . . . . . . . . . . . . . . . . 106
6.2 Energy market models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3 Value-based forecasting performance . . . . . . . . . . . . . . . . . . . 110
6.3.1 Forecast Benefit Determination . . . . . . . . . . . . . . . . . . . . 110
6.3.2 Multi-dimensional Ranking Scores . . . . . . . . . . . . . . . . . . . 113
6.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.4.1 Use Case Description . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.4.2 Methodology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.4.3 Result Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7 ECAST BENCHMARK FRAMEWORK 129
7.1 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.1.1 Objective Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.1.2 Fundamental Design Principles . . . . . . . . . . . . . . . . . . . . 131
7.2 System Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2.1 Task Automation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2.2 System Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7.3 Demonstration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.3.1 Step 1: Create a new Benchmark . . . . . . . . . . . . . . . . . . 137
7.3.2 Step 2: Build Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.3.3 Step 3: Evaluate the Output . . . . . . . . . . . . . . . . . . . . . . 141
7.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8 CONCLUSIONS 145
BIBLIOGRAPHY 149
LIST OF FIGURES 167
LIST OF TABLES 169
A LIST OF REVIEWED JOURNAL ARTICLES 171
B QUESTIONNAIRES 175
C STANDARD ERRORS FOR RANKING SCORES 179
D ERROR DISTRIBUTION FOR BENCHMARKED PREDICTORS 183
|
Page generated in 0.0677 seconds