Spelling suggestions: "subject:"stichprobenverzerrung"" "subject:"stichprobenverzerrungen""
1 |
Machine Learning for Credit Risk AnalyticsKozodoi, Nikita 03 June 2022 (has links)
Der Aufstieg des maschinellen Lernens (ML) und die rasante Digitalisierung der Wirtschaft haben die Entscheidungsprozesse in der Finanzbranche erheblich verändert. Finanzinstitute setzen zunehmend auf ML, um die Entscheidungsfindung zu unterstützen. Kreditscoring ist eine der wichtigsten ML-Anwendungen im Finanzbereich. Die Aufgabe von Kreditscoring ist die Unterscheidung ob ein Antragsteller einen Kredit zurückzahlen wird. Finanzinstitute verwenden ML, um Scorecards zu entwickeln, die die Ausfallwahrscheinlichkeit eines Kreditnehmers einschätzen und Genehmigungsentscheidungen automatisieren.
Diese Dissertation konzentriert sich auf drei große Herausforderungen, die mit dem Aufbau von ML-basierten Scorekarten für die Bewertung von Verbraucherkrediten verbunden sind: (i) Optimierung von Datenerfassungs- und -speicherkosten bei hochdimensionalen Daten von Kreditantragstellern; (ii) Bewältigung der negativen Auswirkungen von Stichprobenverzerrungen auf das Training und die Bewertung von Scorekarten; (iii) Messung und Sicherstellung der Fairness von Instrumenten bei gleichzeitig hoher Rentabilität.
Die Arbeit bietet und testet eine Reihe von Instrumenten, um jede dieser Herausforderungen zu lösen und die Entscheidungsfindung in Finanzinstituten zu verbessern. Erstens entwickeln wir Strategien zur Auswahl von Merkmalen, die mehrere unternehmensbezogene Zielfunktionen optimieren. Unsere Vorschläge reduzieren die Kosten der Datenerfassung und verbessern die Rentabilität der Modelle. Zweitens schlagen wir Methoden zur Abschwächung der negativen Auswirkungen von Stichprobenverzerrungen vor. Unsere Vorschläge gleichen die Verluste aufgrund von Verzerrungen teilweise aus und liefern zuverlässigere Schätzungen der künftigen Scorecard-Leistung. Drittens untersucht die Arbeit faire ML-Praktiken in Kreditscoring. Wir katalogisieren geeignete algorithmische Optionen für die Einbeziehung von Fairness-Zielen und verdeutlichen den Kompromiss zwischen Gewinn und Fairness. / The rise of machine learning (ML) and the rapid digitization of the economy has substantially changed decision processes in the financial industry. Financial institutions increasingly rely on ML to support decision-making. Credit scoring is one of the prominent ML applications in finance. The task of credit scoring is to distinguish between applicants who will pay back the loan or default. Financial institutions use ML to develop scoring models to estimate a borrower's probability of default and automate approval decisions.
This dissertation focuses on three major challenges associated with building ML-based scorecards in consumer credit scoring: (i) optimizing data acquisition and storage costs when dealing with high-dimensional data of loan applicants; (ii) addressing the adverse effects of sampling bias on training and evaluation of scoring models; (iii) measuring and ensuring the scorecard fairness while maintaining high profitability.
The thesis offers a set of tools to remedy each of these challenges and improve decision-making practices in financial institutions. First, we develop feature selection strategies that optimize multiple business-inspired objectives. Our propositions reduce data acquisition costs and improve model profitability and interpretability. Second, the thesis illustrates the adverse effects of sampling bias on model training and evaluation and suggests novel bias correction frameworks. The proposed methods partly recover the loss due to bias, provide more reliable estimates of the future scorecard performance and increase the resulting model profitability. Third, the thesis investigates fair ML practices in consumer credit scoring. We catalog algorithmic options for incorporating fairness goals in the model development pipeline and perform empirical experiments to clarify the profit-fairness trade-off in lending decisions and identify suitable options to implement fair credit scoring and measure the scorecard fairness.
|
2 |
On sampling bias in multiphase flows: Particle image velocimetry in bubbly flowsZiegenhein, Thomas, Lucas, Dirk 19 April 2016 (has links) (PDF)
Measuring the liquid velocity and turbulence parameters in multiphase flows is a challenging task. In general, measurements based on optical methods are hindered by the presence of the gas phase. In the present work, it is shown that this leads to a sampling bias. Here, particle image velocimetry (PIV) is used to measure the liquid velocity and turbulence in a bubble column for different gas volume flow rates. As a result, passing bubbles lead to a significant sampling bias, which is evaluated by the mean liquid velocity and Reynolds stress tensor components. To overcome the sampling bias a window averaging procedure that waits a time depending on the locally distributed velocity information (hold processor) is derived. The procedure is demonstrated for an analytical test function. The PIV results obtained with the hold processor are reasonable for all values. By using the new procedure, reliable liquid velocity measurements in bubbly flows, which are vitally needed for CFD validation and modeling, are possible. In addition, the findings are general and can be applied to other flow situations and measuring techniques.
|
3 |
On sampling bias in multiphase flows: Particle image velocimetry in bubbly flowsZiegenhein, Thomas, Lucas, Dirk January 2016 (has links)
Measuring the liquid velocity and turbulence parameters in multiphase flows is a challenging task. In general, measurements based on optical methods are hindered by the presence of the gas phase. In the present work, it is shown that this leads to a sampling bias. Here, particle image velocimetry (PIV) is used to measure the liquid velocity and turbulence in a bubble column for different gas volume flow rates. As a result, passing bubbles lead to a significant sampling bias, which is evaluated by the mean liquid velocity and Reynolds stress tensor components. To overcome the sampling bias a window averaging procedure that waits a time depending on the locally distributed velocity information (hold processor) is derived. The procedure is demonstrated for an analytical test function. The PIV results obtained with the hold processor are reasonable for all values. By using the new procedure, reliable liquid velocity measurements in bubbly flows, which are vitally needed for CFD validation and modeling, are possible. In addition, the findings are general and can be applied to other flow situations and measuring techniques.
|
4 |
Analysis of survey data in the presence of non-ignorable missing-data and selection mechanismsHammon, Angelina 04 July 2023 (has links)
Diese Dissertation beschäftigt sich mit Methoden zur Behandlung von nicht-ignorierbaren
fehlenden Daten und Stichprobenverzerrungen – zwei häufig auftretenden Problemen bei
der Analyse von Umfragedaten. Beide Datenprobleme können die Qualität der Analyseergebnisse erheblich beeinträchtigen und zu irreführenden Inferenzen über die Population führen. Daher behandle ich innerhalb von drei verschiedenen Forschungsartikeln,
Methoden, die eine Durchführung von sogenannten Sensitivitätsanalysen in Bezug auf
Missing- und Selektionsmechanismen ermöglichen und dabei auf typische Survey-Daten
angewandt werden können. Im Rahmen des ersten und zweiten Artikels entwickele ich Verfahren zur multiplen Imputation von binären und ordinal Mehrebenen-Daten, welche es zulassen, einen potenziellen Missing Not at Random (MNAR) Mechanismus zu berücksichtigen. In unterschiedlichen Simulationsstudien konnte bestätigt werden, dass die neuen Imputationsmethoden in der Lage sind, in allen betrachteten Szenarien unverzerrte sowie effiziente Schätzungen zuliefern. Zudem konnte ihre Anwendbarkeit auf empirische Daten aufgezeigt werden.
Im dritten Artikel untersuche ich ein Maß zur Quantifizierung und Adjustierung von nicht ignorierbaren Stichprobenverzerrungen in Anteilswerten, die auf der Basis von nicht-probabilistischen Daten geschätzt wurden. Es handelt sich hierbei um die erste Anwendung des Index auf eine echte nicht-probabilistische Stichprobe abseits der Forschergruppe, die das Maß entwickelt hat. Zudem leite ich einen allgemeinen Leitfaden für die
Verwendung des Index in der Praxis ab und validiere die Fähigkeit des Maßes vorhandene
Stichprobenverzerrungen korrekt zu erkennen.
Die drei vorgestellten Artikel zeigen, wie wichtig es ist, vorhandene Schätzer auf ihre Robustheit hinsichtlich unterschiedlicher Annahmen über den Missing- und Selektionsmechanismus zu untersuchen, wenn es Hinweise darauf gibt, dass die Ignorierbarkeitsannahme verletzt sein könnte und stellen erste Lösungen zur Umsetzung bereit. / This thesis deals with methods for the appropriate handling of non-ignorable missing
data and sample selection, which are two common challenges of survey data analysis.
Both issues can dramatically affect the quality of analysis results and lead to misleading
inferences about the population. Therefore, in three different research articles, I treat
methods for the performance of so-called sensitivity analyses with regards to the missing data and selection mechanism that are usable with typical survey data.
In the first and second article, I provide novel procedures for the multiple imputation
of binary and ordinal multilevel data that are supposed to be Missing not At Random
(MNAR). The methods’ suitability to produce unbiased and efficient estimates could be
demonstrated in various simulation studies considering different data scenarios. Moreover,
I could show their applicability to empirical data.
In the third article, I investigate a measure to quantify and adjust non-ignorable selection
bias in proportions estimated based on non-probabilistic data. In doing so, I provide
the first application of the suggested index to a real non-probability sample outside its
original research group. In addition, I derive general guidelines for its usage in practice,
and validate the measure’s performance in properly detecting selection bias.
The three presented articles highlight the necessity to assess the sensitivity of estimates
towards different assumptions about the missing-data and selection mechanism if it seems
realistic that the ignorability assumption might be violated, and provide first solutions to
enable such robustness checks for specific data situations.
|
Page generated in 0.0668 seconds