Return to search

Analyse und Vergleich des Modal Splits in den Jahren 2013 und 2018 auf Basis der SrV-Daten mithilfe von Random Forest

Der hohe Anteil des Verkehrs an den Gesamtemissionen, dem damit verbundenen Beitrag zum Klimawandel sowie der extensive Flächenverbrauch des Individualverkehrs verstärken die politischen Forderungen nach einer Verkehrswende. Das Ziel dieser Arbeit ist es, mithilfe ausführlich methodisch dargestellter Verfahren des maschinellen Lernens ein optimales Klassifikationsmodell zu entwickeln. Dieses ermöglicht die Evaluation und Prognose der Verkehrsmittelwahl und damit den Modal Split auf Basis verschiedener Einflussfaktoren insbesondere im Zeitverlauf zwischen 2013 und 2018. Bisherige Untersuchungen konzentrieren sich auf außereuropäische Gebiete und einmalige Erhebungsdurchläufe. Für die Analyse wird auf die von der Technischen Universität Dresden durchgeführte Mobilitätsbefragung 'SrV - Mobilität in Städten' für die 25 großen deutschen Vergleichsstädte der Jahre 2013 und 2018 zurückgegriffen. Nach der Datenaufbereitung werden unter Verwendung deskriptiver Methoden und Zusammenhangsmaße die einzelnen Merkmalsvariablen auf die Eignung in der Modellbildung beurteilt, um möglichst aussagekräftige Modellergebnisse zu erhalten. Basierend auf CART-Entscheidungsbäumen werden Modelle mit dem Bagging-, Random Forest- und dem Boosting-Algorithmus für beide Jahre erstellt. Zur Einordnung der Effektivität der Modelle werden ebenfalls Modelle für Künstliche Neuronale Netzwerke und der Multinomialen Logistischen Regression für beide Jahre untersucht. Auf Basis von Random Forest, das insgesamt in der Untersuchung mit einer Gesamttrefferquote von 82,9 % (AUC-Wert 0,9458) für 2013 und 79,8 % (AUC-Wert 0,9377) für 2018 die besten Gütemaße erzielt, werden die Einflussfaktoren mittels eines Variable Importance Plots und des Partial Dependence Plots beschrieben und ausgewertet. Insbesondere wird festgestellt, dass Länge und Dauer des Weges und die Verfügbarkeit einer Dauerkarte für den öffentlichen Verkehr den größten Einfluss auf die Verkehrsmittelwahl haben. Im Zeitverlauf fällt auf, dass insbesondere MIV-Wege durch Rad- und ÖV-Fahrten substituiert werden, während bei den Fußwegen nur geringe Veränderungen auffallen. Die geschätzten Klassifikationsmodelle erreichen überwiegend herausragende Vorhersagen der Verkehrsmittelwahl, wobei diese Prognosen für das Fahrrad sich am schwierigsten gestalten.:Inhaltsverzeichnis
Abbildungsverzeichnis VII
Tabellenverzeichnis XI
Abkürzungsverzeichnis XIII
Symbolverzeichnis XV

1 Einleitung 1

2 Literaturübersicht 3

3 Methodik 5
3.1 Entscheidungsbäume 5
3.1.1 Notation der Baumstruktur 5
3.1.2 Regressionsbäume 6
3.1.3 Klassifikationsbäume 6
3.1.4 Stutzen eines Baumes und Abbruchkriterien 9
3.1.5 Bewertung des Verfahrens 10
3.2 Bagging 11
3.2.1 Idee 11
3.2.2 Bootstrap 12
3.2.3 Subsampling 12
3.2.4 Prinzip des Bagging-Algorithmus 12
3.2.5 Bewertung des Verfahrens und Anpassung 15
3.3 Random Forest 16
3.3.1 Idee 16
3.3.2 Prinzip des Random-Forest-Algorithmus 17
3.3.3 Bewertung des Verfahrens und Anpassung 20
3.3.4 Bewertung der Einflussfaktoren 21
3.4 Boosting 23
3.4.1 Idee 23
3.4.2 Prinzip des AdaBoost-Verfahrens 24
3.4.3 Evaluation 25
3.5 Künstliches Neuronales Netzwerk 25
3.5.1 Idee 26
3.5.2 Prinzip des Künstlichen Neuronalen Netzwerks 26
3.5.3 Evaluation und Anpassungsparameter 29
3.6 Multinomiale Logistische Regression 30
3.7 Gütemaße 30
3.7.1 Trefferquote 30
3.7.2 ROC-Kurve und AUC 30

4 Daten 33
4.1 Datensatz 33
4.2 Datenaufbereitung 34
4.2.1 Auflösung der Multilevelstruktur 34
4.2.2 Daten in der Haushaltsebene 35
4.2.3 Daten in der Personenebene 36
4.2.4 Daten in der Wegeebene 37
4.2.5 Ausreißer und fehlende Werte 37

5 Deskriptive Analyse 39
5.1 Auswertung der kategorialen abhängigen Variablen 39
5.2 Auswertung der kardinalen Variablen 40
5.2.1 Streu- und Lagemaße 40
5.2.2 Korrelation zwischen den kardinalen Variablen 42
5.3 Auswertung der ordinalen und nominalen Variablen 43
5.3.1 Relative Häufigkeiten 43
5.3.2 Beurteilung der ordinalen und nominalen Variablen mithilfe des korrigierten Kontingenzkoeffizienten nach Pearson 46
5.4 Analyse statistischer Unterschiede der beiden untersuchten Stichproben 47

6 Ergebnisse der Modelle 49
6.1 Baumbasierte Klassifikationsverfahren 49
6.1.1 CART-Entscheidungsbäume 49
6.1.2 Bagging 52
6.1.3 Random Forest 53
6.1.4 Boosting 66
6.2 Künstliches Neuronales Netzwerk 69
6.3 Multinomiale Logistische Regression 71

7 Fazit 73

8 Kritische Würdigung und Ausblick 75

Literaturverzeichnis XIX
Anhang XXV
Danksagung LXI / The high share of traffic in total emissions, the associated contribution to climate change and the extensive land consumption of individual traffic reinforce the political demands for a traffic turnaround. The aim of this thesis is to develop an optimal classification model with the help of detailed methodical presented methods of machine learning. This enables the evaluation and forcast of the choice of means of transport and thus the modal split on the basis of various influencing factors, particularly over the course of time between 2013 and 2018. Previous studies have focused on non-European areas and one-off surveys. For the analysis, the mobility survey 'SrV-Mobilität in Städten' carried out by the Technische Universität Dresden for the 25 large German cities in 2013 and 2018 is used. After the data processing, the individual feature variables are assessed for their suitability in the modeling process using descriptive methods and correlation measures in order to obtain the most meaningful model results possible. Based on CART Decision Trees, models with the Bagging, Random Forest and Boosting algorithms are created for both years. To classify the effectiveness of the models, models for Artificial Neural Networks and Multinomial Logistic Regression are also examined for both years. Based on Random Forest, which achieved the best quality measures in the study with an overall accuracy of 82.9 % (AUC value 0.9458) for 2013 and 79.8 % (AUC value 0.9377) for 2018, the influencing factors are described and evaluated using a Variable Importance Plot and the Partial Dependence Plot. In particular, it is found that the length and duration of the journey and the availability of a season ticket for public transport have the greatest influence on the choice of the mode of transport. Over the course of time, it is noticeable that in particular motorized traffic routes are being replaced by cycling and public transport, while only minor changes are noticeable in the case of walking. Most of the estimated classification models achieve excellent predictions in the choice of mode of transport, although these predictions are the most difficult for the bicycle.:Inhaltsverzeichnis
Abbildungsverzeichnis VII
Tabellenverzeichnis XI
Abkürzungsverzeichnis XIII
Symbolverzeichnis XV

1 Einleitung 1

2 Literaturübersicht 3

3 Methodik 5
3.1 Entscheidungsbäume 5
3.1.1 Notation der Baumstruktur 5
3.1.2 Regressionsbäume 6
3.1.3 Klassifikationsbäume 6
3.1.4 Stutzen eines Baumes und Abbruchkriterien 9
3.1.5 Bewertung des Verfahrens 10
3.2 Bagging 11
3.2.1 Idee 11
3.2.2 Bootstrap 12
3.2.3 Subsampling 12
3.2.4 Prinzip des Bagging-Algorithmus 12
3.2.5 Bewertung des Verfahrens und Anpassung 15
3.3 Random Forest 16
3.3.1 Idee 16
3.3.2 Prinzip des Random-Forest-Algorithmus 17
3.3.3 Bewertung des Verfahrens und Anpassung 20
3.3.4 Bewertung der Einflussfaktoren 21
3.4 Boosting 23
3.4.1 Idee 23
3.4.2 Prinzip des AdaBoost-Verfahrens 24
3.4.3 Evaluation 25
3.5 Künstliches Neuronales Netzwerk 25
3.5.1 Idee 26
3.5.2 Prinzip des Künstlichen Neuronalen Netzwerks 26
3.5.3 Evaluation und Anpassungsparameter 29
3.6 Multinomiale Logistische Regression 30
3.7 Gütemaße 30
3.7.1 Trefferquote 30
3.7.2 ROC-Kurve und AUC 30

4 Daten 33
4.1 Datensatz 33
4.2 Datenaufbereitung 34
4.2.1 Auflösung der Multilevelstruktur 34
4.2.2 Daten in der Haushaltsebene 35
4.2.3 Daten in der Personenebene 36
4.2.4 Daten in der Wegeebene 37
4.2.5 Ausreißer und fehlende Werte 37

5 Deskriptive Analyse 39
5.1 Auswertung der kategorialen abhängigen Variablen 39
5.2 Auswertung der kardinalen Variablen 40
5.2.1 Streu- und Lagemaße 40
5.2.2 Korrelation zwischen den kardinalen Variablen 42
5.3 Auswertung der ordinalen und nominalen Variablen 43
5.3.1 Relative Häufigkeiten 43
5.3.2 Beurteilung der ordinalen und nominalen Variablen mithilfe des korrigierten Kontingenzkoeffizienten nach Pearson 46
5.4 Analyse statistischer Unterschiede der beiden untersuchten Stichproben 47

6 Ergebnisse der Modelle 49
6.1 Baumbasierte Klassifikationsverfahren 49
6.1.1 CART-Entscheidungsbäume 49
6.1.2 Bagging 52
6.1.3 Random Forest 53
6.1.4 Boosting 66
6.2 Künstliches Neuronales Netzwerk 69
6.3 Multinomiale Logistische Regression 71

7 Fazit 73

8 Kritische Würdigung und Ausblick 75

Literaturverzeichnis XIX
Anhang XXV
Danksagung LXI

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:74086
Date04 March 2021
CreatorsLins, Stefan Martin
ContributorsOkhrin, Iryna, Okhrin, Ostap, Technische Universität Dresden
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageGerman
Typeinfo:eu-repo/semantics/acceptedVersion, doc-type:masterThesis, info:eu-repo/semantics/masterThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds