Intelligenta Transportsystem (ITS) utgör idag en central del i arbetet att försöka höja kvaliteten i transportnätverken, genom att exempelvis ge stöd i arbetet att leda trafik i realtid och att ge trafikanter större möjlighet att ta informerade beslut gällandes sin körning. Kortsiktig prediktion av trafikdata, däribland trafikvolym, spelar en central roll för de tjänster ITS-systemen levererar. Den starka teknologiska utvecklingen de senaste decennierna har bidragit till en ökad möjlighet till att använda datadriven modellering för att utföra kortsiktiga prediktioner av trafikdata. Säsongsbaserad ARIMA (SARIMA) är en av de vanligaste datadrivna modellerna för modellering och predicering av trafikdata, vilken använder mönster i historisk data för att predicera framtida värden. Vid modellering med SARIMA behöver en mängd beslut tas gällandes de data som används till modelleringen. Exempel på sådana beslut är hur stor mängd träningsdata som ska användas, vilka dagar som ska ingå i träningsmängden och vilket aggregationsintervall som ska användas. Därtill utförs nästintill enbart enstegsprediktioner i tidigare studier av SARIMA-modellering av trafikdata, trots att modellen stödjer predicering av flera steg in i framtiden. Besluten gällandes de parametrar som nämnts saknar ofta teoretisk motivering i tidigare studier, samtidigt som det är högst troligt att dessa beslut påverkar träffsäkerheten i prediktionerna. Därför syftar den här studien till att utföra en känslighetsanalys av dessa parametrar, för att undersöka hur olika värden påverkar precisionen vid prediktion av trafikvolym. I studien utvecklades en modell, med vilken data kunde importeras, preprocesseras och sedan modelleras med hjälp av SARIMA. Studien använde trafikvolymdata som insamlats under januari och februari 2014, med hjälp av kameror placerade på riksväg 40 i utkanten av Göteborg. Efter differentiering av data används såväl autokorrelations- och partiell autokorrelationsgrafer som informationskriterier för att definiera lämpliga SARIMA-modeller, med vilka prediktioner kunde göras. Med definierade modeller genomfördes ett experiment, där åtta unika scenarion testades för att undersöka hur prediktionsprecisionen av trafikvolym påverkades av olika mängder träningsdata, vilka dagar som ingick i träningsdata, längden på aggregationsintervallen och hur många tidssteg in i framtiden som predicerades. För utvärdering av träffsäkerheten i prediktionerna användes MAPE, RMSE och MAE. Resultaten som experimentet visar är att definierade SARIMA-modeller klarar att predicera aktuell data med god precision oavsett vilka värden som sattes för de variabler som studerades. Resultaten visade dock indikationer på att en träningsvolym omfattande fem dagar kan generera en modell som ger mer träffsäkra prediktioner än när volymer om 15 eller 30 dagar används, något som kan ha stor praktisk betydelse vid realtidsanalys. Därtill indikerar resultaten att samtliga veckodagar bör ingå i träningsdatasetet när dygnsvis säsongslängd används, att SARIMA-modelleringen hanterar aggregationsintervall om 60 minuter bättre än 30 eller 15 minuter samt att enstegsprediktioner är mer träffsäkra än när horisonter om en eller två dagar används. Studien har enbart fokuserat på inverkan av de fyra parametrarna var för sig och inte om en kombinerad effekt finns att hitta. Det är något som föreslås för framtida studier, liksom att vidare utreda huruvida en mindre träningsvolym kan fortsätta att generera mer träffsäkra prediktioner även för andra perioder under året. / Intelligent Transport Systems (ITS) today are a key part of the effort to try to improve the quality of transport networks, for example by supporting the real-time traffic management and giving road users greater opportunity to take informed decisions regarding their driving. Short-term prediction of traffic data, including traffic volume, plays a central role in the services delivered by ITS systems. The strong technological development has contributed to an increased opportunity to use data-driven modeling to perform short-term predictions of traffic data. Seasonal ARIMA (SARIMA) is one of the most common models for modeling and predicting traffic data, which uses patterns in historical data to predict future values. When modeling with SARIMA, a variety of decisions are required regarding he data used. Examples of such decisions are the amount of training data to be used, the days to be included in training data and the aggregation interval to be used. In addition, one-step predictions are performed most often in previous studies of SARIMA modeling of traffic data, although the model supports multi-step prediction into the future. Often, in previous studies, decisions are made concerning mentioned variables without theoretical motivation, while it is highly probable that these decisions affect the accuracy of the predictions. Therefore, this study aims at performing a sensitivity analysis of these parameters to investigate how different values affect the accuracy of traffic volume prediction. The study developed a model with which data could be imported, preprocessed and then modeled using a SARIMA model. Traffic volume data was used, which was collected during January and February 2014, using cameras located on highway 40 on the outskirts of Gothenburg. After differentiation of data, autocorrelation and partial autocorrelation graphs as well as information criteria are used to define appropriate SARIMA models, with which predictions could be made. With defined models, an experiment was conducted in which eight unique scenarios were tested to investigate how the prediction accuracy of traffic volume was influenced by different amount of exercise data, what days was included in training data, length of aggregation intervals, and how many steps into the future were predicted. To evaluate the accuracy of the predictions, MAPE, RMSE and MAE were used. The results of the experiment show that developed SARIMA models are able to predict current data with good precision no matter what values were set for the variables studied. However, the results showed indications that a training volume of five days can generate a model that provides more accurate predictions than when using 15 or 30-day volumes, which can be of great practical importance in real-time analysis. In addition, the results indicate that all weekdays should be included in the training data set when daily seasonality is used, SARIMA modeling handles aggregation intervals of 60 minutes better than 30 or 15 minutes, and that one-step predictions are more accurate than when one or two days horizons are used. The study has focused only on the impact of the four parameters separately and not if a combined effect could be found. Further research is proposed for investigating if combined effects could be found, as well as further investigating whether a lesser training volume can continue to generate more accurate predictions even for other periods of the year.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:hb-14336 |
Date | January 2018 |
Creators | Landström, Johan, Linderoth, Patric |
Publisher | Högskolan i Borås, Akademin för bibliotek, information, pedagogik och IT, Högskolan i Borås, Akademin för bibliotek, information, pedagogik och IT |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0076 seconds