Kontext. Maskininlärningsalgoritmer kan användas för att göra förutsägelser baserat påen mängd data. Vi använder oss utav data ifrån en cykelbarometer lokaliserad vid en cy-kelväg i Malmö i vår forskning. Denna barometer räknar antalet förbipasserande cyklarper dag. Tillsammans med väderdata, som består av temperatur och nederbörd, jämförvi precisionen hos algoritmer för uppskattning av antalet cyklister. I denna studie imple-menterar vi och testar en mängd olika maskininlärningsalgoritmer som finns tillgängliga iprogramvaran Weka. Vi tar hjälp av tidigare forskning inom ämnet för att identifiera vilkaalgoritmer som lämpar sig bäst för vår typ av data. Vi väljer sedan ut de tre algoritmermed bäst träffsäkerhet och undersöker dessa närmare.Mål. Målet med studien är att vi ska få fram vilken maskininlärningsalgoritm som gerdet mest tillförlitliga resultatet för att uppskatta antalet cyklister med hjälp av vår cykel-barometer- och väderdata.Metoder. Vi bearbetar datan ifrån cykelbarometern och väderstationen för att filtrera bortdagar som kan förvränga resultatet. Exempel på data som vi filtrerar bort är helgdagaroch skollov. Med den filtrerade datan implementerar vi ett flertal maskininlärningsalgorit-mer för att uppskatta antalet cyklister som kommer att passera barometern under en näraframtid. Resultaten ifrån algoritmerna använder vi för att jämföra och se vilken algoritmsom ger den mest tillförlitliga uppskattningen för den aktuella tillämpningen.Resultat. Enligt våra resultat är Random SubSpace och Bagging de överlägsna algorit-merna för att uppskatta cykelflöde. I samtliga av våra experiment åstadkommer dessa tvåbättre resultat än övriga algoritmer som finns tillgängliga i Weka. Resultaten därefter skil-jer sig från experiment till experiment men i genomsnitt är Wekas REPTree-algoritm dentredje mest precisa. Variabeln som bidrar mest till vår uppskattning av antalet cyklisterär datum. Utan denna variabel reduceras korrelationen till hälften för samtliga algoritmer.När vi avlägsnar temperatur-variabeln presterar däremot algoritmerna bättre genom attge högre korrelation.Analys. Vi har hittat en korrelation mellan datum och cykelflöden samt kunnat förutsägacykelflöden beroende på datum och väder. Vi förväntade oss inte att variabeln temperatur gör det svårare för algoritmer att uppskatta antal cyklister. Vi antar att detta beror på att människor väljer att cykla efter datum istället för temperatur. / Context. Machine Learning Algorithms can be used to make predictions based on a va-riety of data. We use data from a bicycle barometer located at a bike path in Malmö inour research. This barometer counts the number of passing bikes per day. Together withweather data, consisting of temperature and precipitation, we compare the accuracy ofthe algorithms to estimate the number of cyclists. In this study we implement and test avariety of machine learning algorithms that are available in the software Weka. We rely on previous research in order to identify which algorithms are best suited for our type of data. We will then select the three algorithms with the best accuracy and examine them closer.Goal. The goal of the study is to identify the machine learning algorithm that providesthe most reliable results to estimate the number of cyclists using our bicycle barometer-and weather data.Methods. We process the data from the bicycle barometer and weather station to filter out days that can distort the results. Examples of data that we filter out are public holidays and school holidays. With the filtered data we implement three different machine learningalgorithms to estimate the number of bicyclists who will pass the barometer in the nearfuture. The results from the algorithms are then used to compare and see which algorithmthat makes the most reliable estimate of the current application.Results. According to our results, the Random SubSpace and Bagging methods are thesuperior algorithms to estimate the cycle flow. These algorithms provide the best results in all of our experiments. The results differ beyond those two algorithms but on average Wekas REPTree algorithm is the third most accurate. The variable that contributes the most to our estimate of cyclists is date. Without the date predictor the correlation is reduced to half compared to the other experiments. However, when we eliminate the temperature predictor the correlation increases.Analysis. We have found a correlation between dates and bicycle flows. In addition wehave been able to estimate the cycle flows, depending on date and weather. We did not expect that the variable temperature makes it harder for algorithms to estimate the number of cyclists. We assume that this is because people choose to cycle by date instead of the temperature.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:mau-20129 |
Date | January 2016 |
Creators | Aspegren, Sebastian, Dahlström, Jonas |
Publisher | Malmö högskola, Fakulteten för teknik och samhälle (TS), Malmö högskola/Teknik och samhälle |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0018 seconds