Return to search

Evaluating supervised machine learning algorithms to predict recreational fishing success : A multiple species, multiple algorithms approach / Utvärdering av övervakade maskininlärningsalgoritmer för att förutsäga framgång inom sportfiske

This report examines three different machine learning algorithms and their effectiveness for predicting recreational fishing success. Recreational fishing is a huge pastime but reliable methods of predicting fishing success have largely been missing. This report compares random forest, linear regression and multilayer perceptron to a reasonable baseline model for predicting fishing success. Fishing success is defined as the expected weight of the fish caught. Previous reports have mainly focused on commercial fishing or limited the research to examining the impact of a single variable. In this exploratory study, multiple attributes and multiple algorithms are examined to determine if supervised machine learning is a viable tool to predict recreational fishing success. Recreational fishing success can potentially be predicted by a large number of attributes, which may be different for different species. In this report, data is fetched from multiple sources and combined into a unified data format. The primary source of data is a database from the fishing app FishBrain, containing data of over 250000 logged catches. Another is the World Weather Online API which supplies weather data. The report focuses on the four most common species in the database, largemouth bass, Micropterus salmoides, northern pike, Esox lucius, rainbow trout, Oncorhynchus mykiss and European perch, Perca fluviatilis with a focus on largemouth bass since it has the most data available. Algorithms are evaluated using the Weka data mining software. Hyperparameters are found using cross-validation and some data is used as a test set to validate the results after cross-validation. Results are measured as the error compared to a baseline algorithm. Random forest is the most effective algorithm in the experiments, reducing error compared to the baseline for all the examined fish species. It is also found that no single variable affects the chosen metric of fishing success much, but rather a combination of most of the examined variables is needed to give optimal predictions. In conclusion, the random forest algorithm can be used to predict fishing success across multiple species. It performs significantly better than linear regression, multilayer perceptron and the baseline on crossvalidation and on the testing set. / I denna rapport evalueras tre olika maskininlärningsalgoritmer och deras effektivitet för att förutsäga framgång inom sportfiske. Sport- fiske är en mycket populär hobby, men pålitliga metoder att förutsäga framgångsrikt sportfiske saknas. Denna rapport jämför random forest, linjär regression och flerlagers neurala nätverk mot en rimlig baselinealgorithm för att förutsäga framgång inom sportfiske. Framgång defineras som fiskens förväntade vikt i kg. Tidigare undersökningar har huvudsakligen fokuserat på kommersiellt fiske eller begränsat undersökningen till påverkan av en enskild variabel. I denna studie undersöks flera attribut och algoritmer för att avgöra om övervakad maskininlärning är ett användbart verktyg för att förutsäga framgång inom sportfiske. Framgång inom sportfiske kan potentiellt påverkas av ett stort antal attribut som kan vara olika för olika arter. I denna studie hämtas data från ett flertal källor som kombineras i ett unifierat dataformat. Den primära datakällan är en databas tillhörande sportfiskeappen FishBrain som innehåller över 250000 loggade fångster. En annan källa är World Weather Online:s API som bidrar med väderdata. Rapporten fokuserar på de fyra vanligaste arterna i databasen, largemouth bass, Micropterus salmoides, gädda, Esox lucius, regnbågsöring, Oncorhynchus mykiss och europeisk abborre, Perca fluviatilis med ett särskilt fokus på largemouth bass eftersom den har mest data tillgängligt. Algoritmerna evalueras med hjälp av data mining-verktyget Weka. Hyperparametrar bestäms med hjälp av korsvalidering och en delmängd av datan separeras och används för att validera resultaten efter korsvalidering. Resultaten mäts relativt en baseline-algoritm. Random forest är den mest effektiva algoritmen i experimenten och reducerar felet jämfört med baseline-algoritmen för alla undersökta fiskarter. Inget enskilt attribut påverkar slutresultatet mycket utan det behövs en kombination av flera attribut för att ge optimala prediktioner. Slutsatsen blir att random forest kan användas för att förutsäga framgång inom sportfiske för flera olika fiskarter. Den presterar signifikant bättre än linjär regression, flerlagers neuralt nätverk och baselinealgoritmen på korsvalidering och på testdelmängden.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-172995
Date January 2015
CreatorsWikström, Johan
PublisherKTH, Skolan för datavetenskap och kommunikation (CSC)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0025 seconds