Maskininlärning är en lovande teknik för väderanalys med potential att förbättra och effektivisera väderförutsägelser. Som en datadriven teknik kräver maskininlärning ofta stora mängder data för att uppnå hög noggrannhet. Att hantera och bearbeta dessa stora datamängder innebär dock utmaningar, vilket gör träningstiderna för dessa modeller både långa och resurskrävande. Dessutom inkluderar stora data- mängd ofta en betydande mängd redundant data som inte bidrar mycket till klassifi- ceringen. Elimineringen av dessa redundanta data kan positivt påverka både beräk- ningstiden för modellträningen och noggrannheten. En effektiv metod för att han- tera detta problem är instansval. I denna studie undersöks effekterna av att använda instansvalsmetoderna Deep Ran- domized Locality Sensitive Hashing (DRLSH) och Binary Partitioning Locality Sensi- tive Hashing (BPLSH) i hybrid form för att optimera träningstiden och noggrann- heten hos maskininlärningsmodeller för väderklassificering. För att genomföra stu- dien har kvantitativa analyser använts där prestandan för maskininlärningsmodeller såsom RF, k-NN, SVM och LSTM utvärderades både före och efter implemente- ringen av instansvalsmetoderna. Dessa modeller testades på en omfattande data- mängd bestående av historiska väderdata, och jämförelser gjordes baserat på trä- ningshastighet och modellnoggrannhet. Studien visar att DRLSH och BPLSH kan minska den nödvändiga mängden tränings- data avsevärt, vilket i sin tur leder till snabbare träningstider för alla testade mo- deller. Resultaten visar också att noggrannheten förbättras marginellt i modeller som RF, k-NN och SVM när dessa metoder används, medan LSTM-modellen uppvi- sade en minskning i noggrannhet, vilket pekar på att metodernas effektivitet kan va- riera beroende på modelltyp. Det noterades dock att för modeller som k-NN och RF var träningstiden med instansvalsmetoderna inte optimal, eftersom tiden som togs av BPLSH för att göra instansval var betydligt längre. Baserat på resultaten rekommenderas användning av DRLSH och BPLSH särskilt för komplexa modeller som kräver omfattande beräkningsresurser och långa tränings- processer. För mindre komplexa modeller rekommenderas dock att använda DRLSH ensamt, eftersom den ökade tidsåtgången för instansval med BPLSH kan motverka de möjliga effektivitetsvinsterna. / Machine learning is a promising technique for weather analysis with the potential to improve and streamline weather forecasting. As a data-driven technique, machine learning often requires large amounts of data to achieve high accuracy. However, managing and processing these large datasets poses challenges, making the training times for these models both long and resource intensive. Additionally, large datasets often include a significant amount of redundant data that does not contribute much to classification. Eliminating this redundant data can positively impact both the com- putation time for model training and accuracy. An effective method for handling this issue is instance selection. This study examines the effects of using the instance selection methods Deep Ran- domized Locality Sensitive Hashing (DRLSH) and Binary Partitioning Locality Sensi- tive Hashing (BPLSH) in a hybrid form to optimize the training time and accuracy of machine learning models for weather classification. Quantitative analyses were used to evaluate the performance of machine learning models such as RF, k-NN, SVM, and LSTM before and after the implementation of the instance selection methods. These models were tested on a comprehensive dataset consisting of historical weather data, and comparisons were made based on training speed and model accu- racy. The study shows that DRLSH and BPLSH can significantly reduce the necessary amount of training data, which in turn leads to faster training times for all tested models. The results also indicate that accuracy improves marginally in models such as RF, k-NN, and SVM when these methods are used, whereas the LSTM model showed a decrease in accuracy, suggesting that the methods effectiveness may vary depending on the model type. However, it was noted that for models such as k-NN and RF, the training time with instance selection methods was not optimal, as the time taken by BPLSH for instance selection was considerably longer. Based on the results, the use of DRLSH and BPLSH is recommended particularly for complex models that require extensive computational resources and long training processes. For less complex models, however, it is recommended to use DRLSH alone, as the increased time taken by BPLSH for instance selection can negate poten- tial efficiency gains.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:hig-44387 |
Date | January 2024 |
Creators | Ismail, Aman Mohammed |
Publisher | Högskolan i Gävle, Avdelningen för datavetenskap och samhällsbyggnad |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0015 seconds