Global ETD Search

1	A Benchmark of Prevalent Feature Selection Algorithms on a Diverse Set of Classification Problems Anette, Kniberg, Nokto, David January 2018 (has links) Feature selection is the process of automatically selecting important features from data. It is an essential part of machine learning, artificial intelligence, data mining, and modelling in general. There are many feature selection algorithms available and the appropriate choice can be difficult. The aim of this thesis was to compare feature selection algorithms in order to provide an experimental basis for which algorithm to choose. The first phase involved assessing which algorithms are most common in the scientific community, through a systematic literature study in the two largest reference databases: Scopus and Web of Science. The second phase involved constructing and implementing a benchmark pipeline to compare 31 algorithms’ performance on 50 data sets.The selected features were used to construct classification models and their predictive performances were compared, as well as the runtime of the selection process. The results show a small overall superiority of embedded type algorithms, especially types that involve Decision Trees. However, there is no algorithm that is significantly superior in every case. The pipeline and data from the experiments can be used by practitioners in determining which algorithms to apply to their respective problems. / Variabelselektion är en process där relevanta variabler automatiskt selekteras i data. Det är en essentiell del av maskininlärning, artificiell intelligens, datautvinning och modellering i allmänhet. Den stora mängden variabelselektionsalgoritmer kan göra det svårt att avgöra vilken algoritm som ska användas. Målet med detta examensarbete är att jämföra variabelselektionsalgoritmer för att ge en experimentell bas för valet av algoritm. I första fasen avgjordes vilka algoritmer som är mest förekommande i vetenskapen, via en systematisk litteraturstudie i de två största referensdatabaserna: Scopus och Web of Science. Den andra fasen bestod av att konstruera och implementera en experimentell mjukvara för att jämföra algoritmernas prestanda på 50 data set. De valda variablerna användes för att konstruera klassificeringsmodeller vars prediktiva prestanda, samt selektionsprocessens körningstid, jämfördes. Resultatet visar att inbäddade algoritmer i viss grad är överlägsna, framför allt typer som bygger på beslutsträd. Det finns dock ingen algoritm som är signifikant överlägsen i varje sammanhang. Programmet och datan från experimenten kan användas av utövare för att avgöra vilken algoritm som bör appliceras på deras respektive problem. feature selection variable selection attribute selection machine learning data mining benchmark classification variabelselektion maskininlärning datautvinning klassificering Medical Engineering Medicinteknik
2	Forecasting Efficiency in Cryptocurrency Markets : A machine learning case study / Prognotisering av Marknadseffektiviteten hos Kryptovalutor : En fallstudie genom maskininlärning Persson, Erik January 2022 (has links) Financial time-series are not uncommon to research in an academic context. This is possibly not only due to its challenging nature with high levels of noise and non-stationary data, but because of the endless possibilities of features and problem formulations it creates. Consequently, problem formulations range from classification and categorical tasks determining directional movements in the market to regression problems forecasting their actual values. These tasks are investigated with features consisting of data extracted from Twitter feeds to movements from external markets and technical indicators developed by investors. Cryptocurrencies are known for being evermore so volatile and unpredictable, resulting in institutional investors avoiding the market. In contrast, research in academia often applies state-of-the-art machine learning models without the industry’s knowledge of pre-processing. This thesis aims to lessen the gap between industry and academia by presenting a process from feature extraction and selection to forecasting through machine learning. The task involves how well the market movements can be forecasted and the individual features’ role in the predictions for a six-hours ahead regression task. To investigate the problem statement, a set of technical indicators and a feature selection algorithm were implemented. The data was collected from the exchange FTX and consisted of hourly data from Solana, Bitcoin, and Ethereum. Then, the features selected from the feature selection were used to train and evaluate an Autoregressive Integrated Moving Average (ARIMA) model, Prophet, a Long Short-Term Memory (LSTM) and a Transformer on the spread between the spot price and three months futures market for Solana. The features’ relevance was evaluated by calculating their permutation importance. It was found that there are indications of short-term predictability of the market through several forecasting models. Furthermore, the LSTM and ARIMA-GARCH performed best in a scenario of low volatility, while the LSTM outperformed the other models in times of higher volatility. Moreover, the investigations show indications of non-stationary. This phenomenon was not only found in the data as sequence but also in the relations between the features. These results show the importance of feature selection for a time frame relevant to the prediction window. Finally, the data displays a strong mean-reverting behaviour and is therefore relatively well-approximated by a naive walk. / Finansiella tidsserier är inte ovanliga att utforska i ett akademiskt sammanhang. Det beror troligen inte bara på dess utmanande karaktär med höga ljudnivåer och icke-stationära data, utan även till följd av de oändliga möjligheter till inmatning och problemformuleringar som det skapar. Följaktligen sträcker sig problemformuleringarna från klassificering och kategoriska uppgifter som bestämmer riktningsrörelser på marknaden till regressionsproblem som förutsäger deras faktiska värden. Dessa uppgifter undersöks med data extraherad från twitterflöden till rörelser från externa marknader och tekniska indikatorer utvecklade av investerare. Kryptovalutor är kända för att vara volatila och oförutsägbara till sin natur, vilket resulterar i att institutionella investerare undviker marknaden. I kontrast tillämpas forskning inom den akademiska världen ofta med avancerade maskininlärningsmodeller utan branschens typiska förbearbetningsarbete. Detta examensarbete syftar till att minska klyftan mellan industri och akademi genom att presentera en process från dataextraktion och urval till prognoser genom maskininlärning. Arbetet undersöker hur väl marknadsrörelserna kan prognostiseras och de enskilda variablernas roll i förutsägelserna för ett regressionsproblem som prognotiserar en sex timmar fram i tiden. Därmed implementerades en uppsättning tekniska indikatorer tillsammans med en algoritm för variabelanvändning. Datan samlades in från börsen FTX och bestod av timdata från Solana, Bitcoin och Ethereum. Sedan användes variablerna som valts för att träna och utvärdera en Autoregressive Integrated Moving Average (ARIMA)-modell, Prophet, en Long Short-Term Memory (LSTM) och en Transformer på skillnaden mellan spotpriset och tre månaders framtidsmarknad för Solana. Variablernas relevans utvärderades genom att beräkna deras vikt vid permutation. Slutsatsen är att det finns indikationer på kortsiktig förutsägbarhet av marknaden genom flera prognosmodeller. Vidare noterades det att LSTM och ARIMA-GARCH presterade bäst i ett scenario med låg volatilitet, medan LSTM överträffade de andra modellerna i vid högre volatilitet. Utöver detta visar undersökningarna indikationer på icke-stationäritet inte bara för datan i sig, utan också för relationerna mellan variablerna. Detta visar vikten av att välja variabler för en tidsram som är relevant för prediktionsfönstret. Slutligen visar tidsserien ett starkt medelåtergående beteende och är därför relativt väl approximerad av en naiv prediktionsmodell. Cryptocurrencies Financial time-series Multi step-ahead forecasting Machine Learning Feature selection Kryptovalutor Finansiella tidsserier Flerstegsprognoser Maskininlärning variabelselektion Computer and Information Sciences Data- och informationsvetenskap
3	Predicting Subprime Customers' Probability of Default Using Transaction and Debt Data from NPLs / Predicering av högriskkunders sannolikhet för fallissemang baserat på transaktions- och lånedata på nödlidande lån Wong, Lai-Yan January 2021 (has links) This thesis aims to predict the probability of default (PD) of non-performing loan (NPL) customers using transaction and debt data, as a part of developing credit scoring model for Hoist Finance. Many NPL customers face financial exclusion due to default and therefore are considered as bad customers. Hoist Finance is a company that manages NPLs and believes that not all conventionally considered subprime customers are high-risk customers and wants to offer them financial inclusion through favourable loans. In this thesis logistic regression was used to model the PD of NPL customers at Hoist Finance based on 12 months of data. Different feature selection (FS) methods were explored, and the best model utilized l1-regularization for FS and predicted with 85.71% accuracy that 6,277 out of 27,059 customers had a PD between 0% to 10%, which support this belief. Through analysis of the PD it was shown that the PD increased almost linearly with respect to an increase in either debt quantity, original total claim amount or number of missed payments. The analysis also showed that the payment behaviour in the last quarter had the most predictive power. At the same time, from analysing the type II error it was shown that the model was unable to capture some bad payment behaviour, due to putting to large emphasis on the last quarter. / Det här examensarbetet syftar till att predicera sannolikheten för fallissemang för nödlidande lånekunder genom transaktions- och lånedata. Detta som en del av kreditvärdighetsmodellering för Hoist Finance. På engelska kallas sannolikheten för fallissemang för "probability of default" (PD) och nödlidande lån kallas för "non-performing loan" (NPL). Många NPL-kunder står inför ekonomisk uteslutning på grund av att de konventionellt betraktas som kunder med dålig kreditvärdighet. Hoist Finance är ett företag som förvaltar nödlidande lån och påstår att inte alla konventionellt betraktade "dåliga" kunder är högrisk kunder. Därför vill Hoist Finance inkludera dessa kunder ekonomisk genom att erbjuda gynnsamma lån. I detta examensarbetet har Logistisk regression används för att predicera PD på nödlidande lånekunder på Hoist Finance baserat på 12 månaders data. Olika metoder för urval av attribut undersöktes och den bästa modellen utnyttjade lasso för urval. Denna modell predicerade med 85,71 % noggrannhet att 6 277 av 27 059 kunder har en PD mellan 0 % till 10 %, vilket stödjer påståendet. Från analys av PD visade det sig att PD ökade nästan linjärt med avseende på ökning i antingen kvantitet av lån, det ursprungliga totala lånebeloppet eller antalet missade betalningar. Analysen visade också att betalningsbeteendet under det sista kvartalet hade störst prediktivt värde. Genom analys av typ II-felet, visades det sig samtidigt att modellen hade svårigheter att fånga vissa dåliga betalningsbeteende just på grund av att för stor vikt lades på det sista kvartalet. Credit Scoring Model Probability of Default Payment Behaviour Subprime Customer Non-performing Loan Logistic Regression Regularization Feature Selection Kreditvärdighetsmodell Sannolikhet för Fallissemang Betalningsbeteende Högriskkunder Nödlidandelån Logistik Regression Regularisering Variabelselektion Mathematics Matematik
4	Shoppin’ in the Rain : An Evaluation of the Usefulness of Weather-Based Features for an ML Ranking Model in the Setting of Children’s Clothing Online Retailing / Handla i regnet : En utvärdering av användbarheten av väderbaserade variabler för en ML-rankningsmodell inom onlineförsäljning av barnkläder Lorentz, Isac January 2023 (has links) Online shopping offers numerous benefits, but large product catalogs make it difficult for shoppers to understand the existence and characteristics of every item for sale. To simplify the decision-making process, online retailers use ranking models to recommend products relevant to each individual user. Contextual user data, such as location, time, or local weather conditions, can serve as valuable features for ranking models, enabling personalized real-time recommendations. Little research has been published on the usefulness of weather-based features for ranking models in online clothing retailing, which makes additional research into this topic worthwhile. Using Swedish sales and customer data from Babyshop, an online retailer of children’s fashion, this study examined possible correlations between local weather data and sales. This was done by comparing differences in daily weather and differences in daily shares of sold items per clothing category for two cities: Stockholm and Göteborg. With Malmö as an additional city, historical observational weather data from one location each in the three cities Stockholm, Göteborg, and Malmö was then featurized and used along with the customers’ postal towns, sales features, and sales trend features to train and evaluate the ranking relevancy of a gradient boosted decision trees learning to rank LightGBM ranking model with weather features. The ranking relevancy was compared against a LightGBM baseline that omitted the weather features and a naive baseline: a popularity-based ranker. Several possible correlations between a clothing category such as shorts, rainwear, shell jackets, winter wear, and a weather variable such as feels-like temperature, solar energy, wind speed, precipitation, snow, and snow depth were found. Evaluation of the ranking relevancy was done using the mean reciprocal rank and the mean average precision @ 10 on a small dataset consisting only of customer data from the postal towns Stockholm, Göteborg, and Malmö and also on a larger dataset where customers in postal towns from larger geographical areas had their home locations approximated as Stockholm, Göteborg or Malmö. The LightGBM rankers beat the naive baseline in three out of four configurations, and the ranker with weather features outperformed the LightGBM baseline by 1.1 to 2.2 percent across all configurations. The findings can potentially help online clothing retailers create more relevant product recommendations. / Internethandel erbjuder flera fördelar, men stora produktsortiment gör det svårt för konsumenter att känna till existensen av och egenskaperna hos alla produkter som saluförs. För att förenkla beslutsprocessen så använder internethandlare rankningsmodeller för att rekommendera relevanta produkter till varje enskild användare. Kontextuell användardata såsom tid på dygnet, användarens plats eller lokalt väder kan vara värdefulla variabler för rankningsmodeller då det möjliggör personaliserade realtidsrekommendationer. Det finns inte mycket publicerad forskning inom nyttan av väderbaserade variabler för produktrekommendationssystem inom internethandel av kläder, vilket gör ytterligare studier inom detta område intressant. Med hjälp av svensk försäljnings- och kunddata från Babyshop, en internethandel för barnkläder så undersökte denna studie möjliga korrelationer mellan lokal väderdata och försäljning. Detta gjordes genom att jämföra skillnaderna i dagligt väder och skillnaderna i dagliga andelar av sålda artiklar per klädeskategori för två städer: Stockholm och Göteborg. Med Malmö som ytterligare en stad så gjordes historiska metereologiska observationer från en plats var i Stockholm, Göteborg och Malmö till variabler och användes tillsammans med kundernas postorter, försäljningsvariabler och variabler för försäljningstrender för att träna och utvärdera rankningsrelevansen hos en gradient-boosted decision trees learning to rank LightGBM rankningsmodell med vädervariabler. Rankningsrelevansen jämfördes mot en LightGBM baslinjesmodel som saknade vädervariabler samt en naiv baslinje: en popularitetsbaserad rankningsmodell. Flera möjliga korrelationer mellan en klädeskategori som shorts, regnkläder, skaljackor, vinterkläder och och en daglig vädervariabel som känns-som-temperatur, solenergi, vindhastighet, nederbörd, snö och snödjup upptäcktes. Utvärderingen av rankingsrelevansen utfördes med mean reciprocal rank och mean average precision @ 10 på ett mindre dataset som bestod endast av kunddata från postorterna Stockholm, Göteborg och Malmö och även på ett större dataset där kunder med postorter från större geografiska områden fick sina hemorter approximerade som Stockholm, Göteborg eller Malmö. LigthGBM-rankningsmodellerna slog den naiva baslinjen i tre av fyra konfigurationer och rankningsmodellen med vädervariabler slog LightGBM baslinjen med 1.1 till 2.2 procent i alla konfigurationer. Resultaten kan potentiellt hjälpa internethandlare inom mode att skapa bättre produktrekommendationssystem. Statistical analysis regression analysis recommender systems ensemble learning electronic commerce LightGBM learning to rank feature selection weather-based features fashion Statistisk analys regressionsanalys rekommendationssystem ensemble-inlärning näthandel LightGBM learning to rank variabelselektion väderbaserade variabler mode Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.0877 seconds