Global ETD Search

1	Bedömning av fakturor med hjälp av maskininlärning / Invoice Classification using Machine Learning Hjalmarsson, Martin, Björkman, Mikael January 2017 (has links) Factoring innebär försäljning av fakturor till tredjepart och därmed möjlighet att få in kapital snabbt och har blivit alltmer populärt bland företag idag. Ett fakturaköp innebär en viss kreditrisk för företaget i de fall som fakturan inte blir betald och som köpare av kapital önskar man att minimera den risken. Aros Kapital erbjuder sina kunder tjänsten factoring. Under detta projekt undersöks möjligheten att använda maskininlärningsmetoder för att bedöma om en faktura är en bra eller dålig investering. Om maskininlärningen visar sig vara bättre än manuell hantering kan även bättre resultat uppnås i form av minskade kreditförluster, köp av fler fakturor och därmed ökad vinst. Fyra maskininlärningsmetoder jämfördes: beslutsträd, slumpmässig skog, Adaboost och djupa neurala nätverk. Utöver jämförelse sinsemellan har metoderna jämförts med Aros befintliga beslut och nuvarande regelmotor. Av de jämförda maskininlärningsmetoderna presterade slumpmässig skog bäst och visade sig bättre än Aros befintliga beslut på de testade fakturorna, slumpmässig skog fick F1-poängen 0,35 och Aros 0,22 . / Today, companies can sell their invoices to a third party in order to to quickly capitalize them. This is called factoring. For the financial institute which serve as the third party, the purchase of an invoice infers a certain risk in case the invoice is not paid, a risk the financial institute would like to minimize. Aros Kapital is a financial institute that offers factoring as one of their services. This project at Aros Kapital evaluated the possibility of using machine learning to determine whether or not an invoice will be good investment for the financial institute. If the machine learning algorithm performs better than manual handling and by minimizing credit losses and buying more invoices this could lead to an increase in profit for Aros. Four machine learning algorithms have been compared: decision trees, random forest, Adaboost and deep neural network. Beyond the comparison between the four algorithms, the algorithms were also compared with Aros actual decision and Aros current rule engine solution. The results show that random forest is the best performing algorithm and it also shows a slight improvement on performance compared to Aros actual decision, random forest got an F1- core of 0.35 and Aros 0.22. machine learning invoice scoring credit scoring random forest artificial intelligence deep learning maskininlärning fakturabedömning kreditbedömning slumpmässig skog artificiell intelligens djupinlärning Computer Sciences Datavetenskap (datalogi)
2	Evaluating Random Forest and k-Nearest Neighbour Algorithms on Real-Life Data Sets / Utvärdering av slumpmässig skog och k-närmaste granne algoritmer på verkliga datamängder Salim, Atheer, Farahani, Milad January 2023 (has links) Computers can be used to classify various types of data, for example to filter email messages, detect computer viruses, detect diseases, etc. This thesis explores two classification algorithms, random forest and k-nearest neighbour, to understand how accurately and how quickly they classify data. A literature study was conducted to identify the various prerequisites and to find suitable data sets. Five different data sets, leukemia, credit card, heart failure, mushrooms and breast cancer, were gathered and classified by each algorithm. A train split and a 4-fold cross-validation for each data set was used. The Rust library SmartCore, which included numerous classification methods and tools, was used to perform the classification. The results gathered indicated that using the train split resulted in better classification results, as opposed to 4-fold cross-validation. However, it could not be determined if any attributes of a data set affect the classification accuracy. Random forest managed to achieve the best classification results on the two data sets heart failure and leukemia, whilst k-nearest neighbour achieved the best classification results on the remaining three data sets. In general the classification results on both algorithms were similar. Based on the results, the execution time of random forest was dependent on the number of trees in the ”forest”, in which a greater number of trees resulted in an increased execution time. In contrast, a higher k value did not increase the execution time of k-nearest neighbour. It was also found that data sets with only binary values (0 and 1) run much faster than a data set with arbitrary values when using random forest. The number of instances in a data set also leads to an increased execution time for random forest despite a small number of features. The same applied to k-nearest neighbour, but with the number of features also affecting the execution since time is needed to compute distances between data points. Random forest managed to achieve the fastest execution time on the two data sets credit card and mushrooms, whilst k-nearest neighbour executed faster on the remaining three data sets. The difference in execution time between the algorithms varied a lot and this depends on the parameter value chosen for the respective algorithm. / Datorer kan användas för att klassificera olika typer av data, t.ex att filtrera e-postmeddelanden, upptäcka datorvirus, upptäcka sjukdomar, etc. Denna avhandling utforskar två klassificeringsalgoritmer, slumpmässiga skogar och k-närmaste grannar, för att förstå hur precist och hur snabbt de klassificerar data. En litteraturstudie genomfördes för att identifiera de olika förutsättningarna och för att hitta lämpliga datamängder. Fem olika datamängder, leukemia, credit card, heart failure, mushrooms och breast cancer, samlades in och klassificerades av varje algoritm. En träningsfördelning och en 4-faldig korsvalidering för varje datamängd användes. Rust-biblioteket SmartCore, som inkluderade många klassificeringsmetoder och verktyg, användes för att utföra klassificeringen. De insamlade resultaten visade att användningen av träningsfördelning resulterade i bättre klassificeringsresultat i motsats till 4-faldig korsvalidering. Det gick dock inte att fastställa om några attribut för en datamängd påverkar klassificeringens noggrannhet. Slumpmässiga skogar lyckades uppnå det bästa klassificeringsresultaten på de två datamängderna heart failure och leukemia, medan k-närmaste granne uppnådde det bästa klassificeringsresultaten på de återstående tre datamängderna. I allmänhet var klassificeringsresultaten för båda algoritmerna likartade. Utifrån resultaten var utförandetiden för slumpmässiga skogar beroende av antalet träd i ”skogen”, då ett större antal träd resulterade i en ökad utförandetid. Däremot ökade inte ett högre k-värde exekveringstiden för k-närmaste grannar. Det upptäcktes även att datamängder med endast binära värden (0 och 1) körs mycket snabbare än datamängder med godtyckliga värden när man använder slumpmässiga skogar. Antalet instanser i en datamängd leder också till en ökad exekveringstid för slumpmässiga skogar trots ett litet antal egenskaper. Detsamma gällde för k-närmaste granne, men även antalet egenskaper påverkade exekveringstiden då tid behövs för att beräkna avstånd mellan datapunkter. Slumpmässiga skogar lyckades uppnå den snabbaste exekveringstiden på de två datamängderna credit card och mushrooms, medan k-närmaste granne exekverades snabbare på de återstående tre datamängderna. Skillnaden i exekveringstid mellan algoritmerna varierade mycket och detta beror på vilket parametervärde som valts för respektive algoritm. Random Forest k-Nearest Neighbour Evaluation Machine Learning Classification Execution Time Slumpmässig Skog k-Närmaste Granne Utvärdering Maskininlärning Klassificiering Exekveringstid Computer and Information Sciences Data- och informationsvetenskap
3	Encoding Temporal Healthcare Data for Machine Learning Laczik, Tamás January 2021 (has links) This thesis contains a review of previous work in the fields of encoding sequential healthcare data and predicting graft- versus- host disease, a medical condition, based on patient history using machine learning. A new encoding of such data is proposed for machine learning purposes. The proposed encoding, called bag of binned weighted events, is a combination of two strategies proposed in previous work, called bag of binned events and bag of weighted events. An empirical experiment is designed to evaluate the predictive performance of the proposed encoding over various binning windows to that of the previous encodings, based on the area under the receiver operating characteristic curve (AUC) metric. The experiment is carried out on real- world healthcare data obtained from Swedish registries, using the random forest and the logistic regression algorithms. After filtering the data, solving quality issues and tuning hyperparameters of the models, final results are obtained. These results indicate that the proposed encoding strategy performs on par, or slightly better than the bag of weighted events, and outperforms the bag of binned events in most cases. However, differences in metrics show small differences. It is also observed that the proposed encoding usually performs better with longer binning windows which may be attributed to data noise. Future work is proposed in the form of repeating the experiment with different datasets and models, as well as changing the binning window length of the baseline algorithms. / Denna avhandling innehåller en recension av tidigare arbete inom områden av kodning av sekventiell sjukvårdsdata och förutsägelse av transplantat- mot- värdsjukdom, ett medicinskt tillstånd, baserat på patienthistoria med maskininlärning. En ny kodning av sådan data föreslås i maskininlärningssyfte. Den föreslagna kodningen, kallad bag of binned weighted events, är en kombination av två strategier som föreslagits i tidigare arbete, kallad bag of binned events och bag of weighted events. Ett empiriskt experiment är utformat för att utvärdera den föreslagna prestandan för den föreslagna kodningen över olika binningfönster jämfört med tidigare kodningar, baserat på AUC- måttet. Experimentet utförs på verkliga sjukvårdsdata som erhållits från svenska register, med random forest och logistic regression. Efter filtrering av data, lösning av kvalitetsproblem och justering av hyperparametrar för modellerna, erhålls slutliga resultat. Dessa resultat indikerar att den föreslagna kodningsstrategin presterar i nivå med, eller något bättre än bag of weighted events, och överträffar i de flesta fall bag of binned events. Skillnader i mått är dock små. Det observeras också att den föreslagna kodningen vanligtvis fungerar bättre med längre binningfönster som kan tillskrivas dataljud. Framtida arbete föreslås i form av att upprepa experimentet med olika datamängder och modeller, samt att ändra binningfönstrets längd för basalgoritmerna. Machine Learning Temporal Data Disease Prediction Feature Engineering Random Forest Logistic Regression Maskininlärning tidsdata förutsägelse av sjukdom funktionsteknik slumpmässig skog logistisk regression Computer and Information Sciences Data- och informationsvetenskap
4	Detection and Classification of Anomalies in Road Traffic using Spark Streaming Consuegra Rengifo, Nathan Adolfo January 2018 (has links) Road traffic control has been around for a long time to guarantee the safety of vehicles and pedestrians. However, anomalies such as accidents or natural disasters cannot be avoided. Therefore, it is important to be prepared as soon as possible to prevent a higher number of human losses. Nevertheless, there is no system accurate enough that detects and classifies anomalies from the road traffic in real time. To solve this issue, the following study proposes the training of a machine learning model for detection and classification of anomalies on the highways of Stockholm. Due to the lack of a labeled dataset, the first phase of the work is to detect the different kind of outliers that can be found and manually label them based on the results of a data exploration study. Datasets containing information regarding accidents and weather are also included to further expand the amount of anomalies. All experiments use real world datasets coming from either the sensors located on the highways of Stockholm or from official accident and weather reports. Then, three models (Decision Trees, Random Forest and Logistic Regression) are trained to detect and classify the outliers. The design of an Apache Spark streaming application that uses the model with the best results is also provided. The outcomes indicate that Logistic Regression is better than the rest but still suffers from the imbalanced nature of the dataset. In the future, this project can be used to not only contribute to future research on similar topics but also to monitor the highways of Stockholm. / Vägtrafikkontroll har funnits länge för att garantera säkerheten hos fordon och fotgängare. Emellertid kan avvikelser som olyckor eller naturkatastrofer inte undvikas. Därför är det viktigt att förberedas så snart som möjligt för att förhindra ett större antal mänskliga förluster. Ändå finns det inget system som är noggrannt som upptäcker och klassificerar avvikelser från vägtrafiken i realtid. För att lösa detta problem föreslår följande studie utbildningen av en maskininlärningsmodell för detektering och klassificering av anomalier på Stockholms vägar. På grund av bristen på en märkt dataset är den första fasen av arbetet att upptäcka olika slags avvikare som kan hittas och manuellt märka dem utifrån resultaten av en datautforskningsstudie. Dataset som innehåller information om olyckor och väder ingår också för att ytterligare öka antalet anomalier. Alla experiment använder realtidsdataset från antingen sensorerna på Stockholms vägar eller från officiella olyckor och väderrapporter. Därefter utbildas tre modeller (beslutsträd, slumpmässig skog och logistisk regression) för att upptäcka och klassificera outliersna. Utformningen av en Apache Spark streaming-applikation som använder modellen med de bästa resultaten ges också. Resultaten tyder på att logistisk regression är bättre än resten men fortfarande lider av datasetets obalanserade natur. I framtiden kan detta projekt användas för att inte bara bidra till framtida forskning kring liknande ämnen utan även att övervaka Stockholms vägar. anomaly detection traffic flow accidents weather decision tree random forest logistic regression streaming. anomalitetsdetektering trafikflöde olyckor väder beslutsträd slumpmässig skog logistisk regression streaming. Computer and Information Sciences Data- och informationsvetenskap
5	Performance comparison of data mining algorithms for imbalanced and high-dimensional data Rubio Adeva, Daniel January 2023 (has links) Artificial intelligence techniques, such as artificial neural networks, random forests, or support vector machines, have been used to address a variety of problems in numerous industries. However, in many cases, models have to deal with issues such as imbalanced data or high multi-dimensionality. This thesis implements and compares the performance of support vector machines, random forests, and neural networks for a new bank account fraud detection, a use case defined by imbalanced data and high multi-dimensionality. The neural network achieved both the best AUC-ROC (0.889) and the best average precision (0.192). However, the results of the study indicate that the difference between the models’ performance is not statistically significant to reject the initial hypothesis that assumed equal model performances. / Artificiell intelligens, som artificiella neurala nätverk, random forests eller support vector machines, har använts för att lösa en mängd olika problem inom många branscher. I många fall måste dock modellerna hantera problem som obalanserade data eller hög flerdimensionalitet. Denna avhandling implementerar och jämför prestandan hos support vector machines, random forests och neurala nätverk för att upptäcka bedrägerier med nya bankkonton, ett användningsfall som definieras av obalanserade data och hög flerdimensionalitet. Det neurala nätverket uppnådde både den bästa AUC-ROC (0,889) och den bästa genomsnittliga precisionen (0,192). Resultaten av studien visar dock att skillnaden mellan modellernas prestanda inte är statistiskt signifikant för att förkasta den ursprungliga hypotesen som antog lika modellprestanda. Data science neural network random forest support vector machine imbalanced data average precision ROC Datavetenskap neuralt nätverk slumpmässig skog stödvektormaskin obalanserad data medelprecision ROC Computer and Information Sciences Data- och informationsvetenskap
6	Learning to Price Apartments in Swedish Cities / Lära sig prissätta lägenheter i svenska städer Segerhammar, Fredrik January 2021 (has links) This thesis tackles the problem of accurately pricing apartments in large Swedish cities using geospatial data. The aim is to determine if geospatial data and population statistics can be used in conjunction with direct apartment data to accurately price apartments in large cities. There has previously been little research in this domain due to a lack of available data in many countries. In Sweden, apartment transaction data is public which enabled this thesis to be performed. We apply and compare a multiple linear regression, a multi-layer perceptron and a random forest to appraise apartments in six of the largest cities in Sweden. To perform the appraisals, geospatial data and population statistics were gathered in the areas surrounding the apartments. Five of the six cities were used to train and test the models, whereas one city was only used for testing. The two best performing models, the multi-layer perceptron and random forest achieved a mean absolute percentage error of 8.68% and 8.76% respectively within cities they were previously trained within and a mean absolute percentage error of 22.62% and 20.6% respectively on apartment in the test city dataset. In conclusion this thesis suggests that with the use of this data, multi-layer perceptrons and random forests are useful for appraising apartments in different cities, however that more data is probably needed to appraise apartments in cities previously unseen by the models. / Detta masterarbete tar upp problemet med att korrekt prissätta lägenheter i stora svenska städer med hjälp av geospatiala data. Syftet är att avgöra om geospatiala data och befolkningsstatistik kan användas tillsammans med direkt lägenhetsdata för att korrekt prissätta lägenheter i storstäder. Det har tidigare utförts lite forskning inom detta område på grund av brist på tillgängliga data i många länder. I Sverige är uppgifter om lägenhetstransaktioner offentliga vilket gjorde att denna avhandling kunde utföras. Vi tillämpar och jämför en multipel linjär regression, en flerskiktsperceptron och en slumpmässig skog för att värdera lägenheter i sex av de största städerna i Sverige. För att göra värderingarna samlades geospatiala data och befolkningsstatistik i de områden som omger lägenheterna. Fem av de sex städerna användes för att träna och testa modellerna, medan en stad endast användes för testning. De två bäst presterande modellerna, flerskiktsperceptronen och slumpmässig skog uppnådde ett genomsnittligt absolut procentfel på 8,68% respektive 8,76% inom städer som de tidigare var tränade inom och ett genomsnittligt absolut procentfel på 22,62% respektive 20,6% på lägenheter i teststadens dataset. Sammanfattningsvis tyder detta verk på att med hjälp av dessa data är flerskiktsperceptroner och slumpmässiga skogar användbara för att värdera lägenheter i olika städer, men att mer data förmodligen behövs för att värdera lägenheter i städer som modellerna tidigare inte har tränats på. Real estate property machine learning area data artificial neural network random forest home valuation price prediction Fastigheter maskininlärning områdesdata neurala nätverk slumpmässig skog hemvärdering prisförutsägelse Computer and Information Sciences Data- och informationsvetenskap

1

Page generated in 0.0703 seconds