• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 61
  • 40
  • Tagged with
  • 101
  • 101
  • 56
  • 31
  • 31
  • 23
  • 23
  • 22
  • 20
  • 20
  • 18
  • 17
  • 17
  • 15
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Failure Probability and Lifetime Estimation for Industrial Robots : A Logistic Regression and Lifetime Analysis Approach

Fahlbeck Carlsson, Erik, Herbert, Martin January 2023 (has links)
The ability to handle and process data for information extraction is getting more and more important. Using extracted data from the business to improve productivity is seen as an important part in developing the business processes. In this thesis, industrial robots and their survival times are analyzed. The work is about predicting the probability that a specific robot will fail during a specified time period. Also, survival analysis is conducted where the median lifetime and conditional median lifetime for industrial robots are estimated. Two approaches are used, logistic regression and survival analysis. A logistic regression model is made to predict the probability for different industrial robots to break during a specified time period. The logistic model achieves an accuracy of 0.694 with even higher accuracy regarding high – and low risk robots. The survival analysis uses a Cox PH model to check validity for proportional hazards and then a parametric model with Weibull distribution is fitted. The parametrical survival model is used to estimate the median lifetime and the remaining median lifetime for the robots. The estimated probabilities and lifetimes can be used as an indication of which robots are in risk of failure.
52

Evaluation of the decision-making process for credit decisions at Preem AB / Utvärdering av beslutsprocessen för kreditbeslut på Preem AB

Holgersson, Annie, Döös, Theresa January 2022 (has links)
The purpose of the following bachelor thesis report within mathematical statistics was to evaluate the decision making process at the credit department at Preem AB. The study used a logistic regression model to find a relationship between the probability of an application for credit being accepted and some quantitative and categorical factors about the applicant. These factors were both found in the applicant's financial statement and annual report as well as in data regarding risk level given to Preem AB by Upplysningscentralen. This data set was used to develop and train the logistic regression model with the aim of evaluating which factors have the biggest impact on the decisions being made after an application goes to trial at the credit department. The model was evaluated and perfected using different methods for variable selection and model evaluation. The study found that no statistically significant model could be created, and came to the conclusion there must exist further factors not covered by this study that affects a decision, or the decisions are taken randomly. Further research can therefore study which factors, such as financial security offered and level of knowledge regarding industry and financial statements among the credit controllers, affect the outcome of the manual trial of a credit application. / Syftet med detta kandidatexamensarbete inom matematisk statistik var att utvärdera prövningsprocessen på kreditavdelningen på Preem AB. I detta examensarbete användes en logistisk regressionsanalys för att finna ett samband mellan sannolikheten att en ansökan om kredit blir godkänd och några kvantitativa och kategoriska variabler om det ansökande företaget. Dessa variabler var hämtade dels från det ansökande företagets årsredovisning, dels från information gällande riskklass framtagen av Upplysningscentralen. Datasetet användes sedan för att bygga och träna en logstisk regressionsmodell med syftet att utvärdera vilka faktorer som har den största påverkan på om en ansökan för kredit blir godkänd eller ej efter den gått till manuell prövning på Preem AB. Modellen utvärderades och förbättrades genom att använda olika metoder för urval av variabler och utvärdering av modellen. Avhandlingen fann att modellen saknade stark prediktiv förmåga och det kan sägas att det bör finnas ytterligare faktorer som påverkar vilket beslut som tas vid manuell prövning på kreditavdelningen. Vidare undersökningar kan därför studera hur faktorer som finansiell säkerhet och kunskap om bransch och ekonomi bland medarbetarna på kreditavdelningen påverkar de manuella besluten som tas.
53

Analys och modellering av sannolikheterna för utfallen i en fotbollsmatch utifrån matchstatistik / Analysis and modeling of the probabilities of the outcomes in a football match based on match statistics

Wikblad, Filip, Hansson, Oskar January 2022 (has links)
Studien undersöker vilken modell som bäst modellerar matchutfallet (1,X,2 - Hemmavinst, Oavgjort, Bortavinst) på en fotbollsmatch utifrån matchstatistik. Datan som analyserats är sammanställd från den engelska fotbollens tre högsta divisioner från 2005 och framåt. Multinomial logistisk regression tillämpas för att modellera responsvariabeln utifrån förklaringsvariablerna. Med hjälp av best subset regression undersöks alla kombinationer av variabler och modellerna jämförs utifrån Akaike Information Criterion (AIC). Tillsammans med resultatet från regressionerna och en analys över multikollinearitet väljs den bästa modellen.  Resultatet visar på både väntade och oväntade effekter vilket skapar grund för framtida studier. Förbättringsområden för framtida studier innefattar fler förklaringsvariabler, jämförelser med spelbolagens odds och test på ny testdata. Tillämpningsområden för modellen är inom spelbranschen där modellen kan användas för att värdera kombinationsspel och liveodds. / This study aims to find the best model to predict the outcome of football (1,X,2 - Home Win, Draw, Away Win) games by looking at match data. The data used is put together from the three highest football divisions in England and go back to the year 2005. Multinomial logistic regression is used to model the response variable from the regressors. A best subset regression is used to find the models with the lowest Akaike Information Criterion (AIC). By doing a multicollinearity analysis these models are further examined and the best one is chosen.  The results show both expected and unexpected effects that create foundation for future studies. Areas for model improvement include more variables, comparison with the bookmaker’s odds and tests on new test data. The application of the model is in sports betting where it can be used to value multi bets and live odds.
54

Churnprediktion baserat på kundens första köp / Churn prediction based on the customer's first purchase

Ivarsson Orrelid, Christoffer, Pettersson, Oskar, Thornander, Jonathan January 2022 (has links)
Många företag drabbas regelbundet av churn, ett tillstånd som innebär att existerande kunder slutar handla hos företaget eller använda företagets tjänster för att istället vända sig till konkurrenter. För att säkerställa lojalitet bland kunderna behöver företag därför etablera metoder för att tidigt vinna kundens tillit. Med hjälp av maskininlärning kan processen att identifiera churn automatiseras, så kallad churnprediktion. Mycket forskning finns kring churnprediktion, framförallt inom telekomsektorn och inom företag som erbjuder prenumerationstjänster. Majoriteten av tidigare exempel bygger dock på kunddata som samlats in från flera tidpunkter och syftar till att predicera churn inom en längre tidsperiod, vanligtvis inom ett år. Det finns färre exempel inom kontexten e-handeln, samt forskning om hur maskininlärning kan tillämpas för att enbart utifrån data från kundens första köp och inom en kortare tidsperiod identifiera churn. I denna studie har två maskininlärningsmodeller utvecklats baserat på Random Forest-algoritmen och Logistisk Regression-algoritmen. Syftet var att undersöka vilken algoritm som är bäst lämpad för att predicera om en given kund kommer handla igen eller inte inom en tremånadersperiod, enbart med data från kundens första köp. Undersökningen baserades på data från ett svenskt e-handelsföretag. Modellerna utvärderades med mått för klassificeringsproblem, bland annat Cohen’s kappa och AUC. Trots att Logistisk regression visar sig prestera något bättre tyder resultaten på att båda modellerna har generellt svårt att avgöra om kunden kommer utsätta företaget för churn eller ej. En möjlig förklaring anses vara datamängdens restriktivitet som endast innehåller data från kundens första köp. Däremot konstateras båda modellernas möjlighet att filtrera ut kunder som löper hög risk att utsätta företaget för churn, där Random Forest visar sig vara något bättre på detta. Slutligen konstaterades att modellerna inte påvisar kraftig förbättring jämfört med en naiv lösning där alla kunder antas utsätta företaget för churn, men eftersom även små förbättringar innebär att företaget kan spara pengar kan dock modellernas användbarhet motiveras. / Companies are continuously affected by churn, a condition where existing customers turn to competitors instead using the company’s services. To ensure customer loyalty, it is vital for the company to establish methods to gain the customers trust early on. With the help of machine learning, the process for identifying churn can be automated, known as churn prediction. Research on churn prediction is abundant, especially concerning the telecom sector and subscription-based services. Most of these articles, however, are based on additional, historical data surrounding the customer, aiming to predict churn within a longer time frame, usually a year. The articles focusing on e-commerce, combined with how machine learning can be applied to identify churn within a short period, based solely on data from the customer’s first purchase, are scarce. Two machine learning models are developed based on the Random Forest-algorithm and the Logistic Regression-algorithm. These are tested to see which algorithm is best suited for predicting whether a given customer will buy again or not within a three-month period, with only data from the customer's first purchase from a Swedish e-commerce company. The models were then evaluated with classification metrics, including Cohen’s kappa and AUC. Despite the fact that Logistic Regression performed slightly better, the results showed that both models struggled with the churn prediction. A possible explanation is the restrictiveness of the data set. However, with the option of changing the calibration points on the models’ confidence, allowing the filtration of customers who have a greater chance of leading to churn, both models performed better with Random Forest being slightly superior. The models are considered a slight improvement to a naïve solution where all customers are treated as possible churn. They are also useful given the context, where even minor prevention of churn can lead to profit for the company.
55

Predicting Default Probability in Credit Risk using Machine Learning Algorithms / Predicting Default Probability in Credit Risk using Machine Learning Algorithms

Kornfeld, Sarah January 2020 (has links)
This thesis has explored the field of internally developed models for measuring the probability of default (PD) in credit risk. As regulators put restrictions on modelling practices and inhibit the advance of risk measurement, the fields of data science and machine learning are advancing. The tradeoff between stricter regulation on internally developed models and the advancement of data analytics was investigated by comparing model performance of the benchmark method Logistic Regression for estimating PD with the machine learning methods Decision Trees, Random Forest, Gradient Boosting and Artificial Neural Networks (ANN). The data was supplied by SEB and contained 45 variables and 24 635 samples. As the machine learning techniques become increasingly complex to favour enhanced performance, it is often at the expense of the interpretability of the model. An exploratory analysis was therefore made with the objective of measuring variable importance in the machine learning techniques. The findings from the exploratory analysis will be compared to the results from benchmark methods that exist for measuring variable importance. The results of this study shows that logistic regression outperformed the machine learning techniques based on the model performance measure AUC with a score of 0.906. The findings from the exploratory analysis did increase the interpretability of the machine learning techniques and were validated by the results from the benchmark methods. / Denna uppsats har undersökt internt utvecklade modeller för att estimera sannolikheten för utebliven betalning (PD) inom kreditrisk. Samtidigt som nya regelverk sätter restriktioner på metoder för modellering av kreditrisk och i viss mån hämmar utvecklingen av riskmätning, utvecklas samtidigt mer avancerade metoder inom maskinlärning för riskmätning. Således har avvägningen mellan strängare regelverk av internt utvecklade modeller och framsteg i dataanalys undersökts genom jämförelse av modellprestanda för referens metoden logistisk regression för uppskattning av PD med maskininlärningsteknikerna beslutsträd, Random Forest, Gradient Boosting och artificiella neurala nätverk (ANN). Dataunderlaget kommer från SEB och består utav 45 variabler och 24 635 observationer. När maskininlärningsteknikerna blir mer komplexa för att gynna förbättrad prestanda är det ofta på bekostnad av modellens tolkbarhet. En undersökande analys gjordes därför med målet att mäta förklarningsvariablers betydelse i maskininlärningsteknikerna. Resultaten från den undersökande analysen kommer att jämföras med resultat från etablerade metoder som mäter variabelsignifikans. Resultatet av studien visar att den logistiska regressionen presterade bättre än maskininlärningsteknikerna baserat på prestandamåttet AUC som mätte 0.906. Resultatet from den undersökande analysen för förklarningsvariablers betydelse ökade tolkbarheten för maskininlärningsteknikerna. Resultatet blev även validerat med utkomsten av de etablerade metoderna för att mäta variabelsignifikans.
56

Data mining inom tillverkningsindustrin : En fallstudie om möjligheten att förutspå kvalitetsutfall i produktionslinjer

Janson, Lisa, Mathisson, Minna January 2021 (has links)
I detta arbete har en fallstudie utförts på Volvo Group i Köping. I takt med ¨övergången till industri 4.0, ökar möjligheterna att använda maskininlärning som ett verktyg i analysen av industriell data och vidareutvecklingen av industriproduktionen. Detta arbete syftar till att undersöka möjligheten att förutspå kvalitetsutfall vid sammanpressning av nav och huvudaxel. Metoden innefattar implementering av tre maskininlärningsmodeller samt evaluering av dess prestation i förhållande till varandra. Vid applicering av modellerna på monteringsdata från fabriken erhölls ett bristfälligt resultat, vilket indikerar att det utifrån de inkluderade variablerna inte är möjligt att förutspå kvalitetsutfallet. Orsakerna som låg till grund för resultatet granskades, och det resulterade i att det förmodligen berodde på att modellerna var oförmögna att finna samband i datan eller att det inte fanns något samband i datasetet. För att avgöra vilken av dessa två faktorer som var avgörande skapades ett fabricerat dataset där tre nya variabler introducerades. De fabricerade värdena på dessa variabler skapades på sådant sätt att det fanns syntetisk kausalitet mellan två av variablerna och kvalitetsutfallet. Vid applicering av modellerna på den fabricerade datan, lyckades samtliga modeller identifiera det syntetiska sambandet. Utifrån det drogs slutsatsen att det bristfälliga resultatet inte berodde på modellernas prestation utan att det inte fanns något samband i datasetet bestående av verklig monteringsdata. Det här bidrog till bedömningen att om spårbarheten på komponenterna hade ökat i framtiden, i kombination med att fler maskiner i produktionslinjen genererade data till ett sammankopplat system, skulle denna studie kunna utföras igen, men med fler variabler och ett större dataset. Support vector machine var den modell som presterade bäst, givet de prestationsmått som användes i denna studie. Det faktum att modellerna som inkluderats i den här studien lyckades identifiera sambandet i datan, när det fanns vetskap om att sambandet existerade, motiverar användandet av dessa modeller i framtida studier. Avslutningsvis kan det konstateras att med förbättrad spårbarhet och en allt mer uppkopplad fabrik, finns det möjlighet att använda maskininlärningsmodeller som komponenter i större system för att kunna uppnå effektiviseringar. / As the adaptation towards Industry 4.0 proceeds, the possibility of using machine learning as a tool for further development of industrial production, becomes increasingly profound. In this paper, a case study has been conducted at Volvo Group in Köping, in order to investigate the wherewithals of predicting quality outcomes in the compression of hub and mainshaft. In the conduction of this study, three different machine learning models were implemented and compared amongst each other. A dataset containing data from Volvo’s production site in Köping was utilized when training and evaluating the models. However, the low evaluation scores acquired from this, indicate that the quality outcome of the compression could not be predicted given solely the variables included in that dataset. Therefore, a dataset containing three additional variables consisting of fabricated values and a known causality between two of the variables and the quality outcome, was also utilized. The purpose of this was to investigate whether the poor evaluation metrics resulted from a non-existent pattern between the included variables and the quality outcome, or from the models not being able to find the pattern. The performance of the models, when trained and evaluated on the fabricated dataset, indicate that the models were in fact able to find the pattern that was known to exist. Support vector machine was the model that performed best, given the evaluation metrics that were chosen in this study. Consequently, if the traceability of the components were to be enhanced in the future and an additional number of machines in the production line would transmit production data to a connected system, it would be possible to conduct the study again with additional variables and a larger data set. The fact that the models included in this study succeeded in finding patterns in the dataset when such patterns were known to exist, motivates the use of the same models. Furthermore, it can be concluded that with enhanced traceability of the components and a larger amount of machines transmitting production data to a connected system, there is a possibility that machine learning models could be utilized as components in larger business monitoring systems, in order to achieve efficiencies.
57

A Descriptive Analysis of Football Matches using Logistic Regression / En Deskriptiv Analys av Fotbollsmatcher med hjälp av Logistisk Regression

Grankvist, Oscar, Bergman, Ivan-Edvard January 2023 (has links)
The aim of this study was to explore how match-related statistics contribute to winning association football matches. This is relevant for stakeholders in the football industry to facilitate the understanding of what factors contribute to winning matches and can thus be of use when formulating match tactics. A model was constructed through the use of binary logistic regression, where winning/not winning was used as the response variable and standardized match-related statistics were used as predictor variables. Using the acquired coefficients, it was concluded that, among other variables, the home advantage and the ability of a team to finish on target has a strong correlation with winninggames. Further, the study explores the impact of a team’s ability to win football games on the financial landscape of the modern football world. The results show that some of the examined statistics are well correlated to winning a match, but that the tactical useability of these insights is low. / Syftet med denna studie var att utforska hur matchrelaterad statistik bidrar till att vinna fotbollsmatcher. Detta är relevant för aktörer inom fotbollsbranchen för att underlätta försåelsen av vilka matchrelaterade faktorer som bidrar till vinst och kan således användas för att forma matchtaktik. En modell konstruerades genom binär logistisk regression, där att vinna/att inte vinna användes som responsvariabel och standardiserad matchrelaterad statistik användes som prediktorvariabel. Genom att använda koefficienterna tillhörande modellen,kan man fastslå att bland annat hemmalagsfördel samt ett lags förmåga att träffa mål korrelerar starkt med att vinna matcher. Dessutom utforskar studien påverkan av ett lags förmåga att vinna fotbollsmatcher på det finansiella landskapet tillhörande den moderna fotbollen. Resultaten visar att vissa av de studerade variablerna korrelerar starkt med att vinna fotbollsmatcher, men attmöjligheterna att använda dessa insikter till att forma taktik är begränsade.
58

Misskötta studielån : Hur mycket förväntas de kosta? / Defaulted student loans : What to expect?

Peco, Amina January 2016 (has links)
När propositionen för ett reformerat studiestödssystem lades 1999 poängterades det att studiestödssystemet skulle bära sina egna kostnader. Trots det skrivs stora belopp av. Både Riksrevisionen och Riksgälden har visat att CSN inte använder vedertagna metoder vid beräkningen av det som förväntas gå förlorat på grund av misskötta betalningar. Uppsatsens syfte har varit att skatta vad misskötta betalningar väntas kosta staten i form av framtida avskrivningar samt beräkna vad det skulle innebära för individen att istället bära kostnaden. Som en del i det arbetet har även faktorer som påverkar sannolikheten för misskötta betalningar av studielån identifierats. Resultaten av denna uppsats har bland annat visat att sannolikheten för misskötta betalningar är lägre för individer med eftergymnasial utbildning, hög skuld och låg ålder. Statens kreditförluster på studielån för till exempel individer som blev återbetalningsskyldiga under 2012 förväntas bli mellan 100 och 338 miljoner kronor. Om denna kostnad istället skulle bäras av årskullen innebär det en kostnadsökning på 2,2-7,8 procent för en individ med genomsnittlig skuld.
59

Machine Learning in credit risk : Evaluation of supervised machine learning models predicting credit risk in the financial sector

Lundström, Love, Öhman, Oscar January 2019 (has links)
When banks lend money to another party they face a risk that the borrower will not fulfill its obligation towards the bank. This risk is called credit risk and it’s the largest risk banks faces. According to the Basel accord banks need to have a certain amount of capital requirements to protect themselves towards future financial crisis. This amount is calculated for each loan with an attached risk-weighted asset, RWA. The main parameters in RWA is probability of default and loss given default. Banks are today allowed to use their own internal models to calculate these parameters. Thus hold capital with no gained interest is a great cost, banks seek to find tools to better predict probability of default to lower the capital requirement. Machine learning and supervised algorithms such as Logistic regression, Neural network, Decision tree and Random Forest can be used to decide credit risk. By training algorithms on historical data with known results the parameter probability of default (PD) can be determined with a higher certainty degree compared to traditional models, leading to a lower capital requirement. On the given data set in this article Logistic regression seems to be the algorithm with highest accuracy of classifying customer into right category. However, it classifies a lot of people as false positive meaning the model thinks a customer will honour its obligation but in fact the customer defaults. Doing this comes with a great cost for the banks. Through implementing a cost function to minimize this error, we found that the Neural network has the lowest false positive rate and will therefore be the model that is best suited for this specific classification task. / När banker lånar ut pengar till en annan part uppstår en risk i att låntagaren inte uppfyller sitt antagande mot banken. Denna risk kallas för kredit risk och är den största risken en bank står inför. Enligt Basel föreskrifterna måste en bank avsätta en viss summa kapital för varje lån de ger ut för att på så sätt skydda sig emot framtida finansiella kriser. Denna summa beräknas fram utifrån varje enskilt lån med tillhörande risk-vikt, RWA. De huvudsakliga parametrarna i RWA är sannolikheten att en kund ej kan betala tillbaka lånet samt summan som banken då förlorar. Idag kan banker använda sig av interna modeller för att estimera dessa parametrar. Då bundet kapital medför stora kostnader för banker, försöker de sträva efter att hitta bättre verktyg för att uppskatta sannolikheten att en kund fallerar för att på så sätt minska deras kapitalkrav. Därför har nu banker börjat titta på möjligheten att använda sig av maskininlärningsalgoritmer för att estimera dessa parametrar. Maskininlärningsalgoritmer såsom Logistisk regression, Neurala nätverk, Beslutsträd och Random forest, kan användas för att bestämma kreditrisk. Genom att träna algoritmer på historisk data med kända resultat kan parametern, chansen att en kund ej betalar tillbaka lånet (PD), bestämmas med en högre säkerhet än traditionella metoder. På den givna datan som denna uppsats bygger på visar det sig att Logistisk regression är den algoritm med högst träffsäkerhet att klassificera en kund till rätt kategori. Däremot klassifiserar denna algoritm många kunder som falsk positiv vilket betyder att den predikterar att många kunder kommer betala tillbaka sina lån men i själva verket inte betalar tillbaka lånet. Att göra detta medför en stor kostnad för bankerna. Genom att istället utvärdera modellerna med hjälp av att införa en kostnadsfunktion för att minska detta fel finner vi att Neurala nätverk har den lägsta falsk positiv ration och kommer därmed vara den model som är bäst lämpad att utföra just denna specifika klassifierings uppgift.
60

Demografisk sammansättning samt beteende hos medlemmar i panel

Johansson, Henrik, Kardell, Mathias January 2010 (has links)
<p>The use of marketing research panels are a more and more frequently used source of information for studies within many different branches. The purpose of this report is to investigate the demographic composition of panels and compare it with the population of Sweden, a possible change in behaviour of respondents, and if the source of recruitment is the cause of possible differences in study results. The study was commissioned by Norstats Linkoping office. Sources for the data material include Norstat’s recruitment process and their two main panels with different recruitment sources. To enable a deeper investigation of behaviour we also constructed a survey that was sent to 2,714 members of Norstat’s internet panels.</p><p>The statistical analysis includes contingency table analysis, multiple logistic regression, and Poisson regression. The results show that the demographic composition does not fully cover all the aspects of the Swedish population and some groups are less represented than others. The behaviour tends to differ between panel members that have responded to three or less surveys compared to members that have responded to twenty or more surveys. Source of recruitment does not seem to affect the results of studies, but it has some effect on the demographic composition of marketing research panels.</p> / <p>Användandet av paneler som källa vid undersökningar har den senaste tiden blivit en allt vanligare företeelse. Denna rapport har för avsikt att undersöka panelers demografiska sammansättning och överensstämmande med Sveriges befolkning, eventuell ändring av svarsbeteende samt huruvida rekryteringskällan ger upphov till kvalitetsskillnader hos medlemmar i en panel. Företaget Norstat har med sitt kontor i Linköping figurerat som uppdragsgivare till arbetet. Datamaterialet till studien har uppkommit från Norstats rekryteringsprocess samt från företagets två huvudpaneler med olika rekryteringskällor. För att djupare undersöka svarsbeteende konstruerade vi även en enkätundersökning som skickades ut till 2 714 medlemmar i Norstats internetpaneler.</p><p>Den statiska analysen innefattar χ2-test, multipel logistisk regression samt Poissonregression. Resultaten påvisade att den demografiska sammansättningen i panelen inte fullt ut speglade Sveriges befolkning samt att vissa grupper undertäcks i högre utsträckning än andra. Svarsbeteendet hos medlemmar i paneler har en tendens att ändras från det att medlemmen har svarat på en till tre undersökningar, till det att den har svarat på tjugo undersökningar eller fler. Rekryteringskällan till en panel verkar inte ge upphov till några större skillnader i svarsresultat, men däremot finns vissa skillnader i demografisk sammansättning.</p>

Page generated in 0.084 seconds