61 |
Readjusting Historical Credit Ratings : using Ordered Logistic Regression and Principal ComponentAnalysisCronstedt, Axel, Andersson, Rebecca January 2018 (has links)
Readjusting Historical Credit Ratings using Ordered Logistic Re-gression and Principal Component Analysis The introduction of the Basel II Accord as a regulatory document for creditrisk presented new concepts of credit risk management and credit risk mea-surements, such as enabling international banks to use internal estimates ofprobability of default (PD), exposure at default (EAD) and loss given default(LGD). These three measurements is the foundation of the regulatory capitalcalculations and are all in turn based on the bank’s internal credit ratings. Ithas hence been of increasing importance to build sound credit rating modelsthat possess the capability to provide accurate measurements of the credit riskof borrowers. These statistical models are usually based on empirical data andthe goodness-of-fit of the model is mainly depending on the quality and sta-tistical significance of the data. Therefore, one of the most important aspectsof credit rating modeling is to have a sufficient number of observations to bestatistically reliable, making the success of a rating model heavily dependenton the data collection and development state.The main purpose of this project is to, in a simple but efficient way, createa longer time series of homogeneous data by readjusting the historical creditrating data of one of Svenska Handelsbanken AB’s credit portfolios. Thisreadjustment is done by developing ordered logistic regression models thatare using independent variables consisting of macro economic data in separateways. One model uses macro economic variables compiled into principal com-ponents, generated through a Principal Component Analysis while all othermodels uses the same macro economic variables separately in different com-binations. The models will be tested to evaluate their ability to readjust theportfolio as well as their predictive capabilities. / Justering av historiska kreditbetyg med hjälp av ordinal logistiskregression och principialkomponentsanalys När Basel II implementerades introducerades även nya riktlinjer för finan-siella instituts riskhantering och beräkning av kreditrisk, så som möjlighetenför banker att använda interna beräkningar av Probability of Default (PD),Exposure at Default (EAD) och Loss Given Default (LGD), som tillsammansgrundar sig i varje låntagares sannoliket för fallissemang. Dessa tre mått ut-gör grunden för beräkningen av de kapitaltäckningskrav som banker förväntasuppfylla och baseras i sin tur på bankernas interna kreditratingsystem. Detär därmed av stor vikt för banker att bygga stabila kreditratingmodeller medkapacitet att generera pålitliga beräkningar av motparternas kreditrisk. Dessamodeller är vanligtvis baserade på empirisk data och modellens goodness-of-fit,eller passning till datat, beror till stor del på kvalitén och den statistiska sig-nifikansen hos det data som står till förfogande. Därför är en av de viktigasteaspekterna för kreditratingsmodeller att ha tillräckligt många observationeratt träna modellen på, vilket gör modellens utvecklingsskede samt mängdendata avgörande för modellens framgång.Huvudsyftet med detta projekt är att, på ett enkelt och effektivt sätt, skapaen längre, homogen tidsserie genom att justera historisk kreditratingdata i enportfölj med företagslån tillhandahållen av Svenska Handelsbanken AB. Jus-teringen görs genom att utveckla olika ordinala logistiska regressionsmodellermed beroende variabler bestående av makroekonomiska variabler, på olikasätt. En av modellerna använder makroekonomiska variabler i form av princi-palkomponenter skapade med hjälp av en principialkomponentsanalys, medande andra modelelrna använder de makroekonomiska variablerna enskilt i olikakombinationer. Modellerna testas för att utvärdera både deras förmåga attjustera portföljens historiska kreditratings samt för att göra prediktioner.
|
62 |
Demografisk sammansättning samt beteende hos medlemmar i panelJohansson, Henrik, Kardell, Mathias January 2010 (has links)
The use of marketing research panels are a more and more frequently used source of information for studies within many different branches. The purpose of this report is to investigate the demographic composition of panels and compare it with the population of Sweden, a possible change in behaviour of respondents, and if the source of recruitment is the cause of possible differences in study results. The study was commissioned by Norstats Linkoping office. Sources for the data material include Norstat’s recruitment process and their two main panels with different recruitment sources. To enable a deeper investigation of behaviour we also constructed a survey that was sent to 2,714 members of Norstat’s internet panels. The statistical analysis includes contingency table analysis, multiple logistic regression, and Poisson regression. The results show that the demographic composition does not fully cover all the aspects of the Swedish population and some groups are less represented than others. The behaviour tends to differ between panel members that have responded to three or less surveys compared to members that have responded to twenty or more surveys. Source of recruitment does not seem to affect the results of studies, but it has some effect on the demographic composition of marketing research panels. / Användandet av paneler som källa vid undersökningar har den senaste tiden blivit en allt vanligare företeelse. Denna rapport har för avsikt att undersöka panelers demografiska sammansättning och överensstämmande med Sveriges befolkning, eventuell ändring av svarsbeteende samt huruvida rekryteringskällan ger upphov till kvalitetsskillnader hos medlemmar i en panel. Företaget Norstat har med sitt kontor i Linköping figurerat som uppdragsgivare till arbetet. Datamaterialet till studien har uppkommit från Norstats rekryteringsprocess samt från företagets två huvudpaneler med olika rekryteringskällor. För att djupare undersöka svarsbeteende konstruerade vi även en enkätundersökning som skickades ut till 2 714 medlemmar i Norstats internetpaneler. Den statiska analysen innefattar χ2-test, multipel logistisk regression samt Poissonregression. Resultaten påvisade att den demografiska sammansättningen i panelen inte fullt ut speglade Sveriges befolkning samt att vissa grupper undertäcks i högre utsträckning än andra. Svarsbeteendet hos medlemmar i paneler har en tendens att ändras från det att medlemmen har svarat på en till tre undersökningar, till det att den har svarat på tjugo undersökningar eller fler. Rekryteringskällan till en panel verkar inte ge upphov till några större skillnader i svarsresultat, men däremot finns vissa skillnader i demografisk sammansättning.
|
63 |
Inkrementell responsanalys av Scandnavian Airlines medlemmar : Vilka kunder ska väljas vid riktad marknadsföring? / Incremental response analysis of member data from Scandinavian Airlines : Which customers should be selected in direct marketing?Anderskär, Erika, Thomasson, Frida January 2017 (has links)
Scandinavian Airlines has a large database containing their Eurobonus members. In order to analyze which customers they should target with direct marketing, such as emails, uplift models have been used. With a binary response variable that indicates whether the customer has bought or not, and a binary dummy variable that indicates if the customer has received the campaign or not conclusions can be drawn about which customers are persuadable. That means that the customers that buy when they receive a campaign and not if they don't are spotted. Analysis have been done with one campaign for Sweden and Scandinavia. The methods that have been used are logistic regression with Lasso and logistic regression with Penalized Net Information Value. The best method for predicting purchases is Lasso regression when comparing with a confusion matrix. The variable that best describes persuadable customers in logistic regression with PNIV is Flown (customers that have own with SAS within the last six months). In Lassoregression the variable that describes a persuadable customer in Sweden is membership level1 (the rst level of membership) and in Scandinavia customers that receive campaigns with delivery code 13 are persuadable, which is a form of dispatch.
|
64 |
High-Dimensional Classification Models with Applications to Email Targeting / Högdimensionella klassificeringsmetoder med tillämpning på målgruppsinriktning för e-mejlPettersson, Anders January 2015 (has links)
Email communication is valuable for any modern company, since it offers an easy mean for spreading important information or advertising new products, features or offers and much more. To be able to identify which customers that would be interested in certain information would make it possible to significantly improve a company's email communication and as such avoiding that customers start ignoring messages and creating unnecessary badwill. This thesis focuses on trying to target customers by applying statistical learning methods to historical data provided by the music streaming company Spotify. An important aspect was the high-dimensionality of the data, creating certain demands on the applied methods. A binary classification model was created, where the target was whether a customer will open the email or not. Two approaches were used for trying to target the costumers, logistic regression, both with and without regularization, and random forest classifier, for their ability to handle the high-dimensionality of the data. Performance accuracy of the suggested models were then evaluated on both a training set and a test set using statistical validation methods, such as cross-validation, ROC curves and lift charts. The models were studied under both large-sample and high-dimensional scenarios. The high-dimensional scenario represents when the number of observations, N, is of the same order as the number of features, p and the large sample scenario represents when N ≫ p. Lasso-based variable selection was performed for both these scenarios, to study the informative value of the features. This study demonstrates that it is possible to greatly improve the opening rate of emails by targeting users, even in the high dimensional scenario. The results show that increasing the amount of training data over a thousand fold will only improve the performance marginally. Rather efficient customer targeting can be achieved by using a few highly informative variables selected by the Lasso regularization. / Företag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.
|
65 |
Effects of COVID-19 on temporal urban diversity : A quantitative study using mobile phone data as a proxy for human mobility patternsSjöblom, Feliks January 2021 (has links)
The present paper examines possible changes in temporal urban diversity caused by the COVID-19 pandemic in Stockholm and Uppsala metropolitan areas. In addition to general changes in diversity, potential differences of diversity levels at locations with varying socioeconomic characteristics are examined. The diversity levels are calculated based on mobile phone data and defined by the inflow and distribution of individuals to locations. The time frame involves eight study dates and extends from January to April 2020. The paper reaches the following conclusions. (1) Diversity levels display a general decline during the pandemic, with one exception - Easter Holidays. (2) Individuals residing in areas with high proportions of highly educated individuals or visible minorities experience a decrease in diversity whereas the opposite is true for areas with high proportions of low-income earners or senior citizens (3) The increase in diversity in the two last mentioned areas, which are located in remote parts of the metropolitan area, coincide with decreasing levels of diversity in the central parts of the metropolitan area. It is possible that changes in diversity levels in these areas can be explained by changes in general behavioural trends, e.g. incentives to avoid crowded city center areas.
|
66 |
Using Machine Learning for Predictive Maintenance in Modern Ground-Based Radar Systems / Användning av maskininlärning för förutsägbart underhåll i moderna markbaserade radarsystemFaraj, Dina January 2021 (has links)
Military systems are often part of critical operations where unplanned downtime should be avoided at all costs. Using modern machine learning algorithms it could be possible to predict when, where, and at what time a fault is likely to occur which enables time for ordering replacement parts and scheduling maintenance. This thesis is a proof of concept study for anomaly detection in monitoring data, i.e., sensor data from a ground based radar system as an initial experiment to showcase predictive maintenance. The data in this thesis was generated by a Giraffe 4A during normal operation, i.e., no anomalous data with known failures was provided. The problem setting is originally an unsupervised machine learning problem since the data is unlabeled. Speculative binary labels are introduced (start-up state and steady state) to approximate a classification accuracy. The system is functioning correctly in both phases but the monitoring data looks differently. By showing that the two phases can be distinguished, it is possible to assume that anomalous data during break down can be detected as well. Three different machine learning classifiers, i.e., two unsupervised classifiers, K-means clustering and isolation forest and one supervised classifier, logistic regression are evaluated on their ability to detect the start-up phase each time the system is turned on. The classifiers are evaluated graphically and based on their accuracy score. All three classifiers recognize a start up phase for at least four out of seven subsystems. By only analyzing their accuracy score it appears that logistic regression outperforms the other models. The collected results manifests the possibility to distinguish between start-up and steady state both in a supervised and unsupervised setting. To select the most suitable classifier, further experiments on larger data sets are necessary. / Militära system är ofta en del av kritiska operationer där oplanerade driftstopp bör undvikas till varje pris. Med hjälp av moderna maskininlärningsalgoritmer kan det vara möjligt att förutsäga när och var ett fel kommer att inträffa. Detta möjliggör tid för beställning av reservdelar och schemaläggning av underhåll. Denna uppsats är en konceptstudie för detektion av anomalier i övervakningsdata från ett markbaserat radarsystem som ett initialt experiment för att studera prediktivt underhåll. Datat som används i detta arbete kommer från en Saab Giraffe 4A radar under normal operativ drift, dvs. ingen avvikande data med kända brister tillhandahölls. Problemställningen är ursprungligen ett oövervakat maskininlärningsproblem eftersom datat saknar etiketter. Spekulativa binära etiketter introduceras (uppstart och stabil fas) för att uppskatta klassificeringsnoggrannhet. Systemet fungerar korrekt i båda faserna men övervakningsdatat ser annorlunda ut. Genom att visa att de två faserna kan urskiljas, kan man anta att avvikande data också går att detektera när fel uppstår. Tre olika klassificeringsmetoder dvs. två oövervakade maskininlärningmodeller, K-means klustring och isolation forest samt en övervakad modell, logistisk regression utvärderas utifrån deras förmåga att upptäcka uppstartfasen varje gång systemet slås på. Metoderna utvärderas grafiskt och baserat på deras träffsäkerhet. Alla tre metoderna känner igen en startfas för minst fyra av sju delsystem. Genom att endast analysera deras noggrannhetspoäng, överträffar logistisk regression de andra modellerna. De insamlade resultaten demonstrerar möjligheten att skilja mellan uppstartfas och stabil fas, både i en övervakad och oövervakad miljö. För att välja den bästa metoden är det nödvändigt med ytterligare experiment på större datamängder.
|
67 |
Encoding Temporal Healthcare Data for Machine LearningLaczik, Tamás January 2021 (has links)
This thesis contains a review of previous work in the fields of encoding sequential healthcare data and predicting graft- versus- host disease, a medical condition, based on patient history using machine learning. A new encoding of such data is proposed for machine learning purposes. The proposed encoding, called bag of binned weighted events, is a combination of two strategies proposed in previous work, called bag of binned events and bag of weighted events. An empirical experiment is designed to evaluate the predictive performance of the proposed encoding over various binning windows to that of the previous encodings, based on the area under the receiver operating characteristic curve (AUC) metric. The experiment is carried out on real- world healthcare data obtained from Swedish registries, using the random forest and the logistic regression algorithms. After filtering the data, solving quality issues and tuning hyperparameters of the models, final results are obtained. These results indicate that the proposed encoding strategy performs on par, or slightly better than the bag of weighted events, and outperforms the bag of binned events in most cases. However, differences in metrics show small differences. It is also observed that the proposed encoding usually performs better with longer binning windows which may be attributed to data noise. Future work is proposed in the form of repeating the experiment with different datasets and models, as well as changing the binning window length of the baseline algorithms. / Denna avhandling innehåller en recension av tidigare arbete inom områden av kodning av sekventiell sjukvårdsdata och förutsägelse av transplantat- mot- värdsjukdom, ett medicinskt tillstånd, baserat på patienthistoria med maskininlärning. En ny kodning av sådan data föreslås i maskininlärningssyfte. Den föreslagna kodningen, kallad bag of binned weighted events, är en kombination av två strategier som föreslagits i tidigare arbete, kallad bag of binned events och bag of weighted events. Ett empiriskt experiment är utformat för att utvärdera den föreslagna prestandan för den föreslagna kodningen över olika binningfönster jämfört med tidigare kodningar, baserat på AUC- måttet. Experimentet utförs på verkliga sjukvårdsdata som erhållits från svenska register, med random forest och logistic regression. Efter filtrering av data, lösning av kvalitetsproblem och justering av hyperparametrar för modellerna, erhålls slutliga resultat. Dessa resultat indikerar att den föreslagna kodningsstrategin presterar i nivå med, eller något bättre än bag of weighted events, och överträffar i de flesta fall bag of binned events. Skillnader i mått är dock små. Det observeras också att den föreslagna kodningen vanligtvis fungerar bättre med längre binningfönster som kan tillskrivas dataljud. Framtida arbete föreslås i form av att upprepa experimentet med olika datamängder och modeller, samt att ändra binningfönstrets längd för basalgoritmerna.
|
68 |
Predicting Customer Churn in E-commerce Using Statistical Modeling and Feature Importance Analysis : A Comparison of Random Forest and Logistic Regression ApproachesRudälv, Amanda January 2023 (has links)
While operating in online markets offers opportunities for expanded assortment and convenience, it also poses challenges such as increased competition and the need to build personal relationships with customers. Customer retention be- comes crucial in maintaining a successful business, emphasizing the importance of understanding customer behavior. Traditionally, customer behavior analysis has focused on transactional behavior, such as purchase frequency and spending amounts. However, there has been a shift towards non-transactional behavior, driven by the popularity of loyalty programs that reward customers beyond trans- actions and aim to make customers feel appreciated and included, regardless of their spending power. This study is conducted at a global retailer with the aim of enhancing the under- standing of how non-transactional customer behavior influences customer churn. The approach in this study is to understand such behavior by developing a statis- tical model and to analyze statistical approaches of feature importance. Two types of approaches for statistical modeling, each with four variations, are assessed: (1) Random forest; and (2) Logistic regression. Furthermore, three different feature importance methods are considered; (1) Gini importance; (2) Permutation impor- tance and (3) Coefficient importance. The results showed that this approach can be used to analyze customer behavior and gain a better understanding of the driving factors for churn. Furthermore, the results showed that random forest approaches outperform logistic regression. With the definition of churn constructed in this study, the most important factors that affect the probability of churn are the customer’s number of sessions and inter session interval. / Att bedriva e-handel erbjuder inte enbart möjligheter för utökat sortiment och bekvämlighet, utan leder även till ökad konkurrens och ett ökat behov av att bygga relationer med kunder. Kundlojalitet är därmed avgörande för att upprätthålla en framgångsrik verksamhet, och betonar vikten av att förstå kundernas beteende. Traditionellt har analyser av kundbeteende främst bedrivits med fokus på transak- tionellt beteende, såsom frekvens eller totalbelopp för köp. På senare tid har allt mer fokus lagts på icke-transaktionellt beteende, på grund av införandet av lo- jalitetsprogram som belönar kunder bortom transaktioner, med målet att kunder ska känna sig uppskattade och inkluderade, oavsett köpkraft. Denna studie genomförs hos ett globalt detaljhandelsföretag med målet att utöka förståelsen för hur icke-transaktionellt kundbeteende påverkar kundbortfall. För att uppnå detta konstrueras en statistisk modell som utnyttjas för att med hjälp av statistiska metoder analysera signifikans hos variabler. Två kategorier av statis- tiska modeller undersöks; (1) Random forest och (2) Logistisk regression. Utöver detta används tre olika metoder för att analysera signifikans hos variabler; (1) Gini-betydelse; (2) Permutationsbetydelse; och (3) Koefficientbetydelse. Resultatet visar att studiens tillvägagångssätt kan användas för att analysera kund- beteende och nå ökad förståelse för vad som driver kundbortfall. Vidare visar re- sultatet att random forest-modeller överträffar modeller baserade på logistisk re- gression. Baserat på den definition av kundbortfall som definierats i denna studie är de viktigaste faktorerna som påverkar sannolikheten för kundbortfall, kundens antal sessioner och intervallet mellan kundens sessioner.
|
69 |
A company’s ability Not to default on a loan : Does the location have an impact? / Ett företags förmåga att återbetala ett lån : Har lokaliseringen betydelse?SUNDQVIST, ALYCIA January 2018 (has links)
This thesis aims to answer the question if the type of region or category of a municipality in which a company is located in, impacts the company’s ability not to default on a loan. Previous literature is used to find which determinants have an impact on a company’s survival from five levels: Macro, Industry, Regional, Company and Individual entrepreneur. The data used is in collaboration with a financial company offering small businesses credit products. They have contributed with loan data. A statistical analysis has been done and the method used is a logistic regression, where the dependent variable is if the company is defaulting on their loan or not. The conclusions that can be drawn are that in correlation with the previous findings the age of the firm, employees, and capital had a positive relationship to a company’s probability of not defaulting. Furthermore, the regional factors does have an impact on a company’s ability not to default on a loan. The commuting regions have a positive relationship to the probability of a company’s ability not to default on a loan. / Denna masteruppsats syftar till att svara på frågan om typen av region eller kategori av kommun ett företag är belägen i, påverkar företagets förmåga att inte återbetala ett lån. Tidigare forskning används för att finna vilka faktorer som påverkar företagets överlevnad i fem nivåer: Makro, Industri, Regional, Företag och Individnivå. Den data som används kommer från ett finansiellt företag som erbjuder småföretag kreditprodukter och har därmed bidragit med lånedata. En statistisk analys har gjorts och den använda metoden är en logistisk regression, där den beroende variabeln är om bolaget har kunnat återbetala på sitt lån eller ej. Slutsatserna som kan dras är att i linje med tidigare forskning där företagets ålder, antal anställda och kapital haft ett positivt inverkan på ett företags sannolikhet att kunna återbetala ett lån. Dessutom har de regionala faktorerna påverkan på företags förmåga att kunna återbetala ett lån där företag i pendlingsregionerna har större återbetalningsförmåga.
|
70 |
Sambandet mellan samhällsnormer avseende prestation och återhämtning i arbetslivet och dess påverkan på välbefinnande : En enkätstudie bland den arbetande befolkningen i SverigeOlofsson, Terése January 2022 (has links)
Bakgrund: Dagens samhälle har stora effektivitetskrav, detta i kombination med begränsade resurser, otillräcklig återhämtning och stöd utgör ett stort folkhälsoproblem. Syfte: Att undersöka samhällsnormer kring prestation och återhämtning relaterat till arbete och dess eventuella effekter på hälsa och psykiskt välbefinnande i den arbetande befolkningen. Metod: Totalt deltog 107 arbetande i studien. Ett batteri bestående av flera självklassificeringsskalor besvarades av deltagarna digitalt. Fyra validerade mätinstrument användes kombinerat med egenkonstruerade frågor om normer. Bivariata analyser, ANOVA och t-test samt logistisk regressionsanalys multivariat modell genomfördes. Resultat: Lägre prestationssträvan och högre återhämtningsupplevelse associerade med bättre psykiskt välbefinnande och hälsa. Sambanden kunde inte förklaras av samhällsnormer i arbetslivet avseende prestation respektive återhämtning. Slutsats: Samhällsnormer kring prestation och återhämtning hade inga signifikanta effekter på psykiskt välbefinnande och hälsa. / <p>Betyg i Ladok 220617.</p>
|
Page generated in 0.1038 seconds