91 |
Effects of COVID-19 on temporal urban diversity : A quantitative study using mobile phone data as a proxy for human mobility patternsSjöblom, Feliks January 2021 (has links)
The present paper examines possible changes in temporal urban diversity caused by the COVID-19 pandemic in Stockholm and Uppsala metropolitan areas. In addition to general changes in diversity, potential differences of diversity levels at locations with varying socioeconomic characteristics are examined. The diversity levels are calculated based on mobile phone data and defined by the inflow and distribution of individuals to locations. The time frame involves eight study dates and extends from January to April 2020. The paper reaches the following conclusions. (1) Diversity levels display a general decline during the pandemic, with one exception - Easter Holidays. (2) Individuals residing in areas with high proportions of highly educated individuals or visible minorities experience a decrease in diversity whereas the opposite is true for areas with high proportions of low-income earners or senior citizens (3) The increase in diversity in the two last mentioned areas, which are located in remote parts of the metropolitan area, coincide with decreasing levels of diversity in the central parts of the metropolitan area. It is possible that changes in diversity levels in these areas can be explained by changes in general behavioural trends, e.g. incentives to avoid crowded city center areas.
|
92 |
Using Machine Learning for Predictive Maintenance in Modern Ground-Based Radar Systems / Användning av maskininlärning för förutsägbart underhåll i moderna markbaserade radarsystemFaraj, Dina January 2021 (has links)
Military systems are often part of critical operations where unplanned downtime should be avoided at all costs. Using modern machine learning algorithms it could be possible to predict when, where, and at what time a fault is likely to occur which enables time for ordering replacement parts and scheduling maintenance. This thesis is a proof of concept study for anomaly detection in monitoring data, i.e., sensor data from a ground based radar system as an initial experiment to showcase predictive maintenance. The data in this thesis was generated by a Giraffe 4A during normal operation, i.e., no anomalous data with known failures was provided. The problem setting is originally an unsupervised machine learning problem since the data is unlabeled. Speculative binary labels are introduced (start-up state and steady state) to approximate a classification accuracy. The system is functioning correctly in both phases but the monitoring data looks differently. By showing that the two phases can be distinguished, it is possible to assume that anomalous data during break down can be detected as well. Three different machine learning classifiers, i.e., two unsupervised classifiers, K-means clustering and isolation forest and one supervised classifier, logistic regression are evaluated on their ability to detect the start-up phase each time the system is turned on. The classifiers are evaluated graphically and based on their accuracy score. All three classifiers recognize a start up phase for at least four out of seven subsystems. By only analyzing their accuracy score it appears that logistic regression outperforms the other models. The collected results manifests the possibility to distinguish between start-up and steady state both in a supervised and unsupervised setting. To select the most suitable classifier, further experiments on larger data sets are necessary. / Militära system är ofta en del av kritiska operationer där oplanerade driftstopp bör undvikas till varje pris. Med hjälp av moderna maskininlärningsalgoritmer kan det vara möjligt att förutsäga när och var ett fel kommer att inträffa. Detta möjliggör tid för beställning av reservdelar och schemaläggning av underhåll. Denna uppsats är en konceptstudie för detektion av anomalier i övervakningsdata från ett markbaserat radarsystem som ett initialt experiment för att studera prediktivt underhåll. Datat som används i detta arbete kommer från en Saab Giraffe 4A radar under normal operativ drift, dvs. ingen avvikande data med kända brister tillhandahölls. Problemställningen är ursprungligen ett oövervakat maskininlärningsproblem eftersom datat saknar etiketter. Spekulativa binära etiketter introduceras (uppstart och stabil fas) för att uppskatta klassificeringsnoggrannhet. Systemet fungerar korrekt i båda faserna men övervakningsdatat ser annorlunda ut. Genom att visa att de två faserna kan urskiljas, kan man anta att avvikande data också går att detektera när fel uppstår. Tre olika klassificeringsmetoder dvs. två oövervakade maskininlärningmodeller, K-means klustring och isolation forest samt en övervakad modell, logistisk regression utvärderas utifrån deras förmåga att upptäcka uppstartfasen varje gång systemet slås på. Metoderna utvärderas grafiskt och baserat på deras träffsäkerhet. Alla tre metoderna känner igen en startfas för minst fyra av sju delsystem. Genom att endast analysera deras noggrannhetspoäng, överträffar logistisk regression de andra modellerna. De insamlade resultaten demonstrerar möjligheten att skilja mellan uppstartfas och stabil fas, både i en övervakad och oövervakad miljö. För att välja den bästa metoden är det nödvändigt med ytterligare experiment på större datamängder.
|
93 |
Encoding Temporal Healthcare Data for Machine LearningLaczik, Tamás January 2021 (has links)
This thesis contains a review of previous work in the fields of encoding sequential healthcare data and predicting graft- versus- host disease, a medical condition, based on patient history using machine learning. A new encoding of such data is proposed for machine learning purposes. The proposed encoding, called bag of binned weighted events, is a combination of two strategies proposed in previous work, called bag of binned events and bag of weighted events. An empirical experiment is designed to evaluate the predictive performance of the proposed encoding over various binning windows to that of the previous encodings, based on the area under the receiver operating characteristic curve (AUC) metric. The experiment is carried out on real- world healthcare data obtained from Swedish registries, using the random forest and the logistic regression algorithms. After filtering the data, solving quality issues and tuning hyperparameters of the models, final results are obtained. These results indicate that the proposed encoding strategy performs on par, or slightly better than the bag of weighted events, and outperforms the bag of binned events in most cases. However, differences in metrics show small differences. It is also observed that the proposed encoding usually performs better with longer binning windows which may be attributed to data noise. Future work is proposed in the form of repeating the experiment with different datasets and models, as well as changing the binning window length of the baseline algorithms. / Denna avhandling innehåller en recension av tidigare arbete inom områden av kodning av sekventiell sjukvårdsdata och förutsägelse av transplantat- mot- värdsjukdom, ett medicinskt tillstånd, baserat på patienthistoria med maskininlärning. En ny kodning av sådan data föreslås i maskininlärningssyfte. Den föreslagna kodningen, kallad bag of binned weighted events, är en kombination av två strategier som föreslagits i tidigare arbete, kallad bag of binned events och bag of weighted events. Ett empiriskt experiment är utformat för att utvärdera den föreslagna prestandan för den föreslagna kodningen över olika binningfönster jämfört med tidigare kodningar, baserat på AUC- måttet. Experimentet utförs på verkliga sjukvårdsdata som erhållits från svenska register, med random forest och logistic regression. Efter filtrering av data, lösning av kvalitetsproblem och justering av hyperparametrar för modellerna, erhålls slutliga resultat. Dessa resultat indikerar att den föreslagna kodningsstrategin presterar i nivå med, eller något bättre än bag of weighted events, och överträffar i de flesta fall bag of binned events. Skillnader i mått är dock små. Det observeras också att den föreslagna kodningen vanligtvis fungerar bättre med längre binningfönster som kan tillskrivas dataljud. Framtida arbete föreslås i form av att upprepa experimentet med olika datamängder och modeller, samt att ändra binningfönstrets längd för basalgoritmerna.
|
94 |
Predicting Customer Churn in E-commerce Using Statistical Modeling and Feature Importance Analysis : A Comparison of Random Forest and Logistic Regression ApproachesRudälv, Amanda January 2023 (has links)
While operating in online markets offers opportunities for expanded assortment and convenience, it also poses challenges such as increased competition and the need to build personal relationships with customers. Customer retention be- comes crucial in maintaining a successful business, emphasizing the importance of understanding customer behavior. Traditionally, customer behavior analysis has focused on transactional behavior, such as purchase frequency and spending amounts. However, there has been a shift towards non-transactional behavior, driven by the popularity of loyalty programs that reward customers beyond trans- actions and aim to make customers feel appreciated and included, regardless of their spending power. This study is conducted at a global retailer with the aim of enhancing the under- standing of how non-transactional customer behavior influences customer churn. The approach in this study is to understand such behavior by developing a statis- tical model and to analyze statistical approaches of feature importance. Two types of approaches for statistical modeling, each with four variations, are assessed: (1) Random forest; and (2) Logistic regression. Furthermore, three different feature importance methods are considered; (1) Gini importance; (2) Permutation impor- tance and (3) Coefficient importance. The results showed that this approach can be used to analyze customer behavior and gain a better understanding of the driving factors for churn. Furthermore, the results showed that random forest approaches outperform logistic regression. With the definition of churn constructed in this study, the most important factors that affect the probability of churn are the customer’s number of sessions and inter session interval. / Att bedriva e-handel erbjuder inte enbart möjligheter för utökat sortiment och bekvämlighet, utan leder även till ökad konkurrens och ett ökat behov av att bygga relationer med kunder. Kundlojalitet är därmed avgörande för att upprätthålla en framgångsrik verksamhet, och betonar vikten av att förstå kundernas beteende. Traditionellt har analyser av kundbeteende främst bedrivits med fokus på transak- tionellt beteende, såsom frekvens eller totalbelopp för köp. På senare tid har allt mer fokus lagts på icke-transaktionellt beteende, på grund av införandet av lo- jalitetsprogram som belönar kunder bortom transaktioner, med målet att kunder ska känna sig uppskattade och inkluderade, oavsett köpkraft. Denna studie genomförs hos ett globalt detaljhandelsföretag med målet att utöka förståelsen för hur icke-transaktionellt kundbeteende påverkar kundbortfall. För att uppnå detta konstrueras en statistisk modell som utnyttjas för att med hjälp av statistiska metoder analysera signifikans hos variabler. Två kategorier av statis- tiska modeller undersöks; (1) Random forest och (2) Logistisk regression. Utöver detta används tre olika metoder för att analysera signifikans hos variabler; (1) Gini-betydelse; (2) Permutationsbetydelse; och (3) Koefficientbetydelse. Resultatet visar att studiens tillvägagångssätt kan användas för att analysera kund- beteende och nå ökad förståelse för vad som driver kundbortfall. Vidare visar re- sultatet att random forest-modeller överträffar modeller baserade på logistisk re- gression. Baserat på den definition av kundbortfall som definierats i denna studie är de viktigaste faktorerna som påverkar sannolikheten för kundbortfall, kundens antal sessioner och intervallet mellan kundens sessioner.
|
95 |
A company’s ability Not to default on a loan : Does the location have an impact? / Ett företags förmåga att återbetala ett lån : Har lokaliseringen betydelse?SUNDQVIST, ALYCIA January 2018 (has links)
This thesis aims to answer the question if the type of region or category of a municipality in which a company is located in, impacts the company’s ability not to default on a loan. Previous literature is used to find which determinants have an impact on a company’s survival from five levels: Macro, Industry, Regional, Company and Individual entrepreneur. The data used is in collaboration with a financial company offering small businesses credit products. They have contributed with loan data. A statistical analysis has been done and the method used is a logistic regression, where the dependent variable is if the company is defaulting on their loan or not. The conclusions that can be drawn are that in correlation with the previous findings the age of the firm, employees, and capital had a positive relationship to a company’s probability of not defaulting. Furthermore, the regional factors does have an impact on a company’s ability not to default on a loan. The commuting regions have a positive relationship to the probability of a company’s ability not to default on a loan. / Denna masteruppsats syftar till att svara på frågan om typen av region eller kategori av kommun ett företag är belägen i, påverkar företagets förmåga att inte återbetala ett lån. Tidigare forskning används för att finna vilka faktorer som påverkar företagets överlevnad i fem nivåer: Makro, Industri, Regional, Företag och Individnivå. Den data som används kommer från ett finansiellt företag som erbjuder småföretag kreditprodukter och har därmed bidragit med lånedata. En statistisk analys har gjorts och den använda metoden är en logistisk regression, där den beroende variabeln är om bolaget har kunnat återbetala på sitt lån eller ej. Slutsatserna som kan dras är att i linje med tidigare forskning där företagets ålder, antal anställda och kapital haft ett positivt inverkan på ett företags sannolikhet att kunna återbetala ett lån. Dessutom har de regionala faktorerna påverkan på företags förmåga att kunna återbetala ett lån där företag i pendlingsregionerna har större återbetalningsförmåga.
|
96 |
Sambandet mellan samhällsnormer avseende prestation och återhämtning i arbetslivet och dess påverkan på välbefinnande : En enkätstudie bland den arbetande befolkningen i SverigeOlofsson, Terése January 2022 (has links)
Bakgrund: Dagens samhälle har stora effektivitetskrav, detta i kombination med begränsade resurser, otillräcklig återhämtning och stöd utgör ett stort folkhälsoproblem. Syfte: Att undersöka samhällsnormer kring prestation och återhämtning relaterat till arbete och dess eventuella effekter på hälsa och psykiskt välbefinnande i den arbetande befolkningen. Metod: Totalt deltog 107 arbetande i studien. Ett batteri bestående av flera självklassificeringsskalor besvarades av deltagarna digitalt. Fyra validerade mätinstrument användes kombinerat med egenkonstruerade frågor om normer. Bivariata analyser, ANOVA och t-test samt logistisk regressionsanalys multivariat modell genomfördes. Resultat: Lägre prestationssträvan och högre återhämtningsupplevelse associerade med bättre psykiskt välbefinnande och hälsa. Sambanden kunde inte förklaras av samhällsnormer i arbetslivet avseende prestation respektive återhämtning. Slutsats: Samhällsnormer kring prestation och återhämtning hade inga signifikanta effekter på psykiskt välbefinnande och hälsa. / <p>Betyg i Ladok 220617.</p>
|
97 |
Detection and Classification of Anomalies in Road Traffic using Spark StreamingConsuegra Rengifo, Nathan Adolfo January 2018 (has links)
Road traffic control has been around for a long time to guarantee the safety of vehicles and pedestrians. However, anomalies such as accidents or natural disasters cannot be avoided. Therefore, it is important to be prepared as soon as possible to prevent a higher number of human losses. Nevertheless, there is no system accurate enough that detects and classifies anomalies from the road traffic in real time. To solve this issue, the following study proposes the training of a machine learning model for detection and classification of anomalies on the highways of Stockholm. Due to the lack of a labeled dataset, the first phase of the work is to detect the different kind of outliers that can be found and manually label them based on the results of a data exploration study. Datasets containing information regarding accidents and weather are also included to further expand the amount of anomalies. All experiments use real world datasets coming from either the sensors located on the highways of Stockholm or from official accident and weather reports. Then, three models (Decision Trees, Random Forest and Logistic Regression) are trained to detect and classify the outliers. The design of an Apache Spark streaming application that uses the model with the best results is also provided. The outcomes indicate that Logistic Regression is better than the rest but still suffers from the imbalanced nature of the dataset. In the future, this project can be used to not only contribute to future research on similar topics but also to monitor the highways of Stockholm. / Vägtrafikkontroll har funnits länge för att garantera säkerheten hos fordon och fotgängare. Emellertid kan avvikelser som olyckor eller naturkatastrofer inte undvikas. Därför är det viktigt att förberedas så snart som möjligt för att förhindra ett större antal mänskliga förluster. Ändå finns det inget system som är noggrannt som upptäcker och klassificerar avvikelser från vägtrafiken i realtid. För att lösa detta problem föreslår följande studie utbildningen av en maskininlärningsmodell för detektering och klassificering av anomalier på Stockholms vägar. På grund av bristen på en märkt dataset är den första fasen av arbetet att upptäcka olika slags avvikare som kan hittas och manuellt märka dem utifrån resultaten av en datautforskningsstudie. Dataset som innehåller information om olyckor och väder ingår också för att ytterligare öka antalet anomalier. Alla experiment använder realtidsdataset från antingen sensorerna på Stockholms vägar eller från officiella olyckor och väderrapporter. Därefter utbildas tre modeller (beslutsträd, slumpmässig skog och logistisk regression) för att upptäcka och klassificera outliersna. Utformningen av en Apache Spark streaming-applikation som använder modellen med de bästa resultaten ges också. Resultaten tyder på att logistisk regression är bättre än resten men fortfarande lider av datasetets obalanserade natur. I framtiden kan detta projekt användas för att inte bara bidra till framtida forskning kring liknande ämnen utan även att övervaka Stockholms vägar.
|
98 |
An analysis of customer retention using data miningBäck Eneroth, Moa January 2018 (has links)
This thesis aimed to answer the question whether the use of third-party applications, in addition to the original product, have an impact on customer retention at a digital rights management company. The research originated in the null hypothesis that there is no relationship between the dependent variable customer retention and the independent variable usage of third-party applications. To evaluate whether the hypothesis can be rejected or not, the relationship between the two variables was analyzed using logistic regression. The result showed that there was a positive impact, for the chosen set of included variables. Consequently, the conclusion was that there could be a potential positive correlation between the two variables and the null hypothesis could, therefore, be rejected. / Detta examensarbete hade som målsättning att svara på frågan huruvida användandet av tredje-parts-applikationer, utöver användandet av originalprodukten, har en inverkan på kundlojalitet hos ett företag som arbetar med att hantera digitala rättigheter. Studien utgick ifrån nollhypotesen att det inte finns en relationen mellan den beroende variabeln kundlojalitet och den oberoende variabeln användandet av tredje-parts-applikationer. För att kunna utvärdera huruvida hypotesen kan förkastas eller inte, analyseras relationen mellan detvå variablerna med hjälp av logistisk regression. Resultatet visade att att det fanns en positiv inverkan för valt dataset. Följaktligen var slutsatsen att det potentiellt skulle kunna finnas en positiv korrelation mellan de två variablerna och nollhypotesen kunde därför förkastas.
|
99 |
Predicting and Explaining Customer Churn for an Audio/e-book Subscription Service using Statistical Analysis and Machine Learning / Prediktion och förklaring av kundbortfall för en prenumerationstjänst för ljud- och e-böcker med användning av statistik analys och maskininlärningBarr, Kajsa, Pettersson, Hampus January 2019 (has links)
The current technology shift has contributed to increased consumption of media and entertainment through various mobile devices, and especially through subscription based services. Storytel is a company offering a subscription based streaming service for audio and e-books, and has grown rapidly in the last couple of years. However, when operating in a competitive market, it is of great importance to understand the behavior and demands of the customer base. It has been shown that it is more profitable to retain existing customers than to acquire new ones, which is why a large focus should be directed towards preventing customers from leaving the service, that is preventing customer churn. One way to cope with this problem is by applying statistical analysis and machine learning in order to identify patterns and customer behavior in data. In this thesis, the models logistic regression and random forest are used with an aim to both predict and explain churn in early stages of a customer's subscription. The models are tested together with the feature selection methods Elastic Net, RFE and PCA, as well as with the oversampling method SMOTE. One main finding is that the best predictive model is obtained by using random forest together with RFE, producing a prediction score of 0.2427 and a recall score of 0.7699. The other main finding is that the explanatory model is given by logistic regression together with Elastic Net, where significant regression coefficient estimates can be used to explain patterns associated with churn and give useful findings from a business perspective. / Det pågående teknologiskiftet har bidragit till en ökad konsumtion av digital media och underhållning via olika typer av mobila enheter, t.ex. smarttelefoner. Storytel är ett företag som erbjuder en prenumerationstjänst för ljud- och e-böcker och har haft en kraftig tillväxt de senaste åren. När företag befinner sig i en konkurrensutsatt marknad är det av stor vikt att förstå sig på kunders beteende samt vilka krav och önskemål kunder har på tjänsten. Det har nämligen visat sig vara mer lönsamt att behålla existerande kunder i tjänsten än hela tiden värva nya, och det är därför viktigt att se till att en befintlig kund inte avslutar sin prenumeration. Ett sätt att hantera detta är genom att använda statistisk analys och maskininlärningsmetoder för att identifiera mönster och beteenden i data. I denna uppsats används både logistisk regression och random forest med syfte att både prediktera och förklara uppsägning av tjänsten i ett tidigt stadie av en kunds prenumeration. Modellerna testas tillsammans med variabelselektionsmetoderna Elastic Net, RFE och PCA, samt tillsammans med översamplingsmetoden SMOTE. Resultatet blev att random forest tillsammans med RFE bäst predikterade uppsägning av tjänsten med 0.2427 i måttet precision och 0.7699 i måttet recall. Ett annat viktigt resultat är att den förklarande modellen ges av logistisk regression tillsammans med Elastic Net, där signifikanta estimat av regressionskoefficienterna ökar förklaringsgraden för beteenden och mönster relaterade till kunders uppsägning av tjänsten. Därmed ges användbara insikter ur ett företagsperspektiv.
|
100 |
Modelling default probabilities: The classical vs. machine learning approach / Modellering av fallissemang: Klassisk metod vs. maskininlärningJovanovic, Filip, Singh, Paul January 2020 (has links)
Fintech companies that offer Buy Now, Pay Later products are heavily dependent on accurate default probability models. This is since the fintech companies bear the risk of customers not fulfilling their obligations. In order to minimize the losses incurred to customers defaulting several machine learning algorithms can be applied but in an era in which machine learning is gaining popularity, there is a vast amount of algorithms to select from. This thesis aims to address this issue by applying three fundamentally different machine learning algorithms in order to find the best algorithm according to a selection of chosen metrics such as ROCAUC and precision-recall AUC. The algorithms that were compared are Logistic Regression, Random Forest and CatBoost. All these algorithms were benchmarked against Klarna's current XGBoost model. The results indicated that the CatBoost model is the optimal one according to the main metric of comparison, the ROCAUC-score. The CatBoost model outperformed the Logistic Regression model by seven percentage points, the Random Forest model by three percentage points and the XGBoost model by one percentage point. / Fintechbolag som erbjuder Köp Nu, Betala Senare-tjänster är starkt beroende av välfungerande fallissemangmodeller. Detta då dessa fintechbolag bär risken av att kunder inte betalar tillbaka sina krediter. För att minimera förlusterna som uppkommer när en kund inte betalar tillbaka finns flera olika maskininlärningsalgoritmer att applicera, men i dagens explosiva utveckling på maskininlärningsfronten finns det ett stort antal algoritmer att välja mellan. Denna avhandling ämnar att testa tre olika maskininlärningsalgoritmer för att fastställa vilken av dessa som presterar bäst sett till olika prestationsmått så som ROCAUC och precision-recall AUC. Algoritmerna som jämförs är Logistisk Regression, Random Forest och CatBoost. Samtliga algoritmers prestanda jämförs även med Klarnas nuvarande XGBoost-modell. Resultaten visar på att CatBoost-modellen är den mest optimala sett till det primära prestationsmåttet ROCAUC. CatBoost-modellen var överlägset bättre med sju procentenheter högre ROCAUC än Logistisk Regression, tre procentenheter högre ROCAUC än Random Forest och en procentenhet högre ROCAUC än Klarnas nuvarande XGBoost-modell
|
Page generated in 0.0503 seconds