Statistical Modeling of Dynamic Risk in Security Systems / Statistisk modellering av dynamisk risk i säkerhetssystem

Singh, Gurpreet January 2020 (has links)
Big data has been used regularly in finance and business to build forecasting models. It is, however, a relatively new concept in the security industry. This study predicts technology related alarm codes that will sound in the coming 7 days at location $L$ by observing the past 7 days. Logistic regression and neural networks are applied to solve this problem. Due to the problem being of a multi-labeled nature logistic regression is applied in combination with binary relevance and classifier chains. The models are trained on data that has been labeled with two separate methods, the first method labels the data by only observing location $L$. The second considers $L$ and $L$'s surroundings. As the problem is multi-labeled the labels are likely to be unbalanced, thus a resampling technique, SMOTE, and random over-sampling is applied to increase the frequency of the minority labels. Recall, precision, and F1-score are calculated to evaluate the models. The results show that the second labeling method performs better for all models and that the classifier chains and binary relevance model performed similarly. Resampling the data with the SMOTE technique increases the macro average F1-scores for the binary relevance and classifier chains models, however, the neural networks performance decreases. The SMOTE resampling technique also performs better than random over-sampling. The neural networks model outperforms the other two models on all methods and achieves the highest F1-score. / Big data har använts regelbundet inom ekonomi för att bygga prognosmodeller, det är dock ett relativt nytt koncept inom säkerhetsbranschen. Denna studie förutsäger vilka larmkoder som kommer att låta under de kommande 7 dagarna på plats $L$ genom att observera de senaste 7 dagarna. Logistisk regression och neurala nätverk används för att lösa detta problem. Eftersom att problemet är av en multi-label natur tillämpas logistisk regression i kombination med binary relevance och classifier chains. Modellerna tränas på data som har annoterats med två separata metoder. Den första metoden annoterar datan genom att endast observera plats $L$ och den andra metoden betraktar $L$ och $L$:s omgivning. Eftersom problemet är multi-labeled kommer annoteringen sannolikt att vara obalanserad och därför används resamplings metoden, SMOTE, och random over-sampling för att öka frekvensen av minority labels. Recall, precision och F1-score mättes för att utvärdera modellerna. Resultaten visar att den andra annoterings metoden presterade bättre för alla modeller och att classifier chains och binary relevance presterade likartat. Binary relevance och classifier chains modellerna som tränades på datan som använts sig av resamplings metoden SMOTE gav ett högre macro average F1-score, dock sjönk prestationen för neurala nätverk. Resamplings metoden SMOTE presterade även bättre än random over-sampling. Neurala nätverksmodellen överträffade de andra två modellerna på alla metoder och uppnådde högsta F1-score.

Product Similarity Matching for Food Retail using Machine Learning / Produktliknande matchning för livsmedel med maskininlärning

Kerek, Hanna January 2020 (has links)
Product similarity matching for food retail is studied in this thesis. The goal is to find products that are similar but not necessarily of the same brand which can be used as a replacement product for a product that is out of stock or does not exist in a specific store. The aim of the thesis is to examine which machine learning model that is best suited to perform the product similarity matching. The product data used for training the models were name, description, nutrients, weight and filters (labels, for example organic). Product similarity matching was performed pairwise and the similarity between the products was measured by jaccard distance for text attributes and relative difference for numeric values. Random Forest, Logistic Regression and Support Vector Machines were tested and compared to a baseline. The baseline computed the jaccard distance for the product names and did the classification based on a threshold value of the jaccard distance. The result was measured by accuracy, F-measure and AUC score. Random Forest performed best in terms of all evaluation metrics and Logistic Regression, Random Forest and Support Vector Machines all performed better than the baseline. / I den här rapporten studeras produktliknande matchning för livsmedel. Målet är att hitta produkter som är liknande men inte nödvändigtvis har samma märke som kan vara en ersättningsprodukt till en produkt som är slutsåld eller inte säljs i en specifik affär. Syftet med den här rapporten är att undersöka vilken maskininlärningsmodel som är bäst lämpad för att göra produktliknande matchning. Produktdatan som användes för att träna modellerna var namn, beskrivning, näringsvärden, vikt och märkning (exempelvis ekologisk). Produktmatchningen gjordes parvis och likhet mellan produkterna beräknades genom jaccard index för textattribut och relativ differens för numeriska värden. Random Forest, logistisk regression och Support Vector Machines testades och jämfördes mot en baslinje. I baslinjen räknades jaccard index ut enbart för produkternas namn och klassificeringen gjordes genom att använda ett tröskelvärde för jaccard indexet. Resultatet mättes genom noggrannhet, F-measure och AUC. Random Forest presterade bäst sett till alla prestationsmått och logistisk regression, Random Forest och Support Vector Machines gav alla bättre resultat än baslinjen.

Modelling Non-life Insurance Policyholder Price Sensitivity : A Statistical Analysis Performed with Logistic Regression / Modellering av priskänslighet i sakförsäkring

Hardin, Patrik, Tabari, Sam January 2017 (has links)
This bachelor thesis within mathematical statistics studies the possibility of modelling the renewal probability for commercial non-life insurance policyholders. The project was carried out in collaboration with the non-life insurance company If P&C Insurance Ltd. at their headquarters in Stockholm, Sweden. The paper includes an introduction to underlying concepts within insurance and mathematics and a detailed review of the analytical process followed by a discussion and conclusions. The first stages of the project were the initial collection and processing of explanatory insurance data and the development of a logistic regression model for policy renewal. An initial model was built and modern methods of mathematics and statistics were applied in order obtain a final model consisting of 9 significant characteristics. The regression model had a predictive power of 61%. This suggests that it to a certain degree is possible to predict the renewal probability of non-life insurance policyholders based on their characteristics. The results from the final model were ultimately translated into a measure of price sensitivity which can be implemented in both pricing models and CRM systems. We believe that price sensitivity analysis, if done correctly, is a natural step in improving the current pricing models in the insurance industry and this project provides a foundation for further research in this area. / Detta kandidatexamensarbete inom matematisk statistik undersöker möjligheten att modellera förnyelsegraden för kommersiella skadeförsärkringskunder. Arbetet utfördes i samarbete med If Skadeförsäkring vid huvudkontoret i Stockholm, Sverige. Uppsatsen innehåller en introduktion till underliggande koncept inom försäkring och matematik samt en utförlig översikt över projektets analytiska process, följt av en diskussion och slutsatser. De huvudsakliga delarna av projektet var insamling och bearbetning av förklarande försäkringsdata samt utvecklandet och tolkningen av en logistisk regressionsmodell för förnyelsegrad. En första modell byggdes och moderna metoder inom matematik och statistik utfördes för att erhålla en slutgiltig regressionsmodell uppbyggd av 9  signifikanta kundkaraktäristika. Regressionsmodellen hade en förklaringsgrad av 61% vilket pekar på att det till en viss grad är möjligt att förklara förnyelsegraden hos försäkringskunder utifrån dessa karaktäristika. Resultaten från den slutgiltiga modellen översattes slutligen till ett priskänslighetsmått vilket möjliggjorde implementering i prissättningsmodeller samt CRM-system. Vi anser att priskänslighetsanalys, om korrekt genomfört, är ett naturligt steg i utvecklingen av dagens prissättningsmodeller inom försäkringsbranschen och detta projekt lägger en grund för fortsatta studier inom detta område.

How to identify downturns within an office submarke : A quantitative time series analysis of Stockholm CBD / Hur man identifierar nedgångar inom en kontorsmarknad

Palmquist, Jacob January 2018 (has links)
The last couple of years there has been a significant increase in demand of attractive office locations in Stockholm consequently leading to all-time low office prime yields within the Central Business District (CBD), indicating warning signals regarding an overheated submarket. As the real estate market is crucial for the economy as a whole, it is essential to improve the understanding and predictability of future real estate cycles. This study produced three different logistic regression models with the purpose of identifying downturns in the office market of Stockholm CBD. The most successful model were able to predict 74 % of the actual downturns occurring throughout 114 observed quarters between Q3 1989 and Q4 2017. The dependent downturn variable consist of prime yield explained by variables on a national basis combined with submarket specific variables. Another produced model contained variables regarding confidence and expectations of tenants in Stockholm. However that model was unsatisfactory, leading to this study’s suggestion of further research on fluctuations of demand related to the current characteristics of Stockholm CBD. / Under de senaste åren har det skett en betydande ökning av efterfrågan på attraktiva kontorslokaler i Stockholm vilket resulterat i rekordlåga direktavkastningskrav inom Stockholm Central Business District (CBD), vilket indikerar på varningssignaler avseende en överhettad delmarknad. Eftersom fastighetsmarknaden är avgörande för ekonomin som helhet är det viktigt att förbättra förståelsen och förutsägbarheten för framtida fastighetscykler. Denna studie producerade tre olika logistiska regressionsmodeller med syfte att identifiera nedgångar i kontorsmarknaden inom Stockholm CBD. Den mest framgångsrika modellen kunde förutse 74 % av de faktiska nedgångarna som inträffade under 114 observerade kvartal mellan Q3 1989 och Q4 2017. Den beroende nedgångsvariabeln består av prime yield som förklaras av variabler på nationell basis i kombination med delmarknadsspecifika variabler. En annan producerad modell innehöll variabler avseende förtroende och förväntningar hos hyresgäster i Stockholm. Denna modell var dock otillfredsställande, vilket ledde till att denna studie föreslog ytterligare forskning om fluktuationer i efterfrågan relaterade till de nuvarande egenskaperna hos Stockholms centralbank

Customer acquisition and onboarding at an online grocery company

Borg, Ida January 2022 (has links)
The master thesis is carried out in a collaboration with a Swedish online grocery company. The goal of the thesis is to investigate if it is possible to explain the underlying factors that affect new customers to be retained. Because of the difficulties of defining churn and retention in non-contractual settings, most of the literature is focused on contractual and subscription settings. There are a limited number of studies when trying to predict customer churn in non-contractual businesses and even fewer studies that emphasize retention. This thesis aims to contribute to the field of retention in non-contractual business and also highlight the assumptions and drawbacks of churn-related task.  To achieve the goal of the thesis a literature review is carried out together with two statistical learning approaches; logistic regression model and extreme gradient boosting model. The results shows that it is possible to find the underlying factors that drive customers to be retained. The greatest drivers that could increase the probability of retaining new customers are the days between the first and second order, the second order value, and the total order value. / Examensarbetet är genomfört som ett samarbete med ett svenskt matvaruföretag på nätet. Målet med examensarbetet är att undersöka om det är möjligt att förklara de bakomliggande faktorer som påverkar nya kunder att stanna kvar som kunder. På grund av svårigheterna med att definiera kundbortfall och bibehållande av kunder i icke-kontraktuella affärer fokuserar den mesta av litteraturen på avtals- och prenumerationsmiljöer. Det finns ett begränsat antal studier där man försöker förutsäga kundbortfall i icke-kontraktuella verksamheter och ännu färre studier som fokuserar på bibehållande av kunder. Denna uppsats syftar till att bidra till området bibehållande av kunder i icke-kontraktuella affärer och även belysa antagandena och nackdelarna med analyser inom kundbortfall.  För att uppnå målet med avhandlingen genomförs en litteraturgenomgång tillsammans med två statistiska lärandemetoder; logistisk regressionsmodell och extreme gradient boosting model. Resultaten visar att det är fullt möjligt att hitta de bakomliggande faktorerna som driver kunderna att stanna kvar. De största drivkrafterna som kan öka sannolikheten för att kunder ska bibehållas är dagarna mellan första och andra ordern, andra ordervärdet och det totala ordervärdet.

From Data to Decision: : Using Logistic Regression to Determine Creditworthiness / Från Data till Beslut: : Användning av Logistik Regression för att Avgöra Kreditvärdighet

Norling, Joel, Abdu, Sami January 2023 (has links)
The development of scorecards for customer credit rating is a well-established field in the financial sector. The aim of this project, conducted in collaboration with a Swedish credit institute, was to develop a statistical model for predicting customer performance. In addition to conducting a model, the project also sought to identify the set of consumer characteristics with high predictive capability and how these characteristics differ when predicting performance early versus late in the loan term. To achieve this goal, a dataset containing approximately 15,000 unique loan applications approved between July 2020 and July 2022 was acquired from the credit institute, and logistic regression models were applied for different time periods ranging from 6 to 21 months. However, the models demonstrated better results than a random model but also showed difficulties in predicting creditworthiness. Possible factors contributing to the model's performance are discussed in the project, along with suggestions for potential improvements. Further research is encouraged in this area to achieve better prediction accuracy. / Utvecklingen av modeller för att bedöma kunders kreditvärdighet är en väletablerad del av finanssektorn. Som en del av ett samarbete med ett svenskt kreditinstitut var målet med detta projekt att skapa en statistisk modell som kunde predicera kunders betalningsförmåga. Utöver att skapa en modell syftar projektet också till att identifiera de egenskaper hos låntagare som har hög prediktionsförmåga samt hur dessa prediktionsvariabler skiljer sig för att förutse betalningsförmågan tidigt respektive sent in i löptiden. För att undersöka detta erhölls en datamängd innehållande cirka 15 000 unika låneansökningar som godkändes mellan juli 2020 och juli 2022 från kreditinstitutet, och logistiska regressionsmodeller tillämpades med kundernas status mellan 6 och 21 månader in av löptiden som målvariabler. Modellerna visade bättre resultat än en slumpmässig modell men visade också på stora svårigheter att förutsäga kreditvärdigheten. Möjliga faktorer som bidrar till modellernas träffssäkerhet diskuteras i projektet, tillsammans med förslag på potentiella förbättringar och ytterligare forskning uppmuntras inom detta område för att uppnå bättre modeller.

Utilizing logistic regression to apply the ELO system in forecasting Premier League odds / Användning av logistisk regression för att tillämpa ELO-systemet vid prognostisering av Premier League-odds

Thegelström, Claudio January 2023 (has links)
This thesis provides insights into the creation of a model for predicting odds in the Premier League. It illustrates how the ELO system and historical odds, in combination with Monte Carlo simulations, can be implemented through logistic regression to predict odds in an unbiased way. The findings are that the model performs generally well, but significantly worse at the beginning and end of the Premier League seasons. For further improvements, it is most likely necessary to factor in variables not available in the current model. Such factors could for example be incentives, injuries, or changes in the squad, all not being accounted for by the model in this case. / Detta examensarbete ger insikter om skapandet av en modell för att förutsäga oddsen i Premier League. Den visar hur ELO-systemet och historiska odds, i kombination med Monte Carlo-simuleringar, kan implementeras genom logistisk regression för att förutsäga oddsen på ett opartiskt sätt. Resultaten visar att modellen generellt sett fungerar bra, men betydligt sämre i början och slutet av Premier League-säsongerna. För ytterligare förbättringar är det troligtvis nödvändigt att ta hänsyn till variabler som inte är tillgängliga i den nuvarande modellen. Sådana faktorer kan till exempel vara incitament, skador eller förändringar i truppen, som alla inte tas hänsyn till i modellen i detta fall.

Analyzing Survey Response Time and Response Rate for Colorectal Cancer Patients Using Logistic and Poisson Regression / Analys av svarstid och svarsfrekvens för patienter med kolorektal cancer med hjälp av regression

Möller, Anna, Lagerros, Martina January 2023 (has links)
Cancer is a highly prevalent disease worldwide, claiming hundreds of lives each year. In the field of cancer research, it is customary to conduct surveys in which patients are asked to self-report and assess their symptoms and overall health. In such research, it is essential for patients to respond promptly to questionnaires to avoid recall bias and for a representative patient sample to respond to avoid biased sampling. This report aims to investigate the factors that impact response rate and response time using logistic regression and Poisson regression. The study focuses on a dataset of patients with colorectal cancer, with the response rate of patients with pancreatic cancer serving as a reference. By analyzing variables such as gender, age, place of residence, and the method of survey notification, the conclusion is that patients over the age of 80 who received their survey login codes on paper are the least responsive and underrepresented subgroup of the sample. In the analysis of the response time using Poisson regression, the conclusion is that the notification channel has the most significant impact on response rate. / Cancer är en mycket utbredd sjukdom världen över och kräver hundratals liv varje år. Inom cancerforskningen är det vanligt att genomföra undersökningar där patienter ombeds att självrapportera och bedöma sina symtom och övergripande hälsa. I sådana undersökningar är det avgörande att patienterna svarar snabbt på enkäter för att undvika minnesbias och för att få fram en representativ patientgrupp och undvika snedvriden urvalsprocess. Syftet med denna rapport är att undersöka faktorer som påverkar svarsfrekvensen och svarstiden genom att använda logistisk regression och Poisson-regression. Studien fokuserar på en dataset av patienter med tjocktarmscancer, där svarsfrekvensen hos patienter med bukspottkörtelcancer används som referens. Genom att analysera variabler som kön, ålder, bostadsort och metod för undersökningsmeddelande dras slutsatsen att patienter över 80 år som fick sina inloggningskoder på papper är den minst responsiva och mest underrepresenterade undergruppen av urvalet. I analysen av svarstiden med hjälp av Poisson-regression dras slutsatsen att undersökningskanalen har den största påverkan på svarsfrekvensen.

Symbolic smoking : A quantitative survey of peers’ impressions of a smoking adolescent girl, and a theoretical analysis of the symbolic capital generated by the impressions / Symbolisk rökning : En kvantitativ undersökning av intrycken som jämnåriga upplever från en rökande tonårig tjej, och en teoretisk analys av symboliskt kapital som genereras av intrycken

Aronson, Olov January 2016 (has links)
In the present study, I analyze adolescent girls’ smoking through a unique combination of a quantitative survey of impressions and a theoretical analysis based on new elaborations of Bourdieu’s concept symbolic capital. The method of the study is three-fold. First, focus-group interviews elicit relevant impressions of adolescents in the eyes of peers. Second, a questionnaire survey distributed to adolescent peers quantitatively investigates how impressions of a girl on a picture differ depending on whether or not she has a cigarette. Third, a theoretical analysis based on elaborations of Bourdieu’s theories scrutinizes the results of the questionnaire survey. The results of the questionnaire survey indicate that smoking adolescent girls generate impressions of being significantly less likable, more popular, more conceited, less kind, less shy, more liable to bully, less funny, more deceitful, and less compassionate than non-smoking adolescent girls. In the elaborations of Bourdieu’s theories, I introduce a division of symbolic capital into two forms: symbolic virtue capital, generated through impressions of virtues, and symbolic power capital, generated through intimidating impressions of destructive power. According to the theoretical analysis of the results, smoking adolescent girls have relatively much symbolic power capital but relatively little symbolic virtue capital compared to adolescent girls that do not smoke.

Risken för kolorektal cancer i förhållande till kostmönster, fysisk aktivitet och BMI i sydöstra Sverige : Analys av data från en fall-kontrollstudie / The risk of colorectal cancer in relation to dietary patterns, physical activity and BMI in southeastern Sweden

Wilzén, Josef, Lee, Emma January 2011 (has links)
Bakgrund: Tidigare studier har identifierat flera riskfaktorer, såsom kost, fysisk aktivitet och BMI, gällande kolorektal cancer. Att analysera kost utifrån kostmönster istället för enskilda livsmedel har visat sig vara effektivt för att undersöka risker för kolorektal cancer. Datamaterial samlades in med hjälp av en fall-kontroll studie med 257 fall och 805 kontroller. Syfte: Identifiera faktorer som ger en höjd eller sänkt risk för kolorektal cancer utifrån områdena kost, fysisk aktivitet och BMI. Metod: Faktoranalys användes för att upptäcka kostmönster. Logistisk regression användes för att skatta oddskvoter och 95 % konfidensintervall. Resultat: Tio stycken kostmönster erhölls från faktoranalysen. Kostmönstren ”Läsk, juice och mjölkprodukter” (OR=1,288; ORQ4=2,159), ”Te, men inte kaffe”(OR=1,228; ORQ3=1,891; ORQ4=1,668) och ”Fågel, rött kött och fisk”( ORQ4=1,724) gav alla en ökad risk. Däremot visade kostmönstret ”Mat från säd och ost”( ORQ2=0,546; ORQ4=0,592) en minskad risk. BMI för tio år sedan (OR=1,079; ORÖvervikt=1,491; ORFetma=2,260) identifierades som en riskfaktor. Att arbeta inom stillasittande (OR=0,975; OR>15 år=0,517) och mellanaktiva (OR=0,977; OR6-10 år=0,497;OR>15 år=0,565) yrken visade på en minskad risk. Slutsats: Flera kostmönster visade sig vara riskfaktorer, detta gäller även BMI för tio år sedan. Kostmönstret ”Mat från säd och ost” och att arbeta i fysiskt lätta till medeltunga yrken visade sig vara skyddande faktorer. / Background: Previous studies have shown several risk factors for developing colorectal cancer such as diet, physical activity and BMI. The method of analyzing diets based on dietary patterns, rather than individual food items, have been shown to be effective when investigating the colorectal cancer risk. The data was collected using a case-control study of 257 cases and 805 controls. Aim: Identify factors that cause increased or decreased risk in developing colorectal cancer based on diet, physical activity and BMI. Methods: Factor analysis was conducted to identify dietary patterns. Logistic regression was used to estimate odds ratio and 95 % confidence interval. Results: Factor analysis conducted ten dietary patterns, three of these patterns showed an increased risk “Soft drinks, juice and milk products” (OR=1,288; ORQ4=2,159), “Tea, but not coffee” (OR=1,228; ORQ3=1,891; ORQ4=1,668) and “Poultry, red meats and fish” (ORQ4=1,724).The dietary pattern “Food based on grain and cheese” (ORQ2=0,546; ORQ4=0,592) showed a decreased risk. BMI ten years ago (OR=1,079; OROverweight=1,491; ORObese=2,260) identified as a risk factor. To work in sedentary (OR=0,975; OR>15 years=0,517) or physically medium heavy (OR=0,977; OR6-10 years=0,497; OR>15 years=0,565) occupations indicated a decreased risk. Conclusions: Several dietary patterns has been identified as risk factors, this also includes BMI ten years ago. The dietary pattern “Food based on grain and cheese” and to work in sedentary or physically medium heavy occupations proved to be protective factors.

