Spelling suggestions: "subject:"imputing"" "subject:"sputering""
1 |
"The Application of Multiple Imputation in Correcting for Unit Nonresponse Bias"Arntsen, Stian Fagerli January 2010 (has links)
No description available.
2 |
Jämförelse av metoder för hantering av partiellt bortfall vid logistisk regressionsanalysAlsén, Simon, Åkesson, Andreas January 2021 (has links)
Partiellt bortfall är en vanligt förekommande felkälla vid statistiska undersökningar. Med partiellt bortfall avses avsaknad av vissa variabelvärden för ett observationsobjekt, något som riskerar leda till förlust av statistisk styrka och skeva parameterskattningar. Ett stort antal metoder har utvecklats för att hantera denna problematik, och syftet med denna uppsats är att undersöka vilken effekt några av dessa metoder har på parameterskattningarna i en logistisk regressionsmodell, och huruvida dessa metoder är lämpliga att tillämpa på aktuellt datamaterial. De metoder som inkluderats i denna studie är complete case analysis, MICE och missForest. För ändamålet simuleras partiellt bortfall av olika omfattningar och under olika bortfallsmekanismer i ett verkligt datamaterial som består av 2987 observationer och fem variabler. Metoderna utvärderas sedan med avseende på normalized root mean squared error (NRMSE), samt genom att undersöka hur de regressionskoefficienter som skattats med de imputerade datamaterialen avviker från de regressionskoefficienter som skattats med det kompletta, observerade datamaterialet. missForest resulterar i lägst NRMSE. I den efterföljande logistiska regressionsanalysen resulterar dock MICE i betydligt lägre bias än missForest. / Missing data is a common problem in research and can lead to loss of statistical power and bias in parameter estimates. Numerous methods have been developed for dealing with missing data, and the aim of this thesis is to evaluate how a number of these methods affect the parameter estimates in a logistic regression model, and whether these methods are suitable for the data in question. The methods included in this study are complete case analysis, MICE and missForest. For the purpose of evaluating the methods, missing values in varying proportions and under different missing mechanisms are generated in a real dataset consisting of 2987 observations and five variables. The performance of the methods is assessed by normalized root mean squared error (NRMSE), and by comparing the regression coefficients estimated using the original, true data set with the regression coefficients estimated using imputed data sets. missForest results in the lowest NRMSE. In the subsequent logistic regression analysis, however, MICE results in considerably lower bias than missForest.
3 |
Elförbrukningen i svenska hushåll : En analys inom projektet ”Förbättrad energistatistik i bebyggelsen” för Energimyndigheten / Electricity consumption in Swedish households : An analysis in the project “Improved energy statistics for settlements” for the Swedish Energy AgencyNilsson, Josefine, Xie, Jing January 2012 (has links)
Energimyndigheten har drivit ett projekt kallat ”Förbättrad energistatistik i bebyggelsen” för att få mer kunskap om energianvändningen i byggnader. Denna rapport fokuserar på ”Mätning av hushållsel på apparatnivå” som var ett delprojekt. Diverse regressionsmodeller används i denna rapport för att undersöka sambandet mellan elanvändningen och de olika förklarande variablerna, som exempelvis hushållens bakgrundsvariabler, hushållstyp och geografiska läge, elförbrukningen av olika elapparater samt antalet elapparater. Datamaterialet innefattar 389 hushåll där de flesta är spridda runt om i Mälardalen. Ett fåtal mätningar gjordes på hushåll i Kiruna och Malmö. Slutsatsen vi kan dra från denna uppsats är att hushållens bakgrund, hustyp, geografiska läge och antal elapparater samt dessa apparaters typ har relevans för elförbrukningen i ett hushåll. / The Swedish Energy Agency conducted a project which is called “Improved energy statistics for settlements”. This report focuses on one field of the project: “households’ electricity use on device level”. Various regression models are used in the analysis to analyze the relationship between electricity usage and different explanatory variables, for instance: background variables for the household, type of household, geographical setting, usage of different electrical devices and quantity of electrical devices used. The data material consists of 389 households which are spread around the region of Märlardalen except for a few households from the communities of Kiruna and Malmö. The conclusion we can draw from this thesis shows that the background variables for a household, its type, its geographical setting and the amount and type of devices it contains all have a contribution to the electricity usage in the household. / Förbättrad energistatistik i bebyggelsen
4 |
Risken för kolorektal cancer i förhållande till kostmönster, fysisk aktivitet och BMI i sydöstra Sverige : Analys av data från en fall-kontrollstudie / The risk of colorectal cancer in relation to dietary patterns, physical activity and BMI in southeastern SwedenWilzén, Josef, Lee, Emma January 2011 (has links)
Bakgrund: Tidigare studier har identifierat flera riskfaktorer, såsom kost, fysisk aktivitet och BMI, gällande kolorektal cancer. Att analysera kost utifrån kostmönster istället för enskilda livsmedel har visat sig vara effektivt för att undersöka risker för kolorektal cancer. Datamaterial samlades in med hjälp av en fall-kontroll studie med 257 fall och 805 kontroller. Syfte: Identifiera faktorer som ger en höjd eller sänkt risk för kolorektal cancer utifrån områdena kost, fysisk aktivitet och BMI. Metod: Faktoranalys användes för att upptäcka kostmönster. Logistisk regression användes för att skatta oddskvoter och 95 % konfidensintervall. Resultat: Tio stycken kostmönster erhölls från faktoranalysen. Kostmönstren ”Läsk, juice och mjölkprodukter” (OR=1,288; ORQ4=2,159), ”Te, men inte kaffe”(OR=1,228; ORQ3=1,891; ORQ4=1,668) och ”Fågel, rött kött och fisk”( ORQ4=1,724) gav alla en ökad risk. Däremot visade kostmönstret ”Mat från säd och ost”( ORQ2=0,546; ORQ4=0,592) en minskad risk. BMI för tio år sedan (OR=1,079; ORÖvervikt=1,491; ORFetma=2,260) identifierades som en riskfaktor. Att arbeta inom stillasittande (OR=0,975; OR>15 år=0,517) och mellanaktiva (OR=0,977; OR6-10 år=0,497;OR>15 år=0,565) yrken visade på en minskad risk. Slutsats: Flera kostmönster visade sig vara riskfaktorer, detta gäller även BMI för tio år sedan. Kostmönstret ”Mat från säd och ost” och att arbeta i fysiskt lätta till medeltunga yrken visade sig vara skyddande faktorer. / Background: Previous studies have shown several risk factors for developing colorectal cancer such as diet, physical activity and BMI. The method of analyzing diets based on dietary patterns, rather than individual food items, have been shown to be effective when investigating the colorectal cancer risk. The data was collected using a case-control study of 257 cases and 805 controls. Aim: Identify factors that cause increased or decreased risk in developing colorectal cancer based on diet, physical activity and BMI. Methods: Factor analysis was conducted to identify dietary patterns. Logistic regression was used to estimate odds ratio and 95 % confidence interval. Results: Factor analysis conducted ten dietary patterns, three of these patterns showed an increased risk “Soft drinks, juice and milk products” (OR=1,288; ORQ4=2,159), “Tea, but not coffee” (OR=1,228; ORQ3=1,891; ORQ4=1,668) and “Poultry, red meats and fish” (ORQ4=1,724).The dietary pattern “Food based on grain and cheese” (ORQ2=0,546; ORQ4=0,592) showed a decreased risk. BMI ten years ago (OR=1,079; OROverweight=1,491; ORObese=2,260) identified as a risk factor. To work in sedentary (OR=0,975; OR>15 years=0,517) or physically medium heavy (OR=0,977; OR6-10 years=0,497; OR>15 years=0,565) occupations indicated a decreased risk. Conclusions: Several dietary patterns has been identified as risk factors, this also includes BMI ten years ago. The dietary pattern “Food based on grain and cheese” and to work in sedentary or physically medium heavy occupations proved to be protective factors.
5 |
Imputation and Generation of Multidimensional Market DataWall, Tobias, Titus, Jacob January 2021 (has links)
Market risk is one of the most prevailing risks to which financial institutions are exposed. The most popular approach in quantifying market risk is through Value at Risk. Organisations and regulators often require a long historical horizon of the affecting financial variables to estimate the risk exposures. A long horizon stresses the completeness of the available data; something risk applications need to handle. The goal of this thesis is to evaluate and propose methods to impute financial time series. The performance of the methods will be measured with respect to both price-, and risk metric replication. Two different use cases are evaluated; missing values randomly place in the time series and consecutively missing values at the end-point of a time series. In total, there are five models applied to each use case, respectively. For the first use case, the results show that all models perform better than the naive approach. The Lasso model lowered the price replication error by 35% compared to the naive model. The result from use case two is ambiguous. Still, we can conclude that all models performed better than the naive model concerning risk metric replication. In general, all models systemically underestimated the downstream risk metrics, implying that they failed to replicate the fat-tailed property of the price movement.
Page generated in 0.0636 seconds