Spelling suggestions: "subject:"biostatistik."" "subject:"datastatistik.""
471 |
Constructing Residential Price Property Indices Using Robust and Shrinkage Regression Modelling / Konstruktion av Prisindex För Småhus Genom Tillämpning av Robusta och Shrinkage RegressionsmetoderMattsson, Johan January 2019 (has links)
This thesis intends to construct and compare multiple Residential Price Property Indices (RPPI) with the aim to express the price development of houses in Stockholm county from January 2013 to September 2018. The index method used is the hedonic time dummy variable method. Different methods of imputation of missing data will be applied and new variables will be derived from the available data in order to develop various regression models. Observations judged as not part of the index's target population will be excluded to improve the quality of the training data. The indices will be computed by fitting the final model with OLS regression (as a benchmark), Huber regression, Tukey regression, Ridge regression as well as least-angle regression. Lastly, the obtained indices will be assessed by analyzing different measures of performance when included in \textit{Booli}'s valuation engine. The main result of this thesis is that a specific regression model is produced and that it is concluded that Huber regression slightly outperforms the other methods. / Denna uppsats ämnar att konstruera och jämföra flera prisindex för hus med syftet att beskriva prisutvecklingen i Stockholms län från januari 2013 till september 2018. Indexmetoden som tillämpas är den hedoniska time dummy variabel metoden. Olika tillvägagångssätt för imputering av saknade värden används och nya variabler härleds för att skapa diverse regressionsmodeller. Observationer som ej anses representera indexets målgrupp utesluts för att således förbättra kvalitén på träningsdatan. Indexen beräknas genom att passa den slutgiltiga modellen med OLS regression (som ett riktmärke), Huber regression, Tukey regression, Ridge regression samt least-angle regression. Avslutningsvis utvärderas de erhållna prisindexen genom att analysera dess prestanda när de implementeras i \textit{Boolis} värderingsmotor. Huvudresultatet av denna uppsats är att en specifik regressionsmodell tas fram och att det fastslås att Huber regression aningen överträffar de
|
472 |
A comparison between Neural networks, Lasso regularized Logistic regression, and Gradient boosted trees in modeling binary sales / En jämförelse mellan Neurala nätverk, Lasso regulariserad Logistisk regression, och Gradient boostade träd för modellering av binära försäljningarStrandberg, Rickard, Låås, Johan January 2019 (has links)
The primary purpose of this thesis is to predict whether or not a customer will make a purchase from a specific item category. The historical data is provided by the Nordic online-based IT-retailer Dustin. The secondary purpose is to evaluate how well a fully connected feed forward neural network performs as compared to Lasso regularized logistic regression and gradient boosted trees (XGBoost) on this task. This thesis finds XGBoost to be superior to the two other methods in terms of prediction accuracy, as well as speed. / Det primära syftet med denna uppsats är att förutsäga huruvida en kund kommer köpa en specifik produkt eller ej. Den historiska datan tillhandahålls av den Nordiska internet-baserade IT-försäljaren Dustin. Det sekundära syftet med uppsatsen är att evaluera hur väl ett djupt neuralt nätverk presterar jämfört med Lasso regulariserad logistisk regression och gradient boostade träd (GXBoost). Denna uppsats fann att XGBoost presterade bättre än de två andra metoderna i såväl träffsäkerhet, som i hastighet.
|
473 |
Modeling Customer Behavior of Non-Maturity Deposits / Modellering av kundbeteende för icke tidsbunden inlåningJennerot, Mikaela January 2019 (has links)
The modeling of non-maturity deposits has become a highly relevant subject in the financial sector since these instruments constitute a significant portion of banks’ funding. A non-maturity deposit may look relatively simple, however, it has features that complicate the handling of these products. This thesis has the purpose of building a model based on the identification, integration and significance level of factors that influence customer behavior related to non-maturity deposits. Moreover, a mathematical approach based on a selection of these factors is made with the aim to analyze client behavior related to these products. The developed model uses simple linear regression and multiple linear regression with dummy variables to model long-term behavior. In contrast to the statistical methods that banks typically apply in this context, this thesis can contribute to the modeling of non-maturity deposits by highlighting customer behavior. Although, the evaluation of the mathematical approach indicates that the model might not be appropriate to use in real practice, it may arise ideas of alternative methods for the handling of non-maturity deposits. / Modellering av icke tidsbunden inlåning har blivit ett väldigt aktuellt ämne i den finansiella sektorn eftersom dessa instrument utgör en betydande del av bankers finansiering. Icke tidsbunden inlåning kan verka simpelt, dock finns det egenskaper hos denna som visat sig komplicera hanteringen av dessa produkter. Syftet med denna avhandling är att bygga en modell baserat på identifikation, integration och signifikansnivå av faktorer som påverkar kundbeteende relaterat till icke tidsbunden inlåning. Därtill, en matematisk modell baserat på ett urval av dessa faktorer är konstruerad med målet att analysera kunders beteende relaterat till dessa produkter. Den utvecklade modellen använder enkel linjär regression och multipel linjär regression med dummy variabler för att modellera långsiktigt beteende. I kontrast till de statistiska metoder som banker oftast tillämpar i detta sammanhang, kan denna studie bidra till modelleringen av icke tidsbunden inlåning genom att belysa kundbeteende. Trots att resultaten indikerar att den matematiska modellen kanske inte är lämplig att använda i praktiken, kan detta ge idéer på alternativa metoder för hanteringen av icke tidsbunden inlåning.
|
474 |
A self-normalizing neural network approach to bond liquidity classication / Självnormaliserade neurala nätverk för klassificering av obligationer likviditetKihlström, Gustav January 2018 (has links)
Bond liquidity risk is complex and something that every bond-investor needs to take into account. In this paper we investigate how well a selfnormalizing neural network (SNN) can be used to classify bonds with respect to their liquidity, and compare the results with that of a simpler logistic regression. This is done by analyzing the two algorithms' predictive capabilities on the Swedish bond market. Performing this analysis we find that the performance of the SNN and the logistic regression are broadly on the same level. However, the substantive overfitting to the training data in the case of the SNN suggests that a better performing model could be created by applying regularization techniques. As such, the conclusion is formed as such that there is need of more research in order to determine whether neural networks are the premier method to modelling liquidity. / Likviditeten hos obligationer är komplicerad och ett fenomen som varje obligationsinvesterare måste ta itu med. I den här rapporten undersöks hur pass väl ett själv-normaliserande neuralt nätverk kan användas för att klassifiera obligationer med avseende på deras likviditet, samt jämförs detta resultat med när en simplare logistisk regression används. Detta görs genom att analysera de två algoritmernas prediktiva kapacitet på den svenska obligationsmarknaden. Efter genomförd undersökning finner vi att SNN och logistisk regression presterar på liknande nivåer. I fallet med SNN finns dock en stor overfit till träningsdatan, vilket indikerar att en bättre modell möjligtvis skulle kunna nås om vanliga regulariseringsmetoder skulle användas. Slutsatsen blir därmed att det finns behov av mer forskning på ämnet för att dra en konklusion huruvida neurala nätverk är den bäst lämpade samlingen av algoritmer för modellering av likviditet.
|
475 |
Option strategies using hybrid Support Vector Regression - ARIMA / Optionsstrategier med hybrid Support Vector Regression - ARIMANayeri, Negin January 2020 (has links)
In this thesis, the use of machine learning in option strategies is evaluated with focus on the S&P 500 Index. The first part of the thesis focuses on testing the performance power of the Support Vector Regression (SVR) method for the historical realized volatility with a window of 20 days. The prediction window will also be 1-month forward (approximately 20 trading days). The second part of the thesis focuses on creating an ARIMA model that forecasts the error that is based on the difference between the predicted respective true values. This is done in order to create the hybrid SVR-ARIMA model. The new model now consists of a realized volatility value derived from the SVR model as well as the error obtained from the ARIMA model. Lastly, the two methods, that is single SVR and hybrid SVR-ARIMA are compared and the model that exhibits the best result is used within two option strategies. The results showcase the promising forecasting power of the SVR method which for this dataset had an accuracy leveland 67 % for the realized volatility. The ARIMA model also exhibits successful forecasting ability for the next lag. However, for this dataset, the Hybrid SVR-ARIMA model outperforms the single SVR model. It is debatable whether the success of these methods may be due to the fact the dataset only covers the years between 2010-2018 and the highly volatile environments of the financial crisis 2008 is omitted. Nonetheless, the use of the hybrid SVR-ARIMA model used within the two option strategies gives an average payoff 0.37 % and 1.68 %. It should however be noted that the affiliated costs of trading options is not included in the payoff and neither is the cost of premium due in buying options as the costs vary depending on the origin of the purchase. This thesis has been performed in collaboration with Crescit Asset Management in Stockholm, Sweden. / I denna uppsats utvärderas användningen av maskininlärning i optionsstrategier med fokus på S&P 500 Index. Den första delen av uppsatsen fokuserar på att testa prognos kraften av Support Vector Regression (SVR) metoden för den realiserade volatiliteten med ett fönster på 20 dagar. Prognos kommer att ske för 1 månad framåt (20 trading dagar). Den andra delen av uppsatsen fokuserar på att skapa en ARIMA-modell som prognostiserar nästa värdet i tidsserien som baseras på skillnaden mellan de erhållna prognoserna samt sanna värdena. Detta görs för att skapa en hybrid SVR-ARIMA-modell. Den nya modellen består nu av ett realiserat volatilitetsvärde härrörande från SVR samt den error som erhållits från ARIMA- modellen. Avslutningsvis kommer de två metoderna, det vill säga SVR och hybrid SVR-ARIMA, jämföras och den modell med bäst resultat användas inom två options strategier. Resultaten visar den lovande prognotiseringsförmågan för SVR-metoden som för denna dataset hade en noggrannhetsnivå på 67 % för realiserad volatiliteten. ARIMA- modellen visar också en framgångsrik prognosförmåga för nästa punkt i tidsserien. Dock överträffar Hybrid SVR-ARIMA-modellen SVR-modellen för detta dataset. Det kan diskuteras ifall framgången med dessa metoder kan bero på att denna dataset täcker åren mellan 2010-2018 och det mycket volatila tiden under finanskrisen 2008 är uteslutet. Detta kan ifrågasätta modellernas prognotiseringsförmåga på högre volatilitetsmarknader. Dock ger användningen av hybrid-SVR-ARIMA-modellen som används inom de två option strategierna en genomsnittlig avkastning på 0,37 % och 1,68 %. Det bör dock noteras att de tillkommande kostnaderna för att handla optioner samt premiekostnaden som skall betalas i samband med köp av optioner inte ingår i avkastningen då dessa kostnader varierar beroende på plats av köp. Denna uppsats har gjorts i samarbete med Crescit Asset Management i Stockholm.
|
476 |
Analysis of Performance Measures affecting the economic success on the PGA Tour using multiple linear regression / Analys av prestationsmått som påverkar den ekonomiska framgången på PGA Touren med hjälp av multipel linjär regressionHögbom, Johannes, Regnell, August January 2020 (has links)
This bachelor thesis examined the relationship between performance measures and prize money earnings on the PGA Tour. Using regression analysis and data from seasons 2004 through 2019 retrieved from the PGA Tour website this thesis examined if prize money could be predicted. Starting with 102 covariates, comprehensibly covering all aspects of the game, the model was reduced to 13 with Driving Distance being most prominent, favouring simplicity resulting in an R2Adjusted of 0.6918. The final model was discussed in regard to relevance, reliability and usability. This thesis further analysed how the entry of ShotLink, the technology responsible for the vast statistical database surrounding the PGA Tour, have affected golf in general and the PGA Tour in particular. Analysis regarding how ShotLink affected golf on different levels, both for players as well as other stakeholders, where conducted. These show developments on multiple levels; on how statistics are used, golf related technologies, broadcasts, betting market, and both amateur and PGA Tour playing golf players. The analysis of the latter, using statistics from the PGA Tour website, showed a significant improvement in scoring average since ShotLinks inception. / Detta kandidatexamensarbete undersökte relationen mellan prestationsmått och prispengar på PGA Touren. Genom regressionsanalys och data från säsongerna 2004 till och med 2019 hämtat från PGA Tourens hemsida undersökte detta arbete om prispengar kunde predikteras. Startandes med 102 kovariat, täckandes alla aspekter av spelet, reducerades sedan modellen till 13 med Utslags Distans mest framträdande, i förmån för simplicitet och resulterande i ett R2Adj på 0.6918. Den slutliga modellen diskuterades sedan gällande relevans, reliabilitet och användbarhet. Vidare analyserar detta arbete hur ShotLinks entré, tekniken ansvarig för den omfattande statistikdatabasen som omger PGA Touren, har påverkat golf generellt och PGA Touren specifikt. Analyser gällande hur ShotLink har påverkat golf på olika nivåer, både för spelare och andra intressenter, genomfördes. Dessa visar utvecklingar på flera fronter; hur statistik används, golfrelaterade teknologier, mediasändningar, bettingmarknad samt både för amatörspelare och spelare på PGA Touren. Den senare analysen, genom användande av statistik från PGA Tourens hemsida, visade på en signifikant förbättring i genomsnittsscore sedan ShotLink infördes.
|
477 |
Detecting change points in remote sensing time series / Att hitta brytpunkter i optisk fjärranalysdataLundemo, Anna January 2017 (has links)
We analyse methods for detecting change points in optical remote sensing lake drainage time series. Change points are points in a data set where the statistical properties of the data change. The data that we look at represent drained lakes in the Arctic hemisphere. It is generally noisy, with observations missing due to difficult weather conditions. We evaluate a partitioning algorithm, with five different approaches to model the data, based on least-squares regression and an assumption of normally distributed measurement errors. We also evaluate two computer programs called DBEST and TIMESAT and a MATLAB function called findchangepts(). We find that TIMESAT, DBEST and the MATLAB function are not relevant for our purposes. We also find that the partitioning algorithm that models the data as normally distributed around a piecewise constant function, is best suited for finding change points in our data. / Vi analyserar metoder för att hitta brytpunkter i optisk fjärranalysdata som beskriver uttorkning av sjöar. Brytpunkter är punkter i en tidsserie vid vilka de statistiska egenskaperna förändras. Datan som vi använder representerar uttorkande sjöar i norra hemisfären. Den är generellt väldigt fluktuerande och många observationer kan saknas på grund av väderförhållandena i dessa områden. Vi undersöker en partitionsalgoritm, med fem olika sätt att modellera datan, baserade på minstakvadratmetoden och på antagande om att mätfelen är normalfördelade. Vi utvärderar också två program som heter DBEST och TIMESAT och en funktion i MATLAB som heter findchangepts(). Vi kommer fram till att TIMESAT, DBEST och MATLAB-funktionen inte är lämpliga för att analysera vår data. Vår slutsats är också att partitionsalgoritmen som modellerar datan som normalfördelad runt en styckvis konstant funktion bäst lämpar sig för att hitta brytpunkter i vår data.
|
478 |
Application of new particle-based solutions to the Simultaneous Localization and Mapping (SLAM) problem / Applicering av nya partikel-baserade metoder till Simultaneous Localization and Mapping (SLAM) problemetSvensson Depraetere, Xavier January 2017 (has links)
In this thesis, we explore novel solutions to the Simultaneous Localization and Mapping (SLAM) problem based on particle filtering and smoothing methods. In essence, the SLAM problem constitutes of two interdependent tasks: map building and tracking. Three solution methods utilizing different smoothing techniques are explored. The smoothing methods used are fixed lag smoothing (FLS), forward-only forward-filtering backward-smoothing (forward-only FFBSm) and the particle-based, rapid incremental smoother (PaRIS). In conjunction with these smoothing techniques the well-established Expectation-Maximization (EM) algorithm is used to produce maximum-likelihood estimates of the map. The three solution method are then evaluated and compared in a simulated setting. / I detta examensarbete utforskas nya lösningar till Simultaneous Localization and Mapping (SLAM) problemet baserat på partikelfilter- och partikelglättnings-metoder. I sin grund består SLAM problemet av två av varandra beroende uppgifter: kartläggning och spårning. Tre lösningsmetoder som använder olika glättnings-metoder appliceras för att lösa dessa uppgifter. Dessa glättningsmetoder är fixed lag smoothing (FLS), forward-only forward-filtering backward-smoothing (forward-only FFBSm) och the particle-based, rapid incremental smoother (PaRIS). I samband med dessa glättningstekniker används den väletablerade Expectation-Maximization (EM) algoritmen för att skapa maximum-likelihood skattningar av kartan. De tre lösningsmetoderna utvärderas sedan och jämförs i en simulerad miljö.
|
479 |
Modeling Natural Human Hand Motion for Grasp Animation / Modellering av naturliga handrörelser för GreppanimationerJeppsson, Johannes January 2017 (has links)
This report was carried out at Gleechi, a Swedish start-up company working with implementing hand use in Virtual Reality. The thesis presents hand models used to generate natural looking grasping motions. One model were made for each of the thirty-three different grasp types in Feix’s The GRASP Taxonomy. Each model is based on functional principal components analysis which was performed on data containing recorded joint angles of grasping motions from real subjects. Prior to functional principal components analysis, dynamic time warping was performed on the recorded joint angles in order to put them on the same length and make them suitable for statistical analysis. The last step of the analysis was to project the data onto the functional principal components and train Gaussian mixture models on the weights obtained. New grasping motions could be generated by sampling weights from the Gaussian mixture models and attaching them to the functional principal components. The generated grasps were in general satisfying, but all of the thirty-three grasps were not distinguishable from each other. This was most likely caused by the fact that each degree of freedom was modelled in isolation from each other, so that no correlation between them was included in the model. / Denna rapport utfördes på Gleechi, ett svenskt start-up företag som jobbar med att implementera handrörelser i Virtual Reality. Uppsatsen presenterar statistiska modeller för att generera handrörelser som utför olika typer av grepp och som ser naturliga ut. En modell skapades för alla trettiotre grepptyp i Feixs The GRASP Taxonomy. Varje modell bygger på funktionell principalkomponentsanalys som utfördes på data innehållande inspelade vinklar från fingerleder från personer som utförde olika grepp på föremål. Innan funktional principalkomponentanalys utfördes så genomfördes dynamic time warping på datan för att få de inspelade greppen på samma längd och göra den lämplig för statistisk analys. Det sista steget i analysen var att projicera ned datan på principalkomponenterna och träna Gaussian mixture models på vikterna som erhölls. Nya grepp kunde då genereras genom att dra vikter från Gaussian mixture models och skapa linjärkombinationer med de funktionella principalkomponenterna. De genererade greppen var generellt sett tillfredställande, men alla trettiotre grepptyper var inte särskiljbara från varandra. Detta berodde med största sannolikhet på att varje frihetsgrad modellerades isolerat från de andra så att ingen korrelation mellan dem var inkluderad i modellen.
|
480 |
Statistical Machine Learning from Classification Perspective: : Prediction of Household Ties for Economical Decision Making / Statistiskmaskin inlärning från klassificeringsperspektiv: : Prediktionav hushållsrelationer för ekonomiskt beslutsfattandeBrodin, Kristoffer January 2017 (has links)
In modern society, many companies have large data records over their individual customers, containing information about attributes, such as name, gender, marital status, address, etc. These attributes can be used to link costumers together, depending on whether they share some sort of relationship with each other or not. In this thesis the goal is to investigate and compare methods to predict relationships between individuals in the terms of what we define as a household relationship, i.e. we wish to identify which individuals are sharing living expenses with one another. The objective is to explore the ability of three supervised statistical machine learning methods, namely, logistic regression (LR), artificial neural networks (ANN) and the support vector machine (SVM), to predict these household relationships and evaluate their predictive performance for different settings on their corresponding tuning parameters. Data over a limited population of individuals, containing information about household affiliation and attributes, were available for this task. In order to apply these methods, the problem had to be formulated on a form enabling supervised learning, i.e. a target Y and input predictors X = (X1, …, Xp), based on the set of p attributes associated with each individual, had to be derived. We have presented a technique which forms pairs of individuals under the hypothesis H0, that they share a household relationship, and then a test of significance is constructed. This technique transforms the problem into a standard binary classification problem. A sample of observations could be generated by randomly pair individuals and using the available data over each individual to code the corresponding outcome on Y and X for each random pair. For evaluation and tuning of the three supervised learning methods, the sample was split into a training set, a validation set and a test set. We have seen that the prediction error, in term of misclassification rate, is very small for all three methods since the two classes, H0 is true, and H0 is false, are far away from each other and well separable. The data have shown pronounced linear separability, generally resulting in minor differences in misclassification rate as the tuning parameters are modified. However, some variations in the prediction results due to tuning have been observed, and if also considering computational time and requirements on computational power, optimal settings on the tuning parameters could be determined for each method. Comparing LR, ANN and SVM, using optimal tuning settings, the results from testing have shown that there is no significant difference between the three methods performances and they all predict well. Nevertheless, due to difference in complexity between the methods, we have concluded that SVM is the least suitable method to use, whereas LR most suitable. However, the ANN handles complex and non-linear data better than LR, therefore, for future application of the model, where data might not have such a pronounced linear separability, we find it suitable to consider ANN as well. This thesis has been written at Svenska Handelsbanken, one of the large major banks in Sweden, with offices all around the world. Their headquarters are situated in Kungsträdgården, Stockholm. Computations have been performed using SAS software and data have been processed in SQL relational database management system. / I det moderna samhället har många företag stora datasamlingar över sina enskilda kunder, innehållande information om attribut, så som namn, kön, civilstatus, adress etc. Dessa attribut kan användas för att länka samman kunderna beroende på om de delar någon form av relation till varandra eller ej. I denna avhandling är målet att undersöka och jämföra metoder för att prediktera relationer mellan individer i termer av vad vi definierar som en hushållsrelation, d.v.s. vi vill identifiera vilka individer som delar levnadskostnader med varandra. Målsättningen är att undersöka möjligheten för tre övervakade statistiska maskininlärningsmetoder, nämligen, logistisk regression (LR), artificiella neurala nätverk (ANN) och stödvektormaskinen (SVM), för att prediktera dessa hushållsrelationer och utvärdera deras prediktiva prestanda för olika inställningar på deras motsvarande inställningsparametrar. Data över en begränsad mängd individer, innehållande information om hushållsrelation och attribut, var tillgänglig för denna uppgift. För att tillämpa dessa metoder måste problemet formuleras på en form som möjliggör övervakat lärande, d.v.s. en målvariabel Y och prediktorer X = (X1,…,Xp), baserat på uppsättningen av p attribut associerade med varje individ, måste härledas. Vi har presenterat en teknik som utgörs av att skapa par av individer under hypotesen H0, att de delar ett hushållsförhållande, och sedan konstrueras ett signifikanstest. Denna teknik omvandlar problemet till ett standard binärt klassificeringsproblem. Ett stickprov av observationer, för att träna metoderna, kunde genereras av att slumpmässigt para individer och använda informationen från datasamlingarna för att koda motsvarande utfall på Y och X för varje slumpmässigt par. För utvärdering och avstämning av de tre övervakade inlärningsmetoderna delades observationerna i stickprovet in i en träningsmängd, en valideringsmängd och en testmängd. Vi har sett att prediktionsfelet, i form av felklassificeringsfrekvens, är mycket litet för alla metoder och de två klasserna, H0 är sann, och H0 är falsk, ligger långt ifrån varandra och väl separabla. Data har visat sig ha en uttalad linjär separabilitet, vilket generellt resulterar i mycket små skillnader i felklassificeringsfrekvens då inställningsparametrarna modifieras. Dock har vissa variationer i prediktiv prestanda p.g.a. inställningskonfiguration ändå observerats, och om hänsyn även tages till beräkningstid och beräkningskraft, har optimala inställningsparametrar ändå kunnat fastställas för respektive metod. Jämförs därefter LR, ANN och SVM, med optimala parameterinställningar, visar resultaten från testningen att det inte finns någon signifikant skillnad mellan metodernas prestanda och de predikterar alla väl. På grund av skillnad i komplexitet mellan metoderna, har det dock konstaterats att SVM är den minst lämpliga metoden att använda medan LR är lämpligast. ANN hanterar dock komplex och icke-linjära data bättre än LR, därför, för framtida tillämpning av modellen, där data kanske inte uppvisar lika linjär separabilitet, tycker vi att det är lämpligt att även överväga ANN. Denna uppsats har skrivits på Svenska Handelsbanken, en av storbankerna i Sverige, med kontor över hela världen. Huvudkontoret är beläget i Kungsträdgården, Stockholm. Beräkningar har utförts i programvaran SAS och datahantering i databashanteraren SQL.
|
Page generated in 0.0725 seconds