Return to search

RegressionModeling from the Statistical Learning Perspective - with an Application toAdvertisement Data / Regressionsmodellering från perspektivet av statistiskinlärning  med tillämpning på  annonsdata

Advertising on social media, and on Facebook in specific, is a global industry from which the social media platforms get their biggest revenues. The performance of these advertisements in relation to the money invested in the advertisement can be measured in the metric cost per thousand impressions (CPM). Various regression modelling strategies combined with statistical learning approaches for model assessment are explored in this thesis with the objective of finding the model that best predicts CPM. Using advertisement data for 540 companies in Sweden during 2017, it is found that the data set comprising of 12 covariates suffers from a high degree of multicollinearity. To tackle this problem efficiently we apply different shrinkage regression methods. Starting from the Ridge and Lasso regression methods, combining the two by an elastic net and then finally expanding Lasso to adaptive Lasso, using cross-validation we find that the elastic net with approximately equal weightson Ridge and Lasso component is the best performing model. In conclusion, when regressing a metric such as CPM, on a set of variables which suffers from severe problems of multicollinearity, the shrinkage regression techniques are needed. / Annonsering på sociala medier, och speciellt på Facebook, är en global industri som de sociala medieplattformarna har som största intäktskälla. Hur lyckosamma dessa annonser är i förhållande till hur mycket pengar som investeras i dem kan mätas med nyckeltalet kostnad per tusen intryck (eng: Cost per thousand impressions, CPM). I den här uppsatsen är olika regressionsmodeller av statistisk inlärning byggda för prediktering av CPM med syftet att hitta den modell som bäst kan prediktera CPM. Genom att använda 540 företags annonsdata i Sverige under 2017 upptäcks det  att de 12 förklaringsvariablerna kraftigt samvarierar varav olika shrinkage regressionsmodeller byggs. Genom att först använda Ridge och Lasso, vilka sen kombineras i ett elastiskt nät och slutligen genom att utvidga Lasso till elastisk Lasso, upptäcks det att den modell som presterar bäst utifrån cross-validation är det elastiska nätet där ungefärligen lika stora vikter läggs på Ridge och Lasso. Slutsatsen är att för att regressera ett nyckeltal som CPM, där det är sannolikt att förklaringsvariablerna samvarierar, är shrinkage regressionsmodeller att föredra.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-229963
Date January 2018
CreatorsÖwall, Max
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2018:56

Page generated in 0.0017 seconds