Global ETD Search

1	GDPR ́s Impact on Sales at Flygresor.se: A Regression Analysis / GDPRs påverkan på försäljning hos Flygresor.se: en regressionsanalys Lansryd, Lisette, Engvall Birr, Madeleine January 2019 (has links) The possible effects of the General Data Protections Regulations (GDPR) have been widely discussed among policymakers, stakeholders and ordinary people who are the objective for data collection. The purpose of GDPR is to protect people’s integrity and increase transparency for how personal data is used. Up until May 25th, 2018 personal data could be sampled and used without consent from users. Many argue that the introduction of GDPR is good, others are reluctant and argue that GDPR may harm data-driven companies. The report aims to answer how GDPR affects sales at the flight search engine Flygresor.se. By examining how and to what extent these regulations impact revenue, it is hoped for that these findings will lead to a deeper understanding of how these regulations affect businesses. Multiple linear regression analysis was used as the framework to answer the research question. Numerous models were constructed based on data provided by Flygresor.se. The models mostly included categorical variables representing time indicators such as month, weekday, etc. After carefully performing data modifications, variable selections and model evaluation tests three final models were obtained. After performing statistical inference tests and multicollinearity diagnostics on the models it could be concluded that an effect from GDPR could not be statistically proven. However, this does not mean that an actual effect of GDPR did not occur, only that it could not be isolated and proven. Thus, the extent of the effect of GDPR is statistically inconclusive. / De möjliga följderna av införandet av General Data Protections Regulations (GDPR) har varit väl omdiskuterat bland beslutsfattare, intressenter och människor som är målet för datainsamlingen. Syftet med GDPR är att skydda människors integritet samt öka insynen för hur personlig data används. Fram tills den 25 maj 2018 har det varit möjligt att samla in och använda personuppgifter utan samtyckte från användare. Många menar att införandet av GDPR är nödvändigt medans andra är mer kritiska och menar att GDPR kan skada lönsamheten för data beroende verksamheter. Denna rapport syftar till att svara på huruvida GDPR har påverkat försäljningen på flygsökmotorn Flygresor.se. Genom att undersöka om och i vilken utsträckning dessa regler påverkat intäkterna, är förhoppningen att dessa resultat kan leda till en djupare förståelse för hur GDPR påverkar företag. Multipel linjär regressionsanalys användes som ramverk för att svara på frågeställningen. Flera modeller utformades baserat på data som tillhandahölls av Flygresor.se. Modellerna var främst baserade på kategoriska variabler som representerade tidsaspekter så som månad, veckodag etc. Efter ett grundligt genomförande av data modifieringar, variabelselektion och modellutvärdering kunde tre modeller konstateras. Efter att ha genomfört signifikanstester och korrelationstester på modellerna kunde det fastställas att en effekt från GDPR inte kunde statistiskt säkerställas. Dock betyder detta inte att GDPR inte har haft en faktisk effekt, utan att en effekt inte kunde isoleras och bevisas. Bachelor Thesis GDPR Regression Analysis Multiple Linear Regression Categorical Variables Flygresor.se Kandidat examensarbete Multipel Linjär Regression GDPR Regressionsanalys Kategoriska Variabler Flygresor.se Probability Theory and Statistics Sannolikhetsteori och statistik
2	An investigation of categorical variable encoding techniques in machine learning: binary versus one-hot and feature hashing / En undersökning av kodningstekniker för diskreta variabler inom maskininlärning: binär mot one-hot och feature hashing Seger, Cedric January 2018 (has links) Machine learning methods can be used for solving important binary classification tasks in domains such as display advertising and recommender systems. In many of these domains categorical features are common and often of high cardinality. Using one-hot encoding in such circumstances lead to very high dimensional vector representations, causing memory and computability concerns for machine learning models. This thesis investigated the viability of a binary encoding scheme in which categorical values were mapped to integers that were then encoded in a binary format. This binary scheme allowed for representing categorical features using log2(d)-dimensional vectors, where d is the dimension associated with a one-hot encoding. To evaluate the performance of the binary encoding, it was compared against one-hot and feature hashed representations with the use of linear logistic regression and neural networks based models. These models were trained and evaluated using data from two publicly available datasets: Criteo and Census. The results showed that a one-hot encoding with a linear logistic regression model gave the best performance according to the PR-AUC metric. This was, however, at the expense of using 118 and 65,953 dimensional vector representations for Census and Criteo respectively. A binary encoding led to a lower performance but used only 35 and 316 dimensions respectively. For Criteo, binary encoding suffered significantly in performance and feature hashing was perceived as a more viable alternative. It was also found that employing a neural network helped mitigate any loss in performance associated with using binary and feature hashed representations. / Maskininlärningsmetoder kan användas för att lösa viktiga binära klassificeringsuppgifter i domäner som displayannonsering och rekommendationssystem. I många av dessa domäner är kategoriska variabler vanliga och ofta av hög kardinalitet. Användning av one-hot-kodning under sådana omständigheter leder till väldigt högdimensionella vektorrepresentationer. Detta orsakar minnesoch beräkningsproblem för maskininlärningsmodeller. Denna uppsats undersökte användbarheten för ett binärt kodningsschema där kategoriska värden var avbildade på heltalvärden som sedan kodades i ett binärt format. Detta binära system tillät att representera kategoriska värden med hjälp av log2(d) -dimensionella vektorer, där d är dimensionen förknippad med en one-hot kodning. För att utvärdera prestandan för den binära kodningen jämfördes den mot one-hot och en hashbaserad kodning. En linjär logistikregression och ett neuralt nätverk tränades med hjälp av data från två offentligt tillgängliga dataset: Criteo och Census, och den slutliga prestandan jämfördes. Resultaten visade att en one-hot kodning med en linjär logistisk regressionsmodell gav den bästa prestandan enligt PR-AUC måttet. Denna metod använde dock 118 och 65,953 dimensionella vektorrepresentationer för Census respektive Criteo. En binär kodning ledde till en lägre prestanda generellt, men använde endast 35 respektive 316 dimensioner. Den binära kodningen presterade väsentligt sämre specifikt för Criteo datan, istället var hashbaserade kodningen en mer attraktiv lösning. Försämringen i prestationen associerad med binär och hashbaserad kodning kunde mildras av att använda ett neuralt nätverk. Computer and Information Sciences Data- och informationsvetenskap

Search results

GDPR ́s Impact on Sales at Flygresor.se: A Regression Analysis / GDPRs påverkan på försäljning hos Flygresor.se: en regressionsanalys

An investigation of categorical variable encoding techniques in machine learning: binary versus one-hot and feature hashing / En undersökning av kodningstekniker för diskreta variabler inom maskininlärning: binär mot one-hot och feature hashing