1 |
High-Dimensional Classification Models with Applications to Email Targeting / Högdimensionella klassificeringsmetoder med tillämpning på målgruppsinriktning för e-mejlPettersson, Anders January 2015 (has links)
Email communication is valuable for any modern company, since it offers an easy mean for spreading important information or advertising new products, features or offers and much more. To be able to identify which customers that would be interested in certain information would make it possible to significantly improve a company's email communication and as such avoiding that customers start ignoring messages and creating unnecessary badwill. This thesis focuses on trying to target customers by applying statistical learning methods to historical data provided by the music streaming company Spotify. An important aspect was the high-dimensionality of the data, creating certain demands on the applied methods. A binary classification model was created, where the target was whether a customer will open the email or not. Two approaches were used for trying to target the costumers, logistic regression, both with and without regularization, and random forest classifier, for their ability to handle the high-dimensionality of the data. Performance accuracy of the suggested models were then evaluated on both a training set and a test set using statistical validation methods, such as cross-validation, ROC curves and lift charts. The models were studied under both large-sample and high-dimensional scenarios. The high-dimensional scenario represents when the number of observations, N, is of the same order as the number of features, p and the large sample scenario represents when N ≫ p. Lasso-based variable selection was performed for both these scenarios, to study the informative value of the features. This study demonstrates that it is possible to greatly improve the opening rate of emails by targeting users, even in the high dimensional scenario. The results show that increasing the amount of training data over a thousand fold will only improve the performance marginally. Rather efficient customer targeting can be achieved by using a few highly informative variables selected by the Lasso regularization. / Företag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.
|
2 |
Machine Learning Methods for Segmentation of Complex Metal Microstructure FeaturesFredriksson, Daniel January 2022 (has links)
Machine learning is a growing topic with possibilities that seems endless with growing areas of applications. The field of metallography today is highly dependent on the operators’ knowledge and technical equipment to perform segmentation and analysis of the microstructure. Having expert dependents is both costly and very time-consuming. Some automatic segmentation is possible using SEM but not for all materials and only having to depend on one machine will create a bottleneck. In this thesis, a traditional supervised machine learning model has been built with a Random Forest (RF) classifier. The model performs automatic segmentation of complex microstructure features from images taken using light optical- and scanning electron microscopes. Two types of material, High-Strength-Low-Alloy (HSLA) steel with in-grain carbides and grain boundary carbides, and nitrocarburized steel with different amounts of porosity were analyzed in this work. Using a bank of feature extractors together with labeled ground truth data one model for each material was trained and used for the segmentation of new data. The model trained for the HSLA steel was able to effectively segment and analyze the carbides with a small amount of training. The model could separate the two types of carbides which is not possible with traditional thresholding. However, the model trained on nitrocarburized steel showcased difficulties in detecting the porosity. The result was however improved with a different approach to the labeling. The result implies that further development can be made to improve the model. / Maskininlärning är ett växande område där möjligheterna verkar oändliga med växande applikationsområden. Området för metallografi är idag till stor utsträckning beroende av operatörens kunskap och de tekniska instrumenten som finns tillgängliga för att genomföra segmentering och analys av mikrostrukturen. Viss automatisk segmentering är möjlig genom att använda SEM, men det är inte möjligt för alla material samt att behöva vara beroende av endast en maskin kommer skapa en flaskhals. I denna uppsats har en traditionell övervakad maskininlärnings modell skapats med en Random Forest klassificerare. Modellen genomför automatisk segmentering av komplexa mikrostrukturer på bilder från både ljusoptiskt- och svepelektron-mikroskop. Två olika typer av material, Hög-Styrka-Låg-Legerat (HSLA) stål med karbider och korngräns karbider, samt nitrokarburerat stål med varierande mängd porositet analyserades i detta arbete. Genom användningen av en särdragsextraktions bank tillsammans med annoterad grundsannings data tränades en modell för vartdera materialet och användes för segmentering av ny bild data. Modellen som tränades för HSLA stålet kunde effektivt segmentera och analysera karbiderna med en liten mängd träning. Modellen kunde separera de två typerna av karbider vilket inte varit möjligt med traditionellt tröskelvärde. Den modell som tränades för det nitrokarburerade stålet visade emellertid upp svårigheter i att detektera porositeten. Resultatet kunde dock förbättras genom ett annorlunda tillvägagångssätt för annoteringen. Resultatet vittnar om att vidareutveckling kan göras för att förbättra slutresultatet.
|
Page generated in 0.1266 seconds