• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 1
  • Tagged with
  • 5
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Multi-Class Classification for Predicting Customer Satisfaction : Application of machine learning methods to predict customer satisfaction at IKEA

Backerholm, Stina, Börjesjö, Malin January 2023 (has links)
Gaining a comprehensive understanding of the features that contribute to customer satisfaction after contact with IKEA’s Remote Customer Meeting Points (RCMPs) is essential for implementing effective remedial measures in the future. The aim of this project is to investigate if it is possible to find key features that influence customer satisfaction and to use these to predict customer satisfaction. The task has been approached as a multi-class classification problem, with the objective of classifying the observations into five distinct levels of customer satisfaction. The study utilized three models, Multinomial Logistic Regression, Random Forest, and Extreme Gradient Boosting, to investigate these possibilities. Based on the methods used and the available data, the results indicate that it is currently not feasible to accurately identify key features or predict customer satisfaction. / Att förstå vilka faktorer som bidrar till kundnöjdhet efter en kontakt med IKEAs RCMPs är avgörande för att kunna genomföra effektiva åtgärder i framtiden. Syftet med detta projekt är att undersöka om det är möjligt att hitta nyckelfaktorer som påverkar kundnöjdhet och använda dessa för att prediktera kundnöjdhet. Uppgiften har angripits som ett multi-klass klassificeringsproblem, med syftet att klas- sificera observationerna i fem olika nivåer av kundnöjdhet. Studien har utvärderat tre olika modeller, Multinomial Logistic Regression, Random Forest och Extreme Gradient Boosting, för att undersöka dessa möjligheter. Baserat på de använda metoderna med tillgängliga data, indikerar resultaten att det för tillfället inte är möjligt att identifiera nyckelfaktorer eller prediktera kundnöjdhet med hög noggrannhet.
2

Comparison of Machine Learning Techniques when Estimating Probability of Impairment : Estimating Probability of Impairment through Identification of Defaulting Customers one year Ahead of Time / En jämförelse av maskininlärningstekniker för uppskattning av Probability of Impairment : Uppskattningen av Probability of Impairment sker genom identifikation av låntagare som inte kommer fullfölja sina återbetalningsskyldigheter inom ett år

Eriksson, Alexander, Långström, Jacob January 2019 (has links)
Probability of Impairment, or Probability of Default, is the ratio of how many customers within a segment are expected to not fulfil their debt obligations and instead go into Default. This is a key metric within banking to estimate the level of credit risk, where the current standard is to estimate Probability of Impairment using Linear Regression. In this paper we show how this metric instead can be estimated through a classification approach with machine learning. By using models trained to find which specific customers will go into Default within the upcoming year, based on Neural Networks and Gradient Boosting, the Probability of Impairment is shown to be more accurately estimated than when using Linear Regression. Additionally, these models provide numerous real-life implementations internally within the banking sector. The new features of importance we found can be used to strengthen the models currently in use, and the ability to identify customers about to go into Default let banks take necessary actions ahead of time to cover otherwise unexpected risks. / Titeln på denna rapport är En jämförelse av maskininlärningstekniker för uppskattning av Probability of Impairment. Uppskattningen av Probability of Impairment sker genom identifikation av låntagare som inte kommer fullfölja sina återbetalningsskyldigheter inom ett år. Probability of Impairment, eller Probability of Default, är andelen kunder som uppskattas att inte fullfölja sina skyldigheter som låntagare och återbetalning därmed uteblir. Detta är ett nyckelmått inom banksektorn för att beräkna nivån av kreditrisk, vilken enligt nuvarande regleringsstandard uppskattas genom Linjär Regression. I denna uppsats visar vi hur detta mått istället kan uppskattas genom klassifikation med maskininlärning. Genom användandet av modeller anpassade för att hitta vilka specifika kunder som inte kommer fullfölja sina återbetalningsskyldigheter inom det kommande året, baserade på Neurala Nätverk och Gradient Boosting, visas att Probability of Impairment bättre uppskattas än genom Linjär Regression. Dessutom medför dessa modeller även ett stort antal interna användningsområden inom banksektorn. De nya variabler av intresse vi hittat kan användas för att stärka de modeller som idag används, samt förmågan att identifiera kunder som riskerar inte kunna fullfölja sina skyldigheter låter banker utföra nödvändiga åtgärder i god tid för att hantera annars oväntade risker.
3

Beräkningsmodell för osymmetrisk last och produktion i lågspänningsnätet / Calculation model for asymmetrical load and production in the low voltage network

Törnroth, Jonatan January 2015 (has links)
Produktion i lågspänningsnätet ökar kraftigt, bara under år 2014 dubblerades antalet nätanslutna solcellsanläggningar i Sverige. Utvecklingen ser ut att hålla i sig och då dessa anläggningar ofta är små är det troligt att flera ansluts genom en enfasigt ansluten växelriktare. Ett symmetriskt trefassystem består av tre fasspänningarna med samma amplitud, frekvens och förskjutna 120˚ från varandra. Laster och produktionsenheter som inte är trefasigt nätanslutna ger upphov till ett osymmetriskt driftfall. Detta arbete syftar till att undersöka hur spänningen påverkas av osymmetriska laster och produktionsenheter i Vattenfalls lågspänningsnät. Målet med arbetet är att skapa ett beräkningsverktyg som kan användas av Vattenfall Eldistribution för att undersöka hur spänningen påverkas vid olika osymmetriska driftfall. Beräkningsvertyget har skapats i Matlab och utgår från kända värden för spänningen i matningspunkten och impedansen mellan matningspunkten och anslutningspunkten. Dessutom anges effekt och effektfaktor för eventuell produktion och förbrukning i respektive fas. Beräkningsmodellen beräknar spänningar och strömmar i anslutningspunkten samt spänningens osymmetri. Verifiering av beräkningsmodellen har utförts genom att jämföra beräknat resultat med ”Kurvor för förenklad bedömning av nätstyrka” som återfinns i MIKRO-handboken, utgiven av branschorganisationen Svensk Energi. En fältstudie har utförts på en enfasigt nätansluten solcellsanläggning. Mätresultatet från denna har jämförts med resultat från beräkningsmodellen. Dessutom har laboratoriemätningar på en försöksuppställning genomförts. Försöksuppställningen modellerade en lågspänningskund ansluten till ett svagt nät, med enfasigt ansluten produktion och last. Mätresultatet från försöksuppställningen jämfördes med resultat från beräkningsmodellen. I jämförelse mellan den framtagna beräkningsmodellen och MIKRO-handboken konstateras att de stämmer överens. I jämförelse med mätresultat från fältstudien konstateras att beräkningsmodellen troligtvis räknar rätt men att mätningarna inte enbart kan användas för att verifiera modellen då det är en liten spänningsvariation och många troliga felkällor. Resultatet från försöksuppställningen konstateras överensstämma med beräknade värden och kan därför bekräfta att beräkningsmodellen är korrekt utformad. / Production in the low voltage distribution network increases, just in 2014 the number of grid-connected photovoltaic systems in Sweden doubled. The trend seems to continue, and since these plants often are small, it is likely that several are connected to a single-phase connected inverter. A symmetrical three-phase system consisting three phase voltages of equal magnitude, frequency and displaced 120˚ apart. Loads and production units that are not three-phase grid-connected, causes an asymmetrical operating condition. The purpose of this report is to study how the voltage is affected by asymmetrical loads and production units in Vattenfall’s low voltage network. The aim of this work is to create a calculation tool that can be used by Vattenfall Eldistribution to study how the voltage is affected at different asymmetrical operating conditions. The calculation tool is created in Matlab and is based on the known values of the voltage in the feed point and the impedance between the feed point and the connection point. Even power and power factor for possible production and consumption in each phase are set up. The calculation model calculates the voltages and currents at the connection point and the voltage asymmetry. Verification of the calculation model have been carried out by comparing the calculated results with "Curves for simplified assessment of grid strength” included in MIKRO-handboken, published by Svensk Energi. A field study has been performed on a single-phase grid-connected photovoltaic plant. The measurement result of this has been compared with the results of the calculation model. Also, laboratory measurements on an experimental set-up was performed. The experimental set-up corresponded a low voltage customer connected to a weak grid, with single-phase connected production and load. Measurement results of the experimental setup were compared with the results of the calculation model. Comparison between the developed calculation model and MIKRO-handboken concludes that they match. By comparison with measurements from the field study, it is concluded that the calculation model is probably correctly calculating, but that measurements alone can’t be used to verify the model because the voltage variation is too small and there are many likely sources of error. The results of the experimental set-up match with the calculated values and can therefore confirm that the calculation model is correctly designed.
4

Anomaly Detection in Categorical Data with Interpretable Machine Learning : A random forest approach to classify imbalanced data

Yan, Ping January 2019 (has links)
Metadata refers to "data about data", which contains information needed to understand theprocess of data collection. In this thesis, we investigate if metadata features can be usedto detect broken data and how a tree-based interpretable machine learning algorithm canbe used for an effective classification. The goal of this thesis is two-fold. Firstly, we applya classification schema using metadata features for detecting broken data. Secondly, wegenerate the feature importance rate to understand the model’s logic and reveal the keyfactors that lead to broken data. The given task from the Swedish automotive company Veoneer is a typical problem oflearning from extremely imbalanced data set, with 97 percent of data belongs healthy dataand only 3 percent of data belongs to broken data. Furthermore, the whole data set containsonly categorical variables in nominal scales, which brings challenges to the learningalgorithm. The notion of handling imbalanced problem for continuous data is relativelywell-studied, but for categorical data, the solution is not straightforward. In this thesis, we propose a combination of tree-based supervised learning and hyperparametertuning to identify the broken data from a large data set. Our methods arecomposed of three phases: data cleaning, which is eliminating ambiguous and redundantinstances, followed by the supervised learning algorithm with random forest, lastly, weapplied a random search for hyper-parameter optimization on random forest model. Our results show empirically that tree-based ensemble method together with a randomsearch for hyper-parameter optimization have made improvement to random forest performancein terms of the area under the ROC. The model outperformed an acceptableclassification result and showed that metadata features are capable of detecting brokendata and providing an interpretable result by identifying the key features for classificationmodel.
5

Instance Segmentation of Multiclass Litter and Imbalanced Dataset Handling : A Deep Learning Model Comparison / Instanssegmentering av kategoriserat skräp samt hantering av obalanserat dataset

Sievert, Rolf January 2021 (has links)
Instance segmentation has a great potential for improving the current state of littering by autonomously detecting and segmenting different categories of litter. With this information, litter could, for example, be geotagged to aid litter pickers or to give precise locational information to unmanned vehicles for autonomous litter collection. Land-based litter instance segmentation is a relatively unexplored field, and this study aims to give a comparison of the instance segmentation models Mask R-CNN and DetectoRS using the multiclass litter dataset called Trash Annotations in Context (TACO) in conjunction with the Common Objects in Context precision and recall scores. TACO is an imbalanced dataset, and therefore imbalanced data-handling is addressed, exercising a second-order relation iterative stratified split, and additionally oversampling when training Mask R-CNN. Mask R-CNN without oversampling resulted in a segmentation of 0.127 mAP, and with oversampling 0.163 mAP. DetectoRS achieved 0.167 segmentation mAP, and improves the segmentation mAP of small objects most noticeably, with a factor of at least 2, which is important within the litter domain since small objects such as cigarettes are overrepresented. In contrast, oversampling with Mask R-CNN does not seem to improve the general precision of small and medium objects, but only improves the detection of large objects. It is concluded that DetectoRS improves results compared to Mask R-CNN, as well does oversampling. However, using a dataset that cannot have an all-class representation for train, validation, and test splits, together with an iterative stratification that does not guarantee all-class representations, makes it hard for future works to do exact comparisons to this study. Results are therefore approximate considering using all categories since 12 categories are missing from the test set, where 4 of those were impossible to split into train, validation, and test set. Further image collection and annotation to mitigate the imbalance would most noticeably improve results since results depend on class-averaged values. Doing oversampling with DetectoRS would also help improve results. There is also the option to combine the two datasets TACO and MJU-Waste to enforce training of more categories.

Page generated in 0.069 seconds