Global ETD Search

1	Prediktiv modellering av fotbollsspelares utveckling baserat på semifiktiv data / Finding promising young footballers from mining of semi-fictitious data Niklasson, Karl, Skog, Joakim January 2014 (has links) Det finns ett behov att hitta och rekrytera skickliga spelare till sin fotbollsklubb på ett kostnadseffektivt sätt. Den nuvarande processen med talangscouter är tidsödande och kostsam. Automatiserad dataanalys kan underlätta sökandet efter de önskade spelarna. Då automatiserad dataanalys med semifiktiv data inte undersökts i någon större utsträckning tidigare hade det varit intressant att ta reda på hur väl vanliga tekniker inom data mining fungerar när de appliceras på semifiktiv data.Ändamålet med studien var att med hjälp av kvantitativa experiment skapa prediktiva modeller som förutspår om en fotbollsspelare kommer att öka sina marknadsandelar i framtiden. Studien hade även för avsikt att ta reda på om det, med hjälp av semifiktiv data, gick att skapa tolkningsbara modeller som gav generella insikter om viktiga attribut hos fotbollsspelare på olika positioner.Studiens forskningsmetod var kvantitativ forskning då det är en metod som värdesätter struktur och objektivitet; vilket var viktigt för studien och dess forskningsfrågor. Den forskningsstrategi som användes under studien var experiment, vilken passade bra till den kvantitativa datainsamlingen och dataanalysen.I studien utfördes tre experiment. Det första experimentet gick ut på att, med så hög prestanda som möjligt, skapa klassificeringsmodeller som förutspår om en spelare kommer ha en positiv utveckling. Det andra experimentet gick ut på att ta reda på om det gick att skapa tolkningsbara klassificeringsmodeller för att dra generella slutsatser kring fotbollsspelares egenskaper. Det tredje experimentet gick ut på att ta reda på vilka fotbollsspelare som kommer få en positiv utveckling i framtiden.Resultaten från det första experimentet visar att modellerna har en bra prestanda vilket betyder att det går att skapa klassificeringsmodeller som kan förutspå om en spelare kommer ha en positiv utveckling i framtiden. Resultaten från det andra experimentet visar dock att det inte går att skapa tolkningsbara modeller som ger generella insikter om viktiga attribut på specifika positioner. Detta på grund av modellernas låga prestanda vilket gjorde att tilliten till träden sänktes rejält. Det tredje experimentet gav en del intressanta resultat som kan tidigast verifieras i slutet av år 2014.Då studiens resultat är positiva och originella blir påföljden att fotbollsklubbar bör få upp ögonen för mer kvantitativa angreppssätt, exempelvis dataanalys, när det kommer till värvningar av spelare. Även forskare kan ha nytta av studien då den ger en grund vilken kan utökas i framtida studier. / Program: Systemarkitekturutbildningen data mining klassificering fotboll football manager maskininlärning semifiktiv data prediktiv modellering Engineering and Technology Teknik och teknologier
2	Kan en bättre prediktion uppnås genom en kategorispecifik modell? : Teknologiprojekt på Kickstarter och maskininlärning Appelquist, Niklas, Karlsson, Emelia January 2020 (has links) Crowdfunding används för att samla in pengar för tänkta projekt via internet, där ett stort antal investerare bidrar med små summor. Kickstarter är en av de största crowdfundingplattformarna idag. Trots det stora intresset för crowdfunding misslyckas många kampanjer att nå sin målsumma och projekt av kategorin teknologi visar sig vara de projekt som misslyckas till högst grad. Därmed är det av intresse att kunna förutsäga vilka kampanjer som kommer att lyckas eller misslyckas. Denna forskningsansats syftar till att undersöka genomförbarheten i att uppnå en högre accuracy vid prediktion av framgången hos lanserade kickstarterprojekt med hjälp av maskininlärning genom att använda en mindre mängd kategorispecifik data. Data över 192 548 lanserade projekt på plattformen Kickstarter har samlats in via www.kaggle.com. Två modeller av typen RandomForest har sedan tränats där en modell tränades med data över samtliga projekt i uppsättningen och en tränades med data över teknologiprojekt med syftet att kunna jämföra modellernas prestation vid klassificering av teknologiprojekt. Resultatet visar att en högre accuracy uppmättes för teknologimodellen som nådde 68,37% träffsäkerhet vid klassificeringen gentemot referensmodellens uppvisade accuracy på 68,00%. / Crowdfunding is used to collect money via internet for potential projects through a large number of backers which contribute with small pledges. Kickstarter is one of the largest crowdfunding platforms today. Despite the big interest in crowdfunding a lot of launched campaigns fail to reach their goal and projects of the category technology shows the largest rate of failure on Kickstarter. Therefore, it is important to be able to predict which campaigns are likely to succeed or fail. This thesis aims to explore the possibility of reaching a higher accuracy when predicting the success of launched projects with machine learning with a smaller amount of category-specific data. The data consists om 192 548 launched projects on Kickstarter and has been collected through Kaggle.com. Two models of the type Random Forest has been developed where one model has been trained with general data over all projects and one model has been trained with category specific data over technology projects. The results show that the technology model show a higher accuracy rate with 68,37 % compared to the reference model with 68,00 %. Crowdfunding Kickstarter maskininlärning prediktiv modellering Random Forest Information Systems, Social aspects
3	Miljö och landskap : En undersökning av landskap och miljö i relation till placeringen avboplatser i Ystadområdet / Environment and landscape : an examination of landscape and environment in relation to the placement of settlements in the Ystad area Larshagen, Rasmus January 2023 (has links) Denna studie undersöker relationen mellan landskap, miljö och placeringen av boplatser från neolitikum och bronsålder i Ystadområdet. Uppsatsen åstadkommer detta genom maximal entropi modellering av boplatsernas placering i relation till flera variabler i landskapet och miljön. Uppsatsens teoretiska ramverk utgår från en antagen koppling mellan variabler i miljön och placeringen av boplatser. Resultatet av modelleringen översätts till tabeller som visar vilka variabler i miljön och landskapet som är viktiga i relation till placeringen av boplatser under dessa perioder, och till kartor som visar vilka delar av Ystadområdet som har rätt kombination av dessa variabler. Dessa används sedan för att besvara frågeställningarna. Resultaten av studien visar en stark koppling mellan kvartärsjordarten kärrtorv och närvaron av boplatser. Variablerna som föredrogs vid placeringen av boplatser visar också en viss variation mellan tidsperioderna. Utöver detta bedömdes modellen av historisk miljö från Ystadprojektet vara användbar. / This study examines the relationship between landscape, environment, and the placement of settlements during the neolithic and bronze age periods in the Ystad area. The study accomplishes this through maximal entropy modeling of the placement of settlements in relation to several variables in the landscape and environment. The theoretic framework of this study centers around a presumed connection between variables in the environment and the location of settlements. The results are translated into tables that show which of these variables were important in relation to the placement of settlements during the above-mentioned periods. The results are also translated into maps that show which areas of Ystad have the right combination of variables that were determined to be important by the model. These tables and maps are then used to produce an answer to the main questions of this paper. The results of this study show a strong connection between the quaternary soil type bog peat, and the presence of settlements. The preferred conditions also show some variation between time periods. Furthermore, the model of historic environment from the Ystad project was deemed to be useful. Predictive modeling Maxent Ystad area Settlement patterns Neolithic Bronze age Prediktiv modellering Maxent Ystadområdet Bosättnings mönster Neolitikum Bronsålder Archaeology Arkeologi
4	Machine Learning Tools for Shared Vehicle Air Quality and Comfort / Maskininlärningsverktyg för luftkvalitet och komfort i delade fordon Franc, Daniel January 2024 (has links) Increasing comfort and improving air quality in shared vehicles is essential in protecting human health and making public transport more attractive. This thesis focused on exploring how passenger comfort, which is closely linked to air quality, is affected by the internal and external conditions of a small, autonomous bus prototype, the ELIN bus. Available data from the ELIN bus database were analyzed, and indicators for the interior temperature prediction model were selected. Various machine learning models were created and evaluated. The Random Forest model proved to be the most versatile. A comfort calculation framework was created to estimate and predict the level of comfort inside the ELIN bus, taking into account factors like temperature and occupancy to calculate a comfort score using devised formulas. The comfort score was estimated for the current station of the bus and predicted for the next stations, using the temperature predictions from the Random Forest model and findings from data analysis. The results indicated quite decent comfort levels inside the ELIN bus and provided an expandable framework for future needs. / Att öka komforten och förbättra luftkvaliteten i delade fordon är avgörande för att skydda människors hälsa och göra kollektivtrafiken mer attraktiv. Denna avhandling fokuserade på att undersöka hur passagerarkomfort, som är nära kopplad till luftkvalitet, påverkas av de interna och externa förhållandena hos en liten, autonom bussprototyp, ELIN-bussen. Tillgängliga data från ELIN-bussens databas analyserades, och indikatorer för prediktionsmodellen för inomhustemperatur valdes ut. Olika maskininlärningsmodeller skapades och utvärderades. Random Forest-modellen visade sig vara den mest mångsidiga. Ett komfortberäkningsramverk skapades för att uppskatta och förutsäga komfortnivån inuti ELIN-bussen, med hänsyn till faktorer som temperatur och beläggning för att beräkna en komfortpoäng med hjälp av utformade formler. Komfortpoängen uppskattades för den aktuella stationen av bussen och förutspåddes för de kommande stationerna, med användning av temperaturprognoser från Random Forest-modellen och resultat från dataanalysen. Resultaten indikerade ganska goda komfortnivåer inuti ELIN-bussen och tillhandahöll ett expanderbart ramverk för framtida behov. Passagerarkomfort Luftkvalitet ELIN-buss Maskininlärning Prediktiv modellering Passenger comfort Air quality ELIN bus Machine learning Predictive modelling Transport Systems and Logistics Transportteknik och logistik
5	Employee Churn Prediction in Healthcare Industry using Supervised Machine Learning / Förutsägelse av Personalavgång inom Sjukvården med hjälp av Övervakad Maskininlärning Gentek, Anna January 2022 (has links) Given that employees are one of the most valuable assets of any organization, losing an employee has a detrimental impact on several aspects of business activities. Loss of competence, deteriorated productivity and increased hiring costs are just a small fraction of the consequences associated with high employee churn. To deal with this issue, organizations within many industries rely on machine learning and predictive analytics to model, predict and understand the cause of employee churn so that appropriate proactive retention strategies can be applied. However, up to this date, the problem of excessive churn prevalent in the healthcare industry has not been addressed. To fill this research gap, this study investigates the applicability of a machine learning-based employee churn prediction model for a Swedish healthcare organization. We start by extracting relevant features from real employee data followed by a comprehensive feature analysis using Recursive Feature Elimination (RFE) method. A wide range of prediction models including traditional classifiers, such as Random Forest, Support Vector Machine and Logistic Regression are then implemented. In addition, we explore the performance of ensemble machine learning model, XGBoost and neural networks, specifically Artificial Neural Network (ANN). The results of this study show superiority of an SVM model with a recall of 94.8% and a ROC-AUC accuracy of 91.1%. Additionally, to understand and identify the main churn contributors, model-agnostic interpretability methods are examined and applied on top of the predictions. The analysis has shown that wellness contribution, employment rate and number of vacations days as well as number of sick day are strong indicators of churn among healthcare employees. / Det sägs ofta att anställda är en verksamhets mest värdefulla tillgång. Att förlora en anställd har därmed ofta skadlig inverkan på flera aspekter av affärsverksamheter. Därtill hör bland annat kompetensförlust, försämrad produktivitet samt ökade anställningskostnader. Dessa täcker endast en bråkdel av konsekvenserna förknippade med en för hög personalomsättningshastighet. För att hantera och förstå hög personalomsättning har många verksamheter och organisationer börjat använda sig av maskininlärning och statistisk analys där de bland annat analyserar beteendedata i syfte att förutsäga personalomsättning samt för att proaktivt skapa en bättre arbetsmiljö där anställda väljer att stanna kvar. Trots att sjukvården är en bransch som präglas av hög personalomsättning finns det i dagsläget inga studier som adresserar detta uppenbara problem med utgångspunkt i maskininlärning. Denna studien undersöker tillämpbarheten av maskininlärningsmodeller för att modellera och förutsäga personalomsättning i en svensk sjukvårdsorganisation. Med utgångspunkt i relevanta variabler från faktisk data på anställda tillämpar vi Recursive Feature Elimination (RFE) som den primära analysmetoden. I nästa steg tillämpar vi flertalet prediktionsmodeller inklusive traditionella klassificerare såsom Random Forest, Support Vector Machine och Logistic Regression. Denna studien utvärderar också hur pass relevanta Neural Networks eller mer specifikt Artificial Neural Networks (ANN) är i syfte att förutse personalomsättning. Slutligen utvärderar vi precisionen av en sammansatt maskininlärningsmodell, Extreme Gradient Boost. Studiens resultat påvisar att SVM är en överlägsen model med 94.8% noggranhet. Resultaten från studien möjliggör även identifiering av variabler som mest bidrar till personalomsättning. Vår analys påvisar att variablerna relaterade till avhopp är friskvårdbidrag, sysselsättningsgrad, antal semesterdagar samt sjuktid är starkt korrelerade med personalomsättning i sjukvården. Employee churn Churn Prediction Predictive modeling Machine learning Deep-Learning Data mining Binary Classification Personalomsättning Avhoppsanalys Prediktiv Modellering Maskininlärning Datautvinning Binär Klassificering Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
6	Machine Learning Based Prediction and Classification for Uplift Modeling / Maskininlärningsbaserad prediktion och klassificering för inkrementell responsanalys Börthas, Lovisa, Krange Sjölander, Jessica January 2020 (has links) The desire to model the true gain from targeting an individual in marketing purposes has lead to the common use of uplift modeling. Uplift modeling requires the existence of a treatment group as well as a control group and the objective hence becomes estimating the difference between the success probabilities in the two groups. Efficient methods for estimating the probabilities in uplift models are statistical machine learning methods. In this project the different uplift modeling approaches Subtraction of Two Models, Modeling Uplift Directly and the Class Variable Transformation are investigated. The statistical machine learning methods applied are Random Forests and Neural Networks along with the standard method Logistic Regression. The data is collected from a well established retail company and the purpose of the project is thus to investigate which uplift modeling approach and statistical machine learning method that yields in the best performance given the data used in this project. The variable selection step was shown to be a crucial component in the modeling processes as so was the amount of control data in each data set. For the uplift to be successful, the method of choice should be either the Modeling Uplift Directly using Random Forests, or the Class Variable Transformation using Logistic Regression. Neural network - based approaches are sensitive to uneven class distributions and is hence not able to obtain stable models given the data used in this project. Furthermore, the Subtraction of Two Models did not perform well due to the fact that each model tended to focus too much on modeling the class in both data sets separately instead of modeling the difference between the class probabilities. The conclusion is hence to use an approach that models the uplift directly, and also to use a great amount of control data in each data set. / Behovet av att kunna modellera den verkliga vinsten av riktad marknadsföring har lett till den idag vanligt förekommande metoden inkrementell responsanalys. För att kunna utföra denna typ av metod krävs förekomsten av en existerande testgrupp samt kontrollgrupp och målet är således att beräkna differensen mellan de positiva utfallen i de två grupperna. Sannolikheten för de positiva utfallen för de två grupperna kan effektivt estimeras med statistiska maskininlärningsmetoder. De inkrementella responsanalysmetoderna som undersöks i detta projekt är subtraktion av två modeller, att modellera den inkrementella responsen direkt samt en klassvariabeltransformation. De statistiska maskininlärningsmetoderna som tillämpas är random forests och neurala nätverk samt standardmetoden logistisk regression. Datan är samlad från ett väletablerat detaljhandelsföretag och målet är därmed att undersöka vilken inkrementell responsanalysmetod och maskininlärningsmetod som presterar bäst givet datan i detta projekt. De mest avgörande aspekterna för att få ett bra resultat visade sig vara variabelselektionen och mängden kontrolldata i varje dataset. För att få ett lyckat resultat bör valet av maskininlärningsmetod vara random forests vilken används för att modellera den inkrementella responsen direkt, eller logistisk regression tillsammans med en klassvariabeltransformation. Neurala nätverksmetoder är känsliga för ojämna klassfördelningar och klarar därmed inte av att erhålla stabila modeller med den givna datan. Vidare presterade subtraktion av två modeller dåligt på grund av att var modell tenderade att fokusera för mycket på att modellera klassen i båda dataseten separat, istället för att modellera differensen mellan dem. Slutsatsen är således att en metod som modellerar den inkrementella responsen direkt samt en relativt stor kontrollgrupp är att föredra för att få ett stabilt resultat. Uplift Modeling Data Pre-Processing Predictive Modeling Incremental Modeling Random Forests Logistic Regression Neural Networks Ensemble Methods Machine Learning Multi-Layer Perceptron Inkrementell responsanalys databehandling prediktiv modellering random forests logistisk regression neurala nätverk mulit-layer perceptron ensemble metoder maskininlärning Mathematics Matematik

1

Page generated in 0.4358 seconds