• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 7
  • Tagged with
  • 17
  • 13
  • 8
  • 8
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Hybridmodeller för prediktiv modellering skapade med genetisk programmering. / Hybrid models for predictive modeling created with genetic programming.

Johansson, Fredrik, Lindgren, Markus January 2013 (has links)
Det finns idag ett stort behov av att kunna klassificera stora mängder data på ett effektivt sätt. Prediktiv modellering är ett område inom data mining där prediktioner kan utföras baserat på tidigare erfarenheter. Dessa prediktioner presenteras sedan i en modell. Avvägningen mellan tolkningsbarhet och träffsäkerhet är ett begrepp som beskriver hur träffsäkra modeller ofta är ogenomskinliga, medan genomskinliga modeller ofta har lägre träffsäkerhet. Detta är ett problem eftersom det finns ett behov av modeller som är både träffsäkra och tolkningsbara.I denna studie visas hur man kan gå till väga för att skapa en modell som har en träffsäkerhet i klass med en ogenomskinlig modell, men samtidigt har en högre tolkningsbarhet. Två algoritmer presenteras för att ta fram en hybridmodell som bygger på beslutsträd där en implementering av Random Forest hanteras som alternativa lövnoder. Kontrollerade experiment och statistiska tester genomfördes för att mäta hybridmodellens träffsäkerhet mot träffsäkerheten hos J48 och Random Forest. Träffsäkerheten mättes även mot beslutsträd som genererats av den genetiska programmeringen som finns implementerad i ramverket G-REX.Resultatet visar att hybridmodellen kan uppnå en träffsäkerhet som är jämförbar med Random Forest men samtidigt hanterar de vanliga prediktionslöven i genomsnitt 39,21% av instanserna. Alltså är den hybridmodell som presenteras i studien mer tolkningsbar än Random Forest utan att ha någon signifikant skillnad i träffsäkerhet. / Program: Systemarkitekturutbildningen
2

Klassificering av vinkvalitet / A classification of wine quality

Brouwers, Jack, Thellman, Björn January 2017 (has links)
The data used in this paper is an open source data, that was collected in Portugal over a three year period between 2004 and 2007. It consists of the physiochemical parameters, and the quality grade of the wines. This study focuses on assessing which variables that primarily affect the quality of a wine and how the effects of the variables interact with each other, and also compare which of the different classification methods work the best and have the highest degree of accuracy. The data is divided into red and white wine where the response variable is ordered and consists of the grades of quality for the different wines. Due to the distribution in the response variable having too few observations in some of the quality grades, a new response variable was created where several grades were pooled together so that each different grade category would have a good amount of observations. The statistical methods used are Bayesian ordered logistic regression as well as two data mining techniques which are neural networks and decision trees. The result obtained showed that for the two types of wine it is primarily the alcohol content and the amount of volatile acid that are recurring parameters which have a great influence on predicting the quality of the wines. The results also showed that among the three different methods, decision trees were the best at classifying the white wines and the neural network were the best for the red wines.
3

Klassificering av köp på betalda sökannonser / Classification of purchases in paid search advertising

Åkesson, Lisa, Henningsson, Denise January 2016 (has links)
Datakonsultföretaget Knowit AB har en kund som annonserar på Google AdWords. Denna uppsats fokuserar huvudsakligen på att hitta de olika inställningarna i AdWords som genererar köp av kundens produkt. Om en inställning ofta genererar klick men sällan köp av produkten är den inställningen inte lönsam.Responsvariabeln i denna uppsats är binär och indikerar på om ett klick på annonsen lett till köp av produkten eller inte. Eftersom responsvariabelns fördelning var skev har samplingstekniken SMOTE använts för att skapa fler observationer i minoritetsklassen. De statistiska metoder som använts och presenterats i uppsatsen är logistisk regression, neurala nätverk och beslutsträd.Resultatet gav att de fyra undersökta inställningarna påverkar sannolikheten för köp. Den första inställningen resulterade i att om dator används vid sökning på Google är sannolikheten att ett klick leder till köp betydligt högre än för mobil och surfplatta. Den andra inställningen resulterar i att en ”exakt matchning” för sökordet ger högst sannolikhet till köp och ”bred matchning” ger lägst sannolikhet. Den tredje inställningen visar att vilken veckodag annonsen klickas på påverkar sannolikheten för köp. På söndag är sannolikheten högst att ett klick leder till köp, och de två dagar som har lägst sannolikhet är lördag och tisdag. Slutligen har det undersökts om annonsens genomsnittsposition påverkar sannolikheten att produkten köps. Resultatet som gavs är att ju högre värde på genomsnittsposition, desto högre blir sannolikheten för köp. / The data consultancy company Knowit AB has a client who advertises on Google AdWords. This thesis focuses mainly on finding which settings in AdWords generate purchases of the client’s product. If a setting frequently contributes to clicks but rarely to purchases of the product, the setting is not profitable.The target variable in this thesis is binary and indicates whether a click on the advertisement led to purchase of the product or not. Since the target variable’s distribution was skewed, the sampling technique SMOTE was used to create more observations in the minority class. The classification methods researched and presented in this thesis are logistic regression, neural networks and decision trees.The results showed that all four factor had significant affect on the probability of purchase. First, if a desktop or laptop computer was used to search on Google, the likelihood that a click leads to purchase is substantially higher compared to if a mobile or tablet was used. Second, an “exact match” setting for the keywords gives the highest probability of purchase and a “broad match” gives the lowest probability. Third, purchase rates are also affected by the day of the week. Sunday has the highest probability of purchase while Saturday and Tuesday have the lowest probability. Finally, an advertisement´s average position affects the likelihood of the product being purchased. The higher value of average position, the higher the likelihood of purchase.
4

Minska risk för vindskador i granbestånd – hur fungerar ett verktyg för riskanalys i praktiken / Reducing the risk of wind damage in spruce forest stands – evaluating a practical tool

Wimarson, Anders January 2021 (has links)
Starka vindar orsakar stora skador för det svenska skogsbruket och samhället. Därför är det viktigt att kunna hitta de bestånd som har hög sannolikhet att drabbas av dessa skador. För att lyckas med detta krävs ett enkelt verktyg där bestånden kan bedömas med denutrustning och den kunskap som finns ute på de svenska skogsgårdarna.Den här studien utvärderar och testar ett verktyg som är framtagen av Olofsson & Blennow (2005). Resultatet visar att verktyget fungerar och att det är användarvänligt. Av 90 undersökta bedömningarresulterade 23 % i hög sannolikhet för stormskador på den undersökta gården i norra Halland. Studien visar också på vikten av att använda aktuella data och arbeta med hög noggrannhet i framtagandet avbeståndsdata. De viktigaste parametrarna för att bedömasannolikheten var beståndskantshöjd och HD-kvot.
5

Analys av nutidens tågindelning : Ett uppdrag framtaget av Trafikverket / Analysis of today's train division

Grek, Viktoria, Gabrielsson, Molinia January 2018 (has links)
The information used in this paper comes from Trafikverket's delivery monitoring system. It consists of information about planned train missions on the Swedish railways for the years 2014 to 2017 during week four (except planned train missions on Roslagsbanan and Saltsjöbanan). Trafikanalys with help from Trafikverket presents public statistics for short-distance trains, middle-distance trains and long-distance trains on Trafikanalys website. The three classes of trains have no scientific basis. The purpose of this study is therefore to analyze if today's classes of trains can be used and which variables that have importance for the classification. The purpose of this study is also to analyze if there is a better way to categorize the classes of trains when Trafikanalys publishes public statistics. The statistical methods that are used in this study are decision tree, neural network and hierarchical clustering. The result obtained from the decision tree was a 92.51 percent accuracy for the classification of Train type. The most important variables for Train type were Train length, Planned train kilometers and Planned km/h.Neural networks were used to investigate whether this method could also provide a similar result as the decision tree too strengthening the reliability. Neural networks got an 88 percent accuracy when classifying Train type. Based on these two results, it indicates that the larger proportion of train assignments could be classified to the correct Train Type. This means that the current classification of Train type works when Trafikanalys presents official statistics. For the new train classification, three groups were analyzed when hierarchical clustering was used. These three groups were not the same as the group's short-distance trains, middle-distance trains and long-distance trains. Because the new divisions have blended the various passenger trains, this result does not help to find a better subdivision that can be used for when Trafikanalys presents official statistics. / Datamaterialet som används i uppsatsen kommer ifrån Trafikverkets leveransuppföljningssystem. I datamaterialet finns information om planerade tåguppdrag för de svenska järnvägarna för år 2014 till 2017 under vecka fyra (bortsett från planerade tåguppdrag för Roslagsbanan och Saltsjöbanan). Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistanståg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågkategorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik. De statistiska metoder studien utgått ifrån är beslutsträd, neurala nätverk och hierarkisk klustring. Resultatet som erhölls från beslutsträdet var en ackuratess på 92.51 procent för klassificeringen av Tågsort. De variabler som hade störst betydelse för Tågsort var Tåglängd, Planerade tågkilometrar och Planerad km/h. Neurala nätverk användes för att undersöka om även denna metod kunde ge ett liknande resultat som beslutsträdet och därmed stärka tillförlitligheten. Neurala nätverket fick en ackuratess på 88 procent vid klassificeringen av Tågsort. Utifrån dessa två resultat tyder det på att den större andelen tåguppdrag kunde klassificeras till rätt Tågsort. Det innebär att nuvarande klassificering av Tågsort fungerar när Trafikanalys presenterar officiell statistik. För den nya tågklassificeringen analyserades tre grupper när hierarkisk klustring användes. Dessa tre grupper liknande inte dagens indelning för kortdistanståg, medeldistanståg och långdistanståg. Eftersom att de nya indelningarna blandade de olika persontågen går det inte med detta resultat att hitta en bättre indelning som kan användas när Trafikanalys presenterar officiell statistik.
6

Analys av prestations- och prediktionsvariabler inom fotboll

Ulriksson, Marcus, Armaki, Shahin January 2017 (has links)
Uppsatsen ämnar att försöka förklara hur olika variabler angående matchbilden i en fotbollsmatch påverkar slutresultatet. Dessa variabler är uppdelade i prestationsvariabler och kvalitétsvariabler. Prestationsvariablerna är baserade på prestationsindikatorer inspirerat av Hughes och Bartlett (2002). Kvalitétsvariablerna förklarar hur bra de olika lagen är. Som verktyg för att uppnå syftet används olika klassificeringsmodeller utifrån både prestationsvariablerna och kvalitétsvariablerna. Först undersöktes vilka prestationsindikatorer som var viktigast. Den bästa modellen klassificerade cirka 60 % rätt och rensningar och skott på mål var de viktigaste prestationsvariablerna. Sedan undersöktes vilka prediktionsvariabler som var bäst. Den bästa modellen klassificerade rätt slutresultat cirka 88 % av matcherna. Utifrån vad författarna ansågs vara de viktigaste prediktionsvariablerna skapades en prediktionsmodell med färre variabler. Denna lyckades klassificera rätt cirka 86 % av matcherna. Prediktionsmodellen var konstruerad med spelarbetyg, odds på oavgjort och domare.
7

Detection and Classification of Anomalies in Road Traffic using Spark Streaming

Consuegra Rengifo, Nathan Adolfo January 2018 (has links)
Road traffic control has been around for a long time to guarantee the safety of vehicles and pedestrians. However, anomalies such as accidents or natural disasters cannot be avoided. Therefore, it is important to be prepared as soon as possible to prevent a higher number of human losses. Nevertheless, there is no system accurate enough that detects and classifies anomalies from the road traffic in real time. To solve this issue, the following study proposes the training of a machine learning model for detection and classification of anomalies on the highways of Stockholm. Due to the lack of a labeled dataset, the first phase of the work is to detect the different kind of outliers that can be found and manually label them based on the results of a data exploration study. Datasets containing information regarding accidents and weather are also included to further expand the amount of anomalies. All experiments use real world datasets coming from either the sensors located on the highways of Stockholm or from official accident and weather reports. Then, three models (Decision Trees, Random Forest and Logistic Regression) are trained to detect and classify the outliers. The design of an Apache Spark streaming application that uses the model with the best results is also provided. The outcomes indicate that Logistic Regression is better than the rest but still suffers from the imbalanced nature of the dataset. In the future, this project can be used to not only contribute to future research on similar topics but also to monitor the highways of Stockholm. / Vägtrafikkontroll har funnits länge för att garantera säkerheten hos fordon och fotgängare. Emellertid kan avvikelser som olyckor eller naturkatastrofer inte undvikas. Därför är det viktigt att förberedas så snart som möjligt för att förhindra ett större antal mänskliga förluster. Ändå finns det inget system som är noggrannt som upptäcker och klassificerar avvikelser från vägtrafiken i realtid. För att lösa detta problem föreslår följande studie utbildningen av en maskininlärningsmodell för detektering och klassificering av anomalier på Stockholms vägar. På grund av bristen på en märkt dataset är den första fasen av arbetet att upptäcka olika slags avvikare som kan hittas och manuellt märka dem utifrån resultaten av en datautforskningsstudie. Dataset som innehåller information om olyckor och väder ingår också för att ytterligare öka antalet anomalier. Alla experiment använder realtidsdataset från antingen sensorerna på Stockholms vägar eller från officiella olyckor och väderrapporter. Därefter utbildas tre modeller (beslutsträd, slumpmässig skog och logistisk regression) för att upptäcka och klassificera outliersna. Utformningen av en Apache Spark streaming-applikation som använder modellen med de bästa resultaten ges också. Resultaten tyder på att logistisk regression är bättre än resten men fortfarande lider av datasetets obalanserade natur. I framtiden kan detta projekt användas för att inte bara bidra till framtida forskning kring liknande ämnen utan även att övervaka Stockholms vägar.
8

User authentication through behavioral biometrics using multi-class classification algorithms : A comprehensive study of machine learning algorithms for keystroke and mouse dynamics / Användarautentisering med beteendemässig biometri och användning av multi-class klassificeringsalgoritmer : En djupgående studie av maskininlärningsalgoritmer för tangentbords- och musdynamik

Lantz, Emil January 2023 (has links)
User authentication is vital in a secure system. Authentication is achieved through something a genuine user knows, has, or is. The latter is called biometrics, commonly attributed with fingerprint and face modalities. It is also possible to identify a user based on their behavior, called behavioral biometrics. In this study, keyboard and mouse behavior were considered. Previous research indicate promise for this authentication method. The research however is scarce, old and often not comprehensive. This study focus on two available data sets, the CMU keystroke dynamics dataset and the ReMouse data set. The data was used together with a comprehensive set of multi-class supervised classification machine learning algorithms from the scikit-learn library for Python. By performing hyperparameter optimization, two optimal algorithms with modified hyperparameters were found that improved results compared with previous research. For keystroke dynamics a classifier based on a neural network, multi-layer perceptron, achieved an Equal Error Rate (EER) of 1.26%. For mouse dynamics, a decision tree classifier achieved an EER of 0.43%. The findings indicate that the produced biometric classifiers can be used in an authentication model and importantly to strengthen existing authentication models such as password based login as a safe alternative to traditional Multi-Factor Authentication (MFA). / Användarautentisering är vitalt i ett säkert system. Autentisering genomförs med hjälp av något en genuin användare vet, har eller är. Det senare kallas biometri, ofta ihopkopplat med fingeravtryck och ansiktigenkänning. Det är även möjligt att identifiera en användare baserat på deras beteende, så kallad beteendemässig biometri. I denna studie används tangentbords- och musanvändning. Tidigare forskning tyder på att denna autentiseringsmetod är lovande. Forskningen är dock knapp, äldre och svårbegriplig. Denna studie använder två publika dataset, CMU keystroke dynamics dataset och ReMouse data set. Datan används tillsammans med en utförlig mängd maskininlärningsalgoritmer från scitkit-learn biblioteket för programmeringsspråket Python. Genom att optimera algoritmernas hyper parametrar kunde två stycken optimala klassificerare tas fram som åstadkom förbättrade resultat mot tidigare forskning. För tangentbordsbeteende producerades en klassificerare baserat på neurala nätverk, så kallad multi-layer perceptron som åstadkom en EER på 1.26%. För musrörelser kunde en modell baserat på beslutsträd åstadkomma en EER på 0.43%. Resultatet av dessa upptäckter är att liknande klassificerare kan användas i en autentiseringsmodell men också för att förbättra säkerheten hos etablerade inloggningssätt som exempelvis lösenord och därmed utgöra ett säkert alternativ till traditionell MFA.
9

Predicting user churn using temporal information : Early detection of churning users with machine learning using log-level data from a MedTech application / Förutsägning av användaravhopp med tidsinformation : Tidig identifiering av avhoppande användare med maskininlärning utifrån systemloggar från en medicinteknisk produkt

Marcus, Love January 2023 (has links)
User retention is a critical aspect of any business or service. Churn is the continuous loss of active users. A low churn rate enables companies to focus more resources on providing better services in contrast to recruiting new users. Current published research on predicting user churn disregards time of day and time variability of events and actions by feature selection or data preprocessing. This thesis empirically investigates the practical benefits of including accurate temporal information for binary prediction of user churn by training a set of Machine Learning (ML) classifiers on differently prepared data. One data preparation approach was based on temporally sorted logs (log-level data set), and the other on stacked aggregations (aggregated data set) with additional engineered temporal features. The additional temporal features included information about relative time, time of day, and temporal variability. The inclusion of the temporal information was evaluated by training and evaluating the classifiers with the different features on a real-world dataset from a MedTech application. Artificial Neural Networks (ANNs), Random Forrests (RFs), Decision Trees (DTs) and naïve approaches were applied and benchmarked. The classifiers were compared with among others the Area Under the Receiver Operating Characteristics Curve (AUC), Positive Predictive Value (PPV) and True Positive Rate (TPR) (a.k.a. precision and recall). The PPV scores the classifiers by their accuracy among the positively labeled class, the TPR measures the recognized proportion of the positive class, and the AUC is a metric of general performance. The results demonstrate a statistically significant value of including time variation features overall and particularly that the classifiers performed better on the log-level data set. An ANN trained on temporally sorted logs performs best followed by a RF on the same data set. / Bevarande av användare är en kritisk aspekt för alla företag eller tjänsteleverantörer. Ett lågt användarbortfall gör det möjligt för företag att fokusera mer resurser på att tillhandahålla bättre tjänster istället för att rekrytera nya användare. Tidigare publicerad forskning om att förutsäga användarbortfall bortser från tid på dygnet och tidsvariationer för loggad användaraktivitet genom val av förbehandlingsmetoder eller variabelselektion. Den här avhandlingen undersöker empiriskt de praktiska fördelarna med att inkludera information om tidsvariabler innefattande tid på dygnet och tidsvariation för binär förutsägelse av användarbortfall genom att träna klassificerare på data förbehandlat på olika sätt. Två förbehandlingsmetoder används, en baserad på tidssorterade loggar (loggnivå) och den andra på packade aggregeringar (aggregerat) utökad med framtagna tidsvariabler. Inklusionen av tidsvariablerna utvärderades genom att träna och utvärdera en uppsättning MLklassificerare med de olika tidsvariablerna på en verklig datamängd från en digital medicinskteknisk produkt. ANNs, RFs, DTs och naiva tillvägagångssätt tillämpades och jämfördes på den aggregerade datamängden med och utan tidsvariationsvariablerna och på datamängden på loggnivå. Klassificerarna jämfördes med bland annat AUC, PPV och TPR. PPV betygsätter algoritmerna efter träffsäkerhet bland den positivt märkta klassen och TPR utvärderar hur stor del av den positiva klassen som identifierats medan AUC är ett mått av klassificerarnas allmänna prestanda. Resultaten visar ett betydande värde av att inkludera tidsvariationsvariablerna överlag och i synnerhet att klassificerarna presterade bättre på datauppsättningen på loggnivå. Ett ANN tränad på tidssorterade loggar presterar bäst följt av en RF på samma datamängd.
10

Läkemedelsförsörjning i Sveriges landsting : En modell för sourcingbeslut

Nilsson, Felix, Roth, Alexander January 2016 (has links)
Problembakgrund: Mellan år 1970-2009 utgjordes apoteksmarknaden i Sverige av ett statligt monopol, där Apoteket AB hanterade läkemedelsförsörjning för samtliga landsting i Sverige. År 2009 privatiserades däremot apoteksmarknaden, och landstingen fick nu välja om det skulle hantera läkemedelsförsörjningen i egen regi eller fortsätta upphandla tjänsten till en extern aktör. Åren efter avregleringen har landstingen valt att gå olika vägar, där några valt att fortsätta outsourca denna tjänst och andra har tagit hem tjänsten och hanterar den i egen regi. Med kostnadsbesparingar och vårdkvalitet i fokus för landstingen, är det därför intressant att undersöka varför de hanterar tjänsten olika. Syfte: Syftet med studien är att först kartlägga hur landstingen i Sverige hanterar läkemedelsförsörjningen och därefter undersöka och identifiera vilka kritiska faktorer som finns gällande valet av hanteringssätt. Vidare avser studien att analysera hur valet av hanteringsätt påverkas av dessa kritiska faktorer. Utifrån denna analys är det sedan möjligt att utarbeta en modell för sourcingbeslut gällande läkemedelsförsörjning i svensk hälso- och sjukvård. Metod: I studien genomfördes en surveyundersökning, där avsikten var att utföra strukturerade telefonintervjuer på samtliga landsting i Sverige. Studien utgick ifrån en kvantitativ forskningsstrategi med inslag av kvalitativa delar. Detta för att kartlägga landstingens hanteringssätt av läkemedelsförsörjning, samt undersöka drivkrafter och kritiska faktorer vid valet av hanteringssätt. Slutsats: En beslutsmodell i form av ett beslutsträd utformades för sourcingbeslut gällande läkemedelsförsörjningen för svenska landsting. Beslutsmodellen utgick ifrån tre huvudområden som var kritiska vid valet av hanteringssätt gällande läkemedelsförsörjning – fokus på kärnverksamhet, kostnadsbesparingar och vårdkvalitet. Dessa utgjorde grunden i beslutsmodellen, och var avgörande vid beslutsfattandet gällande hanteringssättet. / Background: During the years of 1970-2009 the pharmacy market In Sweden was run by the government, where Apoteket AB managed drug supply for all counties in Sweden. In 2009, however, the pharmacy market was privatized and the county councils, which are responsible for the Swedish health care, now had to choose whether it would manage the drug supply in-house, or continue to procure the service from an external player. The years after deregulation county councils decided to go different ways with this, where some chose to continue to outsourcing this service and other decided to manage it in-house. With cost savings and quality of care as the main focus of the county councils, it is interesting to examine why they handle this service differently. Purpose: The purpose of the study is to first identify how the county councils in Sweden handle their drug supply, and then examine and identify the critical factors by outsourcing this service or by managing it in-house. Furthermore, the study will analyze how the choice of managing this service in-house or outsource it is affected by these critical factors. Based on this analysis, it is then possible to develop a model for sourcing decisions regarding drug supply in the Swedish health care. Method: The study was conducted using a survey study, where structured telephone interviews were used as a data collection method on the county councils in Sweden. The study was based on a quantitative research strategy, with some qualitative elements. This was considered necessary to map out how the county councils managed their drug supplying, and to examine the driving forces and critical factors in choosing between outsourcing or in-house. Conclusion: A decision model in the form of a decision tree was designed for sourcing decisions regarding drug supply for the Swedish county councils. The decision model was based on three main areas that were established as critical in the selection of management methods regarding the drug supplying – focus on core activities, cost savings and quality of care. These areas formed the basis of the decision model, and were established instrumental in sourcing decisions regarding drug supplying in Swedish health care.

Page generated in 0.4181 seconds