Global ETD Search

21	Improving Change Point Detection Using Self-Supervised VAEs : A Study on Distance Metrics and Hyperparameters in Time Series Analysis Workinn, Daniel January 2023 (has links) This thesis addresses the optimization of the Variational Autoencoder-based Change Point Detection (VAE-CP) approach in time series analysis, a vital component in data-driven decision making. We evaluate the impact of various distance metrics and hyperparameters on the model’s performance using a systematic exploration and robustness testing on diverse real-world datasets. Findings show that the Dynamic Time Warping (DTW) distance metric significantly enhances the quality of the extracted latent variable space and improves change point detection. The research underscores the potential of the VAE-CP approach for more effective and robust handling of complex time series data, advancing the capabilities of change point detection techniques. / Denna uppsats behandlar optimeringen av en Variational Autoencoder-baserad Change Point Detection (VAE-CP)-metod i tidsserieanalys, en vital komponent i datadrivet beslutsfattande. Vi utvärderar inverkan av olika distansmått och hyperparametrar på modellens prestanda med hjälp av systematisk utforskning och robusthetstestning på diverse verkliga datamängder. Resultaten visar att distansmåttet Dynamic Time Warping (DTW) betydligt förbättrar kvaliteten på det extraherade latenta variabelutrymmet och förbättrar detektionen av brytpunkter (eng. change points). Forskningen understryker potentialen med VAE-CP-metoden för mer effektiv och robust hantering av komplexa tidsseriedata, vilket förbättrar förmågan hos tekniker för att upptäcka brytpunkter. Change point detection Time series data Segmentation Machine learning Data mining Detektion av brytpunkter Tidsseriedata Segmentering Maskininlärning Datautvinning Computer and Information Sciences Data- och informationsvetenskap
22	Datautvinning av klickdata : Kombination av klustring och klassifikation / Data mining of click data : Combination of clustering and classification Zhang, Xianjie, Bogic, Sebastian January 2018 (has links) Ägare av webbplatser och applikationer tjänar ofta på att användare klickar på deras länkar. Länkarna kan bland annat vara reklam eller varor som säljs. Det finns många studier inom dataanalys angående om en sådan länk kommer att bli klickad, men få studier fokuserar på hur länkarna kan justeras för att bli klickade. Problemet som företaget Flygresor.se har är att de saknar ett verktyg för deras kunder, resebyråer, att analysera deras biljetter och därefter justera attributen för resorna. Den efterfrågade lösningen var en applikation som gav förslag på hur biljetterna skulle förändras för att bli mer klickade och på såsätt kunna sälja fler resor. I detta arbete byggdes en prototyp som använder sig av två olika datautvinningsmetoder, klustring med algoritmen DBSCAN och klassifikation med algoritmen k-NN. Algoritmerna användes tillsammans med en utvärderingsprocess, kallad DNNA, som analyserade resultatet från dessa två algoritmer och gav förslag på förändringar av artikelns attribut. Kombinationen av algoritmerna tillsammans med DNNA testades och utvärderades som lösning till problemet. Programmet lyckades förutse vilka attribut av biljetter som behövde justeras för att biljetterna skulle bli mer klickade. Rekommendationerna av justeringar var rimliga men eftersom andra liknande verktyg inte hade publicerats kunde detta arbetes resultat inte jämföras. / Owners of websites and applications usually profits through users that clicks on their links. These can be advertisements or items for sale amongst others. There are many studies about data analysis where they tell you if a link will be clicked, but only a few that focus on what needs to be adjusted to get the link clicked. The problem that Flygresor.se have is that they are missing a tool for their customers, travel agencies, that analyses their tickets and after that adjusts the attributes of those trips. The requested solution was an application which gave suggestions about how to change the tickets in a way that would make it more clicked and in that way, make more sales. A prototype was constructed which make use of two different data mining methods, clustering with the algorithm DBSCAN and classification with the algorithm knearest neighbor. These algorithms were used together with an evaluation process, called DNNA, which analyzes the result from the algorithms and gave suggestions about changes that could be done to the attributes of the links. The combination of the algorithms and DNNA was tested and evaluated as the solution to the problem. The program was able to predict what attributes of the tickets needed to be adjusted to get the tickets more clicks. ‘The recommendations of adjustments were reasonable but this result could not be compared to similar tools since they had not been published. Data analysis data mining clustering classification DBSCAN k-nearest neighbor click data Dataanalys datautvinning klustring klassifikation DBSCAN k-nearest neighbor klickdata Computer Engineering Datorteknik
23	A comparative analysis of database sanitization techniques for privacy-preserving association rule mining / En jämförande analys av tekniker för databasanonymisering inom sekretessbevarande associationsregelutvinning Mårtensson, Charlie January 2023 (has links) Association rule hiding (ARH) is the process of modifying a transaction database to prevent sensitive patterns (association rules) from discovery by data miners. An optimal ARH technique successfully hides all sensitive patterns while leaving all nonsensitive patterns public. However, in practice, many ARH algorithms cause some undesirable side effects, such as failing to hide sensitive rules or mistakenly hiding nonsensitive ones. Evaluating the utility of ARH algorithms therefore involves measuring the side effects they cause. There are a wide array of ARH techniques in use, with evolutionary algorithms in particular gaining popularity in recent years. However, previous research in the area has focused on incremental improvement of existing algorithms. No work was found that compares the performance of ARH algorithms without the incentive of promoting a newly suggested algorithm as superior. To fill this research gap, this project compares three ARH algorithms developed between 2019 and 2022—ABC4ARH, VIDPSO, and SA-MDP— using identical and unbiased parameters. The algorithms were run on three real databases and three synthetic ones of various sizes, in each case given four different sets of sensitive rules to hide. Their performance was measured in terms of side effects, runtime, and scalability (i.e., performance on increasing database size). It was found that the performance of the algorithms varied considerably depending on the characteristics of the input data, with no algorithm consistently outperforming others at the task of mitigating side effects. VIDPSO was the most efficient in terms of runtime, while ABC4ARH maintained the most robust performance as the database size increased. However, results matching the quality of those in the papers originally describing each algorithm could not be reproduced, showing a clear need for validating the reproducibility of research before the results can be trusted. / ”Association rule hiding”, ungefär ”döljande av associationsregler” – hädanefter ARH – är en process som går ut på att modifiera en transaktionsdatabas för att förhindra att känsliga mönster (så kallade associationsregler) upptäcks genom datautvinning. En optimal ARH-teknik döljer framgångsrikt alla känsliga mönster medan alla ickekänsliga mönster förblir öppet tillgängliga. I praktiken är det dock vanligt att ARH-algoritmer orsakar oönskade sidoeffekter. Exempelvis kan de misslyckas med att dölja vissa känsliga regler eller dölja ickekänsliga regler av misstag. Evalueringen av ARH-algoritmers användbarhet inbegriper därför mätning av dessa sidoeffekter. Bland det stora urvalet ARH-tekniker har i synnerhet evolutionära algoritmer ökat i popularitet under senare år. Tidigare forskning inom området har dock fokuserat på inkrementell förbättring av existerande algoritmer. Ingen forskning hittades som jämförde ARH-algoritmer utan det underliggande incitamentet att framhäva överlägsenheten hos en nyutvecklad algoritm. Detta projekt ämnar fylla denna lucka i forskningen genom en jämförelse av tre ARH-algoritmer som tagits fram mellan 2019 och 2022 – ABC4ARH, VIDPSO och SA-MDP – med hjälp av identiska och oberoende parametrar. Algoritmerna kördes på sex databaser – tre hämtade från verkligheten, tre syntetiska av varierande storlek – och fick i samtliga fall fyra olika uppsättningar känsliga regler att dölja. Prestandan mättes enligt sidoeffekter, exekveringstid samt skalbarhet (dvs. prestation när databasens storlek ökar). Algoritmernas prestation varierade avsevärt beroende på indatans egenskaper. Ingen algoritm var konsekvent överlägsen de andra när det gällde att minimera sidoeffekter. VIDPSO var tidsmässigt mest effektiv, medan ABC4ARH var mest robust vid hanteringen av växande indata. Resultat i nivå med de som uppmättes i forskningsrapporterna som ursprungligen presenterat varje algoritm kunde inte reproduceras, vilket tyder på ett behov av att validera reproducerbarheten hos forskning innan dess resultat kan anses tillförlitliga. Association rule hiding privacy-preserving data mining evolutionary algorithms performance evaluation Associationsregeldöljning sekretessbevarande datautvinning evolutionära algoritmer prestandaevaluering Computer and Information Sciences Data- och informationsvetenskap
24	Data mining historical insights for a software keyword from GitHub and Libraries.io; GraphQL / Datautvinning av historiska insikter för ett mjukvara nyckelord från GitHub och Libraries.io; GraphQL Bodemar, Gustaf January 2022 (has links) This paper explores an approach to extracting historical insights into a software keyword by data mining GitHub and Libraries.io. We test our method using the keyword GraphQL to see what insights we can gain. We managed to plot several timelines of how repositories and software libraries related to our keyword were created over time. We could also do a rudimentary analysis of how active said items were. We also extracted programing language data associated with each repository and library from GitHub and Libraries.io. With this data, we could, at worst, correlate which programming languages were associated with each item or, in the best case, predict what implementations of GraphQL they used. We found through our attempt many problems and caveats that needed to be dealt with but still concluded that extracting historical insights by data mining GitHub and Libraries.io is worthwhile. Data mining Web scraping Historical data analysis GitHub Libraries.io GraphQL Datautvinning Webbskrapning Historisk dataanalys GitHub Libraries.io GraphQL Other Computer and Information Science Annan data- och informationsvetenskap
25	Artificial intelligence application for feature extraction in annual reports : AI-pipeline for feature extraction in Swedish balance sheets from scanned annual reports Nilsson, Jesper January 2024 (has links) Hantering av ostrukturerade och fysiska dokument inom vissa områden, såsom finansiell rapportering, medför betydande ineffektivitet i dagsläget. Detta examensarbete fokuserar på utmaningen att extrahera data från ostrukturerade finansiella dokument, specifikt balansräkningar i svenska årsredovisningar, genom att använda en AI-driven pipeline. Syftet är att utveckla en metod för att automatisera datautvinning och möjliggöra förbättrad dataanalys. Projektet fokuserade på att automatisera utvinning av finansiella poster från balansräkningar genom en kombination av Optical Character Recognition (OCR) och en modell för Named Entity Recognition (NER). TesseractOCR användes för att konvertera skannade dokument till digital text, medan en BERT-baserad NER-modell tränades för att identifiera och klassificera relevanta finansiella poster. Ett Python-skript användes för att extrahera de numeriska värdena som är associerade med dessa poster. Projektet fann att NER-modellen uppnådde hög prestanda, med ett F1-score på 0,95, vilket visar dess effektivitet i att identifiera finansiella poster. Den fullständiga pipelinen lyckades extrahera över 99% av posterna från balansräkningar med en träffsäkerhet på cirka 90% för numerisk data. Projektet drar slutsatsen att kombinationen av OCR och NER är en lovande lösning för att automatisera datautvinning från ostrukturerade dokument med liknande attribut som årsredovisningar. Framtida arbeten kan utforska att förbättra träffsäkerheten i OCR och utvidga utvinningen till andra sektioner av olika typer av ostrukturerade dokument. / The persistence of unstructured and physical document management in fields such as financial reporting presents notable inefficiencies. This thesis addresses the challenge of extracting valuable data from unstructured financial documents, specifically balance sheets in Swedish annual reports, using an AI-driven pipeline. The objective is to develop a method to automate data extraction, enabling enhanced data analysis capabilities. The project focused on automating the extraction of financial posts from balance sheets using a combination of Optical Character Recognition (OCR) and a Named Entity Recognition (NER) model. TesseractOCR was used to convert scanned documents into digital text, while a fine-tuned BERT-based NER model was trained to identify and classify relevant financial features. A Python script was employed to extract the numerical values associated with these features. The study found that the NER model achieved high performance metrics, with an F1-score of 0.95, demonstrating its effectiveness in identifying financial entities. The full pipeline successfully extracted over 99% of features from balance sheets with an accuracy of about 90% for numerical data. The project concludes that combining OCR and NER technologies could be a promising solution for automating data extraction from unstructured documents with similar attributes to annual reports. Future work could explore enhancing OCR accuracy and extending the methodology to other sections of different types of unstructured documents. Artificial intelligence Feature extraction Named Entity Recognition BERT Optical Character Recognition financial documents Artificiell intelligens Datautvinning Named Entity Recognition BERT Optical Character Recognition finansiella dokument Software Engineering Programvaruteknik
26	Terrorist eller ensam galning? : En analys av Aftonbladets och Svenska Dagbladets nyhetsrapportering om Anders Behring Breivik och Rakhmat Akilov / Terrorist or Lone Wolf? : An Analysis of Swedish National Newspaper Coverage Relating to Anders Behring Breivik and Rakhmat Akilov Sandelin Anton, Wilhelm January 2020 (has links) This study aims to survey and compare Swedish newspaper coverage relating to convicted terrorists Anders Behring Breivik and Rakhmat Akilov. The pivotal question of the study is whether this coverage differs depending on factors such as each perpetrator’s ethnicity and political beliefs. The source material has been gathered from Swedish national newspapers Aftonbladet and Svenska Dagbladet. This study has utilised a mixed research methodology consisting of a quantitative digital text analysis combined with a qualitative frame analysis. The theoretical framework of this study mainly consists of media theories such as framing (as defined by Goffman 1974, Van Gorp 2010, Shehata 2012 and more), construction of crime news and crime waves (Jewkes 2004, Fishman 1978) and news values (Häger 2014). Additionally, theories about orientalism, stereotyping, and ethnicity are applied (Dyer 1997:2006, Said 1978). Other research on the aforementioned topics is also touched upon.The quantitative part of this study has been conducted through the use of text analysis tool Textometrica. A total of 460 newspaper articles mentioning either perpetrator have been analysed. This has highlighted the framing, wording, and phraseology of said articles. The qualitative part of the study consists of an in-depth survey of frames found in a select number of these articles. It draws inspiration from frame research conducted by, among others, journalism professor Baldwin Van Gorp (2010).The results of this study show a noticeable difference in the portrayals of both perpetrators. While Aftonbladet tends to simplify stories, Svenska Dagbladet leans towards a more comprehensive coverage. In general, a certain degree of attention is given to elaborations on Behring Breivik’s personal life and youth to explain his wrongdoings. Akilov, on the other hand, is mostly just described through his foreign appearance and is more clearly conceptualised as a terrorist and as part of a larger network (the Islamic State). / Syftet med denna studie är att jämföra svensk nyhetsrapportering om de dömda terroristerna Anders Behring Breivik och Rakhmat Akilov. Studiens centrala frågeställning är huruvida denna rapportering skiljer sig på grundval av faktorer såsom respektive gärningsmans etnicitet och politiska tillhörighet. Källmaterialet har samlats in från de svenska nationella dagstidningarna Aftonbladet och Svenska Dagbladet. Det metodologiska ramverket består av en kvantitativ digital textanalys i kombination med en kvalitativ framinganalys. Studiens teoretiska ramverk består främst av medieteorier, däribland gestaltningsteorin (definierad av Goffman 1974, Van Gorp 2010, Shehata 2012 med flera) och konstruktionen av brottsnyheter och brottsvågor (Jewkes 2004, Fishman 1978). Dessutom appliceras teorier om orientalism, stereotypisering och etnicitet (Dyer 1997:2006, Said 1978). Tidigare forskning om ovan nämnda teorier inkluderas också.Den kvantitativa delen av studien genomfördes med hjälp av textanalysverktyget Textometrica. Totalt 460 nyhetsartiklar som nämner endera av gärningsmännen har analyserats. Detta har tydliggjort artiklarnas inramning, formuleringar och språkbruk. Den kvalitativa delen av studien består av en mer djupgående analys av gestaltningar identifierade i ett antal av artiklarna. Denna kvalitativa analys hämtar inspiration från gestaltningsforskning genomförd av, bland andra, journalistikprofessor Baldwin Van Gorp (2010).Studien visar en anmärkningsvärd skillnad i porträtteringarna av respektive gärningsman. Aftonbladet tenderar att förenkla skeenden medan Svenska Dagbladets rapportering är mer omfattande. Båda tidningarna uppmärksammar Behring Breiviks privatliv och uppväxt för att förklara hans ogärningar. Akilov å andra sidan beskrivs främst genom sitt utländska utseende och framställs tydligare som terrorist och del av ett större nätverk (den islamiska staten). Digital text analysis data mining frame analysis news media Anders Behring Breivik Rakhmat Akilov terrorism framing orientalism ethnicity. Digital textanalys datautvinning framinganalys nyhetsmedier Anders Behring Breivik Rakhmat Akilov terrorism gestaltningsteori orientalism etnicitet. Media and Communications Medie- och kommunikationsvetenskap
27	Evaluation of web scraping methods : Different automation approaches regarding web scraping using desktop tools / Utvärdering av webbskrapningsmetoder : Olika automatiserings metoder kring webbskrapning med hjälp av skrivbordsverktyg Oucif, Kadday January 2016 (has links) A lot of information can be found and extracted from the semantic web in different forms through web scraping, with many techniques emerging throughout time. This thesis is written with the objective to evaluate different web scraping methods in order to develop an automated, performance reliable, easy implemented and solid extraction process. A number of parameters are set to better evaluate and compare consisting techniques. A matrix of desktop tools are examined and two were chosen for evaluation. The evaluation also includes the learning of setting up the scraping process with so called agents. A number of links gets scraped by using the presented techniques with and without executing JavaScript from the web sources. Prototypes with the chosen techniques are presented with Content Grabber as a final solution. The result is a better understanding around the subject along with a cost-effective extraction process consisting of different techniques and methods, where a good understanding around the web sources structure facilitates the data collection. To sum it all up, the result is discussed and presented with regard to chosen parameters. / En hel del information kan bli funnen och extraherad i olika format från den semantiska webben med hjälp av webbskrapning, med många tekniker som uppkommit med tiden. Den här rapporten är skriven med målet att utvärdera olika webbskrapnings metoder för att i sin tur utveckla en automatiserad, prestandasäker, enkelt implementerad och solid extraheringsprocess. Ett antal parametrar är definierade för att utvärdera och jämföra befintliga webbskrapningstekniker. En matris av skrivbords verktyg är utforskade och två är valda för utvärdering. Utvärderingen inkluderar också tillvägagångssättet till att lära sig sätta upp olika webbskrapnings processer med så kallade agenter. Ett nummer av länkar blir skrapade efter data med och utan exekvering av JavaScript från webbsidorna. Prototyper med de utvalda teknikerna testas och presenteras med webbskrapningsverktyget Content Grabber som slutlig lösning. Resultatet utav det hela är en bättre förståelse kring ämnet samt en prisvärd extraheringsprocess bestående utav blandade tekniker och metoder, där en god vetskap kring webbsidornas uppbyggnad underlättar datainsamlingen. Sammanfattningsvis presenteras och diskuteras resultatet med hänsyn till valda parametrar. web scraping data extraction automation semantic web business intelligence DOM parsing HTML parsing XPath webbskrapning datautvinning automatisering semantiska webben business intelligence DOM parsing HTML parsing XPath Engineering and Technology Teknik och teknologier
28	An investigation of the relationship between online activity on Studi.se and academic grades of newly arrived immigrant students : An application of educational data mining Menon, Akash, Islam, Nahida January 2017 (has links) This study attempts to analyze the impact of an online educational resource on academic performances among newly arrived immigrant students in Sweden between the grade six to nine in the Swedish school system. The study focuses on the web based educational resource called Studi.se made by Komplementskolan AB.The aim of the study was to investigate the relationship between academic performance and using Studi.se. Another purpose was to see what other factors that can impact academic performances.The study made use of the data mining process, Cross Industry Standard for Data Mining (CRISP-DM), to understand and prepare the data and then create a regression model that is evaluated. The regression model tries predict the dependent variable of grade based on the independent variables of Studi.se activity, gender and years in Swedish schools. The used data set includes the grades in mathematics, physics, chemistry, biology and religion of newly arrived students in Sweden from six municipalities that have access to Studi.se. The data used also includes metrics of the student’s activity on Studi.se.The results show negative correlation between grade and gender of the student across all subjects. In this report, the negative correlation means that female students perform better than male students. Furthermore, there was a positive correlation between number of years a student has been in the same school and their academic grade. The study could not conclude a statistically significant relationship between the activity on Studi.se and the students’ academic grade.Additional explanatory independent variables are needed to make a predictive model as well as investigating alternative regression models other than multiple linear regression. In the sample, a majority of the students have little or no activity on Studi.se despite having free access to the resource through the municipality. / Denna studie analyserar inverkan som digitala läromedel har på skolbetyg bland nyanlända elever i Sverige mellan årskurs sex och nio i det svenska skolsystemet. Studien fokuserar på den webbaserade pedagogisk resursen Studi.se, gjord av Komplementskolan AB.Målet med studien var att undersöka relationen mellan skolresultat och användandet av Studi.se. Ett annat syfte var att undersöka vad för andra faktorer som kan påverka skolresultat.Studien använder sig av datautvinningsprocessen, Cross Industry Standard for Datamining (CRISP-DM), för att förstå, förbereda och analysera datan i form av en regressionsmodell som sedan evalueras. Datasamlingen som används innehåller bland annat skolbetyg i ämnena matematik, fysik, kemi, biologi och religion från sex kommuner som har tillgång till Studi.se. Aktivitet hos eleverna från dessa kommuner på Studi.se hemsidan användes också för studien.Resultaten visar en negativ korrelation mellan betyg och kön hos eleverna i alla ämnena. Den negativa korrelationen betyder i denna rapport att tjejer får bättre betyg i genomsnitt än killar hos urvalet av nyanlända från de sex kommunerna. Dessutom fanns det en positiv korrelation mellan antal år en elev varit i skolan alternativt i svenska skolsystemet och deras betyg. Studien kunde inte säkerställa ett statistisk signifikant resultat mellan aktivitet på Studi.se och elevernas skolresultat.Ett flertal förklarande oberoende variabler behövs för att kunna skapa en prognastisk modell för skolresultat samt bör en undersökning på alternativa regressions modeller förutom linjär multipel regression göras. I studiens urval av nyanlända elever från kommunerna, har majoriteten inte använt eller knappt använt Studi.se även om dessa kommuner haft tillgång till denna resurs. Educational data mining (EDM) data mining (DM) Statistical analysis Multiple linear regression null-hypothesis and level of significance. Utbildningsdatautvinning Datautvinning CRISP-DM Statistisk analys Multipel linjär regression nollhypotes och signifikansnivå Computer and Information Sciences Data- och informationsvetenskap
29	Employee Churn Prediction in Healthcare Industry using Supervised Machine Learning / Förutsägelse av Personalavgång inom Sjukvården med hjälp av Övervakad Maskininlärning Gentek, Anna January 2022 (has links) Given that employees are one of the most valuable assets of any organization, losing an employee has a detrimental impact on several aspects of business activities. Loss of competence, deteriorated productivity and increased hiring costs are just a small fraction of the consequences associated with high employee churn. To deal with this issue, organizations within many industries rely on machine learning and predictive analytics to model, predict and understand the cause of employee churn so that appropriate proactive retention strategies can be applied. However, up to this date, the problem of excessive churn prevalent in the healthcare industry has not been addressed. To fill this research gap, this study investigates the applicability of a machine learning-based employee churn prediction model for a Swedish healthcare organization. We start by extracting relevant features from real employee data followed by a comprehensive feature analysis using Recursive Feature Elimination (RFE) method. A wide range of prediction models including traditional classifiers, such as Random Forest, Support Vector Machine and Logistic Regression are then implemented. In addition, we explore the performance of ensemble machine learning model, XGBoost and neural networks, specifically Artificial Neural Network (ANN). The results of this study show superiority of an SVM model with a recall of 94.8% and a ROC-AUC accuracy of 91.1%. Additionally, to understand and identify the main churn contributors, model-agnostic interpretability methods are examined and applied on top of the predictions. The analysis has shown that wellness contribution, employment rate and number of vacations days as well as number of sick day are strong indicators of churn among healthcare employees. / Det sägs ofta att anställda är en verksamhets mest värdefulla tillgång. Att förlora en anställd har därmed ofta skadlig inverkan på flera aspekter av affärsverksamheter. Därtill hör bland annat kompetensförlust, försämrad produktivitet samt ökade anställningskostnader. Dessa täcker endast en bråkdel av konsekvenserna förknippade med en för hög personalomsättningshastighet. För att hantera och förstå hög personalomsättning har många verksamheter och organisationer börjat använda sig av maskininlärning och statistisk analys där de bland annat analyserar beteendedata i syfte att förutsäga personalomsättning samt för att proaktivt skapa en bättre arbetsmiljö där anställda väljer att stanna kvar. Trots att sjukvården är en bransch som präglas av hög personalomsättning finns det i dagsläget inga studier som adresserar detta uppenbara problem med utgångspunkt i maskininlärning. Denna studien undersöker tillämpbarheten av maskininlärningsmodeller för att modellera och förutsäga personalomsättning i en svensk sjukvårdsorganisation. Med utgångspunkt i relevanta variabler från faktisk data på anställda tillämpar vi Recursive Feature Elimination (RFE) som den primära analysmetoden. I nästa steg tillämpar vi flertalet prediktionsmodeller inklusive traditionella klassificerare såsom Random Forest, Support Vector Machine och Logistic Regression. Denna studien utvärderar också hur pass relevanta Neural Networks eller mer specifikt Artificial Neural Networks (ANN) är i syfte att förutse personalomsättning. Slutligen utvärderar vi precisionen av en sammansatt maskininlärningsmodell, Extreme Gradient Boost. Studiens resultat påvisar att SVM är en överlägsen model med 94.8% noggranhet. Resultaten från studien möjliggör även identifiering av variabler som mest bidrar till personalomsättning. Vår analys påvisar att variablerna relaterade till avhopp är friskvårdbidrag, sysselsättningsgrad, antal semesterdagar samt sjuktid är starkt korrelerade med personalomsättning i sjukvården. Employee churn Churn Prediction Predictive modeling Machine learning Deep-Learning Data mining Binary Classification Personalomsättning Avhoppsanalys Prediktiv Modellering Maskininlärning Datautvinning Binär Klassificering Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
30	Using machine learning to identify the occurrence of changing air masses Bergfors, Anund January 2018 (has links) In the forecast data post-processing at the Swedish Meteorological and Hydrological Institute (SMHI) a regular Kalman filter is used to debias the two meter air temperature forecast of the physical models by controlling towards air temperature observations. The Kalman filter however diverges when encountering greater nonlinearities in shifting weather patterns, and can only be manually reset when a new air mass has stabilized itself within its operating region. This project aimed to automate this process by means of a machine learning approach. The methodology was at its base supervised learning, by first algorithmically labelling the air mass shift occurrences in the data, followed by training a logistic regression model. Observational data from the latest twenty years of the Uppsala automatic meteorological station was used for the analysis. A simple pipeline for loading, labelling, training on and visualizing the data was built. As a work in progress the operating regime was more of a semi-supervised one - which also in the long run could be a necessary and fruitful strategy. Conclusively the logistic regression appeared to be quite able to handle and infer from the dynamics of air temperatures - albeit non-robustly tested - being able to correctly classify 77% of the labelled data. This work was presented at Uppsala University in June 1st of 2018, and later in June 20th at SMHI. machine learning meteorology data science visualization time series pattern recognition logistic regression data mining statistics ai physics signal processing control theory automatic control systems theory information technology maskininlärning meteorologi data science visualisering tidsserie mönsterigenkänning logistisk regression datautvinning statistik ai fysik signalbehandling reglerteknik systemteknik informationsteknologi Engineering and Technology Teknik och teknologier

Search results