Sjukfrånvaro innebär en kostnad för både arbetsgivare och arbetstagare. För en anonym fullgrossist är detta ett problem på en av deras lagerlokaler, där sjukfrånvaron är hög. Uppsatsen syftar till att identifiera intressanta mönster över tid som leder till sjukfrånvaro genom att analysera data från företagets lönesystem och tidssystem. Datamaterialet är longitudinellt och för att upptäcka mönster som leder till sjukfrånvaro används sekvensanalys. För att generera de sekventiella mönstren används algoritmen cSPADE då den möjliggör att tidsbegränsningar kan anges för sekvenserna. Relevansen hos de genererade sekvenserna utvärderas med tre intressemått: support, konfidens och lift. Tre separata analyser genomförs där olika antal variabler används, beroende på om de förändras över tid eller har ett konstant värde, och för dessa analyser aggregeras data veckovis. De vanligaste händelserna som leder till sjukfrånvaro hos expeditörer är olika anställningstider, kön och födelseår. Några dagars sjukfrånvaro under en vecka, det vill säga mellan 8 och 40 timmar, är mer förekommande bland expeditörerna jämfört med kortare respektive längre sjukfrånvaro. Det går att konstatera att mönster med tidigare sjukfrånvaro ofta leder till fortsatt sjukfrånvaro. Uppsatsen belyser även de problem som uppstår inom sekvensanalys, till exempel att konstanta variabler överskuggar de icke-konstanta variablerna i de genererade sekvenserna. Detta händer när variabler som förändras över tiden används i kombination med variabler som har konstanta värden, något som kan förekomma i longitudinella datamaterial. / Absence due to sickness results in a cost to both employers and employees. For an unnamed wholesaler this is a problem at one of their warehouses, where the rate of sick leave is high. The aim of this thesis is to identify interesting patterns over time that lead to sick leave by analyzing data from the company's payroll system and their attendance system. The data is longitudinal and to detect the patterns that lead to sick leave, sequence analysis is used. To generate the sequential patterns the algorithm cSPADE is used since it allows time constraints to be specified for the sequences. The relevance of the generated sequences is evaluated with three interest measures: support, confidence and lift. Three separate analyses are performed where different variables are used, depending on whether they change over time or have a constant value, and for these analyses the data is aggregated weekly. The most common events that lead to sick leave for the employees are different duration of employment, gender and birth year. A few days sick leave during a week, namely between 8 and 40 hours, is more common among the employees compared to shorter and longer sick leave. It can be noted that the pattern of previous sick leave usually leads to continued sick leave. The thesis also highlights the problems that arise in sequence analysis, for example that the constant variables overshadow the non-constant variables in the resulting sequences. This happens when variables that change over time are used in combination with variables that have a constant value, which may occur in longitudinal data.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:liu-139877 |
Date | January 2017 |
Creators | Jesperson, Sara, Johansson, Sara |
Publisher | Linköpings universitet, Statistik och maskininlärning, Linköpings universitet, Statistik och maskininlärning |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0025 seconds