La détection d'insatisfaction basée sur les notes de progression rédigées par des soignants de la santé domestique attire de plus en plus d'attention en tant que méthode de sondage, ce qui aidera à réduire le taux de rotation du personnel soignant. Nous proposons d'étudier la détection d'insatisfaction du soignant comme un problème de classification binaire (le soignant est susceptible de quitter ou pas).
Dans ce mémoire, les données réelles de six mois recueillies à partir de deux agences de soins à domicile sont utilisées. Après avoir montré la nature des données et le prétraitement des données, trois tâches de classification avec des granularités d'échantillonnage différentes (par note, par période et par soignant) sont conçues et abordées. Différentes combinaisons d'hyper-paramètres d'étiquetage sont soigneusement testées. Différentes méthodes de découpage sont couvertes pour montrer les limites des performances théoriques des modèles. L'aire sous la courbe ROC est utilisée pour évaluer les limites des approches mises en place que nous aurons mis en place. Les 6 ensembles d'attributs textuels et statistiques sont comparées. Enfin, les caractéristiques importantes des résultats sont analysées manuellement et automatiquement.
Nous montrons que les modèles fonctionnent mieux "par note" et "par période" que "par soignant" en termes de classification des notes. L'analyse manuelle montre que les modèles capturent les facteurs d'insatisfaction bien qu'il y en ait assez peu. L'analyse automatique n'exprime cependant aucune information utile. / Dissatisfaction detection based on the home health caregiver's progress note draws more and more attention as a probing method, which will help lower down the turnover rate. We propose to study the detection of dissatisfaction of health caregiver as a binary classification problem (the caregiver is likely to "leave" or "stay").
In this master thesis, the real six-month data collected from two home care agencies are used. After showing the nature of the data and the prepossessing of data, three classification tasks with different sample granularity (note wise, period wise and employee wise) are designed and tackled. Different combinations of labeling hyper-parameters are tested thoroughly. Different split methods are covered to show the theoretical performance boundaries of the models. The under the ROC curve area (AUC) scores are reported to show the description ability of each model. The 6 sets of textual and statistical features' performance are compared. Lastly, the important features from the results are analyzed manually and automatically.
We show that models work better on note wise and period wise than employee wise in terms of classifying the notes. The result of manual analysis shows the models capture the dissatisfaction factors, although there are quite few. The result of automatic analysis doesn't show any useful information.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/26545 |
Date | 11 1900 |
Creators | Wu, Jiechen |
Contributors | Langlais, Philippe, Lahrichi, Nadia |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0027 seconds