The rising cost of unplanned hospital readmissions has sparked calls for identifying medical system failures, best practices, and interventions in order to reduce the incidence of avoidable readmission. Readmissions currently account for 18% of total hospital admissions among Medicare patients in the United States. Distinguishing avoidable from unavoidable readmissions is a complex problem, but tackling it can shed light on readmission determinants and contributing factors. The objective of this thesis is to gain knowledge about the role that dispensed drugs, medical procedures, and diagnostic information play in predicting the chance of readmission within thirty days from a hospital discharge, using machine learning techniques. The prediction of hospital readmission is formulated as a supervised learning problem. Two supervised learning models, Naïve Bayes and Decision Tree, are used in the thesis to predict the chance of readmission based on patients' demographic information, prescription drugs, diagnosis and procedure codes extracted from hospital discharge summaries. The empirical analysis improves the understanding of hospital readmission prediction and identifies patient subpopulations for which the readmission prediction is naturally more difficult. Comparing the performance of different methods, using AUC as the measure of performance, we found that the combination of Naïve Bayes classifier and Gini Index feature selection performs slightly better than other methods on this dataset. We also found that some diagnostic features play an important role in distinguishing outliers. Removing outliers from the entire data results in significant performance gains in the prediction of readmission. / La hausse des côuts associés avec les re-admissions non-planifiées à l'hôpital suggère que c'est très important d'identifier les détérminants de ces événements. Les re-admissions causent 18% des côuts de Medicare aux États-Unis, ce qui fait l'identification des re-admissions qui peuvent être évitées très importante. Nous formulons ce problème comme une tâche d'apprentissage supervisé. Nous utilisons deus méthodes, Naive Bayes et les Arbres de Décision, pour la prédiction des patients qui vont être re-admis, en fonctions de leurs données démographiques, les médicaments de préscription, et les codes de diagnostique et des procédures que les patients ont subis en hôpital. Nôtre analyse ameliore nos connaissances sur les facteurs détérminants pour les re-admissions non-planifiées et identifie de sous-populations de patients pour lesquelles la prédiction est plus difficile. Nous performons des comparaisons de différentes méthodes de prédiction. La combinaison de Naïve Bayes et séléction d'attributes basée sur l'index Gini donne les meilleurs résultats sur nos données. Nous avons aussi trouvé que certains attributs sont utiles pour distinguer les patients pour lesquels la prédiction est difficile. Si on élimine ces patients du jeu de données, les résultats de l'aprentissage sont meilleurs. La hausse des côuts associés avec les re-admissions non-planifiées à l'hôpital suggère que c'est très important d'identifier les détérminants de ces événements. Les re-admissions causent 18% des côuts de Medicare aux États-Unis, ce qui fait l'identification des re-admissions qui peuvent être évitées très importante. Nous formulons ce problème comme une tâche d'apprentissage supervisé. Nous utilisons deus méthodes, Naive Bayes et les Arbres de Décision, pour la prédiction des patients qui vont être re-admis, en fonctions de leurs données démographiques, les médicaments de préscription, et les codes de diagnostique et des procédures que les patients ont subis en hôpital. Nôtre analyse ameliore nos connaissances sur les facteurs détérminants pour les re-admissions non-planifiées et identifie de sous-populations de patients pour lesquelles la prédiction est plus difficile. Nous performons des comparaisons de différentes méthodes de prédiction. La combinaison de Naïve Bayes et séléction d'attributes basée sur l'index Gini donne les meilleurs résultats sur nos données. Nous avons aussi trouvé que certains attributs sont utiles pour distinguer les patients pour lesquels la prédiction est difficile. Si on élimine ces patients du jeu de données, les résultats de l'aprentissage sont meilleurs.
Identifer | oai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.119734 |
Date | January 2013 |
Creators | Hosseinzadeh, Arian |
Contributors | David Buckeridge (Internal/Cosupervisor2), Doina Precup (Internal/Supervisor) |
Publisher | McGill University |
Source Sets | Library and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation |
Format | application/pdf |
Coverage | Master of Science (School of Computer Science) |
Rights | All items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated. |
Relation | Electronically-submitted theses. |
Page generated in 0.0021 seconds