Return to search

Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique

Titre de l'écran-titre (visionné le 6 juin 2023) / Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives. / This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/119066
Date12 November 2023
CreatorsBouchard, Simon
ContributorsVallée, Audrey-Anne
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Mémoire de maîtrise
Format1 ressource en ligne (ix, 97 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.003 seconds