Global ETD Search

1	Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique Bouchard, Simon 14 June 2023 (has links) Titre de l'écran-titre (visionné le 6 juin 2023) / Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives. / This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data. Observations manquantes (Statistique) Imputation multiple (Statistique)
2	Échantillonnage de Gibbs avec augmentation de données et imputation multiple Vidal, Vincent 11 April 2018 (has links) L'objectif de ce mémoire est de comparer la méthode d'échantillonnage de Gibbs avec augmentation de données, telle que présentée par Paquet (2002) et Bernier-Martel (2005), avec celle de l'imputation multiple telle que présentée par Grégoire (2004). Le critère de comparaison sera le signe des coefficients estimés. Nous travaillerons dans le contexte de bases de données indépendantes et d'un modèle linéaire à choix discret. Le modèle sera exprimé en tenant compte du choix des modes de transport des ménages de la communauté urbaine de Toronto. Pour réaliser ce projet, nous utiliserons la base de données du TTS (Transportation Tomorrow Survey) de 1986 et de 1996. Les résultats n'ont pas tous été estimés par un signe cohérent à nos attentes. Toutefois, nous pouvons conclure que l'échantillonnage de Gibbs avec augmentation de données est une approche plus intéressante que l'imputation multiple, puisqu'elle a estimé un nombre plus élevé de bons signes. HB 31.5 UL 2006 V649 Échantillonnage de Gibbs Augmentation de données (Statistique) Imputation multiple (Statistique) Modèles de choix discret

Search results

Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique

Échantillonnage de Gibbs avec augmentation de données et imputation multiple