Les données d’enquêtes jouent un rôle primordial dans la production scientifique en sciences sociales. Cependant, la présence de biais dans les données au moment de la collecte, y compris les erreurs de réponse et de non-réponse, pourrait affecter la fiabilité des résultats obtenus. Bien que le problème des erreurs de réponse et de non-réponse soit largement discuté, la littérature existante s’intéresse peu aux mécanismes par lesquels ces erreurs influencent les mesures estimées. Par conséquent, l’objectif principal de cette thèse est d’apporter une contribution méthodologique à la compréhension des estimations d’enquêtes en présence de données erronées et manquantes, en déterminant leur part explicative dans les modèles estimés. À l’aide de deux mesures répétées de l’âge de la première consommation de substances psychoactives recueillies par l’ELNEJ (1994-2009) auprès de jeunes Canadiens à l’âge de 12-13 ans, puis à l’âge de 14-15 ans, cette thèse par articles visait à étudier : (1) les types d’incohérences ou de biais imputés dans la deuxième mesure comparativement à la première (mesure de référence) et ainsi déduire les caractéristiques des répondants dont les déclarations sont incohérentes (Article 1); (2) l’impact de ces biais dans la détermination des prédicteurs de la consommation précoce, c’est-à-dire à l’âge de 13 ans ou moins (Article 2); et (3) leur impact sur la prédiction de la consommation à l’âge de 16-17 ans en fonction de l’âge d’initiation (Article 3). L’impact du biais est déterminé en corrigeant (1) le biais de sélection dû à la censure des répondants ayant des déclarations incohérentes de l’échantillon de l’étude, lorsque l’âge de l’initiation est la variable dépendante dans le modèle estimé (Article 2) ou (2) le biais d’endogénéité dû à la présence de valeurs erronées et manquantes dans l’âge d’initiation, lorsque l’âge d’initiation est une variable explicative dans le modèle estimé (Article 3).
Le premier article révèle qu’au deuxième passage de l’enquête, les jeunes de 14-15 ans ne fournissent pas nécessairement des âges d’initiation cohérents avec ceux fournis lorsqu’ils avaient 12-13 ans. La proportion d’incohérence enregistrée n’est pas négligeable; elle est de 43 % pour l’alcool, 33 % pour le tabac et 32 % pour la drogue. Ces jeunes sont susceptibles de déclarer des âges d’initiation plus tardifs ou d’omettre l’expérimentation antérieure (biais télescopique vers l’avant: BTA), des âges d’initiation plus hâtifs (biais télescopique vers l’arrière: BTR), et peuvent également ne pas déclarer leur initiation à au moins un des deux cycles d’enquête (Biais non-déclaré : BND). Les résultats de la régression multinomiale montrent que le risque de détecter ces biais n’est pas le fruit du hasard; il varie en fonction des caractéristiques socio-démographiques et personnelles des répondants, notamment le genre, la structure de la famille et la région de résidence. En raison du biais dans la deuxième déclaration de l'âge d'initiation, le deuxième article démontre que l'identification des groupes à risque de consommation précoce est affectée par le potentiel de biais au sein de ces groupes. En utilisant l'approche de Heckman, il a été conclu que les âges d'initiation déclarés plus hâtifs (plus tardifs) génèrent une surestimation (sous-estimation) des risques de consommation précoce (à 13 ans et moins) dans les groupes les plus susceptibles de fournir des âges biaisés vers l'arrière BTR (biaisés vers l'avant BTA). Cependant, ces risques sont sous-estimés dans les groupes qui n’ont pas déclaré leur âge d’initiation lors du premier passage de l’enquête (BND). Ceci indique que pour ces groupes, l’âge d’initiation qui n’a pas été déclaré lors du premier passage est probablement un âge précoce (autour de 12-13 ans). Le troisième article conclut que les biais attribués à l'âge de l'initiation affectent l’estimation de la relation entre l’âge d’initiation et la fréquence de consommation à l'âge de 16-17 ans. Le fait que cette relation soit surestimée ou sous-estimée dépend spécifiquement du type de biais et de sa corrélation avec la consommation ultérieure. Enfin, cette thèse tente de fournir des preuves empiriques mettant en évidence le biais de réponse et de non-réponse comme une source d'information supplémentaire qui caractérise l'échantillon de l'étude et qui sa propre part explicative dans les modèles estimés. La validité des données d'enquête est donc d'une grande utilité pour la validité des résultats des études. / Survey data play an essential role in scientific production in the social sciences. However, the presence of bias in the data at the time of collection, including response and non-response errors, could affect the reliability of the results obtained. Although the problem of response and nonresponse errors is widely discussed, little attention has been paid in the existing literature to the mechanisms by which these errors influence the estimated measures. Therefore, the main objective of this thesis is to make a methodological contribution to the understanding of survey estimates in the presence of erroneous and missing data, by determining their explanatory part in the estimated models. Using two repeated measures of age at first substance use collected by the NLSCY (1994-2009) from Canadian youth, when they were 12-13 years old and again at 14-15 years old, this article-based dissertation aimed to investigate: (1) the types of inconsistencies or biases imputed in the second measure relative to the first (baseline) measure and thus infer the characteristics of respondents whose reports are inconsistent (Paper 1); (2) the impact of these biases in determining predictors of early use, i.e., at age 13 and younger (Paper 2); and (3) their impact on predicting use at age 16-17 as a function of age of initiation (Paper 3). The impact of bias is determined by correcting for (1) selection bias due to censoring of respondents with inconsistent reports from the sample, when age of initiation is the dependent variable in the estimated model (Paper 2) and (2) endogeneity bias due to the presence of erroneous and missing values in age of initiation, when age of initiation has an explanatory variable in the estimated model (Paper 3).
The first article reveals that at the second survey round, 14–15 years old do not necessarily provide ages of initiation consistent with those provided when they were 12-13 years old. The proportion of inconsistency recorded is not negligible; it is 43% for alcohol, 33% for tobacco, and 32% for drugs. These youth are likely to report later ages of initiation or omit previous experimentation (telescopic forward bias: BTA), earlier ages of initiation (telescopic backward bias: BTR) and may also fail to report initiation on at least one of the two survey rounds (unreported bias: BND). Multinomial regression results show that the risk of detecting these biases is not random; it varies with respondents' socio-demographic and personal characteristics, including gender, family structure, and region of residence. Because of the bias in the second report on age of initiation, the second article demonstrates that the identification of groups at risk for early use is affected by the potential for bias within these groups. Using Heckman's approach, it was concluded that earlier (later) reported initiation ages generate an overestimation (underestimation) of the risks of early use (at age 13 and younger) in the groups most likely to provide backward-biased (forward-biased) ages. However, this risk is underestimated in groups that did not report their age of initiation at the first survey round (BND). This indicates that for these groups, the age of initiation that was not reported in the first round is likely to be an early age (around 12-13 years). The third paper concludes that biases attributed to age of initiation affect the estimate of the relationship between age of initiation and frequency of use at age 16-17. Whether this relationship is overestimated or underestimated depends specifically on the type of bias and its correlation with later use. Finally, this thesis attempts to provide empirical evidence highlighting response and nonresponse bias as an additional source of information that characterizes the study sample and has its own explanatory part in the estimated models. The validity of survey data is thus of great benefit to the validity of studies results.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/26443 |
Date | 12 1900 |
Creators | Chagra, Djamila |
Contributors | Lardoux, Solène, Gagnon, Alain |
Source Sets | Université de Montréal |
Language | fra |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0038 seconds