Global ETD Search

1	Apprentissage et forêts aléatoires / Learning with random forests Scornet, Erwan 30 November 2015 (has links) Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques. / This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile. Estimation non-Paramétrique Forêt aléatoire Méthodes à noyau Consistance Arbre de régression Agrégation Random forest Consistency Breiman's forests 519.5
2	Diatomées épilithiques des cours d’eau pérennes de l’île de la Réunion : taxinomie - écologie / Epilithic diatoms of Réunion Island perennial rivers : taxonomy - ecology Gassiole, Gilles 26 March 2014 (has links) La Réunion est une île volcanique du Sud-Ouest de l’Océan Indien, située à 800 km à l’Est de Madagascar et appartenant à l’archipel des Mascareignes, avec Maurice et Rodrigues. Ce territoire est un département français d’outremer et par conséquent les lois européennes sur la qualité des eaux des cours d’eau s’y appliquent. La chimie de l’eau n’étant pas suffisante pour surveiller la qualité des eaux, les bio-indicateurs peuvent compléter le diagnostic. Dans cette thèse, les diatomées ont été choisies pour évaluer la qualité des eaux courantes. Les diatomées de La Réunion ne sont connues que par des articles épars avec la description de nouvelles espèces. Pendant quatre ans, six campagnes de prélèvements ont été menées sur les rivières pérennes. Ce travail a permis d’acquérir des connaissances sur la flore diatomique épilithique des cours d’eau pérennes de La Réunion et par conséquent sur la biodiversité de ces milieux. De plus, l’écologie des diatomées a été étudiée statistiquement, avec les arbres de régression multivariable (ARM), l’IndVal et ses extensions et les moyennes pondérées, ce qui a permis d’acquérir des connaissances sur l’écologie des communautés, l’autoécologie des espèces et donc sur la qualité de l’eau des rivières. Les résultats intégrés de cette thèse ainsi que les travaux réalisés dans le cadre d’une collaboration avec l’Irstea, ont abouti à une nouvelle méthode indicielle, l’Indice Diatomique Réunion ou IDR, permettant d’évaluer la qualité écologique des cours d’eau. / The volcanic Réunion Island is situated in the southwest Indian Ocean, 800 km to the east of Madagascar; it belongs to the Mascarene archipelago with Mauritius and Rodrigues. This territory is a French oversea department and therefore follows EU laws rivers water quality. The water chemistry is not enough to monitor the quality of water and bioindicators can complete the diagnosis. In this thesis, diatoms have been choosen to assess the quality of the running waters. The diatoms of Réunion Island are only known through scarce articles with bthe description of new species. During four years, six sampling campaigns were conducted on the perennial rivers. The gain of this work is the knowledge of the epilithic diatom flora of Réunion Island perennial rivers and therefore the biodiversity of these environments. Moreover, the study of the diatom ecology by statistics, like Multivariable regression trees (MRT), IndVal and these extensions, Weighted Average (WA) allows acquire knowledge about their community ecology, their autoecology and accordingly on the quality of the river water. The results included in this thesis as well as the work done in collaboration with Irstea, led to a new index method, the Diatomic Index Réunion or IDR, to assess the ecological quality of rivers. Diatomées Bio-indicateur Cours d’eau Île de la Réunion Arbre de régression multivariable IndVal Diatoms Bioindicators Rivers Réunion Island Multivariable regression trees IndVal
3	L’arbre de régression multivariable et les modèles linéaires généralisés revisités : applications à l’étude de la diversité bêta et à l’estimation de la biomasse d’arbres tropicaux Ouellette, Marie-Hélène 04 1900 (has links) En écologie, dans le cadre par exemple d’études des services fournis par les écosystèmes, les modélisations descriptive, explicative et prédictive ont toutes trois leur place distincte. Certaines situations bien précises requièrent soit l’un soit l’autre de ces types de modélisation ; le bon choix s’impose afin de pouvoir faire du modèle un usage conforme aux objectifs de l’étude. Dans le cadre de ce travail, nous explorons dans un premier temps le pouvoir explicatif de l’arbre de régression multivariable (ARM). Cette méthode de modélisation est basée sur un algorithme récursif de bipartition et une méthode de rééchantillonage permettant l’élagage du modèle final, qui est un arbre, afin d’obtenir le modèle produisant les meilleures prédictions. Cette analyse asymétrique à deux tableaux permet l’obtention de groupes homogènes d’objets du tableau réponse, les divisions entre les groupes correspondant à des points de coupure des variables du tableau explicatif marquant les changements les plus abrupts de la réponse. Nous démontrons qu’afin de calculer le pouvoir explicatif de l’ARM, on doit définir un coefficient de détermination ajusté dans lequel les degrés de liberté du modèle sont estimés à l’aide d’un algorithme. Cette estimation du coefficient de détermination de la population est pratiquement non biaisée. Puisque l’ARM sous-tend des prémisses de discontinuité alors que l’analyse canonique de redondance (ACR) modélise des gradients linéaires continus, la comparaison de leur pouvoir explicatif respectif permet entre autres de distinguer quel type de patron la réponse suit en fonction des variables explicatives. La comparaison du pouvoir explicatif entre l’ACR et l’ARM a été motivée par l’utilisation extensive de l’ACR afin d’étudier la diversité bêta. Toujours dans une optique explicative, nous définissons une nouvelle procédure appelée l’arbre de régression multivariable en cascade (ARMC) qui permet de construire un modèle tout en imposant un ordre hiérarchique aux hypothèses à l’étude. Cette nouvelle procédure permet d’entreprendre l’étude de l’effet hiérarchisé de deux jeux de variables explicatives, principal et subordonné, puis de calculer leur pouvoir explicatif. L’interprétation du modèle final se fait comme dans une MANOVA hiérarchique. On peut trouver dans les résultats de cette analyse des informations supplémentaires quant aux liens qui existent entre la réponse et les variables explicatives, par exemple des interactions entres les deux jeux explicatifs qui n’étaient pas mises en évidence par l’analyse ARM usuelle. D’autre part, on étudie le pouvoir prédictif des modèles linéaires généralisés en modélisant la biomasse de différentes espèces d’arbre tropicaux en fonction de certaines de leurs mesures allométriques. Plus particulièrement, nous examinons la capacité des structures d’erreur gaussienne et gamma à fournir les prédictions les plus précises. Nous montrons que pour une espèce en particulier, le pouvoir prédictif d’un modèle faisant usage de la structure d’erreur gamma est supérieur. Cette étude s’insère dans un cadre pratique et se veut un exemple pour les gestionnaires voulant estimer précisément la capture du carbone par des plantations d’arbres tropicaux. Nos conclusions pourraient faire partie intégrante d’un programme de réduction des émissions de carbone par les changements d’utilisation des terres. / In ecology, in ecosystem services studies for example, descriptive, explanatory and predictive modelling all have relevance in different situations. Precise circumstances may require one or the other type of modelling; it is important to choose the method properly to insure that the final model fits the study’s goal. In this thesis, we first explore the explanatory power of the multivariate regression tree (MRT). This modelling technique is based on a recursive bipartitionning algorithm. The tree is fully grown by successive bipartitions and then it is pruned by resampling in order to reveal the tree providing the best predictions. This asymmetric analysis of two tables produces homogeneous groups in terms of the response that are constrained by splitting levels in the values of some of the most important explanatory variables. We show that to calculate the explanatory power of an MRT, an appropriate adjusted coefficient of determination must include an estimation of the degrees of freedom of the MRT model through an algorithm. This estimation of the population coefficient of determination is practically unbiased. Since MRT is based upon discontinuity premises whereas canonical redundancy analysis (RDA) models continuous linear gradients, the comparison of their explanatory powers enables one to distinguish between those two patterns of species distributions along the explanatory variables. The extensive use of RDA for the study of beta diversity motivated the comparison between its explanatory power and that of MRT. In an explanatory perspective again, we define a new procedure called a cascade of multivariate regression trees (CMRT). This procedure provides the possibility of computing an MRT model where an order is imposed to nested explanatory hypotheses. CMRT provides a framework to study the exclusive effect of a main and a subordinate set of explanatory variables by calculating their explanatory powers. The interpretation of the final model is done as in nested MANOVA. New information may arise from this analysis about the relationship between the response and the explanatory variables, for example interaction effects between the two explanatory data sets that were not evidenced by the usual MRT model. On the other hand, we study the predictive power of generalized linear models (GLM) to predict individual tropical tree biomass as a function of allometric shape variables. Particularly, we examine the capacity of gaussian and gamma error structures to provide the most precise predictions. We show that for a particular species, gamma error structure is superior in terms of predictive power. This study is part of a practical framework; it is meant to be used as a tool for managers who need to precisely estimate the amount of carbon recaptured by tropical tree plantations. Our conclusions could be integrated within a program of carbon emission reduction by land use changes. Arbre de régression multivariable diversité bêta modèle linéaire généralisé recapture du carbone Beta diversity carbon recapture generalized linear models multivariate regression tree tropical tree biomass estimation
4	L’arbre de régression multivariable et les modèles linéaires généralisés revisités : applications à l’étude de la diversité bêta et à l’estimation de la biomasse d’arbres tropicaux Ouellette, Marie-Hélène 04 1900 (has links) En écologie, dans le cadre par exemple d’études des services fournis par les écosystèmes, les modélisations descriptive, explicative et prédictive ont toutes trois leur place distincte. Certaines situations bien précises requièrent soit l’un soit l’autre de ces types de modélisation ; le bon choix s’impose afin de pouvoir faire du modèle un usage conforme aux objectifs de l’étude. Dans le cadre de ce travail, nous explorons dans un premier temps le pouvoir explicatif de l’arbre de régression multivariable (ARM). Cette méthode de modélisation est basée sur un algorithme récursif de bipartition et une méthode de rééchantillonage permettant l’élagage du modèle final, qui est un arbre, afin d’obtenir le modèle produisant les meilleures prédictions. Cette analyse asymétrique à deux tableaux permet l’obtention de groupes homogènes d’objets du tableau réponse, les divisions entre les groupes correspondant à des points de coupure des variables du tableau explicatif marquant les changements les plus abrupts de la réponse. Nous démontrons qu’afin de calculer le pouvoir explicatif de l’ARM, on doit définir un coefficient de détermination ajusté dans lequel les degrés de liberté du modèle sont estimés à l’aide d’un algorithme. Cette estimation du coefficient de détermination de la population est pratiquement non biaisée. Puisque l’ARM sous-tend des prémisses de discontinuité alors que l’analyse canonique de redondance (ACR) modélise des gradients linéaires continus, la comparaison de leur pouvoir explicatif respectif permet entre autres de distinguer quel type de patron la réponse suit en fonction des variables explicatives. La comparaison du pouvoir explicatif entre l’ACR et l’ARM a été motivée par l’utilisation extensive de l’ACR afin d’étudier la diversité bêta. Toujours dans une optique explicative, nous définissons une nouvelle procédure appelée l’arbre de régression multivariable en cascade (ARMC) qui permet de construire un modèle tout en imposant un ordre hiérarchique aux hypothèses à l’étude. Cette nouvelle procédure permet d’entreprendre l’étude de l’effet hiérarchisé de deux jeux de variables explicatives, principal et subordonné, puis de calculer leur pouvoir explicatif. L’interprétation du modèle final se fait comme dans une MANOVA hiérarchique. On peut trouver dans les résultats de cette analyse des informations supplémentaires quant aux liens qui existent entre la réponse et les variables explicatives, par exemple des interactions entres les deux jeux explicatifs qui n’étaient pas mises en évidence par l’analyse ARM usuelle. D’autre part, on étudie le pouvoir prédictif des modèles linéaires généralisés en modélisant la biomasse de différentes espèces d’arbre tropicaux en fonction de certaines de leurs mesures allométriques. Plus particulièrement, nous examinons la capacité des structures d’erreur gaussienne et gamma à fournir les prédictions les plus précises. Nous montrons que pour une espèce en particulier, le pouvoir prédictif d’un modèle faisant usage de la structure d’erreur gamma est supérieur. Cette étude s’insère dans un cadre pratique et se veut un exemple pour les gestionnaires voulant estimer précisément la capture du carbone par des plantations d’arbres tropicaux. Nos conclusions pourraient faire partie intégrante d’un programme de réduction des émissions de carbone par les changements d’utilisation des terres. / In ecology, in ecosystem services studies for example, descriptive, explanatory and predictive modelling all have relevance in different situations. Precise circumstances may require one or the other type of modelling; it is important to choose the method properly to insure that the final model fits the study’s goal. In this thesis, we first explore the explanatory power of the multivariate regression tree (MRT). This modelling technique is based on a recursive bipartitionning algorithm. The tree is fully grown by successive bipartitions and then it is pruned by resampling in order to reveal the tree providing the best predictions. This asymmetric analysis of two tables produces homogeneous groups in terms of the response that are constrained by splitting levels in the values of some of the most important explanatory variables. We show that to calculate the explanatory power of an MRT, an appropriate adjusted coefficient of determination must include an estimation of the degrees of freedom of the MRT model through an algorithm. This estimation of the population coefficient of determination is practically unbiased. Since MRT is based upon discontinuity premises whereas canonical redundancy analysis (RDA) models continuous linear gradients, the comparison of their explanatory powers enables one to distinguish between those two patterns of species distributions along the explanatory variables. The extensive use of RDA for the study of beta diversity motivated the comparison between its explanatory power and that of MRT. In an explanatory perspective again, we define a new procedure called a cascade of multivariate regression trees (CMRT). This procedure provides the possibility of computing an MRT model where an order is imposed to nested explanatory hypotheses. CMRT provides a framework to study the exclusive effect of a main and a subordinate set of explanatory variables by calculating their explanatory powers. The interpretation of the final model is done as in nested MANOVA. New information may arise from this analysis about the relationship between the response and the explanatory variables, for example interaction effects between the two explanatory data sets that were not evidenced by the usual MRT model. On the other hand, we study the predictive power of generalized linear models (GLM) to predict individual tropical tree biomass as a function of allometric shape variables. Particularly, we examine the capacity of gaussian and gamma error structures to provide the most precise predictions. We show that for a particular species, gamma error structure is superior in terms of predictive power. This study is part of a practical framework; it is meant to be used as a tool for managers who need to precisely estimate the amount of carbon recaptured by tropical tree plantations. Our conclusions could be integrated within a program of carbon emission reduction by land use changes. Arbre de régression multivariable diversité bêta modèle linéaire généralisé recapture du carbone Beta diversity carbon recapture generalized linear models multivariate regression tree tropical tree biomass estimation
5	Facteurs de risque de chutes chez les aînés vivant dans la communauté et ayant recours aux services de soutien à domicile : covariables dépendantes du temps et événements récurrents Leclerc, Bernard-Simon 09 1900 (has links) Les chutes chez les personnes âgées représentent un problème majeur. Il n’est donc pas étonnant que l’identification des facteurs qui en accroissent le risque ait mobilisé autant d’attention. Les aînés plus fragiles ayant besoin de soutien pour vivre dans la communauté sont néanmoins demeurés le parent pauvre de la recherche, bien que, plus récemment, les autorités québécoises en aient fait une cible d’intervention prioritaire. Les études d’observation prospectives sont particulièrement indiquées pour étudier les facteurs de risque de chutes chez les personnes âgées. Leur identification optimale est cependant compliquée par le fait que l’exposition aux facteurs de risque peut varier au cours du suivi et qu’un même individu peut subir plus d’un événement. Il y a 20 ans, des chercheurs ont tenté de sensibiliser leurs homologues à cet égard, mais leurs efforts sont demeurés vains. On continue aujourd’hui à faire peu de cas de ces considérations, se concentrant sur la proportion des personnes ayant fait une chute ou sur le temps écoulé jusqu’à la première chute. On écarte du coup une quantité importante d’information pertinente. Dans cette thèse, nous examinons les méthodes en usage et nous proposons une extension du modèle de risques de Cox. Nous illustrons cette méthode par une étude des facteurs de risque susceptibles d’être associés à des chutes parmi un groupe de 959 personnes âgées ayant eu recours aux services publics de soutien à domicile. Nous comparons les résultats obtenus avec la méthode de Wei, Lin et Weissfeld à ceux obtenus avec d’autres méthodes, dont la régression logistique conventionnelle, la régression logistique groupée, la régression binomiale négative et la régression d’Andersen et Gill. L’investigation est caractérisée par des prises de mesures répétées des facteurs de risque au domicile des participants et par des relances téléphoniques mensuelles visant à documenter la survenue des chutes. Les facteurs d’exposition étudiés, qu’ils soient fixes ou variables dans le temps, comprennent les caractéristiques sociodémographiques, l’indice de masse corporelle, le risque nutritionnel, la consommation d’alcool, les dangers de l’environnement domiciliaire, la démarche et l’équilibre, et la consommation de médicaments. La quasi-totalité (99,6 %) des usagers présentaient au moins un facteur à haut risque. L’exposition à des risques multiples était répandue, avec une moyenne de 2,7 facteurs à haut risque distincts par participant. Les facteurs statistiquement associés au risque de chutes incluent le sexe masculin, les tranches d’âge inférieures, l’histoire de chutes antérieures, un bas score à l’échelle d’équilibre de Berg, un faible indice de masse corporelle, la consommation de médicaments de type benzodiazépine, le nombre de dangers présents au domicile et le fait de vivre dans une résidence privée pour personnes âgées. Nos résultats révèlent cependant que les méthodes courantes d’analyse des facteurs de risque de chutes – et, dans certains cas, de chutes nécessitant un recours médical – créent des biais appréciables. Les biais pour les mesures d’association considérées proviennent de la manière dont l’exposition et le résultat sont mesurés et définis de même que de la manière dont les méthodes statistiques d’analyse en tiennent compte. Une dernière partie, tout aussi innovante que distincte de par la nature des outils statistiques utilisés, complète l’ouvrage. Nous y identifions des profils d’aînés à risque de devenir des chuteurs récurrents, soit ceux chez qui au moins deux chutes sont survenues dans les six mois suivant leur évaluation initiale. Une analyse par arbre de régression et de classification couplée à une analyse de survie a révélé l’existence de cinq profils distinctifs, dont le risque relatif varie de 0,7 à 5,1. Vivre dans une résidence pour aînés, avoir des antécédents de chutes multiples ou des troubles de l’équilibre et consommer de l’alcool sont les principaux facteurs associés à une probabilité accrue de chuter précocement et de devenir un chuteur récurrent. Qu’il s’agisse d’activité de dépistage des facteurs de risque de chutes ou de la population ciblée, cette thèse s’inscrit dans une perspective de gain de connaissances sur un thème hautement d’actualité en santé publique. Nous encourageons les chercheurs intéressés par l’identification des facteurs de risque de chutes chez les personnes âgées à recourir à la méthode statistique de Wei, Lin et Weissfeld car elle tient compte des expositions variables dans le temps et des événements récurrents. Davantage de recherches seront par ailleurs nécessaires pour déterminer le choix du meilleur test de dépistage pour un facteur de risque donné chez cette clientèle. / Falls in the elderly represent a major problem. It is therefore not surprising that the identification of factors that may increase the risk of falls has received much attention. Frailer seniors who need support to live in the community remained nonetheless poorly documented, although more recently, the Québec authorities have given high priority to interventions that target this population. Risk factors for falls are usually identified by observational prospective studies. Their optimal identification is however complicated by the fact that exposure may vary during the follow-up, and that an individual may experience more than one event. Twenty years ago, some researchers attempted to sensitize their peers in this respect, but their efforts were vain. Researchers continue today to neglect these considerations and to use improper statistical techniques, focusing on the proportion of fallers or the time to first fall. In doing so, we discard a significant amount of relevant information. In this thesis, we review the existing methods and propose a Cox hazards extension. We apply it in the study of potential fall-risk factors associated with 959 community-dwelling seniors using home-care services. Finally, we compare the results of the proposed Wei, Lin, & Weissfeld (WLW) method with those of several other techniques, notably the conventional logistic regression, the pooled logistic regression, the negative binomial regression and the Andersen & Gill regression. At baseline and every six months thereafter, participants were visited at home in order to ascertain information about potential risk factors. Falls were monitored by use of a calendar and monthly phone calls. Baseline exposure variables and updated time-varying exposures include socio-demographic characteristics, BMI, nutritional risk, gait and balance, alcohol consumption, home hazards, and medications. Almost all (99.6%) of participants showed at least one high risk factor. Exposure to multiple risks was frequent, with an average of 2.7 different high-risk factors per participant. The risk factors significantly associated to the risk of falling include male sex, age, history of falling, Berg balance score, BMI, use of benzodiazepines, number of home hazards and residential facility for seniors. Results demonstrate that the usual methods of analyzing risk factors for falling (any sort of fall as well as those leading to medical consultations) are inappropriate, as they produce considerable biases relative to the WLW model using time-dependent covariates. Bias for the considered effect measures comes from the manner in which the observed data (both measured exposures and health outcomes) was measured and defined as well as the way in which the statistical analysis took into account this information. An additional part of the thesis was undertaken to identify risk profiles of subjects regarding the recurrence of falling, defined as participants who reported at least two falls within six months of initial assessment at entry in the study. A classification and regression tree analysis classified the population into five groups differing in risk of recurrent falling, based on history of falls in the three months prior to the initial interview, Berg balance score, type of housing, and usual alcohol consumption in the six months preceding study entry. The relative risks varied from 0.7 to 5.1. A subsequent survival analysis showed that the length of time before becoming a recurrent faller varies among risk profiles. This thesis discusses highly topical subjects about a target population and a fall-risk screening activity which are priorities in the public health sector in Québec. We encourage researchers interested in the identification of risk of falls among the elderly to use the statistical method of Wei, Lin and Weissfeld because it takes into account updated time-varying exposures and multiple events. More research will be necessary to determine the best screening test for a given risk-factor in this setting and population. Analyse de survie benzodiazépines chutes accidentelles dépistage équilibre et motricité modèle de Cox risques environnementaux distribution binomiale négative risque nutritionnel personnes âgées facteurs de risque Accidental falls Cox model elderly environmental hazards home care services multiple classification analysis gait and balance public health intervention risk factors survival analysis
6	Facteurs de risque de chutes chez les aînés vivant dans la communauté et ayant recours aux services de soutien à domicile : covariables dépendantes du temps et événements récurrents Leclerc, Bernard-Simon 09 1900 (has links) Les chutes chez les personnes âgées représentent un problème majeur. Il n’est donc pas étonnant que l’identification des facteurs qui en accroissent le risque ait mobilisé autant d’attention. Les aînés plus fragiles ayant besoin de soutien pour vivre dans la communauté sont néanmoins demeurés le parent pauvre de la recherche, bien que, plus récemment, les autorités québécoises en aient fait une cible d’intervention prioritaire. Les études d’observation prospectives sont particulièrement indiquées pour étudier les facteurs de risque de chutes chez les personnes âgées. Leur identification optimale est cependant compliquée par le fait que l’exposition aux facteurs de risque peut varier au cours du suivi et qu’un même individu peut subir plus d’un événement. Il y a 20 ans, des chercheurs ont tenté de sensibiliser leurs homologues à cet égard, mais leurs efforts sont demeurés vains. On continue aujourd’hui à faire peu de cas de ces considérations, se concentrant sur la proportion des personnes ayant fait une chute ou sur le temps écoulé jusqu’à la première chute. On écarte du coup une quantité importante d’information pertinente. Dans cette thèse, nous examinons les méthodes en usage et nous proposons une extension du modèle de risques de Cox. Nous illustrons cette méthode par une étude des facteurs de risque susceptibles d’être associés à des chutes parmi un groupe de 959 personnes âgées ayant eu recours aux services publics de soutien à domicile. Nous comparons les résultats obtenus avec la méthode de Wei, Lin et Weissfeld à ceux obtenus avec d’autres méthodes, dont la régression logistique conventionnelle, la régression logistique groupée, la régression binomiale négative et la régression d’Andersen et Gill. L’investigation est caractérisée par des prises de mesures répétées des facteurs de risque au domicile des participants et par des relances téléphoniques mensuelles visant à documenter la survenue des chutes. Les facteurs d’exposition étudiés, qu’ils soient fixes ou variables dans le temps, comprennent les caractéristiques sociodémographiques, l’indice de masse corporelle, le risque nutritionnel, la consommation d’alcool, les dangers de l’environnement domiciliaire, la démarche et l’équilibre, et la consommation de médicaments. La quasi-totalité (99,6 %) des usagers présentaient au moins un facteur à haut risque. L’exposition à des risques multiples était répandue, avec une moyenne de 2,7 facteurs à haut risque distincts par participant. Les facteurs statistiquement associés au risque de chutes incluent le sexe masculin, les tranches d’âge inférieures, l’histoire de chutes antérieures, un bas score à l’échelle d’équilibre de Berg, un faible indice de masse corporelle, la consommation de médicaments de type benzodiazépine, le nombre de dangers présents au domicile et le fait de vivre dans une résidence privée pour personnes âgées. Nos résultats révèlent cependant que les méthodes courantes d’analyse des facteurs de risque de chutes – et, dans certains cas, de chutes nécessitant un recours médical – créent des biais appréciables. Les biais pour les mesures d’association considérées proviennent de la manière dont l’exposition et le résultat sont mesurés et définis de même que de la manière dont les méthodes statistiques d’analyse en tiennent compte. Une dernière partie, tout aussi innovante que distincte de par la nature des outils statistiques utilisés, complète l’ouvrage. Nous y identifions des profils d’aînés à risque de devenir des chuteurs récurrents, soit ceux chez qui au moins deux chutes sont survenues dans les six mois suivant leur évaluation initiale. Une analyse par arbre de régression et de classification couplée à une analyse de survie a révélé l’existence de cinq profils distinctifs, dont le risque relatif varie de 0,7 à 5,1. Vivre dans une résidence pour aînés, avoir des antécédents de chutes multiples ou des troubles de l’équilibre et consommer de l’alcool sont les principaux facteurs associés à une probabilité accrue de chuter précocement et de devenir un chuteur récurrent. Qu’il s’agisse d’activité de dépistage des facteurs de risque de chutes ou de la population ciblée, cette thèse s’inscrit dans une perspective de gain de connaissances sur un thème hautement d’actualité en santé publique. Nous encourageons les chercheurs intéressés par l’identification des facteurs de risque de chutes chez les personnes âgées à recourir à la méthode statistique de Wei, Lin et Weissfeld car elle tient compte des expositions variables dans le temps et des événements récurrents. Davantage de recherches seront par ailleurs nécessaires pour déterminer le choix du meilleur test de dépistage pour un facteur de risque donné chez cette clientèle. / Falls in the elderly represent a major problem. It is therefore not surprising that the identification of factors that may increase the risk of falls has received much attention. Frailer seniors who need support to live in the community remained nonetheless poorly documented, although more recently, the Québec authorities have given high priority to interventions that target this population. Risk factors for falls are usually identified by observational prospective studies. Their optimal identification is however complicated by the fact that exposure may vary during the follow-up, and that an individual may experience more than one event. Twenty years ago, some researchers attempted to sensitize their peers in this respect, but their efforts were vain. Researchers continue today to neglect these considerations and to use improper statistical techniques, focusing on the proportion of fallers or the time to first fall. In doing so, we discard a significant amount of relevant information. In this thesis, we review the existing methods and propose a Cox hazards extension. We apply it in the study of potential fall-risk factors associated with 959 community-dwelling seniors using home-care services. Finally, we compare the results of the proposed Wei, Lin, & Weissfeld (WLW) method with those of several other techniques, notably the conventional logistic regression, the pooled logistic regression, the negative binomial regression and the Andersen & Gill regression. At baseline and every six months thereafter, participants were visited at home in order to ascertain information about potential risk factors. Falls were monitored by use of a calendar and monthly phone calls. Baseline exposure variables and updated time-varying exposures include socio-demographic characteristics, BMI, nutritional risk, gait and balance, alcohol consumption, home hazards, and medications. Almost all (99.6%) of participants showed at least one high risk factor. Exposure to multiple risks was frequent, with an average of 2.7 different high-risk factors per participant. The risk factors significantly associated to the risk of falling include male sex, age, history of falling, Berg balance score, BMI, use of benzodiazepines, number of home hazards and residential facility for seniors. Results demonstrate that the usual methods of analyzing risk factors for falling (any sort of fall as well as those leading to medical consultations) are inappropriate, as they produce considerable biases relative to the WLW model using time-dependent covariates. Bias for the considered effect measures comes from the manner in which the observed data (both measured exposures and health outcomes) was measured and defined as well as the way in which the statistical analysis took into account this information. An additional part of the thesis was undertaken to identify risk profiles of subjects regarding the recurrence of falling, defined as participants who reported at least two falls within six months of initial assessment at entry in the study. A classification and regression tree analysis classified the population into five groups differing in risk of recurrent falling, based on history of falls in the three months prior to the initial interview, Berg balance score, type of housing, and usual alcohol consumption in the six months preceding study entry. The relative risks varied from 0.7 to 5.1. A subsequent survival analysis showed that the length of time before becoming a recurrent faller varies among risk profiles. This thesis discusses highly topical subjects about a target population and a fall-risk screening activity which are priorities in the public health sector in Québec. We encourage researchers interested in the identification of risk of falls among the elderly to use the statistical method of Wei, Lin and Weissfeld because it takes into account updated time-varying exposures and multiple events. More research will be necessary to determine the best screening test for a given risk-factor in this setting and population. Analyse de survie benzodiazépines chutes accidentelles dépistage équilibre et motricité modèle de Cox risques environnementaux distribution binomiale négative risque nutritionnel personnes âgées facteurs de risque Accidental falls Cox model elderly environmental hazards home care services multiple classification analysis gait and balance public health intervention risk factors survival analysis

1

Page generated in 0.0946 seconds