Global ETD Search

1	Adapting recent statistical techniques to the study of nutrition in Vietnam / Adaptation de techniques statistiques récentes à l'étude de la nutrition au Vietnam Trinh, Thi Huong 09 July 2018 (has links) L'objectif de cette thèse est d'adapter des méthodes récentes de statistique pour apporter une vision nouvelle de la transition nutritionnelle au Vietnam. Chapitre 1, nous faisons une brève introduction. Nous considérons que le Vietnam est une étude pilote sur le problème de la nutrition. Chapitre 2, nous revenons sur la question de l'estimation de la relation entre la prise de calories par personne et le revenu en utilisant six vagues de l'enquête VHLSS Survey sur la période 2004-2014. Nous adoptons plutôt la famille des modèles généralisés additifs (GAM) dans lesquels seul le revenu intervient de façon non linéaire. Nous comparons ces modèles avec une procédure récente. Les résultats mettent en relief une réponse forte de la prise de calories à un accroissement du revenu pour les foyers les plus pauvres. Chapitre 3, nous utilisons des méthodes de décomposition pour évaluer les déterminants des changements de consommation de macronutriments au Vietnam en utilisant les vagues 2004 et 2014. La méthode de décomposition récente proposée par Rothe (2015) a pour but de poursuivre la décomposition plus loin en décomposant l'effet de composition en trois composantes: la contribution directe de chaque covariable, plusieurs effets d'interaction d'ordre deux ou supérieur et un effet de la dépendance. Rothe utilise des copules pour modéliser les effets de dépendance. Chapitre 4, nous nous concentrons sur la composition de la diète en modélisant les proportions de protéines, de matières grasses et de glucides dans la prise moyenne de calories par personne. Nous utilisons des outils descriptifs pour montrer l'évolution des trois composantes au travers du temps et modélisons ensuite la consommation de macronutriments en fonction des caractéristiques des ménages avec des modèles de régression pour données de composition. Nous établissons la formule permettant le calcul des semi-elasticités de la consommation de macronutriments par rapport à la dépense totale de nourriture. Chapitre 5, nous nous penchons sur la relation entre les parts de macronutriments et l'indice de masse corporelle (IMC). Nous construisons un modèle de régression compositionnelle incluant un total pour expliquer les quantiles de l'indice de masse corporelle. Nous calculons ensuite les élasticités de l'IMC par rapport à chaque macronutriment. Notre travail est basé sur l'utilisation de la base de données de l'enquête GNS 2009-2010. Les résultats révèlent d'abord des effets significatifs de facteurs socio-économiques. / The objective of this thesis is to adapt recent statistical techniques and to bring new insights on the nutritional transition in Vietnam. Vietnam is a lower middle income country but it now faces the double burden of malnutrition characterized by the coexistence of undernutrition along with overweight and obesity, or diet-related noncommunicable diseases. Chapter 1 gives a brief introduction to this thesis. We consider Vietnam is a pilot case study about nutrition. Chapter 2, we revisit the issue of estimating the relationship between per capita calorie intake and income using six waves of the Vietnam Household Living Standard Survey over the period 2004-2014. Characterizing the response of calorie intake to income for the poorest households is a prerequisite for considering policies aimed at reducing starvation and correcting nutritional deficiencies. The classical log-log specification does not capture the nonlinearity of this relationship. We adopt rather various generalized additive models (GAM) specifications where only income is supposed to act in a nonlinear fashion and compare them with a recent procedure. The results highlight the strong response of calorie intake to an increase in income for the poorest households. A byproduct of the proposed methodology is the decomposition of the evolution of average calorie intake between the two waves into the part due to the change of population characteristics distributions and those coming from the change in calorie-income relationship, shedding new light on the nutritional transition in Vietnam. Chapter 3, we use decomposition methods to assess the determinants of changes in macronutrients consumption in Vietnam using the 2004 and 2014 waves. The common objective of decomposition methods is to decompose between-group differences in economic outcomes such as wage or income, into two components: a composition effect due to differences in observable covariates across groups, and a structure effect due to differences in the relationship that links the covariates to the considered outcome. The recent decomposition procedure proposed by Rothe (2015) aims at decomposing further the composition effect into three types of components: the direct contribution of each covariate, several two way and higher order interaction effects and a dependence. Rothe (2015) uses a parametric copula to model the dependence effects and we adapt this approach to the case of a mixture of continuous and discrete covariates. Chapter 4, we focus on food composition in terms of diet components. We consider modeling the proportions of protein, fat and carbohydrate in the average per capita calorie intake. We use descriptive tools, such as compositional biplots and ternary diagrams, to show the evolution of the three components over the years and then model macronutrients composition as a function of household characteristics, using compositional regression models. We derive the expression of the semi-elasticities of macronutrients shares with respect to food expenditure. We then compare the interpretations of these shares semi-elasticities to that of volumes of macronutrients and of total calorie intake obtained using classical linear models. Chapter 5, we focus on the relationship between macronutrient balances and body mass index. We develop a compositional regression model including a total at various quantile orders. We then compute the elasticities of BMI with respect to each macronutrient and to the total consumption. Our empirical research is based on the General Nutrition Survey 2009-2010. The results first reveal significant impacts of some socio--economics factors. All elasticities of BMI with respect to each macronutrient increase as BMI increases until a threshold (BMI=20) and then remain stable. Chapter 6, we briefly give our perspectives of future research in both mathematics and nutrition. Méthodes statistiques
2	Nouveau cadre statistique pour la cartographie-fine Accrachi, El Hadji Ousseynou 11 February 2021 (has links) Des études d’association à l’échelle du génome (GWAS) ont permis l’identification de milliers de régions du génome comportant des variants génétiques associés à des traits et qui peuvent être à l’origine de certaines maladies complexes. Cependant faire des tests biologiques pour tous les variants génétiques découverts à l’aide de GWAS est pratiquement impossible. Ainsi, les études de cartographie-fine visent à déterminer un ensemble cible de variants génétiques susceptibles d’être associés à un trait d’intérêt. Les principales difficultés pour les méthodes statistiques pour la cartographie-fine sont la présence de milliers de variants génétiques pour seulement une centaine d’individus et la présence d’une forte structure de corrélation, ou déséquilibre de liaison (LD) entre les variants génétiques. Il existe de nombreuses contributions dans les études de cartographie-fine notamment CAVIAR [19], CAVIAR-Gene [30], PAINTOR [28], fastPAINTOR [27] etc. Ces études se basent sur des méthodes statistiques de sélection d’un ensemble crédible de variants génétiques pour aider à prioriser les variants et à discerner les conséquences fonctionnelles du risque de maladies des variants sélectionnés. Dans ce mémoire, nous proposons un nouveau cadre statistique avec une procédure de sélection de variants génétiques (SNPs). Nous utilisons une méthode conditionnelle ou bayésienne pour identifier les SNPs susceptibles d’être causaux. Ainsi la statistique d’association d’un SNP est réécrite et sa loi asymptotique est déterminée. Notre procédure de sélection est itérative et grâce à une loi a priori, elle calcule les probabilités a posteriori pour qu’un SNP soit significatif pour le trait d’intérêt. À chaque étape les statistiques d’association des SNPs sont calculées et le SNP avec la plus forte probabilité a posteriori est choisi. Dans nos simulations, nous montrons que la correction sur la loi asymptotique de la statistique d’association apporte une amélioration significative dans la sélection des SNPs qui ont un lien avec le trait d’intérêt Génétique -- Méthodes statistiques. Variabilité génétique.
3	Comparaison de la puissance statistique et de la valeur entre les stratégies adaptatives de traitement et les stratégies partiellement adaptatives de traitement Magassouba, Mamady 22 July 2022 (has links) La médecine personnalisée est un domaine en pleine croissance, qui met l'accent sur l'utilisation de l'historique des informations individuelles des patients afin d'optimiser des stratégies de traitement adaptées à chaque patient ou groupe de patients ayant les mêmes caractéristiques. Plusieurs méthodes d'estimation dites de stratégies de traitement adaptatives (ATS) existent, telles que les méthodes Q-learning, DWOLS et G-estimation. Ces méthodes nécessitent des interactions entre toutes les caractéristiques pertinentes des patients et le traitement pour produire des estimations non biaisées. En pratique, il n'est pas toujours désirable d'établir des règles de décisions adaptatives dépendant de plusieurs variables. De nouvelles méthodes d'estimation plus réalistes, appelées méthodes de stratégies de traitement partiellement adaptatives (PATS) ont été conçues, par exemple la méthode CE-DWOLS. Elles permettent de personnaliser les décisions de traitements à l'aide d'un sous-ensemble de caractéristiques des patients. Notre objectif est de savoir s'il y a un intérêt statistique à utiliser les PATS. Pour cela, nous comparons la puissance statistique et la valeur entre les méthodes Q-learning et DWOLS des ATS et la méthode CE-DWOLS des PATS. Plus précisément, des études de simulations ont été effectuées considérant neuf scénarios produisant chacun 1000 réplications de la puissance et la valeur de ces méthodes d'estimation. Les résultats de nos simulations montrent que la méthode CE-DWOLS des PATS bénéficie d'une plus grande puissance statistique à détecter des termes d'interaction covariable-traitement que les méthodes Q-learning et DWOLS des ATS. Par contre, la valeur des PATS optimales estimées par la méthode CE-DWOLS est en moyenne inférieure à celles des ATS optimales estimées avec les méthodes Q-learning et DWOLS. Les valeurs des PATS optimales sont aussi plus variables que celles des ATS. Enfin, une application sur des données réelles issues de la banque de données du cancer du sein du Centre des Maladies du Sein (CSM) a été réalisée. Il en ressort qu'en ce qui concerne la puissance, la méthode Q-learning des ATS performe mieux que les méthodes DWOLS des ATS et CE-DWOLS des PATS. Quant à la variabilité de la valeur, la méthode CE-DWOLS des PATS montre une plus grande variabilité par rapport aux méthodes des ATS. En conclusion, les résultats de notre étude indiquent que les bénéfices d'utiliser les PATS plutôt que les ATS sont variables, à la fois en termes de puissance statistique que de valeur des stratégies optimales estimées. / Personalized medicine is a growing field that focuses on using individual patient information history to optimize treatment strategies tailored to each patient or group of patients with the same characteristics. Several so-called adaptive treatment strategy (ATS) estimation methods exist, such as Q-learning, DWOLS, and G-estimation methods. These methods require interactions between all relevant patient characteristics and treatment to produce unbiased estimates. In practice, it is not always desirable to establish adaptive decision rules that depend on multiple variables. New, more realistic estimation methods, called partially adaptive treatment strategies (PATS) methods, have been developed, for example the CE-DWOLS method. These methods allow treatment decisions to be personalized using a subset of patient characteristics. Our objective is to find out whether there is statistical value in using PATS. To do so, we compare the statistical power and value between the Q-learning and DWOLS methods of ATS and the CE-DWOLS method of PATS. Specifically, simulation studies were performed considering nine scenarios each producing 1000 replications of the power and value of these estimation methods. Our simulation results show that the PATS CE-DWOLS method enjoys greater statistical power in detecting covariate-treatment interaction terms than the Q-learning and DWOLS methods of ATS. On the other hand, the value of optimal PATS estimated by the CE-DWOLS method is on average lower than those of optimal ATS estimated with the Q-learning and DWOLS methods. The values of the optimal PATS are also more variable than those of the ATS. Finally, an application on real data from the breast cancer database of the Breast Disease Center (BDC) was performed. It was found that with respect to power, the ATS Q-learning method performed better than the ATS DWOLS and PATS CE-DWOLS methods. As for the variability of the value, the PATS CE-DWOLS method shows greater variability compared to the ATS methods. In conclusion, the results of our study indicate that the benefits of using PATS rather than ATSs are variable, both in terms of statistical power and the value of the estimated optimal strategies.
4	Contributions à la conception géomécanique des chantiers à l'aide d'approches statistiques : le cas de la mine Éléonore Guido, Sebastien 15 April 2019 (has links) L’ensemble des mines – et particulièrement celles exploitant un gisement filonien ou de faible puissance – sont très sensibles à la problématique de la dilution minière (i.e ., bris hors-profil de l’éponte supérieure). En effet, puisque cette dilution est généralement de faible teneur, le matériel qui se retrouve dans les chantiers miniers peut ne pas permettre de compenser les coûts associés au minage et par conséquent, la rentabilité de l’opération peut en être affectée. Ceci est particulièrement vrai lorsque la teneur de la dilution se situe sous le seuil de rentabilité (i.e., teneur de coupure). Par ailleurs, lorsque des effondrements (dilution) surviennent pendant les activités de soutirage, ceci représente un risque important pour les équipements mobiles (e.g., chargeuse-navette). Nombreux sont les chercheurs qui ont travaillé à développer et à améliorer les abaques de stabilité et critères de conception de chantiers, mais leur efficacité à prédire le bris hors-profil est souvent faible. Néanmoins, ces outils demeurent très utiles pour les projets sur sites vierges (« greenfield projects »), mais dès lors que les conditions géomécaniques d’un site deviennent mieux comprises, il importe de corriger et d’optimiser ces critères de conception afin de mieux représenter la réalité de l’opération minière. Ce mémoire expose donc la méthodologie employée afin de quantifier le bris hors-profil provenant des différentes surfaces des chantiers (i.e., épontes, toit, murs) exploités par la méthode de chambre vide. Une comparaison entre les performances réelles et celles prédites par les modèles couramment utilisés dans l’industrie a été effectuée. À l’aide de méthodes statistiques univariées et bivariées, les paramètres affectant le bris hors-profil peuvent être déterminés objectivement. L’élaboration de nouveaux modèles statistiques permet également d’accroître la fiabilité des prédictions (i.e., le bris hors-profil) et fournit des outils permettant d’assister les ingénieurs dans la conception et le dimensionnement des chantiers miniers. La mine Éléonore de Goldcorp a servi de cas d’étude afin de démontrer la validité d’une telle démarche. TN 7.5 UL 2019 Mécanique des sols
5	Établissement d'une courbe de correction des précipitations solides en fonction de l'intensité du vent et validation par l'utilisation de modèles de simulation de la couverture de neige Therrien, Charles 11 April 2018 (has links) Les précipitomètres tendent à sous-estimer les précipitations solides en présence de vent. Ces pertes sont typiquement évaluées en faisant le rapport des observations d'un précipitomètre sur celles d'un appareil plus précis, le Double-Fence Intercomparison Reference (DFIR). Pour des événements de faible précipitation, de petites erreurs dans les observations du DFIR peuvent induire des erreurs importantes dans le rapport de captage des mesures du précipitomètre sur les observations du DFIR. Pour cette raison, les événements de précipitation de moins de 3 mm sont généralement rejetés avant de réaliser une analyse de régression. Nous avons démontré qu'il était possible de déterminer une courbe de correction utilisant toutes les observations par la méthode des moindres carrés pondérés et par la méthode de maximum de vraisemblance (avec estimations locale et globale). L'utilisation de modèles de simulation de la couverture de neige a montré que les résultats utilisant les données corrigées sont nettement meilleurs. / Automatic precipitation gauges tend to underestimate solid precipitation in the presence of wind. These losses are typically evaluated by submitting the ratio of the gauge observations on those of a more accurate apparatus, the Double-Fence Intercomparison Reference (DFIR). For small precipitation events, small errors in the DFIR observations can induce important errors in the catch ratio of gauge measurements to the DFIR observations. For this reason, events of less than 3 mm are generally rejected before performing a regression analysis. In this report, we showed that it was possible to determine a correction curve using all the observations by the method of weighted least squares and by the method of maximum likelihood (using local and global estimations). The use of snow cover simulation models showed that the results using the corrected data are definitely better. TA 7.5 UL 2005 T412 Vents -- Vitesse
6	Comparaison de la puissance de tests de déséquilibre de liaison dans les études génétiques Jomphe, Valérie 12 April 2018 (has links) Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2006-2007 / L'identification du gène responsable d'une maladie peut être facilitée par des méthodes statistiques telles que des études d'association basées sur le déséquilibre de liaison. Différentes stratégies d'analyse sont possibles pour ce type d'étude. Comme pour les tests d'association classiques, un devis d'échantillonnage de cas-témoins peut être utilisé. Un deuxième devis possible est l'échantillonnage de trios. On peut également choisir d'étudier l'association allélique ou haplotypique des marqueurs génétiques sélectionn és. La présente étude vise à comparer par voie de simulation la puissance de tests de déséquilibre de liaison selon la stratégie d'analyse choisie. Dans un premier temps, on s'est intéressé à la comparaison des devis d'échantillonnage cas-témoins et trios ; dans un deuxième temps, on a comparé les approches allélique et haplotypique. QA 3.5 UL 2006 Génétique -- Méthodes statistiques
7	Analyse statistique des facteurs climatiques et géomorphologiques associés aux mouvements de terrain dans les argiles des mers post-glaciaires au Québec méridional Poulin Leboeuf, Laurence 17 February 2021 (has links) Lors des 14 dernières années, plus d'une centaine de demandes d'assistance technique concernant des mouvements de terrain au Québec méridional sont adressées chaque année aux autorités gouvernementales. Parmi les cas signalés, la majorité d'entre eux survienne à l'intérieur des limites de la transgression marine post-glaciaire où vit près de 90 % de la population québécoise. Étant donnée leur importance dans la province et les conséquences qu'ils peuvent engendrer, ces mouvements ont fait l'objet jusqu'à présent de nombreuses études pour la plupart orientées sur les aspects géotechniques du problème. Les études statistiques et géomorphologiques demeurent très fragmentaires et peu de données sont disponibles afin de dresser un portrait de l'occurrence des mouvements de terrain au Québec selon les différentes périodes de l'année ou pour cerner les facteurs climatiques et géomorphologiques en cause. La réalisation de ce mémoire a été rendue possible grâce à l'utilisation d'une base de données très complète élaborée au fil des ans par la Section des mouvements de terrain du ministère des Transports du Québec, laquelle compte 4165 cas documentés. L'objectif principal de cette recherche est de dresser un portrait statistique général des mouvements de terrain et des circonstances ou facteurs causaux qui leur sont associés, à l'aide d'analyses statistiques et descriptives de leurs contextes géomorphologiques, spatiaux et temporels. Les résultats obtenus démontrent que de 1970 à 2017, la Montérégie, Lanaudière et la Mauricie sont les régions les plus affectées par les mouvements de sol et que la période de l'année la plus propice débute au mois d'avril et se termine au mois de juin. Ces mêmes résultats démontrent que les glissements superficiels sont plus fréquents que les glissements rotationnels. Toutefois, un inventaire ciblé des cicatrices de glissements de terrain effectué en 2017 dans la MRC de Maskinongé a permis de démontrer que les tendances générales observées à l'échelle provinciale peuvent différer de celles observées à l'échelle locale, en raison de la géomorphologie et des conditions géotechniques spécifiques à chaque secteur. Les données ont aussi été examinées pour identifier de possibles effets de purge et d'amplification du phénomène en fonction de certains IV événements climatiques majeurs. Seuls des signes d'effet de purge ont été observés à la suite de l'accumulation de neige en 2008 et des apports en eau exceptionnels du printemps 2017. En somme, les effets de purge et d'amplification sont des phénomènes difficiles à détecter à l'aide de statistiques générales seulement. Des recherches ciblées à un secteur précis et sur plusieurs années consécutives pourraient toutefois offrir des résultats plus probants.
8	Tests d'association génétique pour des durées de vie en grappes Leclerc, Martin 23 April 2018 (has links) Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2015-2016 / Les outils statistiques développés dans cette thèse par articles visent à détecter de nouvelles associations entre des variants génétiques et des données de survie en grappes. Le développement méthodologique en analyse des durées de vie est aujourd'hui ininterrompu avec la prolifération des tests d'association génétique et, de façon ultime, de la médecine personnalisée qui est centrée sur la prévention de la maladie et la prolongation de la vie. Dans le premier article, le problème suivant est traité : tester l'égalité de fonctions de survie en présence d'un biais de sélection et de corrélation intra-grappe lorsque l'hypothèse des risques proportionnels n'est pas valide. Le nouveau test est basé sur une statistique de type Cramérvon Mises. La valeur de p est estimée en utilisant une procédure novatrice de bootstrap semiparamétrique qui implique de générer des observations corrélées selon un devis non-aléatoire. Pour des scénarios de simulations présentant un écart vis-à-vis l'hypothèse nulle avec courbes de survie qui se croisent, la statistique de Cramer-von Mises offre de meilleurs résultats que la statistique de Wald du modèle de Cox à risques proportionnels pondéré. Le nouveau test a été utilisé pour analyser l'association entre un polymorphisme nucléotidique (SNP) candidat et le risque de cancer du sein chez des femmes porteuses d'une mutation sur le gène suppresseur de tumeur BRCA2. Un test d'association sequence kernel (SKAT) pour détecter l'association entre un ensemble de SNPs et des durées de vie en grappes provenant d'études familiales a été développé dans le deuxième article. La statistique de test proposée utilise la matrice de parenté de l'échantillon pour modéliser la corrélation intra-famille résiduelle entre les durées de vie via une copule gaussienne. La procédure de test fait appel à l'imputation multiple pour estimer la contribution des variables réponses de survie censurées à la statistique du score, laquelle est un mélange de distributions du khi-carré. Les résultats de simulations indiquent que le nouveau test du score de type noyau ajusté pour la parenté contrôle de façon adéquate le risque d'erreur de type I. Le nouveau test a été appliqué à un ensemble de SNPs du locus TERT. Le troisième article vise à présenter le progiciel R gyriq, lequel implante une version bonifiée du test d'association génétique développé dans le deuxième article. La matrice noyau identical-by-state (IBS) pondérée a été ajoutée, les tests d'association génétique actuellement disponibles pour des variables réponses d'âge d'apparition ont été brièvement revus de pair avec les logiciels les accompagnant, l'implantation du progiciel a été décrite et illustrée par des exemples. / The statistical tools developed in this manuscript-based thesis aim at detecting new associations between genetic variants and clustered survival data. Methodological development in lifetime data analysis is today ongoing with the proliferation of genetic association testing and, ultimately, personalized medicine which focuses on preventing disease and prolonging life. In the first paper, the following problem is considered: testing the equality of survival functions in the presence of selection bias and intracluster correlation when the assumption of proportional hazards does not hold. The new proposed test is based on a Cramér-von Mises type statistic. The p-value is approximated using an innovative semiparametric bootstrap procedure which implies generating correlated observations according to a non-random design. For simulation scenarios of departures from the null hypothesis with crossing survival curves, the Cramer-von Mises statistic clearly outperformed the Wald statistic from the weighted Cox proportional hazards model. The new test was used to analyse the association between a candidate single nucleotide polymorphism (SNP) and breast cancer risk in women carrying a mutation in the BRCA2 tumor suppressor gene. A sequence kernel association test (SKAT) to detect the association between a set of genetic variants and clustered survival outcomes from family studies is developed in the second manuscript. The proposed statistic uses the kinship matrix of the sample to model the residual intra-family correlation between survival outcomes via a Gaussian copula. The test procedure relies on multiple imputation to estimate the contribution of the censored survival outcomes to the score statistic which is a mixture of chi-square distributions. Simulation results show that the new kinship-adjusted kernel score test controls adequately for the type I error rate. The new test was applied to a set of SNPs from the TERT locus. The third manuscript aims at presenting the R package gyriq which implements an enhanced version of the genetic association test developed in the second manuscript. The weighted identical-by-state (IBS) kernel matrix is added, genetic association tests and accompanying software currently available for age-at-onset outcomes are briefly reviewed, the implementation of the package is described, and illustrated through examples. QA 3.5 UL 2016 Génétique -- Méthodes statistiques
9	Étude des algorithmes de stratification et illustration utilisant la réalisation de l'enquête sur le recrutement, l'emploi et les besoins de formation au Québec en 2015, l'EREFEQ 2015 Houimli, Oussama 07 December 2020 (has links) Dans un plan stratifié, le calcul des bornes de strates peut se faire de plusieurs façons. On peut se fier à un jugement personnel et séparer les unités de la population en se basant sur la distribution de la variable de stratification. D’autres méthodes scientifiques et rigoureuses donnent un meilleur résultat, dont les algorithmes de cum √f, Sethi et Kosak. Pour les populations asymétriques, telles que retrouvées dans les enquêtes entreprises, l’utilisation d’une strate recensement permet de diminuer la taille d’échantillon et donner des estimations plus fiables. Parfois, la variable de stratification utilisée dans l’élaboration du plan de sondage ne garantit pas l’obtention de la précision cible pour toutes les variables d’intérêt de l’enquête. Utiliser la variable d’intérêt la plus difficile à estimer, comme variable de stratification, permet de garantir un CV cible minimal pour toutes les autres variables, mais engendre des grandes tailles d’échantillon. / In a stratified sampling design, the calculation of the stratum boundaries can be done in several ways. We can rely on personal judgment and separate the units of the population based on the distribution of the stratification variable. Other scientific and rigorous methods give a better result, including the algorithms of cum √f, Sethi and Kosak. For asymmetric populations, as found in the business surveys, the use of a census stratum reduces the sample size and gives more reliable estimates. Univariate methods, those that use a single stratification variable in calculating the boundaries, do not guarantee that the target precision will be obtained for all the variables of interest in the survey. Using the variable of interest that is the most difficult to estimate, as a stratification variable, makes it possible to guarantee a minimum target CV for all the other variables, but generates large sample sizes. Ensembles stratifiés. Algorithmes. Variables (Mathématiques)
10	Regroupement optimal d'objets à l'intérieur d'un nombre imposé de classes de taille égale Emond, David 19 April 2018 (has links) Dans ce mémoire, on considère la situation où l’on désire grouper des objets dans un nombre prédéterminé de classes de même cardinal. Le choix de la composition des classes est basé sur des critères de minimisation de la variance intragroupe ou de maximisation de la similarité intragroupe. Trois méthodes sont développées pour obtenir le regroupement optimal selon l'un de ces critères. Les deux premières approches consistent à diviser le problème global de classification en plusieurs sous-problèmes, respectivement selon les valeurs prises des variables d’intérêt et selon un aspect probabiliste. La troisième méthode utilise des propriétés de la loi stationnaire des chaînes de Markov. Les trois techniques sont utilisées pour tenter de trouver le regroupement optimal pour classer géographiquement les équipes de la Ligue nationale de hockey en six divisions de cinq équipes. Des études de simulation permettent de mesurer l'efficacité des méthodes. / This master's thesis is structured around the case in which we want to classify objects into a specific number of clusters of the same size. The choice of clusters to form is determined by minimizing the within-cluster variance or maximizing the within-cluster similarity. Three methods were developed to obtain the optimal clustering according to these two criterions. The first two approaches consist in splitting up the clustering problem in several sub-problems, one in a quantitative way and the other in a probabilistic way. The third method uses properties of the Markov chain limiting probabilities. The three methods are used to try to find the optimal geographic clustering to class the thirty National hockey league teams into six divisions of five teams. The efficiency of those approaches is assessed with simulations. QA 3.5 UL 2013 Ligue nationale de hockey Classification -- Méthodes statistiques

Search results