Spelling suggestions: "subject:"statistique""
71 |
Text prediction for translatorsFoster, George January 2002 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
72 |
Méthodes statistiques d'ajustement pour les facteurs confondants en évaluation économiqueJulmiste, Gaetane Raymonde 14 November 2024 (has links)
Ajuster adéquatement pour les variables confondantes est une problématique majeure en économie de la santé. Différentes méthodes ont été proposées. Les études qui ont comparé ces méthodes l'ont rarement fait à partir de données simulées, mais plutôt sur la base d'arguments conceptuels. Notre étude visait ainsi à réaliser des simulations de Monte-Carlo pour comparer les méthodes les plus recommandées dans la littérature telles que la régression par le bénéfice monétaire net et les régressions apparemment indépendantes, en générant des données pour les réponses en log-linéaire et linéaire. Nous avons estimé l'effet causal sous la forme d'un rapport de coût-efficacité différentiel et d'un bénéfice monétaire net, soit pour la population générale, soit chez les traités, afin de déterminer les méthodes qui contrôlent le mieux le biais en utilisant divers scénarios où la taille d'échantillon et les corrélations variaient. Seul la méthode d'appariement complet sur le score de propension ajusté pour tous les confondants permettait d'obtenir un biais faible. Des analyses supplémentaires ont permis de déterminer que lorsque les réponses sont générées selon des modèles log-linéaires, la modélisation linéaire de ces réponses induit un biais. Ce biais n'était pas atténué par la modélisation des confondants à l'aide de splines cubiques, alors qu'il était résorbé en utilisant l'estimation ciblée par maximum de vraisemblance couplé à l'apprentissage machine, d'autant que les coûts soient ajustés pour leurs propres confondants ainsi que les confondants simultanés des coûts et de l'efficacité, et que l'efficacité soit ajustée pour ses propres confondants et les confondants simultanés des coûts et de l'efficacité. Puisque les réponses en évaluation économique sont potentiellement souvent log-linéaires, nous recommandons l'utilisation de l'appariement complet en ajustant pour tous les confondants, ou l'utilisation d'apprentissage machine pour modéliser les réponses où chaque réponse est ajustée pour ses confondants et les confondants simultanés du coût et de l'efficacité. / Adjusting for confounding variables is a major issue in health economics. Various methods have been proposed. Studies that have compared these methods have rarely done so on the basis of simulated data, but rather on the basis of conceptual arguments. The aim of our study was therefore to carry out Monte Carlo simulations to compare the methods most recommended in the literature, such as regression by net monetary benefit and seemingly unrelated regressions, by generating log-linear or linear outcome data. We estimated the causal effect in the form of incremental cost-effectiveness ratio and net monetary benefit, either for the general population or among the treated, to determine which methods best controlled for bias using various scenarios where sample size and correlations varied. Only the full matching on a propensity score adjusted for all confounders achieved a low bias. Further analysis determined that when outcomes were generated according to log-linear models, linear modeling of these outcomes induced bias. This bias was not mitigated by modeling confounders using cubic splines, whereas it was removed using targeted maximum likelihood estimation coupled with machine learning, provided that costs were adjusted for their own confounders as well as simultaneous cost and effictiveness confounders, and effectiveness was adjusted for its own confounders and simultaneous cost and effectiveness confounders. Since outcomes in economic evaluation are potentially often log-linear, we recommend the use of full matching by adjusting for all confounders, or the use of machine learning to model outcomes where each outcome is adjusted for its confounders and the simultaneous confounders of cost and effectiveness.
|
73 |
Intervalles de confiance pour une différence de deux proportionsGagnon, Patrick 12 April 2018 (has links)
L'intervalle de confiance le plus connu pour une différence de deux proportions est l'intervalle de Wald. Cet intervalle a l'avantage d'être simple à construire, mais il est anti-conservateur. Il existe plusieurs intervalles alternatifs à l'intervalle deWald qui performent beaucoup mieux. Dans ce mémoire, on s'intéressera particulièrement à l'intervalle d'Agresti-Coull et à l'intervalle bayésien approximatif. Ces intervalles performent très bien tout en étant simples à construire. On regardera d'abord la performance de ces intervalles lorsqu'on a deux échantillons indépendants de tailles fixées au départ. On regardera aussi leur performance lorsque le nombre d'observations dépend des vraies proportions, soit dans une expérience à étapes multiples, soit dans une expérience à allocations séquentielles ou un plan adaptatif est utilisé.
|
74 |
Modèles d'analyse simultanée et conditionnelle pour évaluer les associations entre les haplotypes des gènes de susceptibilité et les traits des maladies complexes : application aux gènes candidats de l'ostéoporoseElfassihi, Latifa 17 April 2018 (has links)
Les maladies complexes sont des maladies multifactorielles dans lesquelles plusieurs gènes et facteurs environnementaux peuvent intervenir et interagir. De nombreuses études ont identifié des locus (gènes ou régions chromosomiques), avec ou sans effets marginaux, qui interagissent pour contribuer au risque de la maladie. Pour les études d'association par polymorphismes, plusieurs méthodes ont été développées récemment pour évaluer l'interaction gène-gène. Cependant, les études d'association par haplotypes donnent parfois une meilleure puissance pour détecter l'association. Mais, la majorité de ces dernières ne permet pas d'évaluer les interactions entre les haplotypes de deux gènes et celles qui le permettent présentent des restrictions, comme l'utilisation du phénotype de la maladie en dichotomique (présence ou absence de la maladie) ou encore n'ajustent pas pour les facteurs environnementaux. Cette thèse traite cette problématique en deux volets : méthodologique et appliqué. Au niveau méthodologique, cette thèse rapporte une nouvelle méthode statistique pour effectuer l'analyse simultanée et l'analyse conditionnelle de deux régions indépendantes (gènes ou régions chromosomiques) dans les études d'associations par haplotypes des maladies complexes. Une étude de simulation a été effectuée pour confirmer sa validité. En présence d'un effet d'interaction entre les haplotypes de deux gènes avec ou sans effets marginaux, les résultats de l'étude de simulation ont montré que notre modèle d'analyse conditionnelle a plus de puissance pour détecter l'association et donne une estimation plus précise des effets comparativement aux méthodes alternatives disponibles actuellement. Au niveau appliqué, l'approche de la cartographie fine dans un premier échantillon de Québec avec une réplication dans un échantillon indépendant de Toronto a été mise à profit pour raffiner l'étude de deux gènes candidats de l'ostéoporose : ESRRG (estrogen receptor-related gamma) et ESRRA (estrogen receptor-related alpha). Pour ESRRG, cette approche combinée aux deux méthodes d'analyse, par polymorphismes ou par haplotypes, confirma son implication dans l'étiologie de la maladie chez les femmes d'origine européenne, tandis que pour ESRRA, elle a constitué une investigation approfondie révélant une association dans un premier échantillon de femmes préménopausées de Québec, mais sans réplication dans un deuxième échantillon indépendant de femmes préménopausées de Toronto. Puisque les deux gènes étudiés appartiennent au même sentier métabolique, l'effet conditionnel de ESRRA sachant ESRRG a été évalué par notre méthode. Cette analyse a révélé une association dans un premier échantillon, mais, encore une fois, sans réplication dans le deuxième échantillon. Ces résultats suggèrent que le premier gène est un gène de susceptibilité de l'ostéoporose. Toutefois, notre étude n'était pas concluante en ce qui concerne l'effet du deuxième gène ainsi que son effet conditionnel sachant l'effet du premier. Ainsi, une réplication dans un échantillon indépendant, de même taille ou plus grande que celle de l'échantillon de Québec, s'avère nécessaire pour confirmer ou infirmer les résultats observés chez les femmes provenant de la région métropolitaine de Québec.
|
75 |
Simulations gaussiennes séquentielles en facteurs de ressources minérales en éléments des terres raresRaymond, Michaël 27 January 2024 (has links)
Ce mémoire présente les résultats d’estimation de ressources minérales en éléments des terres rares (ETR) réalisés à l’aide de simulations géostatistiques gaussiennes séquentielles (SGS) en facteurs spatialement décorrélés par la méthode MAF (Minimum/Maximum Autocorrelation Factors). Cette étude s’inscrit dans le cadre du projet de recherche « Caractérisation des gîtes de terres rares d’intrusions alcalines : géologie, métallogénie et géométallurgie du complexe syénitique de Kipawa » (FRQNT, 2017, p. 59). Les SGS se proposent comme une méthode alternative à la technique reconnue du krigeage ordinaire ayant été utilisée pour l’estimation des ressources minérales d’ETR du gisement de Kipawa, site à l’étude. Ce mémoire compare les résultats d’estimation des ressources minérales d’ETR des SGS à ceux du krigeage ordinaire. À cette fin, le site à l’étude est d’abord présenté en compagnie de la base de données conjointement utilisées par les deux méthodes. Ensuite, une revue de littérature aborde les notions et concepts nécessaires à la réalisation des SGS de cette étude. Une fois ces connaissances acquises, la méthode de recherche est développée. Son aboutissement permet de présenter les résultats et d’en discuter. Globalement, les résultats démontrent que les SGS en facteurs offrent l’avantage de procéder à l’estimation de ressources minérales d’ETR de façon multivariée, de limiter le lissage des résultats tout en fournissant une évaluation de leur incertitude. Les SGS proposent une distribution normale des ressources minérales en ETR totaux allant d’un minimum de 91 035 t à un maximum de 103 118 t. D’autre part, le krigeage ordinaire en estime, sans teneur de coupure, une valeur unique de 113 717 t. En conclusion, le tonnage évalué des ressources minérales en ETR du gisement Kipawa est moindre par la méthode des SGS que par le krigeage ordinaire. MOTS CLÉS : Simulations, géostatistique, simulations gaussiennes séquentielles (SGS), facteurs d’autocorrélation minimum/maximum (MAF), éléments des terres rares (ETR), ressources minérales. / This thesis presents the results of rare earth elements (REE) mineral resources estimate using Sequential Gaussian Simulations (SGS) of spatially decorrelated factors calculated from the Minimum/Maximum Autocorrelation Factors (MAF) method. This study is part of the research project "Characterization of REE deposits of alkaline intrusions: geology, metallogeny and geometallurgy of the Kipawa syenite complex" (FRQNT, 2017, p. 59). SGS are proposed as an alternative method to the acknowledge ordinary kriging technic which was used for the REE mineral resources estimation of the Kipawa deposit, site under study. This report compares the results of the SGS mineral resources estimate to those of ordinary kriging. To this end, the study site is first presented along with the database jointly used by the two methods. Then, a literature review discusses the notions and concepts required to carry out the SGS of this study. Once this knowledge acquired, the research method is developed. Afterward, the results are presented and discussed. Overall, results demonstrate that SGS of MAF factors offer the advantage of estimating REE mineral resources in a multivariate manner, limiting the smoothing of the results while providing an assessment of their uncertainty. The SGS propose a normal distribution of the total REE ranging from a minimum of 91 035 t to a maximum of 103 118 t. On the other hand, the ordinary kriging estimates a single value of 113 717 t in total REE with no cut-off grade. In conclusion, the SGS method evaluates a lesser tonnage of REE mineral ressources at the Kipawa deposit than the ordinary kriging technic. KEYWORDS: Simulations, Geostatistic, Sequential Gaussian Simulations (SGS), Min/Max Autocorrelation Factors (MAF), Rare Earth Elements (REE), Mineral resources.
|
76 |
Analyse de la relation entre le navettage et les caractéristiques socio-économiques des navetteurs à l'échelle des régions métropolitaines de recensement du CanadaParadis, Annick 13 April 2018 (has links)
Ce mémoire s'intéresse à la problématique de la différenciation des comportements de mobilité des conjoints et des conjointes des familles biactives dans le cadre de leurs déplacements résidence-travail (navettage). À l'échelle de 19 régions métropolitaines de recensement (RMR) du Canada en 1996, il est ressorti de notre étude que les comportements de mobilité des conjoints et des conjointes sont relativement homogènes, malgré la présence de disparités socio-économiques et de mobilité entre eux. Au niveau des facteurs explicatifs de la différenciation de la distance de navettage, nous n'avons pu conclure à l'influence négative des responsabilités domestiques et familiales sur les déplacements résidence-travail des conjointes. La situation d'emploi a quant à elle un impact certain sur la capacité des conjointes à amortir les coûts de transport élevés d'une longue distance de navettage. Enfin, nous avons démontré que la taille de population de la RMR de résidence n'influence que partiellement les relations entre les caractéristiques socio-économiques et les caractéristiques de mobilité des conjoints et des conjointes.
|
77 |
La délinquance sexuelle : facteurs de risque et récidiveVachon, Claudya 27 January 2024 (has links)
La présente étude examine la récidive sexuelle - définie comme tout nouveau délit sexuel qui a été saisi par le système de justice et qui a engendré une sanction pénale - chez les auteurs d'infractions sexuelles adultes. L'échantillon comprend 759 individus d'âge adulte ayant commis au moins un crime sexuel de toute nature confondue. Ceux-ci avaient, à un moment ou à un autre de leur trajectoire délictuelle, fait l'objet d'une évaluation actuarielle à l'aide de l'outil Stable. Une analyse de régression logistique hiérarchique a été effectuée afin de déterminer le rôle contributif de certains facteurs statiques et dynamiques dans la répétition d'un comportement répréhensible de nature sexuelle. Les résultats indiquent que plus de la moitié des délits sexuels ont été perpétrées par les 236 récidivistes sexuels, alors que le taux de récidive de l'échantillon est de 31%. De plus, il existe des distinctions entre les facteurs criminogènes du récidiviste sexuel et celle de l'auteur d'un seu ldélit sexuel. Le premier se distingue par la prépondérance des problématiques d'ordre sexuel. Les précurseurs à l'agir criminel du second ne seraient pas très éloignés des facteurs sous tendant la commission d'un crime de délinquance générale. Ces résultats sont cohérents avec les données issues de la littérature et permettent de contribuer à améliorer les connaissances disponibles sur la délinquance sexuelle et sa récidive.
|
78 |
Estimation de la taille de la population dans les expériences de capture-recaptureYauck, Mamadou 28 March 2024 (has links)
La thèse présentée ici traite du problème de l'estimation de la taille de la population dans les modèles de capture-recapture. Elle s'intéresse, en particulier, à la question de l'estimation de la taille de la population dans le cadre d'une expérience de capture-recapture à structure d'échantillonnage imbriquée, qui combine les méthodes de population fermée à l'intérieur des périodes primaires (PP) et de population ouverte d'une PP à une autre : le design robuste. Cette thèse propose une méthodologie d'estimation de la taille de la population et de l'incertitude associée aux estimateurs obtenus dans le contexte du design robuste. Dans un premier temps, on aborde le problème de l'estimation des paramètres du design robuste dans le cas d'un nombre suffisamment élevé d'occasions de capture. On généralise le papier fondamental de Jolly (1965) au design robuste en proposant une procédure séquentielle d'estimation des paramètres pour la classe des modèles de design robuste présentés dans Rivest and Daigle (2004) et un estimateur de la variance des paramètres par bootstrap paramétrique. Ces résultats théoriques ont été appliqués à des données d'activation d'applications sur les téléphones intelligents. Les données sont recueillies sur une période d'un an et demi et concernent des utilisateurs de téléphones intelligents qui ont visité un grand concessionnaire automobile basé aux États-Unis. Dans un deuxième temps, on s'intéresse à l'estimation de la taille de la population à partir de deux sources d'information du design robuste: les données à l'intérieur d'une PP (ou intra-période) et les données d'une PP à une autre (ou inter-période). On démontre que les estimateurs de la taille de la population obtenus avec les informations intra-période et inter-période sont asymptotiquement indépendants pour une large classe de modèles de population fermée à l'intérieur des PP. Ainsi, l'estimateur du maximum de vraisemblance pour la taille de la population dans le cas du design robuste est asymptotiquement équivalent à un estimateur pondéré pour le modèle de population ouverte et le modèle de population fermée. On montre que l'estimateur pondéré diffère de celui donné dans Kendall et al. (1995); on démontre que leur estimateur n'est pas efficace, puis on donne une formule explicite pour son efficacité comparativement à l'estimateur pondéré. La perte d'efficacité est ensuite évaluée dans une étude de simulation, puis à travers un exemple tiré de Santostasi et al. (2016) et qui traite de l'estimation de la taille de la population d'une espèce de dauphins vivant dans le Golfe de Corinthe (Grèce). Enfin, on se propose d'étendre les résultats du problème précédent aux modèles de design robuste présentés dans Kendall et al. (1995) et implémentés dans MARK (White and Burnham, 1999). Dans le contexte du design robuste, on dérive l'estimateur du maximum de vraisemblance pour la taille de la population; on propose également trois méthodes d'estimation de la variance de l'erreur associée à l'estimateur. On démontre ensuite que l'estimateur du maximum de vraisemblance pour la taille de la population est plus efficace que l'estimateur des moments proposé par Kendall et al. (1995); la perte d'efficacité de l'estimateur de Kendall ainsi que la performance des trois méthodes d'estimation de la variance de l'erreur associée à l'estimateur du maximum de vraisemblance sont évaluées via une étude de simulation. / This thesis deals with the capture-recapture estimation of population sizes under a hierarchical study design where a capture-recapture experiment, involving secondary capture occasions, is carried out within each sampling period (SP) of an open population model: the robust design. This thesis proposes a methodology for the estimation of population sizes under the robust design and the uncertainty associated with the estimators. The first problem deals with the estimation of the parameters of a robust design with an arbitrary large number of capture occasions. To do so, we generalize the seminal paper of Jolly (1965) to the robust design and propose a sequential estimation procedure for the class of robust design models presented in Rivest and Daigle (2004). A simple parametric bootstrap variance estimator for the model parameters is also proposed. These results are used to analyze a data set about the mobile devices that visited the auto-dealerships of a major auto brand in a US metropolitan area over a period of one year and a half. The second problem deals with the estimation of population sizes using two sources of information for the robust design: the within and the between primary period data. We prove that the population size estimators derived from the two sources are asymptotically independent for a large class of closed population models. In this context, the robust design maximum likelihood estimator of population size is shown to be asymptotically equivalent to a weighted sum of the estimators for the open population Jolly-Seber model (Jolly 1965; Seber 1965) and for the closed population model. This article shows that the weighted estimator is more efficient than the moment estimator of Kendall et al.(1995). A closed form expression for the efficiency associated with this estimator is given and the loss of precision is evaluated in a MonteCarlo study and in a numerical example about the estimation of the size of dolphin populations living in the Gulf of Corinth (Greece) and discussed by Santostasi et al. (2016). The third problem deals with the estimation of population sizes under the robust design models presented in Kendall et al. (1995) and implemented in MARK (White and Burnham, 1999). We derive the maximum likelihood estimator for the population size and propose three methods of estimation for its uncertainty. We prove that the derived maximum likelihood estimator is more efficient than the moment estimator provided in Kendall et al. (1995). The loss of precision associated with the Kendall estimator and the performance of the three methods of estimation for the variance of the maximum likelihood estimator are evaluated in a MonteCarlo study.
|
79 |
Méthode d'analyse de liaison génétique pour des familles dans lesquelles il y a de l'hétérogénéité non-allélique intra-familialeSavard, Nathalie 11 April 2018 (has links)
Dans cet ouvrage, une méthode d'analyse de liaison génétique qui tient compte de l'hétérogénéité non-allélique est développée. Nous proposons une modification à l'analyse à un locus par le modèle de Smith qui tient compte de l'hétérogénéité inter-familiale afin de s'adapter à la présence d'hétérogénéité intra-familiale. Notre approche consiste d'abord à décomposer des familles tri-générationnelles en branches individuelles, soit en familles bi-générationnelles. Par cette décomposition, l'hétérogénéité intra-familiale est "transformée" en hétérogénéité inter-familiale. Les familles bi-générationnelles sont ensuite analysées à l'aide d'un locus et du modèle de Smith. La puissance de la méthode proposée est comparée à celle de plusieurs autres analyses, notamment à celle de l'analyse des familles tri-générationnelles lorsqu'il y a hétérogénéité intra-familiale. On vérifie également si le découpage des familles fait gonfler la proportion d'erreurs de type I. / This study presents a linkage analysis method for cases of recombination heterogeneity when it is located in bilineal pedigrees. We propose a modification of the single-locus analysis by Smith's admixture model - which is concerned with inter-familial heterogeneity - so it becomes more appropriate for cases of intra-familial heterogeneity. Our approach first consists in decomposing large pedigrees into nuclear pedigrees so that the intra-familial heterogeneity of the large pedigrees is transformed into inter-familial heterogeneity between the nuclear pedigrees. Then, the nuclear pedigrees are considered both with a single-locus analysis and Smith's admixture model. The power of the proposed method is compared to the power of other methods, including the power of the specific case where there is intra-familialheterogeneity in large pedigrees. We also verify if the decomposition of the pedigrees results in a bigger proportion of type I errors.
|
80 |
Données confidentielles : génération de jeux de données synthétisés par forêts aléatoires pour des variables catégoriquesCaron, Maxime 23 April 2018 (has links)
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthétiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur les forêts aléatoires pour traiter les variables catégoriques. On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estimateurs. On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa variance. On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles. On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables latentes et les variables mesurées. / Confidential data are very common in statistics nowadays. One way to treat them is to create partially synthetic datasets for data sharing. We will present an algorithm based on random forest to generate such datasets for categorical variables. We are interested by the formula used to make inference from multiple synthetic dataset. We show that the order of the synthesis has an impact on the estimation of the variance with the formula. We propose a variant of the algorithm inspired by differential privacy, and show that we are then not able to estimate a regression coefficient nor its variance. We show the impact of synthetic datasets on structural equations modeling. One conclusion is that the synthetic dataset does not really affect the coefficients between latent variables and measured variables.
|
Page generated in 0.0935 seconds