271 |
Méthodes statistiques d'ajustement pour les facteurs confondants en évaluation économiqueJulmiste, Gaetane Raymonde 14 November 2024 (has links)
Ajuster adéquatement pour les variables confondantes est une problématique majeure en économie de la santé. Différentes méthodes ont été proposées. Les études qui ont comparé ces méthodes l'ont rarement fait à partir de données simulées, mais plutôt sur la base d'arguments conceptuels. Notre étude visait ainsi à réaliser des simulations de Monte-Carlo pour comparer les méthodes les plus recommandées dans la littérature telles que la régression par le bénéfice monétaire net et les régressions apparemment indépendantes, en générant des données pour les réponses en log-linéaire et linéaire. Nous avons estimé l'effet causal sous la forme d'un rapport de coût-efficacité différentiel et d'un bénéfice monétaire net, soit pour la population générale, soit chez les traités, afin de déterminer les méthodes qui contrôlent le mieux le biais en utilisant divers scénarios où la taille d'échantillon et les corrélations variaient. Seul la méthode d'appariement complet sur le score de propension ajusté pour tous les confondants permettait d'obtenir un biais faible. Des analyses supplémentaires ont permis de déterminer que lorsque les réponses sont générées selon des modèles log-linéaires, la modélisation linéaire de ces réponses induit un biais. Ce biais n'était pas atténué par la modélisation des confondants à l'aide de splines cubiques, alors qu'il était résorbé en utilisant l'estimation ciblée par maximum de vraisemblance couplé à l'apprentissage machine, d'autant que les coûts soient ajustés pour leurs propres confondants ainsi que les confondants simultanés des coûts et de l'efficacité, et que l'efficacité soit ajustée pour ses propres confondants et les confondants simultanés des coûts et de l'efficacité. Puisque les réponses en évaluation économique sont potentiellement souvent log-linéaires, nous recommandons l'utilisation de l'appariement complet en ajustant pour tous les confondants, ou l'utilisation d'apprentissage machine pour modéliser les réponses où chaque réponse est ajustée pour ses confondants et les confondants simultanés du coût et de l'efficacité. / Adjusting for confounding variables is a major issue in health economics. Various methods have been proposed. Studies that have compared these methods have rarely done so on the basis of simulated data, but rather on the basis of conceptual arguments. The aim of our study was therefore to carry out Monte Carlo simulations to compare the methods most recommended in the literature, such as regression by net monetary benefit and seemingly unrelated regressions, by generating log-linear or linear outcome data. We estimated the causal effect in the form of incremental cost-effectiveness ratio and net monetary benefit, either for the general population or among the treated, to determine which methods best controlled for bias using various scenarios where sample size and correlations varied. Only the full matching on a propensity score adjusted for all confounders achieved a low bias. Further analysis determined that when outcomes were generated according to log-linear models, linear modeling of these outcomes induced bias. This bias was not mitigated by modeling confounders using cubic splines, whereas it was removed using targeted maximum likelihood estimation coupled with machine learning, provided that costs were adjusted for their own confounders as well as simultaneous cost and effictiveness confounders, and effectiveness was adjusted for its own confounders and simultaneous cost and effectiveness confounders. Since outcomes in economic evaluation are potentially often log-linear, we recommend the use of full matching by adjusting for all confounders, or the use of machine learning to model outcomes where each outcome is adjusted for its confounders and the simultaneous confounders of cost and effectiveness.
|
272 |
Régression non paramétrique des percentiles pour données censuréesRoy, Valérie 12 April 2018 (has links)
L'utilisation de la régression non paramétrique est fréquente en analyse de données, puisque les postulats associés à la régression paramétrique ne sont pas toujours vérifiés, mais également parce qu'elle laisse aux données la décision de la forme de la relation entre une variable dépendante Y et une variable explicative X. Dans ce mémoire, l'intérêt est porté sur l'estimation de percentiles conditionnels. Plus précisément, comme il arrive parfois que la variable réponse soit censurée, les méthodes d'estimation non paramétrique lisse de régression des percentiles dans le cas où la variable réponse est censurée à droite sont abordées. Ainsi, trois estimateurs sont considérés : un employant l'estimateur de Kaplan-Meier généralisé, un utilisant une optimisation pondérée par les poids Stute et un employant l'estimateur de Bowman et Wright. Ces méthodes sont appliquées à un jeu de données et leurs propriétés sont étudiées par voie de simulations.
|
273 |
Une généralisation de la copule de Khoudraji : copules engendrées par des fonctions complètement monotonesL'Moudden, Aziz 17 April 2018 (has links)
La copule de Abdelhaq Khoudraji permet de décrire complètement le lien de dépendance qui unit deux variables aléatoires continues. Ce mémoire présente une nouvelle copule basée sur les copules de Khoudraji mais avec plus de propriétés. On a étendu les copules de Khoudraji à des cas multidimen-sionnels tout en proposant quelques exemples. Des simulations ont été introduites dans le but de mieux visualiser ces nouvelles classes de copules. Finalement, des applications ont été réalisées afin de mettre en oeuvre les nouvelles copules trouvées.
|
274 |
Estimation bayésienne du lasso adaptatif pour l'issueGaye, Serigne Abib 22 March 2024 (has links)
Dans ce mémoire, on cherche à développer une nouvelle méthode d'estimation pour le lasso adaptatif pour l'issue en utilisant la machinerie bayésienne. L'hypothèse de recherche est que notre nouvelle méthode va beaucoup réduire la lourdeur computationnelle du lasso adaptatif pour l'issue. Notre méthode utilise les mêmes fondements théoriques que le lasso adaptatif pour l'issue. Elle remplit donc les conditions de la propriété d'oracle. Pour sa mise en ÷uvre, on ajuste d'abord un modèle du score de propension bayésien. Ensuite, on estime l'effet du traitement moyen par la pondération par l'inverse de la probabilité de traitement. Par ailleurs, nous considérons une distribution gamma pour le paramètre de régularisation qui nous permet de choisir ce paramètre à partir d'un ensemble continu, alors que le lasso adaptatif pour l'issue fréquentiste utilise une approche de validation croisée qui doit faire un choix parmi un ensemble discret de valeurs préspéciées. In ne, la méthode que nous avons développée répond bien à nos attentes, et permet donc de produire les inférences de façon beaucoup plus rapide. En effet, il a fallu seulement 41.298 secondes pour que cette méthode effectue les inférences, alors que 44.105 minutes ont été né- cessaires au lasso adaptatif pour l'issue. On espère que les idées développées dans ce mémoire vont contribuer signicativement à améliorer les méthodes de sélection de variables en inférence causale avec l'appui des techniques bayésiennes. / In this paper, we aim to develop a new estimation method for the outcome adaptive lasso using Bayesian machinery. The research hypothesis is that our new method will significantly reduce the computational burden of the outcome adaptive lasso. Our method uses the same theoretical foundation as the outcome adaptive lasso. It therefore meets the oracle properties. For its implementation, Bayesian propensity score model is first fitted. Next, the average treatment effect is estimated using inverse probability of treatment weights. In addition, we consider a gamma distribution for the regularisation parameter λ in order to choose this parameter over a continuous set, whereas the frequentist outcome adaptive lasso uses a cross-validation procedure that selects λ among a prespecified discrete set. In fine, the method we have developed meets our expectations, and therefore makes it possible to produce inferences much faster. Indeed, it took only 41.298 seconds for this method to yield inferences, while 44.105 minutes were required for the outcome adaptive lasso. We hope that the ideas developed in this paper will significantly contribute to improve methods for selecting variables in causal inference with the support of Bayesian techniques.
|
275 |
Données probantes ou feuilles de thé ? : de l'importance du principe d'ignorabilité dans la correction du biais de sélectionPoirier, William 19 January 2024 (has links)
Titre de l'écran-titre (visionné le 16 janvier 2024) / Ce mémoire mobilise l'interdisciplinarité des sciences sociales computationnelles afin d'étudier les conséquences d'une approche non probabiliste aux sondages. Spécifiquement, il a pour objectif d'illustrer ce en quoi les sondages « opt-in » sont problématiques et à quel point il est possible de les corriger. Le chapitre 1 aborde les origines du débat concernant le biais de sélection, et établit les bases théoriques et statistiques requises à sa compréhension. Le chapitre 2 est le cœur du mémoire et applique concrètement le principe d'ignorabilité à l'aide de données simulées. On y apprend qu'il n'y a pas de limites théoriques à la capacité de correction de la pondération. Le chapitre 3 mobilise des données réelles afin d'explorer les limites rencontrées en pratiques. Ce dernier développe également le prototype d'une méthode d'analyse de sensibilité des quantités descriptives afin de tester la performance de la correction. / This Master's thesis mobilizes the interdisciplinarity of computational social science to study the consequences of a non-probabilistic approach to surveys. Specifically, it illustrates why opt-in surveys are problematic and how they can be corrected. Chapter 1 addresses the origins of the debate regarding selection bias, and establishes the theoretical and statistical understanding required. Chapter 2 is the heart of the thesis and concretely applies the ignorability principle using simulated data. We learn that there are no theoretical limits to the correction capacity of weighting techniques. Chapter 3 uses real data to explore the limits encountered in practice. The latter also develops a tentative method for sensibility analysis of descriptive quantities in order to test the performance of the correction.
|
276 |
Contribution à la modélisation mathématique pour la simulation et l'observation d'états des bioprocédésBogaerts, Philippe 21 April 1999 (has links)
Les bioprocédés ont connu un essor considérable au cours de ces dernières années et sont promis à un bel avenir. Qu'il s'agisse de la production de vaccins, de la fermentation de levures pour l'industrie alimentaire ou encore de l'épuration biologique des eaux usées, les applications sont nombreuses et les produits sont d'un intérêt capital pour l'être humain. Étant donnés le coût et le temps de mise en oeuvre de ces procédés, il est particulièrement utile de construire des simulateurs permettant de reproduire le comportement macroscopique des cultures cellulaires utilisées. Ces simulateurs peuvent servir à déterminer des conditions optimales de fonctionnement (en fonction des critères de l'utilisateur) et à tester certains outils (régulateurs, capteurs logiciels, etc.). Par ailleurs, il est nécessaire, pour le suivi et la régulation de ces procédés, de disposer de grandeurs mesurées (concentrations cellulaires, en substrats, en le produit d'intérêt, etc.). Les problèmes liés à la mesure matérielle de ces grandeurs sont nombreux: coût des capteurs, destruction des échantillons, longues périodes d'échantillonnage, temps d'analyse élevés, etc. Il est dès lors utile de construire des observateurs d'états (ou capteurs logiciels) fournissant une estimation en temps continu de grandeurs non mesurées sur la base d'un modèle mathématique et de certaines mesures matérielles.
Les modèles mathématiques sont nécessaires pour la synthèse des deux types d'outils envisagés dans ce travail (simulateurs et capteurs logiciels). Les modèles utilisés consistent en les bilans massiques des constituants apparaissant dans le schéma réactionnel, ce dernier contenant les réactions essentielles pour la description des phénomènes à l'échelle macroscopique. Au sein de ces bilans massiques, une nouvelle structure générale de modèle cinétique est proposée, possédant un certain nombre de propriétés intéressantes, telles l'interprétation physique des paramètres cinétiques, les concentrations définies positives sous certaines conditions, la garantie de stabilité entrées bornées - états bornés, ou encore la possibilité de linéarisation en les paramètres à estimer.
Une méthodologie générale d'estimation paramétrique est proposée, afin d'identifier les coefficients pseudo-stoechiométriques, les coefficients cinétiques et certains paramètres expérimentaux (concentrations initiales des cultures). Cette méthodologie possède un caractère systématique, prend en compte les erreurs de mesure sur l'ensemble des signaux (y compris à l'instant initial), fournit à l'utilisateur la covariance des erreurs d'estimation paramétrique, prend en compte intrinsèquement les contraintes de signe sur les paramètres, fournit une estimation des erreurs de simulation, permet de réduire le nombre d'équations différentielles au sein du modèle, etc. La mise en oeuvre et l'intérêt de ces outils sont illustrés en simulation (cultures bactériennes) et dans le cas d'une application réelle (cultures de cellules animales CHO).
La première catégorie d'observateurs d'états étudiée dans ce travail est celle des observateurs utilisant pleinement le modèle cinétique. L'observation d'états basée sur l'identification des conditions initiales les plus vraisemblables est plus particulièrement analysée. Elle consiste à estimer en temps continu l'entièreté de l'état par intégration d'un modèle de simulation au départ des conditions initiales les plus vraisemblables. Ces dernières sont identifiées à chaque nouvel instant de mesure sur la base de toute l'information disponible jusqu'à cet instant. Certaines propriétés mathématiques sont étudiées (dont une comparaison avec le filtre de Kalman) et un certain nombre d'extensions de la méthode sont proposées (dont une version récurrente qui ne nécessite plus de résoudre un problème d'optimisation non linéaire à chaque nouvel instant de mesure). Ces outils sont à nouveau illustrés dans le cadre des cultures de cellules animales CHO, et se basent sur les modèles de simulation développés dans la première partie du travail.
Étant donné les risques de divergence des observateurs de cette première catégorie lorsque la qualité du modèle cinétique n'est pas suffisante, une seconde catégorie est envisagée, constituée des observateurs utilisant partiellement le modèle cinétique. Dans ce contexte, un nouvelle technique est proposée consistant en un observateur hybride entre le filtre de Kalman étendu (utilisant pleinement le modèle cinétique) et l'observateur asymptotique de Bastin et Dochain (n'utilisant pas du tout le modèle cinétique). Cette structure estime (conjointement avec l'état du système) un degré de confiance en le modèle cinétique. Elle est capable d'évoluer de façon progressive, en fonction de ce degré de confiance, entre les deux solutions extrêmes (filtre de Kalman et observateur asymptotique), tirant ainsi parti des avantages respectifs de ces deux méthodes selon les conditions opératoires et la qualité du modèle cinétique. Ces outils sont validés sur des cultures bactériennes simulées.
|
277 |
Phylogenetic structural modeling of molecular evolutionRodrigue, Nicolas January 2007 (has links)
Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal.
|
278 |
Traçabilité modulée pour la conformité à Sarbanes-OxleyLepage, Yves January 2009 (has links) (PDF)
La traçabilité est un mécanisme qui est indispensable dans la conduite des activités de vérification de la conformité des compagnies à la loi Sarbanes-Oxley. Cette loi rend les administrateurs (PDG, Chef des affaires financières, etc.) responsables des déclarations faites dans les états financiers. Elle a été établie dans la foulée des scandales corporatifs aux États-Unis, comme ceux des compagnies Enron et Worldcom. Les données utilisées pour produire les états financiers, lesquelles sont produites par des systèmes informatiques périphériques, transitent toujours par des bases de données. L'implantation d'un mécanisme de traçabilité des bases de données se heurte à plusieurs problèmes, dont le plus important est la gestion du volume des données de traçabilité, lequel devient rapidement trop important pour rendre les données de traçabilité utiles. Ce mémoire démontre qu'une solution envisageable pour résoudre ce problème consiste à identifier et à définir les comportements typiques de la fraude et d'utiliser ces comportements comme indicateurs de fraude potentielle. Jumelés à des techniques de classification telles que la classification Baysienne qui est utilisée dans le domaine de la détection du pourriel, les indicateurs permettront la classification des transactions potentiellement frauduleuses, dans le but d'appliquer le mécanisme de traçabilité qu'à ces transactions. Ainsi, nous démontrons que l'application de la classification Baysienne sur ces attributs, permet effectivement de détecter et de classifier des transactions frauduleuses comme tel et qu'en conséquence, un traitement de traçage spécifique peut être effectué sur ces transactions. En ne traçant plus spécifiquement que les transactions identifiées comme frauduleuses, le volume de données de traçabilité est alors réduit à son expression la plus utile et simple et du coup le problème de la gestion du volume des données de traçage s'en trouve d'autant diminué. Notre expérimentation démontre le bien-fondé de cette approche pour différencier les transactions honnêtes des transactions frauduleuses. Cette différenciation s'est faite avec un haut taux de succès et avec grande fiabilité, tel que démontré par les taux de détection obtenus pour les transactions frauduleuses. Les résultats détaillés sont documentés dans ce mémoire et prouvent la viabilité de cette approche. Comme les attributs utilisés qui sont basés sur les indicateurs de comportements sont intimement liés au domaine d'application, nous proposons une approche pour raffiner les résultats et ainsi rendre possible la différenciation des différents types de fraude à l'intérieur de ces transactions frauduleuses. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Fraude, Sarbanes-Oxley, Traçabilité, Détection automatique, Classification, Bayes.
|
279 |
Application des copules à la finance de marchéBouvier, Pierre January 2010 (has links) (PDF)
L'objectif de la thèse est de montrer l'importance et l'utilité de la théorie mathématique que les copules apportent à la finance de marché. La motivation première de ces applications réside dans le fait que les comportements des rendements conjoints des marchés financiers s'éloignent de la normalité. Ainsi les méthodes statistiques traditionnelles,
reposant sur cette hypothèse, ne peuvent pas être appliquées à la finance de marché. Dans cc document, avec l'aide des copules nous apportons un éclairage nouveau sur les comportements conjoints et des mesures de corrélations entre les marchés. Les copules sont des outils mathématiques puissants qui remédient aux lacunes laissées par les mesures traditionnelles de corrélations et de risque. Les copules reposent sur un cadre mathématique formel qui en permet l'application. Nous montrons aussi que les copules sont utilisées pour explorer la dépendance entre les rendements des actifs d'un portefeuille. Elles trouvent application à la valorisation de titres dont les valeurs marchandes dépendent de plusieurs actifs financiers, par exemple une option de type européen sur plusieurs actifs sous-jacents. Nous montrons aussi leurs utilités comme outils de mesure de diversification d'un portefeuille avec l'ajout de un ou plusieurs fonds de couverture. Finalement, nous exposons comment la théorie des copules vient en aide aux gestionnaires d'actifs d'une caisse de retraite dans le choix des titres et la composition d'un portefeuille. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Copules elliptiques, Copules archimédiennes, Copules hiérarchiques, Distributions marginales, Fonctions de dépendance, Chi-plots, Tau de Kendall, Rho de Pearson, Corrélations de rangs, Valorisation d'options-plusieurs sous-jacents, Fonds de couverture.
|
280 |
Modélisation du comportement extrême de processus spatio-temporels. Applications en océanographie et météorologie.Raillard, Nicolas 13 December 2011 (has links) (PDF)
Ce travail de thèse porte sur l'étude des extrêmes d'une variable océanique importante dans le cadre des applications: la hauteur significative des vagues. Cette quantité est observée fidèlement par des satellites, mais cette source de donnée produit des données complexes du fait d'une répartition des observations irrégulière, en temps et en espace. Ce problème est primordial dans le cadre de l'étude des extrêmes, car peu de modèles statistiques sont adaptés à de telles données. Deux modèles sont présentés dans ce document. Nous commençons par décrire un modèle d'interpolation basé sur l'estimation des vitesses de déplacement des structures d'états de mer à l'aide de méthodes de filtrage particulaire. Ensuite nous avons mis en place une procédure d'estimation de la structure d'ordre deux du champ déplacé, dans le but d'appliquer une interpolation. Cette procédure a montré une amélioration par rapport aux techniques usuelles, mais une insuffisance pour modéliser les extrêmes. Dans un second temps, nous mettons en oeuvre une procédure pour modéliser les dépassements de seuils d'un processus observé à temps irrégulier ou avec des valeurs manquantes. Nous proposons un modèle basé sur les méthodes de dépassement de seuils multi-variés et les extrêmes de processus, ainsi qu'une méthode d'estimation des paramètres par des techniques de vraisemblance composite. Enfin, nous montrons la convergence de l'estimateur et, à l'aide de simulations ainsi que par une application à des données de hauteurs significatives, nous concluons que la prise en compte de tous les dépassements permet d'améliorer l'estimation des niveaux de retour de même que de la description de la durée des extrêmes.
|
Page generated in 0.0258 seconds