Global ETD Search

1	Approches par bandit : inférence statistique et partage d'information Gariépy, Antoine 15 September 2023 (has links) Titre de l'écran-titre (visionné le 6 septembre 2023) / Ce mémoire aborde l'utilisation de stratégies d'allocation typiquement optimales pour des bandits contextuels, Lin-TS et Lin-RUCB, pour résoudre un problème d'inférence statistique sur des données collectées adaptativement par ces stratégies. L'inférence statistique est une étape très importante qui permet de tirer des conclusions par rapport aux données étudiées. Faire de l'inférence statistique sur des données collectées sur un environnement de bandit contextuel pose un défi technique parce qu'on cherche à tester une fonction. Ces stratégies apportent un biais dans les données collectées. Nous introduisons à cet effet des notions permettant de définir le concept d'inférence statistique sur des fonctions d'espérances. L'outil proposé est utilisé pour évaluer la qualité de l'inférence statistique conduite sur des données collectées par les stratégies d'allocation typiques optimales pour des bandits contextuels. Il est commun dans certains problèmes d'inférence statistique de séparer les données en groupe lorsque l'hypothèse sur les actions est qu'elles auront des fonctions de récompense différentes dans les différents groupes. Cependant, en pratique, il arrive que cette hypothèse soit fausse. Dans cette situation, il pourrait être bénéfique de partager les données recueillies sur cette action à travers les différents groupes, d'une part pour accélérer l'apprentissage et d'autre part pour améliorer la qualité de l'inférence statistique. Nous abordons donc ce nouvel environnement pour étudier les bénéfices du partage d'information entre des agents apprenant sur des problèmes de bandits contextuels. Une approche y est présentée pour étendre facilement les stratégies d'allocation existantes de manière à permettre un partage de données pour des actions spécifiques. À cet effet, nous introduisons Lin-TS-AC et Lin-RUCB-AC. Nous explorons ensuite l'application des stratégies proposées à des données simulées provenant d'une ancienne étude randomisée. En effet, nous montrons comment simuler un problème à partir de vraies données, ce qui nous permet d'évaluer les approches proposées sur un environnement plus proche de la réalité. / This thesis discusses the use of typically optimal allocation strategies for contextual bandits, Lin-TS and Lin-RUCB, to solve a statistical inference problem on data collected adaptively by these strategies. Statistical inference is a very important step in drawing conclusions about the data under study. Doing statistical inference on data collected on a contextual bandit environment is technically challenging because we are trying to test a function. These strategies bring a bias in the collected data. To this end, we introduce notions to define the concept of statistical inference on expectation functions. The proposed tool is used to evaluate the quality of statistical inference conducted on data collected by typical optimal allocation strategies for contextual bandits. It is common in some statistical inference problems to separate the data into groups when the assumption about the actions is that they will have different reward functions in the different groups. However, in practice, sometimes this assumption is wrong. In this situation, it might be beneficial to share the data collected on this action across the different groups, both to speed up learning and to improve the quality of statistical inference. We therefore approach this new environment to study the benefits of information sharing between agents learning on contextual bandit problems. An approach is presented to easily extend existing allocation strategies to allow data sharing for specific actions. To this end, we introduce Lin-TS-AC and Lin-RUCB-AC. We then explore the application of the proposed strategies to simulated data from an old randomized study. Indeed, we show how to simulate a problem from real data, which allows us to evaluate the proposed approaches on an environment closer to reality. Statistique mathématique.
2	Définition et évaluation d'approches pour la validation des graphiques acycliques dirigés à partir de données Gadio, Souleymane 01 February 2021 (has links) L’évaluation de relations causales à l’aide de données observationnelles est une pratique courante en épidémiologie. En présence de telles données, l’exposition d’intérêt est non randomisée et l’estimation des effets peut être biaisée par l’existence de variables confondantes. Les graphes acycliques dirigés (DAG) permettent de représenter les relations causales présumées entre les variables jugées pertinentes, ainsi que d’identifier les variables réellement confondantes, mais tracer un DAG peut être un défi majeur. Dans ce mémoire, nous avons étudié, développé et comparé différentes méthodes de validation des DAG. Un DAG est dit compatible avec les données si les indépendances statistiques sous-tendues par le DAG sont présentes dans les données. Nous avons considéré quatre méthodes statistiques paramétriques et deux non-paramétriques afin de tester l’ensemble de ces indépendances. À partir de données synthétiques simulées, nous avons évalué la capacité de ces tests à distinguer les DAG valides de ceux non valides. Plusieurs simulations variant en fonction de la taille d’échantillon, du nombre et du type de variables, ainsi que de la forme de leurs relations ont été réalisées. Par ailleurs, nous avons illustré l’application de nos tests pour valider un DAG concernant l’impact des nouveaux retards vaccinaux aux visites de vaccination sur le statut vaccinal. La performance des tests varie d’un scénario à l’autre. La majorité des tests rejettent plus souvent la validité des DAG pourtant valides dans certains scénarios que l’erreur de type I prévue de 5% à l’exception du test d’équations structurelles WLSMV (mean and variance adjusted weighted least squares) qui donne des résultats assez satisfaisant, notamment en absence de relations quadratiques dans la structure des données. Ce dernier test a toutefois une puissance relativement faible à détecter les DAG non valides dans certains cas. Par ailleurs, nos résultats illustrent que certains DAG non valides sont impossibles à discerner d’un DAG valide à partir des données observées. Les tests que nous avons explorés peuvent aider à discerner certains problèmes dans les DAG. Malgré leurs limites, ces tests sont des outils avec un potentiel important pour aider les épidémiologistes à valider leurs hypothèses lorsqu’ils utilisent des DAG. / Assessing causal relationships using observational data is common practice in epidemiology. In the presence of such data, the exposure of interest is non-randomized and the estimation of the effects may be biased by the existence of confounding variables. Directed acyclic graphs (DAGs) allow depicting the presumed causal relationships between variables deemed relevant, as well as identify truly confounding variables, but building a DAG can be a major challenge. In this thesis, we have developed and compared different DAG validation methods. A DAG is said to be compatible with the data if the statistical independencies underlying the DAG are present in the data. We consider three parametric and two nonparametric statistical methods in order to test all of these independencies. Using simulated synthetic data, we evaluate the ability of these tests to distinguish valid DAGs from those that are not valid. Several simulations varying according to the sample size, the number and type of variables, as well as the form of their relationships were performed. In addition, we illustrate the application of our tests to validate a DAG concerning the impact of new vaccine delays on vaccination visits at vaccination status. Tests’ performance vary from scenario to scenario. The majority of tests reject more often the validity of DAG yet valid in some scenarios than the type I error of 5% expected with the exception of the structural equation WLSMV (mean and variance adjusted weighted least squares) which gives fairly satisfactory results, especially in the absence of quadratic relationships in the data structure. However, this last test has a relatively low power to detect invalid DAGs in certain cases. Our results also illustrate that some invalid DAGs are impossible to discern from a valid DAG based on the observed data. The tests we have explored can help detect certain problems in DAGs. Despite their limitations, these tests are therefore tools with significant potential to help epidemiologists to validate their hypotheses when using DAGs. Graphes orientés. Statistique mathématique. Vaccination.
3	La fonction de profondeur de Tukey Cisse, Mouhamadou Moustapha 18 April 2019 (has links) Dans ce mémoire nous définissons la fonction de profondeur de Tukey d’une mesure positive et finie sur Rd. Par la suite nous étudions les propriétés de cette fonction, notamment les propriétés de continuité et de convexité. Notre objectif est d’établir une caractérisation d’une mesure par sa fonction de profondeur. Plus précisément, étant donné μ et v deux mesures de Borel positives et finies sur Rd, a-t-on μ = v si μ et v ont la même fonction de profondeur? En utilisant des propriétés de la fonction de profondeur, nous établissons une caractérisation lorsque la mesure satisfait certaines propriétés géométriques. Par la suite, nous présentons quelques approches afin de calculer la fonction de profondeur d’une mesure. Enfin nous prouvons le théorème de caractérisation d’une mesure discrète par sa fonction de profondeur de Tukey. / In this memoir we define the Tukey depth function of a positive finite measure on Rd. Then we study the properties of this function, in particular the properties of continuity and convexity. We seek to establish a characterization of a measure by its depth function. That is, given μ, v finite positive measures on Rd, do we have μ = v if μ and v have the same Tukey depth function? We use the properties of the depth function to establish such a characterization when the measure satisfies certain geometric properties. Then we exhibit some approaches for computing the Tukey depth function. Finally we prove the theorem of characterisation of a discrete measure by its Tukey depth function. QA 3.5 UL Statistique mathématique Médiane (Statistique)
4	Mesures d'association pour des modèles de copules multidimensionnelles Romdhani, Héla 20 April 2018 (has links) Dans cette thèse nous nous intéressons à la mesure de dépendance sous des modèles de copules. Nous y traitons trois problèmes : la mesure d’association dans le cas bidimensionnel en présence de seuils de détection, la mesure d’association pour des données en grappes et la mesure d’association pour des données hiérarchiques. Le premier problème, indépendant des deux autres, concerne la mesure d’association entre deux variables sujettes à une censure à gauche fixe due à l’existence de seuils de détection. Nous définissons une version conditionnelle du tau de Kendall permettant de mesurer l’association entre de telles variables. Nous en proposons un estimateur non paramétrique et en étudions les propriétés asymptotiques. Nous supposons, ensuite, un modèle de copule Archimédienne et en déduisons un estimateur pour le tau de Kendall global. Un test d’ajustement de copules à ce type de données est développé. Le deuxième problème traite de la mesure d’association dans un cadre multidimensionnel pour des données en grappes telles que les observations à l’intérieur de chaque groupe sont échangeables. Pour cela, nous introduisons le tau de Kendall échangeable comme une mesure d’association intra-classe et présentons un estimateur non paramétrique pour cette mesure. Ses propriétés asymptotiques sont étudiées sous un modèle de copules multidimensionnelles caractérisées par une propriété appelée échangeabilité. Nous en déduisons un estimateur du coefficient de corrélation intra-classe pour des données provenant d’une distribution elliptique. Nous dérivons ses propriétés asymptotiques sous un modèle ANOVA généralisé à un facteur. Enfin, nous développons un test d’indépendence basé sur le tau de Kendall. Le troisième problème est une extension du deuxième au cas de données hiérarchiques avec des sous-groupes imbriqués dans des groupes, dans le cas où les unités à l’intérieur de chaque sous-groupe sont échangeables et où les sous-groupes appartenant à un même groupe sont, eux mêmes, échangeables. Nous définissons alors deux mesures d’association basées sur le tau de Kendall échangeable et en proposons des estimateurs non paramétriques. Nous étudions les propriétés asymptotiques de ces estimateurs sous des modèles de copules hiérarchiques vérifiant certaines propriétés d’échangeabilité partielle. Pour les données provenant de copules meta-elliptiques hiérarchiques, nous déduisons des estimateurs pour les coefficients de corrélation intra-classe associés aux groupes et aux sous-groupes respectivement. Nous développons, enfin, des procédures de tests pour les effets de groupes et de sous-groupes. / In this thesis we are interested in measuring the dependence under copula models. We deal with three problems: the measure of association in the bivariate case in the presence of lower detection limits, the measure of association for clustered data and the measure of association for two-level hierarchical data. The first problem, independent of the other two, deals with the measure of association between two variables subject to fixed left censoring due to the presence of lower detection limits. We define a conditional version of Kendall’s tau to measure the association between such variables. We provide a nonparametric estimator of this measure and study its asymptotic properties. We then assume an Archimedean copula model and deduce an estimator for the copula’s Kendall’s tau. A goodness-of-fit test for the assumed copula is developed. The second problem deals with the measure of intra-class association for clustered data such that observations within each group are exchangeable. For this, we introduce an exchangeable version of Kendall’s tau as a measure of intra-class dependance and provide a nonparametric estimator for this measure. Its asymptotic properties are investigated under a multivariate exchangeable copula model. We derive an estimator of the intra-class correlation coefficient for data drawn from an elliptical distribution. The asymptotic properties of this estimator are investigated under a generalized oneway ANOVA model. Finally, we develop an intra-class independence test based on Kendall’s tau. The third problem is an extension of the second to the case of hierarchical data with a set of subgroups nested into groups, such that the units within each subgroup are exchangeable and the subgroups belonging to the same group are themselves exchangeable. We define two association measures based on the exchangeable Kendall’s tau and propose nonparametric estimators for these measures. We investigate their asymptotic properties under hierarchical copula models satisfying some properties of partial exchangeability. For data drawn from meta-elliptical hierarchical copulas we deduce estimators for the intra-class correlation coefficients associated to groups and subgroups respectively. We also develop procedures for testing the effects of groups and subgroups. QA 3.5 UL 2013 Copules (Statistique mathématique)
5	Structures de corrélation partiellement échangeables : inférence et apprentissage automatique Perreault, Samuel 07 December 2020 (has links) No description available. Corrélation (Statistique) Statistique mathématique. Apprentissage automatique.
6	Multiscale local polynomial transforms in smoothing and density estimation Amghar, Mohamed 22 December 2017 (has links) Un défi majeur dans les méthodes d'estimation non linéaire multi-échelle, comme le seuillage des ondelettes, c'est l'extension de ces méthodes vers une disposition où les observations sont irrégulières et non équidistantes. L'application de ces techniques dans le lissage de données ou l'estimation des fonctions de densité, il est crucial de travailler dans un espace des fonctions qui impose un certain degré de régularité. Nous suivons donc une approche différente, en utilisant le soi-disant système de levage. Afin de combiner la régularité et le bon conditionnement numérique, nous adoptons un schéma similaire à la pyramide Laplacienne, qui peut être considérée comme une transformation d'ondelettes légèrement redondantes. Alors que le schéma de levage classique repose sur l'interpolation comme opération de base, ce schéma permet d'utiliser le lissage, en utilisant par exemple des polynômes locaux. Le noyau de l'opération de lissage est choisi de manière multi-échelle. Le premier chapitre de ce projet consiste sur le développement de La transformée polynomiale locale multi-échelle, qui combine les avantages du lissage polynomial local avec la parcimonie de la décomposition multi-échelle. La contribution de cette partie est double. Tout d'abord, il se concentre sur les largeurs de bande utilisées tout au long de la transformée. Ces largeurs de bande fonctionnent comme des échelles contrôlées par l'utilisateur dans une analyse multi-échelle, ce qui s'explique par un intérêt particulier dans le cas des données non-équidistantes. Cette partie présente à la fois une sélection de bande passante optimale basée sur la vraisemblance et une approche heuristique rapide. La deuxième contribution consiste sur la combinaison du lissage polynomial local avec les préfiltres orthogonaux dans le but de diminuer la variance de la reconstruction. Dans le deuxième chapitre, le projet porte sur l'estimation des fonctions de densité à travers la transformée polynomiale locale multi-échelle, en proposant une reconstruction plus avancée, appelée reconstruction pondérée pour contrôler la propagation de la variance. Dans le dernier chapitre, On s’intéresse à l’extension de la transformée polynomiale locale multi-échelle dans le cas bivarié, tout en énumérant quelques avantages qu'on peut exploiter de cette transformée (la parcimonie, pas de triangulations), comparant à la transformée en ondelette classique en deux dimension. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Statistique mathématique local polynomial Sparsity Thresholding Bandwidth Wavelet Density estimation
7	Régression avec copules pour des données hiérarchiques Akpo, Talagbe Gabin 09 November 2022 (has links) Dans cette thèse, nous proposons un modèle multivarié pour la modélisation des données en grappes. Le modèle proposé, que nous nommons "d-copule échangeable", permet d'écrire la distribution jointe de nd variables aléatoires mesurées sur n unités de la grappe. Le modèle de d-copule échangeable fait intervenir trois copules et d lois marginales. Il possède des propriétés de flexibilité et de maniabilité dues à sa forme explicite. Nous montrons que la d-copule échangeable est une généralisation du modèle linéaire mixte avec ordonnées à l'origine aléatoires. En effet, lorsque les copules sont toutes normales et les lois marginales sont normales, alors les deux modèles sont équivalents. Nous utilisons le modèle de d-copule échangeable pour faire de la prédiction. Ensuite, nous nous intéressons particulièrement au cas de d=2 variables pour étudier ses propriétés. Nous expliquons la procédure séquentielle pour sélectionner les cinq éléments entrant dans la construction du modèle de 2-copule échangeable. L'estimation des paramètres du modèle de 2-copule échangeable se fait en utilisant deux méthodes d'estimation : la méthode IFM généralisée ou la méthode du maximum de vraisemblance. Nous démontrons que les estimateurs associés aux paramètres du modèle de 2-copule échangeable sont convergents et asymptotiquement normaux que l'on utilise la méthode IFM généralisée ou celle par maximum de vraisemblance. Nous comparons ces deux méthodes d'estimation par le biais d'une étude Monte-Carlo. Finalement, nous montrons la modélisation de données en utilisant un modèle de 2-copule échangeable. Les données proviennent d'une étude effectuée au centre de Londres, dans le cadre du "Junior School Project (JSP)". Nous construisons des courbes de prédiction en utilisant la méthode de 2-copule échangeable que nous comparons à celles obtenues avec le modèle linéaire mixte et le modèle de régression ordinaire avec une copule. / In this thesis, we propose a multivariate model for modeling clustered data. The proposed model, which we name "d-copula", allows us to write the joint distribution of nd random variables measured on n units of the cluster. The exchangeable d-copula model involves three copulas and d marginal laws. It has properties of flexibility and handiness due to its explicit form. We show that the exchangeable d-copula is a generalization of the linear mixed model with random intercepts. Indeed, when the copulas are all normal and the marginal laws are normal, then the two models are equivalent. We use the exchangeable d-copula model to make predictions. Then, we focus on the case of d=2 variables to study its properties. We explain the sequential procedure for selecting the five elements that go into the construction of the exchangeable 2-copula model. The estimation of the parameters of the exchangeable 2-copula model is done using two estimation methods : the generalized IFM method or the maximum likelihood method. We show that the estimators associated with the parameters of the exchangeable d-copula model are convergent and asymptotically normal whether using the generalized IFM or the maximum likelihood method. We compare these two estimation methods by means of a Monte-Carlo study. Finally, we show the construction of an exchangeable 2-copula model from observed data. The data come from a study in central London, as part of the «Junior School Project (JSP)». We construct prediction curves using the exchangeable 2-copula method and compare them to those obtained with the mixed linear model and the ordinary regression model with one copula. Modèles multiniveaux (Statistique) Copules (Statistique mathématique) Classification automatique (Statistique)
8	Estimation du paramètre d'une copule archimedienne en présence de censure dépendante Monwanou, Mondji Herbert 24 April 2018 (has links) Les méthodes classiques d’analyse de survie notamment la méthode non paramétrique de Kaplan et Meier (1958) supposent l’indépendance entre les variables d’intérêt et de censure. Mais, cette hypothèse d’indépendance n’étant pas toujours soutenable, plusieurs auteurs ont élaboré des méthodes pour prendre en compte la dépendance. La plupart de ces méthodes émettent des hypothèses sur cette dépendance. Dans ce mémoire, nous avons proposé une méthode d’estimation de la dépendance en présence de censure dépendante qui utilise le copula-graphic estimator pour les copules archimédiennes (Rivest etWells, 2001) et suppose la connaissance de la distribution de la variable de censure. Nous avons ensuite étudié la consistance de cet estimateur à travers des simulations avant de l’appliquer sur un jeu de données réelles. / Conventional methods of survival analysis including non-parametric Kaplan-Meier (1958) assume independence between time to death and time to censoring. But this independence assumption is not always sustainable. Thus, several authors have developed methods to take into account the dependence by making assumptions about the relationship between the two times. In this paper, we proposed a method to estimate the dependence in case of competing risk data using the copula-graphic estimator for Archimedean copula (Rivest and Wells, 2001) and assuming knowledge of the distribution of censoring time. Then we studied the consistency of this estimator through simulations and applied to a real dataset. QA 3.5 UL 2016 Copules (Statistique mathématique) Dépendance (Statistique)
9	Estimation bayésienne du lasso adaptatif pour l'issue Gaye, Serigne Abib 12 March 2020 (has links) Dans ce mémoire, on cherche à développer une nouvelle méthode d'estimation pour le lasso adaptatif pour l'issue en utilisant la machinerie bayésienne. L'hypothèse de recherche est que notre nouvelle méthode va beaucoup réduire la lourdeur computationnelle du lasso adaptatif pour l'issue. Notre méthode utilise les mêmes fondements théoriques que le lasso adaptatif pour l'issue. Elle remplit donc les conditions de la propriété d'oracle. Pour sa mise en ÷uvre, on ajuste d'abord un modèle du score de propension bayésien. Ensuite, on estime l'effet du traitement moyen par la pondération par l'inverse de la probabilité de traitement. Par ailleurs, nous considérons une distribution gamma pour le paramètre de régularisation qui nous permet de choisir ce paramètre à partir d'un ensemble continu, alors que le lasso adaptatif pour l'issue fréquentiste utilise une approche de validation croisée qui doit faire un choix parmi un ensemble discret de valeurs préspéciées. In ne, la méthode que nous avons développée répond bien à nos attentes, et permet donc de produire les inférences de façon beaucoup plus rapide. En effet, il a fallu seulement 41.298 secondes pour que cette méthode effectue les inférences, alors que 44.105 minutes ont été né- cessaires au lasso adaptatif pour l'issue. On espère que les idées développées dans ce mémoire vont contribuer signicativement à améliorer les méthodes de sélection de variables en inférence causale avec l'appui des techniques bayésiennes. / In this paper, we aim to develop a new estimation method for the outcome adaptive lasso using Bayesian machinery. The research hypothesis is that our new method will significantly reduce the computational burden of the outcome adaptive lasso. Our method uses the same theoretical foundation as the outcome adaptive lasso. It therefore meets the oracle properties. For its implementation, Bayesian propensity score model is first fitted. Next, the average treatment effect is estimated using inverse probability of treatment weights. In addition, we consider a gamma distribution for the regularisation parameter λ in order to choose this parameter over a continuous set, whereas the frequentist outcome adaptive lasso uses a cross-validation procedure that selects λ among a prespecified discrete set. In fine, the method we have developed meets our expectations, and therefore makes it possible to produce inferences much faster. Indeed, it took only 41.298 seconds for this method to yield inferences, while 44.105 minutes were required for the outcome adaptive lasso. We hope that the ideas developed in this paper will significantly contribute to improve methods for selecting variables in causal inference with the support of Bayesian techniques. QA 3.5 UL 2020 Statistique bayésienne Statistique mathématique
10	Méthode d'inférence utilisant la vraisemblance empirique basée sur l'entropie pour les modèles de diffusion avec sauts Laporte, Francis 05 March 2019 (has links) Avec la venue de modèles de plus en plus élaborés pour modéliser les rendements boursiers, la méthode classique du maximum de vraisemblance pour inférer les paramètres n’est généralement plus applicable puisque, par exemple, la fonction de densité n’est pas disponible ou très difficile à calculer numériquement. Dans la littérature, l’inférence par la méthode des moments (MM) est donc généralement suggérée. Dans ce mémoire, une méthode d’inférence plus efficace, soit celle du maximum de vraisemblance empirique basé sur l’entropie (MEEL), est proposée pour deux cas particuliers du processus de Lévy, soit les modèles de Merton et de Tsay. Premièrement, un retour sur certains modèles développés par le passé est fait. Les lacunes du mouvement brownien géométrique sont présentées afin de justifier l’utilisation de modèles plus élaborés. Ensuite, les deux modèles, Merton et Tsay, et leurs propriétés sont présentés plus en détail. Par la suite, il y a une analyse comparative entre l’efficacité du MEEL et celle du MM ; un exemple sur des données réelles est aussi présenté. Pour terminer, deux approches de tarification de produits dérivés sont présentées. / With the advent of increasingly sophisticated models for modeling stock market returns, the classical maximum likelihood method for inferring parameters is generally no longer applicable since, for example, the density function has no closed form or very difficult to calculate numerically. In the literature, inference by the method of moments (MM) is therefore generally suggested. In this master’s thesis, a more efficient inference method, the maximum empirical entropy likelihood (MEEL), is proposed for two particular cases of the Lévy process, namely the Merton and Tsay models. First, a review of some models developed in the past is done. The flaws of the geometric Brownian motion are presented to justify the use of more sophisticated models. Then, the two models, Merton and Tsay, and their properties are presented in more detail. Subsequently, there is a comparative analysis between the effectiveness of the MEEL and the MM; an example with real data is also presented. Finally, two approaches to pricing derivatives are presented. QA 3.5 UL 2019 Bourse -- Modèles mathématiques Statistique mathématique

Search results