Spelling suggestions: "subject:"statistique mathématiques."" "subject:"qtatistique mathématiques.""
1 |
Approches par bandit : inférence statistique et partage d'informationGariépy, Antoine 25 March 2024 (has links)
Titre de l'écran-titre (visionné le 6 septembre 2023) / Ce mémoire aborde l'utilisation de stratégies d'allocation typiquement optimales pour des bandits contextuels, Lin-TS et Lin-RUCB, pour résoudre un problème d'inférence statistique sur des données collectées adaptativement par ces stratégies. L'inférence statistique est une étape très importante qui permet de tirer des conclusions par rapport aux données étudiées. Faire de l'inférence statistique sur des données collectées sur un environnement de bandit contextuel pose un défi technique parce qu'on cherche à tester une fonction. Ces stratégies apportent un biais dans les données collectées. Nous introduisons à cet effet des notions permettant de définir le concept d'inférence statistique sur des fonctions d'espérances. L'outil proposé est utilisé pour évaluer la qualité de l'inférence statistique conduite sur des données collectées par les stratégies d'allocation typiques optimales pour des bandits contextuels. Il est commun dans certains problèmes d'inférence statistique de séparer les données en groupe lorsque l'hypothèse sur les actions est qu'elles auront des fonctions de récompense différentes dans les différents groupes. Cependant, en pratique, il arrive que cette hypothèse soit fausse. Dans cette situation, il pourrait être bénéfique de partager les données recueillies sur cette action à travers les différents groupes, d'une part pour accélérer l'apprentissage et d'autre part pour améliorer la qualité de l'inférence statistique. Nous abordons donc ce nouvel environnement pour étudier les bénéfices du partage d'information entre des agents apprenant sur des problèmes de bandits contextuels. Une approche y est présentée pour étendre facilement les stratégies d'allocation existantes de manière à permettre un partage de données pour des actions spécifiques. À cet effet, nous introduisons Lin-TS-AC et Lin-RUCB-AC. Nous explorons ensuite l'application des stratégies proposées à des données simulées provenant d'une ancienne étude randomisée. En effet, nous montrons comment simuler un problème à partir de vraies données, ce qui nous permet d'évaluer les approches proposées sur un environnement plus proche de la réalité. / This thesis discusses the use of typically optimal allocation strategies for contextual bandits, Lin-TS and Lin-RUCB, to solve a statistical inference problem on data collected adaptively by these strategies. Statistical inference is a very important step in drawing conclusions about the data under study. Doing statistical inference on data collected on a contextual bandit environment is technically challenging because we are trying to test a function. These strategies bring a bias in the collected data. To this end, we introduce notions to define the concept of statistical inference on expectation functions. The proposed tool is used to evaluate the quality of statistical inference conducted on data collected by typical optimal allocation strategies for contextual bandits. It is common in some statistical inference problems to separate the data into groups when the assumption about the actions is that they will have different reward functions in the different groups. However, in practice, sometimes this assumption is wrong. In this situation, it might be beneficial to share the data collected on this action across the different groups, both to speed up learning and to improve the quality of statistical inference. We therefore approach this new environment to study the benefits of information sharing between agents learning on contextual bandit problems. An approach is presented to easily extend existing allocation strategies to allow data sharing for specific actions. To this end, we introduce Lin-TS-AC and Lin-RUCB-AC. We then explore the application of the proposed strategies to simulated data from an old randomized study. Indeed, we show how to simulate a problem from real data, which allows us to evaluate the proposed approaches on an environment closer to reality.
|
2 |
Définition et évaluation d'approches pour la validation des graphiques acycliques dirigés à partir de donnéesGadio, Souleymane 15 March 2024 (has links)
L’évaluation de relations causales à l’aide de données observationnelles est une pratique courante en épidémiologie. En présence de telles données, l’exposition d’intérêt est non randomisée et l’estimation des effets peut être biaisée par l’existence de variables confondantes. Les graphes acycliques dirigés (DAG) permettent de représenter les relations causales présumées entre les variables jugées pertinentes, ainsi que d’identifier les variables réellement confondantes, mais tracer un DAG peut être un défi majeur. Dans ce mémoire, nous avons étudié, développé et comparé différentes méthodes de validation des DAG. Un DAG est dit compatible avec les données si les indépendances statistiques sous-tendues par le DAG sont présentes dans les données. Nous avons considéré quatre méthodes statistiques paramétriques et deux non-paramétriques afin de tester l’ensemble de ces indépendances. À partir de données synthétiques simulées, nous avons évalué la capacité de ces tests à distinguer les DAG valides de ceux non valides. Plusieurs simulations variant en fonction de la taille d’échantillon, du nombre et du type de variables, ainsi que de la forme de leurs relations ont été réalisées. Par ailleurs, nous avons illustré l’application de nos tests pour valider un DAG concernant l’impact des nouveaux retards vaccinaux aux visites de vaccination sur le statut vaccinal. La performance des tests varie d’un scénario à l’autre. La majorité des tests rejettent plus souvent la validité des DAG pourtant valides dans certains scénarios que l’erreur de type I prévue de 5% à l’exception du test d’équations structurelles WLSMV (mean and variance adjusted weighted least squares) qui donne des résultats assez satisfaisant, notamment en absence de relations quadratiques dans la structure des données. Ce dernier test a toutefois une puissance relativement faible à détecter les DAG non valides dans certains cas. Par ailleurs, nos résultats illustrent que certains DAG non valides sont impossibles à discerner d’un DAG valide à partir des données observées. Les tests que nous avons explorés peuvent aider à discerner certains problèmes dans les DAG. Malgré leurs limites, ces tests sont des outils avec un potentiel important pour aider les épidémiologistes à valider leurs hypothèses lorsqu’ils utilisent des DAG. / Assessing causal relationships using observational data is common practice in epidemiology. In the presence of such data, the exposure of interest is non-randomized and the estimation of the effects may be biased by the existence of confounding variables. Directed acyclic graphs (DAGs) allow depicting the presumed causal relationships between variables deemed relevant, as well as identify truly confounding variables, but building a DAG can be a major challenge. In this thesis, we have developed and compared different DAG validation methods. A DAG is said to be compatible with the data if the statistical independencies underlying the DAG are present in the data. We consider three parametric and two nonparametric statistical methods in order to test all of these independencies. Using simulated synthetic data, we evaluate the ability of these tests to distinguish valid DAGs from those that are not valid. Several simulations varying according to the sample size, the number and type of variables, as well as the form of their relationships were performed. In addition, we illustrate the application of our tests to validate a DAG concerning the impact of new vaccine delays on vaccination visits at vaccination status. Tests’ performance vary from scenario to scenario. The majority of tests reject more often the validity of DAG yet valid in some scenarios than the type I error of 5% expected with the exception of the structural equation WLSMV (mean and variance adjusted weighted least squares) which gives fairly satisfactory results, especially in the absence of quadratic relationships in the data structure. However, this last test has a relatively low power to detect invalid DAGs in certain cases. Our results also illustrate that some invalid DAGs are impossible to discern from a valid DAG based on the observed data. The tests we have explored can help detect certain problems in DAGs. Despite their limitations, these tests are therefore tools with significant potential to help epidemiologists to validate their hypotheses when using DAGs.
|
3 |
Mesures d'association pour des modèles de copules multidimensionnellesRomdhani, Héla 20 April 2018 (has links)
Dans cette thèse nous nous intéressons à la mesure de dépendance sous des modèles de copules. Nous y traitons trois problèmes : la mesure d’association dans le cas bidimensionnel en présence de seuils de détection, la mesure d’association pour des données en grappes et la mesure d’association pour des données hiérarchiques. Le premier problème, indépendant des deux autres, concerne la mesure d’association entre deux variables sujettes à une censure à gauche fixe due à l’existence de seuils de détection. Nous définissons une version conditionnelle du tau de Kendall permettant de mesurer l’association entre de telles variables. Nous en proposons un estimateur non paramétrique et en étudions les propriétés asymptotiques. Nous supposons, ensuite, un modèle de copule Archimédienne et en déduisons un estimateur pour le tau de Kendall global. Un test d’ajustement de copules à ce type de données est développé. Le deuxième problème traite de la mesure d’association dans un cadre multidimensionnel pour des données en grappes telles que les observations à l’intérieur de chaque groupe sont échangeables. Pour cela, nous introduisons le tau de Kendall échangeable comme une mesure d’association intra-classe et présentons un estimateur non paramétrique pour cette mesure. Ses propriétés asymptotiques sont étudiées sous un modèle de copules multidimensionnelles caractérisées par une propriété appelée échangeabilité. Nous en déduisons un estimateur du coefficient de corrélation intra-classe pour des données provenant d’une distribution elliptique. Nous dérivons ses propriétés asymptotiques sous un modèle ANOVA généralisé à un facteur. Enfin, nous développons un test d’indépendence basé sur le tau de Kendall. Le troisième problème est une extension du deuxième au cas de données hiérarchiques avec des sous-groupes imbriqués dans des groupes, dans le cas où les unités à l’intérieur de chaque sous-groupe sont échangeables et où les sous-groupes appartenant à un même groupe sont, eux mêmes, échangeables. Nous définissons alors deux mesures d’association basées sur le tau de Kendall échangeable et en proposons des estimateurs non paramétriques. Nous étudions les propriétés asymptotiques de ces estimateurs sous des modèles de copules hiérarchiques vérifiant certaines propriétés d’échangeabilité partielle. Pour les données provenant de copules meta-elliptiques hiérarchiques, nous déduisons des estimateurs pour les coefficients de corrélation intra-classe associés aux groupes et aux sous-groupes respectivement. Nous développons, enfin, des procédures de tests pour les effets de groupes et de sous-groupes. / In this thesis we are interested in measuring the dependence under copula models. We deal with three problems: the measure of association in the bivariate case in the presence of lower detection limits, the measure of association for clustered data and the measure of association for two-level hierarchical data. The first problem, independent of the other two, deals with the measure of association between two variables subject to fixed left censoring due to the presence of lower detection limits. We define a conditional version of Kendall’s tau to measure the association between such variables. We provide a nonparametric estimator of this measure and study its asymptotic properties. We then assume an Archimedean copula model and deduce an estimator for the copula’s Kendall’s tau. A goodness-of-fit test for the assumed copula is developed. The second problem deals with the measure of intra-class association for clustered data such that observations within each group are exchangeable. For this, we introduce an exchangeable version of Kendall’s tau as a measure of intra-class dependance and provide a nonparametric estimator for this measure. Its asymptotic properties are investigated under a multivariate exchangeable copula model. We derive an estimator of the intra-class correlation coefficient for data drawn from an elliptical distribution. The asymptotic properties of this estimator are investigated under a generalized oneway ANOVA model. Finally, we develop an intra-class independence test based on Kendall’s tau. The third problem is an extension of the second to the case of hierarchical data with a set of subgroups nested into groups, such that the units within each subgroup are exchangeable and the subgroups belonging to the same group are themselves exchangeable. We define two association measures based on the exchangeable Kendall’s tau and propose nonparametric estimators for these measures. We investigate their asymptotic properties under hierarchical copula models satisfying some properties of partial exchangeability. For data drawn from meta-elliptical hierarchical copulas we deduce estimators for the intra-class correlation coefficients associated to groups and subgroups respectively. We also develop procedures for testing the effects of groups and subgroups.
|
4 |
Structures de corrélation partiellement échangeables : inférence et apprentissage automatiquePerreault, Samuel 27 January 2024 (has links)
No description available.
|
5 |
La fonction de profondeur de TukeyCisse, Mouhamadou Moustapha 18 April 2019 (has links)
Dans ce mémoire nous définissons la fonction de profondeur de Tukey d’une mesure positive et finie sur Rd. Par la suite nous étudions les propriétés de cette fonction, notamment les propriétés de continuité et de convexité. Notre objectif est d’établir une caractérisation d’une mesure par sa fonction de profondeur. Plus précisément, étant donné μ et v deux mesures de Borel positives et finies sur Rd, a-t-on μ = v si μ et v ont la même fonction de profondeur? En utilisant des propriétés de la fonction de profondeur, nous établissons une caractérisation lorsque la mesure satisfait certaines propriétés géométriques. Par la suite, nous présentons quelques approches afin de calculer la fonction de profondeur d’une mesure. Enfin nous prouvons le théorème de caractérisation d’une mesure discrète par sa fonction de profondeur de Tukey. / In this memoir we define the Tukey depth function of a positive finite measure on Rd. Then we study the properties of this function, in particular the properties of continuity and convexity. We seek to establish a characterization of a measure by its depth function. That is, given μ, v finite positive measures on Rd, do we have μ = v if μ and v have the same Tukey depth function? We use the properties of the depth function to establish such a characterization when the measure satisfies certain geometric properties. Then we exhibit some approaches for computing the Tukey depth function. Finally we prove the theorem of characterisation of a discrete measure by its Tukey depth function.
|
6 |
Multiscale local polynomial transforms in smoothing and density estimationAmghar, Mohamed 22 December 2017 (has links)
Un défi majeur dans les méthodes d'estimation non linéaire multi-échelle, comme le seuillage des ondelettes, c'est l'extension de ces méthodes vers une disposition où les observations sont irrégulières et non équidistantes. L'application de ces techniques dans le lissage de données ou l'estimation des fonctions de densité, il est crucial de travailler dans un espace des fonctions qui impose un certain degré de régularité. Nous suivons donc une approche différente, en utilisant le soi-disant système de levage. Afin de combiner la régularité et le bon conditionnement numérique, nous adoptons un schéma similaire à la pyramide Laplacienne, qui peut être considérée comme une transformation d'ondelettes légèrement redondantes. Alors que le schéma de levage classique repose sur l'interpolation comme opération de base, ce schéma permet d'utiliser le lissage, en utilisant par exemple des polynômes locaux. Le noyau de l'opération de lissage est choisi de manière multi-échelle. Le premier chapitre de ce projet consiste sur le développement de La transformée polynomiale locale multi-échelle, qui combine les avantages du lissage polynomial local avec la parcimonie de la décomposition multi-échelle. La contribution de cette partie est double. Tout d'abord, il se concentre sur les largeurs de bande utilisées tout au long de la transformée. Ces largeurs de bande fonctionnent comme des échelles contrôlées par l'utilisateur dans une analyse multi-échelle, ce qui s'explique par un intérêt particulier dans le cas des données non-équidistantes. Cette partie présente à la fois une sélection de bande passante optimale basée sur la vraisemblance et une approche heuristique rapide. La deuxième contribution consiste sur la combinaison du lissage polynomial local avec les préfiltres orthogonaux dans le but de diminuer la variance de la reconstruction. Dans le deuxième chapitre, le projet porte sur l'estimation des fonctions de densité à travers la transformée polynomiale locale multi-échelle, en proposant une reconstruction plus avancée, appelée reconstruction pondérée pour contrôler la propagation de la variance. Dans le dernier chapitre, On s’intéresse à l’extension de la transformée polynomiale locale multi-échelle dans le cas bivarié, tout en énumérant quelques avantages qu'on peut exploiter de cette transformée (la parcimonie, pas de triangulations), comparant à la transformée en ondelette classique en deux dimension. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
|
7 |
Régression avec copules pour des données hiérarchiquesAkpo, Talagbe Gabin 09 November 2022 (has links)
Dans cette thèse, nous proposons un modèle multivarié pour la modélisation des données en grappes. Le modèle proposé, que nous nommons "d-copule échangeable", permet d'écrire la distribution jointe de nd variables aléatoires mesurées sur n unités de la grappe. Le modèle de d-copule échangeable fait intervenir trois copules et d lois marginales. Il possède des propriétés de flexibilité et de maniabilité dues à sa forme explicite. Nous montrons que la d-copule échangeable est une généralisation du modèle linéaire mixte avec ordonnées à l'origine aléatoires. En effet, lorsque les copules sont toutes normales et les lois marginales sont normales, alors les deux modèles sont équivalents. Nous utilisons le modèle de d-copule échangeable pour faire de la prédiction. Ensuite, nous nous intéressons particulièrement au cas de d=2 variables pour étudier ses propriétés. Nous expliquons la procédure séquentielle pour sélectionner les cinq éléments entrant dans la construction du modèle de 2-copule échangeable. L'estimation des paramètres du modèle de 2-copule échangeable se fait en utilisant deux méthodes d'estimation : la méthode IFM généralisée ou la méthode du maximum de vraisemblance. Nous démontrons que les estimateurs associés aux paramètres du modèle de 2-copule échangeable sont convergents et asymptotiquement normaux que l'on utilise la méthode IFM généralisée ou celle par maximum de vraisemblance. Nous comparons ces deux méthodes d'estimation par le biais d'une étude Monte-Carlo. Finalement, nous montrons la modélisation de données en utilisant un modèle de 2-copule échangeable. Les données proviennent d'une étude effectuée au centre de Londres, dans le cadre du "Junior School Project (JSP)". Nous construisons des courbes de prédiction en utilisant la méthode de 2-copule échangeable que nous comparons à celles obtenues avec le modèle linéaire mixte et le modèle de régression ordinaire avec une copule. / In this thesis, we propose a multivariate model for modeling clustered data. The proposed model, which we name "d-copula", allows us to write the joint distribution of nd random variables measured on n units of the cluster. The exchangeable d-copula model involves three copulas and d marginal laws. It has properties of flexibility and handiness due to its explicit form. We show that the exchangeable d-copula is a generalization of the linear mixed model with random intercepts. Indeed, when the copulas are all normal and the marginal laws are normal, then the two models are equivalent. We use the exchangeable d-copula model to make predictions. Then, we focus on the case of d=2 variables to study its properties. We explain the sequential procedure for selecting the five elements that go into the construction of the exchangeable 2-copula model. The estimation of the parameters of the exchangeable 2-copula model is done using two estimation methods : the generalized IFM method or the maximum likelihood method. We show that the estimators associated with the parameters of the exchangeable d-copula model are convergent and asymptotically normal whether using the generalized IFM or the maximum likelihood method. We compare these two estimation methods by means of a Monte-Carlo study. Finally, we show the construction of an exchangeable 2-copula model from observed data. The data come from a study in central London, as part of the «Junior School Project (JSP)». We construct prediction curves using the exchangeable 2-copula method and compare them to those obtained with the mixed linear model and the ordinary regression model with one copula.
|
8 |
Évaluation des mesures de ruine dans le cadre de modèles avancés de risqueMarri, Fouad 13 April 2018 (has links)
La théorie du risque consiste en l'étude de modèles décrivant le processus de surplus d 'une compagnie d 'assurance. L'évaluation de différentes mesures de ruine dans le cadre de ces modèles permet d'obtenir une idée générale de la santé financière de la compagnie d'assurance et du risque assumé par celle-ci. Le modèle classique de risque pour décrire les arrivées et les coûts des sinistres est le modèle Poisson composé. Ce modèle est basé sur une hypothèse d 'indépendance entre le montant des sinistres et le temps écoulé entre chacun. Cette hypothèse facilite le calcul des mesures de ruine mais peut s'avérer trop restrictive dans différents contextes. L'objectif principal de cette thèse est l'étude d'extensions du modèle classique dans lesquelles sont introduites une structure de dépendance entre la sévérité et la fréquence des sinistres. La copule de Farlie-Gumbel-Morgenstern et une extension de cette copule sont utilisées pour définir cette structure. En raison de la forme et de la flexibilité de ces copules, il est possible d'adapter les outils développés récemment en théorie du risque dans l'évaluation et l'analyse des mesures de ruine. La fonction de Gerber-Shiu et certains cas particuliers de cette fonction , comme la transformée de Laplace du temps de la ruine et l'espérance de la valeur actualisée du déficit à la ruine sont étudiées dans le cadre de ces extensions. On s'intéresse également à l'évolution du processus de surplus en présence d'une barrière horizontale. Les mesures de ruine citées plus haut, ainsi que le montant total actualisé des dividendes distribués sont évaluées. / [Copule de Farlie-Gumbel-Morgenstern ; Modèle Poisson composé]
|
9 |
Modèles de copules Archimédiennes pour données de Bernoulli corréléesTounkara, Fode 23 April 2018 (has links)
Cette thèse introduit et explore une nouvelle classe de modèles probabilistes pour des données de Bernoulli échangeables en forme de grappe. Dans ces modèles, la probabilité conditionnelle de succès est une fonction de la probabilité marginale de succès et d’un effet aléatoire positif spécifique à chaque grappe. La distribution de l’effet aléatoire contient un paramètre d’association qui est estimé pour donner une mesure de la force de la dépendance résiduelle ignorée par les marges. Nous montrons que la transformée de Laplace de l’effet aléatoire est liée au générateur des modèles de copules Archimédiennes, ce qui nous permet d’avoir un nouvel aperçu de ces modèles. L’approche que nous proposons offre de nombreux avantages. En effet, la famille de copules Archimédiennes fournit une large classe de modèles pour la sur-dispersion dans une expérience de Bernoulli. D’un point de vue statistique, la fonction de vraisemblance marginale pour les données de l’échantillon a une expression explicite, les méthodes du maximum de vraisemblance sont alors faciles à mettre en oeuvre. Nous avons considéré quatre applications de nos modèles. Premièrement, nous construisons un intervalle de confiance par vraisemblance profilée pour le coefficient de corrélation intra-grappe (ICC). La deuxième application concerne l’estimation de la taille d’une population en présence d’hétérogénéité observée et non observée (résiduelle) dans une expérience de capture-recapture. Le troisième problème traite de l’estimation dans de petites régions, et enfin le quatrième indépendant des trois premiers, analyse les caractéristiques socio-économiques des hommes qui ont une préférence à épouser des jeunes filles de moins de 18 ans. Dans la première application, nous considérons le cas le plus simple de nos modèles où aucune covariable n’est disponible puis proposons la méthode du maximum de vraisemblance pour l’estimation du coefficient de corrélation intra-grappe (ICC) à l’aide de plusieurs spécifications de copules Archimédiennes. La sélection d’un modèle particulier est effectuée en utilisant le critère d’information d’Akaike (AIC). La procédure comprend l’estimation du maximum de vraisemblance et la méthode du profil de vraisemblance (ou vraisemblance profilée). Nous avons fait des études de simulation pour mesurer la performance de la méthode d’intervalle par vraisemblance profilée sous nos modèles en termes de taux de couverture et de longueur d’intervalle de confiance, et la sensibilité de notre approche à la spécification d’un modèle de copule. La procédure que nous proposons a aussi été appliquée à des données réelles. Nous comparons notre méthode à celle proposée sous le modèle Béta-binomial, et la méthode d’intervalle de type Wald modifié proposée par Zou and Donner (2004). L’une des conclusions importantes de ces études est que l’intervalle de confiance par vraisemblance profilée obtenu sous nos modèles présente de belles propriétés en termes de taux couverture et de longueur d’intervalle de confiance, même lorsque le nombre de grappes est petit. La sélection de modèle est une étape importante : si le modèle est mal spécifié, alors cela pourrait conduire à des résultats erronés. La seconde application, une extension de la première pour accommoder des covariables au niveau des grappes, concerne la modélisation de l’hétérogéneité dans les probabilités de capture lors d’une expérience de capture-recapture dans une population fermée. Dans ce contexte, nos modèles sont utilisés pour modéliser l’hétérogéneité résiduelle qui n’est pas prise en compte par les covariables mesurées sur des unités capturées. Plusieurs modèles sont disponibles pour l’hétérogénéité non observée et la probabilité de capture marginale est modélisée en utilisant les fonctions de liens Logit et Log-Log complémentaire. Les paramètres sont estimés en utilisant la vraisemblance conditionnelle construite à partir des observations collectées sur les unités capturées au moins une fois. Ceci généralise le modèle de Huggins (1991) qui ne tient pas compte de l’hétérogénéité résiduelle. La sensibilité de l’inférence à la spécification d’un modèle est également étudiée par des simulations. Un exemple numérique est présenté. La troisième application traite de la prédiction dans de petites régions. Nous proposons des techniques de Bayes basées sur nos modèles pour estimer des proportions régionales. L’inférence Bayésienne que nous proposons consiste à trouver la distribution a posteriori de l’effet aléatoire et sa transformée de Laplace sachant les données et les paramètres du modèle. Cette transformée de Laplace est ensuite utilisée pour trouver des estimateurs de Bayes et leurs variances a posteriori pour les vraies proportions. Nous développons une étude de comparaison entre le meilleur prédicteur de Bayes (BP) et le meilleur prédicteur linéaire sans biais (BLUP). Nous avons également étudié l’efficacité du BP obtenu sous nos modèles relativement au BLUP. Les paramètres du modèle sont estimés en utilisant la méthode du maximum de vraisemblance. L’avantage de notre approche est que la fonction de vraisemblance et l’expression du meilleur prédicteur (BP) ont une forme explicite, ce qui facilite la mise en oeuvre de leur évaluation sur le plan numérique. Nous obtenons un prédicteur empirique de Bayes (EBP) en remplaçant les paramètres par leurs estimateurs dans l’expression du BP. Nous utilisons le critère d’information d’Akaike (AIC) pour la selection d’un modèle. Nous utilisons la méthode du jackknife pour estimer l’erreur quadratique moyenne des prédicteurs empiriques. Des résultats empiriques obtenus à partir de données simulées et réelles sont également présentés. Enfin, le quatrième problème traité dans cette thèse, qui est indépendant des trois premiers, concerne l’analyse des caractéristiques socio-économiques des hommes qui ont une préférence à épouser des jeunes filles de moins de 18 ans. Dans ce contexte, nous considérons les données de l’EDS 2006 du Niger et utilisons les copules Archimédiennes bidimentionelles pour modéliser l’association entre le niveau d’éducation (variable discrète) des hommes et leur revenu pré-marital (variable continue). Nous construisons la vraisemblance pour un échantillon issu de ce couple de variables aléatoires mixtes, et déduisons une estimation du paramètre de dépendance en utilisant une procédure semi-paramétrique où les marges sont estimées par leurs équivalents empiriques. Nous utilisons la méthode du jackknife pour estimer l’erreur type. Nous utilisons la méthode de Wald pour tester l’égalité entre l’association des caractéristiques socio-économiques des hommes qui épousent des jeunes filles mineures et celle des hommes qui se marient avec des femmes âgées. Les résultats du test contribuent à la validité de notre théorie selon laquelle les hommes qui épousent des jeunes filles de moins de 18 ans ont un niveau d’éducation et un revenu pré-marital faibles, lorsqu’on les compare aux hommes qui ne le font pas. / This thesis introduces and explores a new class of probability models for exchangeable clustered binary data. In these models, the conditional probability of success is characterized by a function of the marginal probability of success and a positive cluster-specific random effect. The marginal probabilities are modeled using the logit and complementary log-log link functions. The distribution of the random effect contains an association parameter that is estimated to give a measure of the strength of the within-cluster residual dependence that is not accounted for by the margins. We show that the random effect distributions can be related to exchangeable Archimedean copula models, thus giving new insights on such models. The copula approach offers many advantages. Indeed, the family of Archimedean copulas provides a large class of models for over-dispersion in a Bernoulli experiment. From a statistical perspective, the marginal likelihood function for the sample data has an explicit expression, the maximum likelihood methods are then easy to implement and computationally straightforward. Based on the proposed models, four applications are considered. First, we investigate the construction of profile likelihood confidence interval (PLCI) for the intra-cluster correlation coefficient (ICC). The second application is concerned with an heterogeneity in capture probabilities in a mark-recapture study for estimating the size of a closed population. The third contribution deals with the estimation in small areas, the fourth and final, independent of the other three, analyzes the socioeconomic characteristics of men who prefer to marry girls under 18 years old. In the first application, we consider a simple case, without covariates and construct maximum likelihood inference procedures for the intra-cluster correlation using several specifications of Archimedean copulas. The selection of a particular model is carried out using the Akaike information criterion (AIC). Profile likelihood confidence intervals for the ICC are constructed and their performance are assessed in a simulation experiment. The sensitivity of the inference to the specification of the copula family is also investigated through simulations. Numerical examples are presented. We compare our approach with that proposed under the Beta-binomial model and with the modified Wald interval method proposed by Zou and Donner (2004). One of the important findings of these studies is that the profile confidence interval obtained under our models presents nice properties, even when the number of clusters is small. Model selection is an important step: if the model is poorly specified, then this could lead to erroneous results. The second application, an extension of the first one to accommodate cluster level covariates, is concerned with an heterogeneity in capture probabilities in a capture-recapture study for estimating the size of a closed population. Unit level covariates are recorded on the units that are captured and copulas are used to model the residual heterogeneity that is not accounted for by covariates. Several models for the unobserved heterogeneity are available and the marginal capture probability is expressed using the Logit and the complementary Log-Log link functions. The parameters are estimated using a conditional likelihood constructed with the data obtained on the units caught at least once. The population size is estimated using a Horvitz-Thompson estimator constructed using the estimated probabilities that a unit is caught at least once. This generalizes the model of Huggins (1991) that does not account for a residual heterogeneity. The sensitivity of the inference to the specification of a model is also investigated through simulations. A numerical example is presented. The third application uses the models of the first two in order to estimate small area proportions. We apply Bayes techniques using a new class of probability models, to estimate small area proportions. The Bayesian inference under the proposed models consists in obtaining the posterior distribution of the random effect and its Laplace transform. This posterior Laplace transform is then used to find Bayes estimates of small area proportions. We develop a comparison between the Best Predictor (BP) and the Best Linear Unbiased Predictor (BLUP). The model parameters are estimated using the maximum likelihood (ML) method. Under the proposed model, the likelihood function and the best predictor (BP) of small area proportion have closed form expressions. Model parameters are replaced by their ML estimates in the BP to obtain the empirical best predictor (EBP). We use the Akaike information criterion (AIC) for selecting a particular model. We propose the jackknife method to estimate the mean square error of the empirical Bayes predictor. Empirical results obtained from simulated and real data are also presented. The fourth and last problem addressed in this thesis, independently of the others three, investigates socioeconomic characteristics of men who prefer to marry girls under 18 years. We consider the data from the 2006 DHS Niger and use a bivariate Archimedean copula to model the association between education level (discrete) of men and their pre-marital income (continuous). We present the likelihood function for a sample from this pair of mixed random variables, and derive an estimate of the dependence parameter using a semiparametric procedure where margins are estimated by their empirical equivalents. We use the jackknife method to estimate the standard error. We use a Wald-type procedure, to perform a parametric hypothesis test of equality between the association of the socio economic characteristics of men who marry underage girls and that of men who marry older women instead. These test results contribute to the validity of our theory that men who marry girls under 18 years old have a low level of education and income pre-marital, when compared to men who did not.
|
10 |
Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absenceRoy-Pomerleau, Xavier 27 January 2024 (has links)
Malgré l’efficacité des réseaux pour représenter les systèmes complexes, de récents travaux ont montré que leur structure limite parfois le pouvoir explicatif des modèles théoriques, puisqu’elle n’encode que des relations par paire. Si une interaction plus complexe existe dans le système représenté, elle est automatiquement réduite à un groupe d’interactions par paire, c’est-à-dire d’ordre un. Il faut alors utiliser des structures qui prennent en compte les interactions d’ordre supérieur. Cependant, qu’elles soient ou non d’ordre supérieur, les interactions entre les éléments d’un système sont rarement explicites dans les jeux de données. C’est notamment le cas des données de présence/absence qui indiquent quelles espèces (animales, végétales ou autres) se retrouvent (ou non) sur un site d’observation sans indiquer les relations entre elles. L’objectif de ce mémoire est alors de développer une technique d’inférence pour dénicher les interactions d’ordre supérieur au sein de données de présence/absence. Ici, deux cadres théoriques sont explorés. Le premier est basé sur la comparaison entre la topologie des données, obtenue grâce à une hypothèse souple, et celle d’un ensemble aléatoire. Le second utilise plutôt les modèles log-linéaire et les tests d’hypothèses pour inférer les interactions une à une jusqu’à l’ordre désiré. Ce cadre a permis d’élaborer plusieurs méthodes d’inférence qui génèrent des complexes simpliciaux (ou des hypergraphes) qui peut être analysés grâce aux outils standards de la science des réseaux en plus de l’homologie. Afin de valider ces méthodes, nous avons développé un modèle génératif de données de présence/absence dans lesquelles les véritables interactions sont connues. Des résultats concrets ont également été obtenus pour des jeux de données réelles. Notamment, à partir de données de présence/absence d’oiseaux nicheurs du Québec, nous avons réussi à inférer des cooccurrences d’ordre deux. / Despite the effectiveness of networks to represent complex systems, recent work has shownthat their structure sometimes limits the explanatory power of the theoretical models, sinceit only encodes dyadic interactions. If a more complex interaction exists in the system, it isautomatically reduced to a group of pairwise interactions that are of the first order. We thusneed to use structures that can take higher-order interactions into account. However, whetherrelationships are of higher order or not is rarely explicit in real data sets. This is the case ofpresence/absence data, that only indicate which species (of animals, plants or others) can befound (or not) on a site without showing the interactions between them.The goal of this project is to develop an inference method to find higher-order interactionswithin presence/absence data. Here, two frameworks are examined. The first one is based onthe comparison of the topology of the data, obtained with a non-restrictive hypothesis, andthe topology of a random ensemble. The second one uses log-linear models and hypothesistesting to infer interactions one by one until the desired order. From this framework, we havedevelopped several inference methods to generate simplicial complexes (or hypergraphs) thatcan be studied with regular tools of network science as well as homology. In order to validatethese methods, we have developed a generative model of presence/absence data in which thetrue interactions are known. Results have also been obtained on real data sets. For instance,from presence/absence data of nesting birds in Québec, we were able to infer co-occurrencesof order two
|
Page generated in 0.1331 seconds