• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • Tagged with
  • 4
  • 4
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Génération de données synthétiques pour des variables continues : étude de différentes méthodes utilisant les copules

Desbois-Bédard, Laurence 24 April 2018 (has links)
L’intérêt des agences statistiques à permettre l’accès aux microdonnées d’enquête est grandissant. À cette fin, plusieurs méthodes permettant de publier les microdonnées tout en protégeant la confidentialité des répondants ont été proposées ; ce mémoire se penche sur l’une d’entre-elles : la génération de données synthétiques. Deux approches sont présentées, GADP et C-GADP, et une nouvelle est proposée. La méthode GADP suppose que les variables des données originales et synthétiques sont de loi normale, alors que la méthode C-GADP suppose qu’elles sont jointes par une copule normale. La nouvelle méthode est basée sur les modèles de copules en vigne. Ces modèles sont employés dans l’espoir de mieux modéliser les liens entre les variables. Les trois approches sont évaluées selon les concepts d’utilité et de risque. L’utilité de données confidentielles s’apprécie selon la similitude qu’elles ont avec les données originales et le risque, par la possibilité d’une violation de la confidentialité des répondants. Le risque peut survenir par identification ou par inférence. Seul le risque d’inférence est possible dans le cadre de ce mémoire. Précisément, l’utilité est évaluée avec quelques mesures faites à partir d’analyses spécifiques et une mesure globale basée sur les scores de propension calculés avec une régression logistique. Quant au risque, il est évalué avec une prévision basée sur la distance. / Statistical agencies face a growing demand for releasing microdata to the public. To this end, many techniques have been proposed for publishing microdata while providing confidentiality : synthetic data generation in particular. This thesis focuses on such technique by presenting two existing methods, GAPD and C-GADP, as well as suggesting one based on vine copula models. GADP assumes that the variables of original and synthetic data are normally distributed, while C-GADP assumes that they have a normal copula distribution. Vine copula models are proposed due to their flexibility. These three methods are then assessed according to utility and risk. Data utility depends on maintaining certain similarities between the original and confidential data, while risk can be observed in two types : reidentification and inference. This work will focus on the utility examined with different analysis-specific measures, a global measure based on propensity scores and the risk of inference evaluated with a distance-based prediction.
2

Étude des algorithmes de stratification et illustration utilisant la réalisation de l'enquête sur le recrutement, l'emploi et les besoins de formation au Québec en 2015, l'EREFEQ 2015

Houimli, Oussama 27 January 2024 (has links)
Dans un plan stratifié, le calcul des bornes de strates peut se faire de plusieurs façons. On peut se fier à un jugement personnel et séparer les unités de la population en se basant sur la distribution de la variable de stratification. D’autres méthodes scientifiques et rigoureuses donnent un meilleur résultat, dont les algorithmes de cum √f, Sethi et Kosak. Pour les populations asymétriques, telles que retrouvées dans les enquêtes entreprises, l’utilisation d’une strate recensement permet de diminuer la taille d’échantillon et donner des estimations plus fiables. Parfois, la variable de stratification utilisée dans l’élaboration du plan de sondage ne garantit pas l’obtention de la précision cible pour toutes les variables d’intérêt de l’enquête. Utiliser la variable d’intérêt la plus difficile à estimer, comme variable de stratification, permet de garantir un CV cible minimal pour toutes les autres variables, mais engendre des grandes tailles d’échantillon. / In a stratified sampling design, the calculation of the stratum boundaries can be done in several ways. We can rely on personal judgment and separate the units of the population based on the distribution of the stratification variable. Other scientific and rigorous methods give a better result, including the algorithms of cum √f, Sethi and Kosak. For asymmetric populations, as found in the business surveys, the use of a census stratum reduces the sample size and gives more reliable estimates. Univariate methods, those that use a single stratification variable in calculating the boundaries, do not guarantee that the target precision will be obtained for all the variables of interest in the survey. Using the variable of interest that is the most difficult to estimate, as a stratification variable, makes it possible to guarantee a minimum target CV for all the other variables, but generates large sample sizes.
3

Critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte lorsque la structure des effets aléatoires est inconnue

Benouari, Ouassima 23 September 2019 (has links)
Nous évaluons la perfomance du critère récemment proposé meanAIC comme critère de sélection de variables pour les modèles de régression logistique conditionnelle mixte. Il s’agit d’un critère basé sur l’information d’Akaike, calculable lorsque le modèle est ajusté à l’aide d’une méthode d’estimation en deux étapes. En outre, le calcul de meanAIC ne nécessite pas la spécification de la structure des effets aléatoires ; il est donc d’une grande utilité comme premier filtre pour les variables dans une première analyse où la structure des effets aléatoires est typiquement inconnue. Ce travail a été motivé par les applications en écologie, où la sélection de variables est traditionnellement basée sur les critères d’information plutôt que sur les méthodes de régularisation. Ces études utilisent les données télémétriques de déplacement animal collectées selon un plan d’échantillonnage cas-témoins apparié et analysées à l’aide d’un modèle de régression logistique conditionnelle mixte. Nous effectuons une étude de simulation pour évaluer la capacité de meanAIC à correctement identifier les covariables potentiellement importantes dans le modèle et nous illustrons son utilisation à l’aide de données de sélection d’habitat collectées sur des caribous / We assess the perfomance of the recently proposed criterion meanAIC as a variable selection criterion for mixed conditional logistic regression models. It is a criterion based on Akaike’s information, computable when the model is fitted with a two-step estimation method. In addition, the calculation of meanAIC does not require the specification of the random effects structure; it is thus of great use as a first covariates filter in the early stage of the analysis when the random effects structure is typically unknown. This work is motivated by applications in ecology where the model selection is traditionally based on information criteria rather than on regularization. These studies use animal movement telemetric data collected using a matched case-control sampling design that are analyzed with a mixed conditional logistic regression model. We conduct a simulation study to assess the ability of meanAIC to correctly identify potentially important covariates and illustrate its use by analyzing habitat selection data collected on caribou.
4

Optimal tests for panel data

Bennala, Nezar 14 September 2010 (has links)
Dans ce travail, nous proposons des procédures de test paramétriques et nonparamétriques localement et asymptotiquement optimales au sens de Hajek et Le Cam, pour deux modèles de données de panel. Notre approche est fondée sur la théorie de Le Cam d'une part, pour obtenir les propriétés de normalité asymptotique, bases de la construction des tests paramétriques optimaux, et la théorie de Hajek d'autre part, qui, via un principe d'invariance, permet d'obtenir les procédures nonparamétriques.<p><p><p><p>Dans le premier chapitre, nous considérons un modèle à erreurs composées et nous nous intéressons au problème qui consiste à tester l'absence de l'effet individuel aléatoire. Nous<p>établissons la propriété de normalité locale asymptotique (LAN), ce qui nous permet de construire des procédures paramétriques localement et asymptotiquement optimales (“les plus stringentes”)<p>pour le problème considéré. L'optimalité de ces procédures est liée à la densité-cible f1. Ces propriétés d'optimalité sont hautement paramétriques puisqu'elles requièrent que la densité sous-jacente soit f1. De plus, ces procédures ne seront valides que si la densité-cible f1 et la densité sous-jacent g1 coincïdent. Or, en pratique, une spécification correcte de la densité sous-jacente g1 est non réaliste, et g1 doit être considérée comme un paramètre de nuissance. Pour éliminer cette nuisance, nous adoptons l'argument d'invariance et nous nous restreignons aux procédures fondées sur des statistiques qui sont mesurables par rapport au vecteur des rangs. Les tests que nous obtenons restent valide quelle que soit la densité sous-jacente et sont localement et asymptotiquement les plus stringents. Afin d'avoir des renseignements sur l'efficacité des tests<p>fondés sur les rangs sous différentes lois, nous calculons les efficacités asymptotiques relatives de ces tests par rapport aux tests pseudo-gaussiens, sous des densités g1 quelconques. Enfin, nous proposons quelques simulations pour comparer les performances des procédures proposées. <p><p><p><p>Dans le deuxième chapitre, nous considérons un modèle à erreurs composées avec autocorrélation d'ordre 1 et nous montrons que ce modèle jouit de la propriété LAN. A partir de ce résultat, nous construisons des tests optimaux, au sens local et asymptotique, pour trois problèmes de tests importants dans ce contexte :(a) test de l'absence d'effet individuel et d'autocorrélation; (b) test de l'absence d'effet individuel en présence d'une autocorrélation non<p>spécifiée; et (c) test de l'absence d'autocorrélation en présence d'un effet individuel non spécifié. Enfin, nous proposons quelques simulations pour comparer les performances des tests pseudogaussiens<p>et des tests classiques. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished

Page generated in 0.099 seconds