Spelling suggestions: "subject:"[een] ESTIMATION OF VARIANCE"" "subject:"[enn] ESTIMATION OF VARIANCE""
1 |
Méthodes de Bootstrap en population finieChauvet, Guillaume 14 December 2007 (has links) (PDF)
Cette thèse est consacrée aux méthodes de Bootstrap pour unepopulation ?nie. Le premier chapitre introduit quelques rappels sur l'échantillonnage et propose une présentation synthétique des principales méthodes d'estimation de précision. Le chapitre 2 rappelle les méthodes de Bootstrap proposées pour un sondage aléatoire simple et introduit deux nouvelles mé thodes. Le chapitre 3 donne un nouvel algorithme de Bootstrap, consistant pour l'estimation de variance d'un estimateur par substitution dans le cas d'un tirage à forte entropie. Dans le chapitre 4, nous introduisons la notion d'échantillonnage équilibré et proposons un algorithme rapide. Nous montrons que l'algorithme de Bootstrap proposé est également consistant pour l'estimation de variance d'un tirage équilibré à entropie maximale. Le cas d'un échantillonnage complexe et celui d'un redressement est traité au chapitre 5. Une application au Nouveau Recensement de la population est donnée dans le chapitre 6.
|
2 |
Estimation In The Simple Linear Regression Model With One-fold Nested ErrorUlgen, Burcin Emre 01 June 2005 (has links) (PDF)
In this thesis, estimation in simple linear regression model with one-fold nested error is studied.
To estimate the fixed effect parameters, generalized least squares and maximum likelihood estimation procedures are reviewed. Moreover, Minimum Norm Quadratic Estimator (MINQE), Almost Unbiased Estimator (AUE) and Restricted Maximum Likelihood Estimator (REML) of variance of primary units are derived.
Also, confidence intervals for the fixed effect parameters and the variance components are studied. Finally, the aforesaid estimation techniques and confidence intervals are applied to a real-life data and the results are presented
|
3 |
Safe optimization algorithms for variable selection and hyperparameter tuning / Algorithmes d’optimisation sûrs pour la sélection de variables et le réglage d’hyperparamètreNdiaye, Eugene 04 October 2018 (has links)
Le traitement massif et automatique des données requiert le développement de techniques de filtration des informations les plus importantes. Parmi ces méthodes, celles présentant des structures parcimonieuses se sont révélées idoines pour améliorer l’efficacité statistique et computationnelle des estimateurs, dans un contexte de grandes dimensions. Elles s’expriment souvent comme solution de la minimisation du risque empirique régularisé s’écrivant comme une somme d’un terme lisse qui mesure la qualité de l’ajustement aux données, et d’un terme non lisse qui pénalise les solutions complexes. Cependant, une telle manière d’inclure des informations a priori, introduit de nombreuses difficultés numériques pour résoudre le problème d’optimisation sous-jacent et pour calibrer le niveau de régularisation. Ces problématiques ont été au coeur des questions que nous avons abordées dans cette thèse.Une technique récente, appelée «Screening Rules», propose d’ignorer certaines variables pendant le processus d’optimisation en tirant bénéfice de la parcimonie attendue des solutions. Ces règles d’élimination sont dites sûres lorsqu’elles garantissent de ne pas rejeter les variables à tort. Nous proposons un cadre unifié pour identifier les structures importantes dans ces problèmes d’optimisation convexes et nous introduisons les règles «Gap Safe Screening Rules». Elles permettent d’obtenir des gains considérables en temps de calcul grâce à la réduction de la dimension induite par cette méthode. De plus, elles s’incorporent facilement aux algorithmes itératifs et s’appliquent à un plus grand nombre de problèmes que les méthodes précédentes.Pour trouver un bon compromis entre minimisation du risque et introduction d’un biais d’apprentissage, les algorithmes d’homotopie offrent la possibilité de tracer la courbe des solutions en fonction du paramètre de régularisation. Toutefois, ils présentent des instabilités numériques dues à plusieurs inversions de matrice, et sont souvent coûteux en grande dimension. Aussi, ils ont des complexités exponentielles en la dimension du modèle dans des cas défavorables. En autorisant des solutions approchées, une approximation de la courbe des solutions permet de contourner les inconvénients susmentionnés. Nous revisitons les techniques d’approximation des chemins de régularisation pour une tolérance prédéfinie, et nous analysons leur complexité en fonction de la régularité des fonctions de perte en jeu. Il s’ensuit une proposition d’algorithmes optimaux ainsi que diverses stratégies d’exploration de l’espace des paramètres. Ceci permet de proposer une méthode de calibration de la régularisation avec une garantie de convergence globale pour la minimisation du risque empirique sur les données de validation.Le Lasso, un des estimateurs parcimonieux les plus célèbres et les plus étudiés, repose sur une théorie statistique qui suggère de choisir la régularisation en fonction de la variance des observations. Ceci est difficilement utilisable en pratique car, la variance du modèle est une quantité souvent inconnue. Dans de tels cas, il est possible d’optimiser conjointement les coefficients de régression et le niveau de bruit. Ces estimations concomitantes, apparues dans la littérature sous les noms de Scaled Lasso, Square-Root Lasso, fournissent des résultats théoriques aussi satisfaisants que celui du Lasso tout en étant indépendant de la variance réelle. Bien que présentant des avancées théoriques et pratiques importantes, ces méthodes sont aussi numériquement instables et les algorithmes actuellement disponibles sont coûteux en temps de calcul. Nous illustrons ces difficultés et nous proposons à la fois des modifications basées sur des techniques de lissage pour accroitre la stabilité numérique de ces estimateurs, ainsi qu’un algorithme plus efficace pour les obtenir. / Massive and automatic data processing requires the development of techniques able to filter the most important information. Among these methods, those with sparse structures have been shown to improve the statistical and computational efficiency of estimators in a context of large dimension. They can often be expressed as a solution of regularized empirical risk minimization and generally lead to non differentiable optimization problems in the form of a sum of a smooth term, measuring the quality of the fit, and a non-smooth term, penalizing complex solutions. Although it has considerable advantages, such a way of including prior information, unfortunately introduces many numerical difficulties both for solving the underlying optimization problem and to calibrate the level of regularization. Solving these issues has been at the heart of this thesis. A recently introduced technique, called "Screening Rules", proposes to ignore some variables during the optimization process by benefiting from the expected sparsity of the solutions. These elimination rules are said to be safe when the procedure guarantees to not reject any variable wrongly. In this work, we propose a unified framework for identifying important structures in these convex optimization problems and we introduce the "Gap Safe Screening Rules". They allows to obtain significant gains in computational time thanks to the dimensionality reduction induced by this method. In addition, they can be easily inserted into iterative algorithms and apply to a large number of problems.To find a good compromise between minimizing risk and introducing a learning bias, (exact) homotopy continuation algorithms offer the possibility of tracking the curve of the solutions as a function of the regularization parameters. However, they exhibit numerical instabilities due to several matrix inversions and are often expensive in large dimension. Another weakness is that a worst-case analysis shows that they have exact complexities that are exponential in the dimension of the model parameter. Allowing approximated solutions makes possible to circumvent the aforementioned drawbacks by approximating the curve of the solutions. In this thesis, we revisit the approximation techniques of the regularization paths given a predefined tolerance and we propose an in-depth analysis of their complexity w.r.t. the regularity of the loss functions involved. Hence, we propose optimal algorithms as well as various strategies for exploring the parameters space. We also provide calibration method (for the regularization parameter) that enjoys globalconvergence guarantees for the minimization of the empirical risk on the validation data.Among sparse regularization methods, the Lasso is one of the most celebrated and studied. Its statistical theory suggests choosing the level of regularization according to the amount of variance in the observations, which is difficult to use in practice because the variance of the model is oftenan unknown quantity. In such case, it is possible to jointly optimize the regression parameter as well as the level of noise. These concomitant estimates, appeared in the literature under the names of Scaled Lasso or Square-Root Lasso, and provide theoretical results as sharp as that of theLasso while being independent of the actual noise level of the observations. Although presenting important advances, these methods are numerically unstable and the currently available algorithms are expensive in computation time. We illustrate these difficulties and we propose modifications based on smoothing techniques to increase stability of these estimators as well as to introduce a faster algorithm.
|
4 |
Estimation dans des modèles à variables cachéesMatias, Catherine 21 December 2001 (has links) (PDF)
Cette thèse porte sur des problèmes d'estimation dans des modèles à variables cachées. Le Chapitre 1 est consacré à l'étude d'un modèle de Markov caché où la chaîne de Markov, non-nécessairement stationnaire, est supposée à valeurs dans un espace d'états compact et les observations dans un espace métrique séparable complet. La loi de la chaîne cachée ainsi que la loi conditionnelle dépendent d'un paramètre. Nous prouvons que l'estimateur du maximum de vraisemblance du paramètre est consistant, asymptotiquement normal et efficace. Le Chapitre 2 porte sur l'étude du modèle de convolution. Les observations sont issues d'un signal composé de variables aléatoires i.i.d. de densité inconnue g et d'un bruit blanc Gaussien centré de variance inconnue \sigma. Nous montrons que la non-connaissance de \sigma dégrade nettement la vitesse d'estimation de g : dans la plupart des cas ``réguliers'' cette vitesse est toujours plus lente que (log n)^(-1/2). Nous proposons alors un estimateur de \sigma qui est presque minimax lorsque g possède un support inclus dans un compact fixé. Nous construisons également un estimateur consistant universel de \sigma (i.e. sans contrainte sur g autre que celle d'identifiabilité du modèle). Dans le Chapitre 3, nous considérons ce même modèle de convolution mais lorsque le bruit possède une variance connue (fixée égale à 1) et nous nous intéressons aux propriétés d'estimation de fonctionnelles linéaires intégrales de de la forme \int f(x)\Phi_1(y-x) g(x)dx où \Phi_1 désigne la densité du bruit et f est une fonction connue. Nous étendons les résultats de Taupin dans le cas où la fonction f est soit une fonction polynomiale, soit un polynôme trigonométrique, en établissant des minorations du risque quadratique ponctuel et du risque par rapport à la norme infinie, ainsi que des majorations et minorations du risque par rapport à la norme p (1 \geq p <\infty). Nous montrons que l'estimateur proposé par Taupin atteint les vitesses optimales dans le cas où f est un polynôme et est presque minimax dans le cas où f est un polynôme trigonométrique, avec une perte pour le risque quadratique et pour le risque en norme infinie.
|
5 |
[en] A NEW APPROACH FOR ESTIMATING THE COEFFICIENTS OF SCALABILITY ASSOCIATED WITH NON PARAMETRIC ITEM RESPONSE THEORY / [pt] UMA NOVA ABORDAGEM PARA A ESTIMAÇÃO DOS COEFICIENTES DE ESCALONABILIDADE ASSOCIADOS À TEORIA DE RESPOSTA AO ITEM NÃO PARAMÉTRICAMARCIA SANTOS ANDRADE 10 April 2014 (has links)
[pt] A finalidade desta tese é propor estimadores pontuais para os coeficientes de
escalonabilidade associados à Teoria de Resposta ao Item não Paramétrica
(TRIN), a saber: Hij, Hi e H, e seus respectivos estimadores da variância, baseados
na abordagem da amostragem de populações finitas. Com o objetivo de investigar
empiricamente a qualidade destes estimadores são consideradas as populações de
referência que são formadas pelos alunos que frequentavam o 9° ano do Ensino
Fundamental, na rede pública, em áreas urbanas dos Estados de Roraima e do Rio
de Janeiro, que participaram da Prova Brasil 2007. As respostas obtidas destes
alunos a um conjunto de 10 itens dicotomizados que mensuram o capital
econômico da sua família foram usadas na construção dos coeficientes de
escalonabilidade do Modelo de Homogeneidade Monótona da TRIN. Repetidas
amostras foram selecionadas de cada população de referência empregando dois
planos amostrais: AC1S (amostragem por conglomerados em único estágio) e
AC2-SAEB (com seleção de escolas e turmas, estratificação e sorteio das unidades
do primeiro estágio com probabilidade proporcional a uma medida de tamanho da
escola. A estimação pontual é baseada no Modelo de Superpopulação. Duas
técnicas foram tratadas para a estimação da variância: método do Conglomerado
Primário e Delete - 1 Jackknife. As medidas usuais: vício relativo, erro relativo
médio, intervalo de confiança e efeito do plano amostral são usadas para a
avaliação da qualidade dos estimadores em termos das propriedades de vício e
precisão. O estudo assinala que os estimadores pontuais apresentam boas
propriedades e, além disto, o estimador da variância corrigido pelo fator de
correção de população finita é o mais apropriado em termos de vício e precisão. O
plano amostral complexo adotado teve impacto na estimação pontual e da
variância dos estimadores dos coeficientes de escalonabilidade. / [en] The purpose of this thesis is to propose estimators for the coefficients of
scalability associated with Non Parametric Item Response Theory (NIRT),
namely: Hij, Hi and H, and their variance estimators, based on the approach of
sampling finite populations. To investigate empirically the quality of these
estimators are considered the reference populations that are formed by students
attending the 9th year of elementary school, in public, in urban areas of the states
of Roraima and Rio de Janeiro, who participated Prova Brasil 2007. The
responses of students to a set of 10 dichotomized items that measure the economic
status of their families were used in the construction of the coefficients of
scalability of the Homogeneity Model. Repeated samples were selected from each
reference population using two sampling plans: AC1S (cluster sampling single
stage) and AC2-SAEB (with selecting schools and classes, stratification and draw
units of the first stage with probability proportional to a measure of school size).
The point estimate is based on the approach of the Model Overpopulation. Two
techniques were treated to estimate the variance: Ultimate Cluster method and
Delete - 1 Jackknife. The usual measures: relative bias, mean relative error,
confidence intervals and effect of the sampling plan is used to assess the quality of
the estimators in terms of the properties of bias and accuracy. The study notes that
the estimators have good properties and, in addition, the estimator of the variance
corrected by the correction factor for finite population is the most appropriate in
terms of accuracy and bias. The complex sampling (AC2-SAEB) impacted the
point estimate and variance of the estimators of the coefficients of scalability.
|
Page generated in 0.0589 seconds