11 |
Statistical analysis software for the TRS-80 microcomputerIsbell, Robert Paul 09 1900 (has links)
Approved for public release; distribution is unlimited. / This paper documents the development of a statistical
analysis package for the TRS-80 microcoraputer. The package
is comprised of six interactive programs which are generally
divided into topical areas. The major emphasis is on exploratory
data analysis and statistical inference, however,
probability and inverse probability distributions are also
The programming language is TRS-80 Level II BASIC enhanced
by the input/output commands available through the
ESF-80 (Exatron Stringy Floppy) mass storage subsystem.
With the modification of these few commands, the package is
compatible with most floppy disk operating systems designed
for the TRS-80 Model I or Model III microcomputers.
This statistical analysis capability implemented on a
relatively inexpensive system provides a useful tool to the
student or the trained analyst without ready access to a
mainframe computer system. / Major, United States Marine Corps
12 |
Contribuições em inferência e modelagem de valores extremos / Contributions to extreme value inference and modeling.Pinheiro, Eliane Cantinho 04 December 2013 (has links)
A teoria do valor extremo é aplicada em áreas de pesquisa tais como hidrologia, estudos de poluição, engenharia de materiais, controle de tráfego e economia. A distribuição valor extremo ou Gumbel é amplamente utilizada na modelagem de valores extremos de fenômenos da natureza e no contexto de análise de sobrevivência para modelar o logaritmo do tempo de vida. A modelagem de valores extremos de fenômenos da natureza tais como velocidade de vento, nível da água de rio ou mar, altura de onda ou umidade é importante em estatística ambiental pois o conhecimento de valores extremos de tais eventos é crucial na prevenção de catátrofes. Ultimamente esta teoria é de particular interesse pois fenômenos extremos da natureza têm sido mais comuns e intensos. A maioria dos artigos sobre teoria do valor extremo para modelagem de dados considera amostras de tamanho moderado ou grande. A distribuição Gumbel é frequentemente incluída nas análises mas a qualidade do ajuste pode ser pobre em função de presença de ouliers. Investigamos modelagem estatística de eventos extremos com base na teoria de valores extremos. Consideramos um modelo de regressão valor extremo introduzido por Barreto-Souza & Vasconcellos (2011). Os autores trataram da questão de corrigir o viés do estimador de máxima verossimilhança para pequenas amostras. Nosso primeiro objetivo é deduzir ajustes para testes de hipótese nesta classe de modelos. Derivamos a estatística da razão de verossimilhanças ajustada de Skovgaard (2001) e cinco ajustes da estatística da razão de verossimilhanças sinalizada, que foram propostos por Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) e Fraser et al. (1999). As estatísticas ajustadas são aproximadamente distribuídas como uma distribuição $\\chi^2$ e normal padrão com alto grau de acurácia. Os termos dos ajustes têm formas compactas simples que podem ser facilmente implementadas em softwares disponíveis. Comparamos a performance do teste da razão de verossimilhanças, do teste da razão de verossimilanças sinalizada e dos testes ajustados obtidos neste trabalho em amostras pequenas. Ilustramos uma aplicação dos testes usuais e suas versões modificadas em conjuntos de dados reais. As distribuições das estatísticas ajustadas são mais próximas das respectivas distribuições limites comparadas com as distribuições das estatísticas usuais quando o tamanho da amostra é relativamente pequeno. Os resultados de simulação indicaram que as estatísticas ajustadas são recomendadas para inferência em modelo de regressão valor extremo quando o tamanho da amostra é moderado ou pequeno. Parcimônia é importante quando os dados são escassos, mas flexibilidade também é crucial pois um ajuste pobre pode levar a uma conclusão completamente errada. Uma revisão da literatura foi feita para listar as distribuições que são generalizações da distribuição Gumbel. Nosso segundo objetivo é avaliar a parcimônia e flexibilidade destas distribuições. Com este propósito, comparamos tais distribuições através de momentos, coeficientes de assimetria e de curtose e índice da cauda. As famílias mais amplas obtidas pela inclusão de parâmetros adicionais, que têm a distribuição Gumbel como caso particular, apresentam assimetria e curtose flexíveis enquanto a distribuição Gumbel apresenta tais características constantes. Dentre estas distribuições, a distribuição valor extremo generalizada é a única com índice da cauda que pode ser qualquer número real positivo enquanto os índices da cauda das outras distribuições são zero. Observamos que algumas generalizações da distribuição Gumbel estudadas na literatura são não identificáveis. Portanto, para estes modelos a interpretação e estimação de parâmetros individuais não é factível. Selecionamos as distribuições identificáveis e as ajustamos a um conjunto de dados simulado e a um conjunto de dados reais de velocidade de vento. Como esperado, tais distribuições se ajustaram bastante bem ao conjunto de dados simulados de uma distribuição Gumbel. A distribuição valor extremo generalizada e a mistura de duas distribuições Gumbel produziram melhores ajustes aos dados do que as outras distribuições na presença não desprezível de observações discrepantes que não podem ser acomodadas pela distribuição Gumbel e, portanto, sugerimos que tais distribuições devem ser utilizadas neste contexto. / The extreme value theory is applied in research fields such as hydrology, pollution studies, materials engineering, traffic management, economics and finance. The Gumbel distribution is widely used in statistical modeling of extreme values of a natural process such as rainfall and wind. Also, the Gumbel distribution is important in the context of survival analysis for modeling lifetime in logarithmic scale. The statistical modeling of extreme values of a natural process such as wind or humidity is important in environmental statistics; for example, understanding extreme wind speed is crucial in catastrophe/disaster protection. Lately this is of particular interest as extreme natural phenomena/episodes are more common and intense. The majority of papers on extreme value theory for modeling extreme data is supported by moderate or large sample sizes. The Gumbel distribution is often considered but the resulting fit may be poor in the presence of ouliers since its skewness and kurtosis are constant. We deal with statistical modeling of extreme events data based on extreme value theory. We consider a general extreme-value regression model family introduced by Barreto-Souza & Vasconcellos (2011). The authors addressed the issue of correcting the bias of the maximum likelihood estimators in small samples. Here, our first goal is to derive hypothesis test adjustments in this class of models. We derive Skovgaard\'s adjusted likelihood ratio statistics Skovgaard (2001) and five adjusted signed likelihood ratio statistics, which have been proposed by Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) and Fraser et al. (1999). The adjusted statistics are approximately distributed as $\\chi^2$ and standard normal with high accuracy. The adjustment terms have simple compact forms which may be easily implemented by readily available software. We compare the finite sample performance of the likelihood ratio test, the signed likelihood ratio test and the adjusted tests obtained in this work. We illustrate the application of the usual tests and their modified versions in real datasets. The adjusted statistics are closer to the respective limiting distribution compared to the usual ones when the sample size is relatively small. Simulation results indicate that the adjusted statistics can be recommended for inference in extreme value regression model with small or moderate sample size. Parsimony is important when data are scarce, but flexibility is also crucial since a poor fit may lead to a completely wrong conclusion. A literature review was conducted to list distributions which nest the Gumbel distribution. Our second goal is to evaluate their parsimony and flexibility. For this purpose, we compare such distributions regarding moments, skewness, kurtosis and tail index. The larger families obtained by introducing additional parameters, which have Gumbel embedded in, present flexible skewness and kurtosis while the Gumbel distribution skewness and kurtosis are constant. Among these distributions the generalized extreme value is the only one with tail index that can be any positive real number while the tail indeces of the other distributions investigated here are zero. We notice that some generalizations of the Gumbel distribution studied in the literature are not indetifiable. Hence, for these models meaningful interpretation and estimation of individual parameters are not feasible. We select the identifiable distributions and fit them to a simulated dataset and to real wind speed data. As expected, such distributions fit the Gumbel simulated data quite well. The generalized extreme value distribution and the two-component extreme value distribution fit the data better than the others in the non-negligible presence of outliers that cannot be accommodated by the Gumbel distribution, and therefore we suggest them to be applied in this context.
13 |
Testes de hipóteses em eleições majoritárias / Test of hypothesis in majoritarian electionFossaluza, Victor 16 June 2008 (has links)
O problema de Inferência sobre uma proporção, amplamente divulgado na literatura estatística, ocupa papel central no desenvolvimento das várias teorias de Inferência Estatística e, invariavelmente, é objeto de investigação e discussão em estudos comparativos entre as diferentes escolas de Inferência. Ademais, a estimação de proporções, bem como teste de hipóteses para proporções, é de grande importância para as diversas áreas do conhecimento, constituindo um método quantitativo simples e universal. Nesse trabalho, é feito um estudo comparativo entre as abordagens clássica e bayesiana do problema de testar as hipóteses de ocorrência ou não de 2º turno em um cenário típico de eleição majoritária (maioria absoluta) em dois turnos no Brasil. / The problem of inference about a proportion, widely explored in the statistical literature, plays a key role in the development of several theories of statistical inference and, invariably, is the object of investigation and discussion in comparative studies among different schools of inference. In addition, the estimation of proportions, as well as test of hypothesis for proportions, is very important in many areas of knowledge as it constitutes a simple and universal quantitative method. In this work a comparative study between the Classical and Bayesian approaches to the problem of testing the hypothesis of occurrence of second round (or not) in a typical scenario of a majoritarian election (absolute majority) in two rounds in Brazil is developed.
14 |
Contribuições em inferência e modelagem de valores extremos / Contributions to extreme value inference and modeling.Eliane Cantinho Pinheiro 04 December 2013 (has links)
A teoria do valor extremo é aplicada em áreas de pesquisa tais como hidrologia, estudos de poluição, engenharia de materiais, controle de tráfego e economia. A distribuição valor extremo ou Gumbel é amplamente utilizada na modelagem de valores extremos de fenômenos da natureza e no contexto de análise de sobrevivência para modelar o logaritmo do tempo de vida. A modelagem de valores extremos de fenômenos da natureza tais como velocidade de vento, nível da água de rio ou mar, altura de onda ou umidade é importante em estatística ambiental pois o conhecimento de valores extremos de tais eventos é crucial na prevenção de catátrofes. Ultimamente esta teoria é de particular interesse pois fenômenos extremos da natureza têm sido mais comuns e intensos. A maioria dos artigos sobre teoria do valor extremo para modelagem de dados considera amostras de tamanho moderado ou grande. A distribuição Gumbel é frequentemente incluída nas análises mas a qualidade do ajuste pode ser pobre em função de presença de ouliers. Investigamos modelagem estatística de eventos extremos com base na teoria de valores extremos. Consideramos um modelo de regressão valor extremo introduzido por Barreto-Souza & Vasconcellos (2011). Os autores trataram da questão de corrigir o viés do estimador de máxima verossimilhança para pequenas amostras. Nosso primeiro objetivo é deduzir ajustes para testes de hipótese nesta classe de modelos. Derivamos a estatística da razão de verossimilhanças ajustada de Skovgaard (2001) e cinco ajustes da estatística da razão de verossimilhanças sinalizada, que foram propostos por Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) e Fraser et al. (1999). As estatísticas ajustadas são aproximadamente distribuídas como uma distribuição $\\chi^2$ e normal padrão com alto grau de acurácia. Os termos dos ajustes têm formas compactas simples que podem ser facilmente implementadas em softwares disponíveis. Comparamos a performance do teste da razão de verossimilhanças, do teste da razão de verossimilanças sinalizada e dos testes ajustados obtidos neste trabalho em amostras pequenas. Ilustramos uma aplicação dos testes usuais e suas versões modificadas em conjuntos de dados reais. As distribuições das estatísticas ajustadas são mais próximas das respectivas distribuições limites comparadas com as distribuições das estatísticas usuais quando o tamanho da amostra é relativamente pequeno. Os resultados de simulação indicaram que as estatísticas ajustadas são recomendadas para inferência em modelo de regressão valor extremo quando o tamanho da amostra é moderado ou pequeno. Parcimônia é importante quando os dados são escassos, mas flexibilidade também é crucial pois um ajuste pobre pode levar a uma conclusão completamente errada. Uma revisão da literatura foi feita para listar as distribuições que são generalizações da distribuição Gumbel. Nosso segundo objetivo é avaliar a parcimônia e flexibilidade destas distribuições. Com este propósito, comparamos tais distribuições através de momentos, coeficientes de assimetria e de curtose e índice da cauda. As famílias mais amplas obtidas pela inclusão de parâmetros adicionais, que têm a distribuição Gumbel como caso particular, apresentam assimetria e curtose flexíveis enquanto a distribuição Gumbel apresenta tais características constantes. Dentre estas distribuições, a distribuição valor extremo generalizada é a única com índice da cauda que pode ser qualquer número real positivo enquanto os índices da cauda das outras distribuições são zero. Observamos que algumas generalizações da distribuição Gumbel estudadas na literatura são não identificáveis. Portanto, para estes modelos a interpretação e estimação de parâmetros individuais não é factível. Selecionamos as distribuições identificáveis e as ajustamos a um conjunto de dados simulado e a um conjunto de dados reais de velocidade de vento. Como esperado, tais distribuições se ajustaram bastante bem ao conjunto de dados simulados de uma distribuição Gumbel. A distribuição valor extremo generalizada e a mistura de duas distribuições Gumbel produziram melhores ajustes aos dados do que as outras distribuições na presença não desprezível de observações discrepantes que não podem ser acomodadas pela distribuição Gumbel e, portanto, sugerimos que tais distribuições devem ser utilizadas neste contexto. / The extreme value theory is applied in research fields such as hydrology, pollution studies, materials engineering, traffic management, economics and finance. The Gumbel distribution is widely used in statistical modeling of extreme values of a natural process such as rainfall and wind. Also, the Gumbel distribution is important in the context of survival analysis for modeling lifetime in logarithmic scale. The statistical modeling of extreme values of a natural process such as wind or humidity is important in environmental statistics; for example, understanding extreme wind speed is crucial in catastrophe/disaster protection. Lately this is of particular interest as extreme natural phenomena/episodes are more common and intense. The majority of papers on extreme value theory for modeling extreme data is supported by moderate or large sample sizes. The Gumbel distribution is often considered but the resulting fit may be poor in the presence of ouliers since its skewness and kurtosis are constant. We deal with statistical modeling of extreme events data based on extreme value theory. We consider a general extreme-value regression model family introduced by Barreto-Souza & Vasconcellos (2011). The authors addressed the issue of correcting the bias of the maximum likelihood estimators in small samples. Here, our first goal is to derive hypothesis test adjustments in this class of models. We derive Skovgaard\'s adjusted likelihood ratio statistics Skovgaard (2001) and five adjusted signed likelihood ratio statistics, which have been proposed by Barndorff-Nielsen (1986, 1991), DiCiccio & Martin (1993), Skovgaard (1996), Severini (1999) and Fraser et al. (1999). The adjusted statistics are approximately distributed as $\\chi^2$ and standard normal with high accuracy. The adjustment terms have simple compact forms which may be easily implemented by readily available software. We compare the finite sample performance of the likelihood ratio test, the signed likelihood ratio test and the adjusted tests obtained in this work. We illustrate the application of the usual tests and their modified versions in real datasets. The adjusted statistics are closer to the respective limiting distribution compared to the usual ones when the sample size is relatively small. Simulation results indicate that the adjusted statistics can be recommended for inference in extreme value regression model with small or moderate sample size. Parsimony is important when data are scarce, but flexibility is also crucial since a poor fit may lead to a completely wrong conclusion. A literature review was conducted to list distributions which nest the Gumbel distribution. Our second goal is to evaluate their parsimony and flexibility. For this purpose, we compare such distributions regarding moments, skewness, kurtosis and tail index. The larger families obtained by introducing additional parameters, which have Gumbel embedded in, present flexible skewness and kurtosis while the Gumbel distribution skewness and kurtosis are constant. Among these distributions the generalized extreme value is the only one with tail index that can be any positive real number while the tail indeces of the other distributions investigated here are zero. We notice that some generalizations of the Gumbel distribution studied in the literature are not indetifiable. Hence, for these models meaningful interpretation and estimation of individual parameters are not feasible. We select the identifiable distributions and fit them to a simulated dataset and to real wind speed data. As expected, such distributions fit the Gumbel simulated data quite well. The generalized extreme value distribution and the two-component extreme value distribution fit the data better than the others in the non-negligible presence of outliers that cannot be accommodated by the Gumbel distribution, and therefore we suggest them to be applied in this context.
15 |
The big data era poses great challenges as well as opportunities for researchers to develop efficient statistical approaches to analyze massive data. Sufficient dimension reduction is such an important tool in modern data analysis and has received extensive attention in both academia and industry.
In this dissertation, we introduce inverse regression estimators using Fourier transforms, which is superior to the existing SDR methods in two folds, (1) it avoids the slicing of the response variable, (2) it can be readily extended to solve the high dimensional data problem. For the ultra-high dimensional problem, we investigate both eigenvalue decomposition and minimum discrepancy approaches to achieve optimal solutions and also develop a novel and efficient optimization algorithm to obtain the sparse estimates. We derive asymptotic properties of the proposed estimators and demonstrate its efficiency gains compared to the traditional estimators. The oracle properties of the sparse estimates are derived. Simulation studies and real data examples are used to illustrate the effectiveness of the proposed methods.
Wavelet transform is another tool that effectively detects information from time-localization of high frequency. Parallel to our proposed Fourier transform methods, we also develop a wavelet transform version approach and derive the asymptotic properties of the resulting estimators.
16 |
The 3σ-rule for outlier detection from the viewpoint of geodetic adjustmentLehmann, Rüdiger 21 January 2015 (has links) (PDF)
The so-called 3σ-rule is a simple and widely used heuristic for outlier detection. This term is a generic term of some statistical hypothesis tests whose test statistics are known as normalized or studentized residuals. The conditions, under which this rule is statistically substantiated, were analyzed, and the extent it applies to geodetic least-squares adjustment was investigated. Then, the efficiency or non-efficiency of this method was analyzed and demonstrated on the example of repeated observations. / Die sogenannte 3σ-Regel ist eine einfache und weit verbreitete Heuristik für die Ausreißererkennung. Sie ist ein Oberbegriff für einige statistische Hypothesentests, deren Teststatistiken als normierte oder studentisierte Verbesserungen bezeichnet werden. Die Bedingungen, unter denen diese Regel statistisch begründet ist, werden analysiert. Es wird untersucht, inwieweit diese Regel auf geodätische Ausgleichungsprobleme anwendbar ist. Die Effizienz oder Nichteffizienz dieser Methode wird analysiert und demonstriert am Beispiel von Wiederholungsmessungen.
17 |
Testes de hipóteses em eleições majoritárias / Test of hypothesis in majoritarian electionVictor Fossaluza 16 June 2008 (has links)
O problema de Inferência sobre uma proporção, amplamente divulgado na literatura estatística, ocupa papel central no desenvolvimento das várias teorias de Inferência Estatística e, invariavelmente, é objeto de investigação e discussão em estudos comparativos entre as diferentes escolas de Inferência. Ademais, a estimação de proporções, bem como teste de hipóteses para proporções, é de grande importância para as diversas áreas do conhecimento, constituindo um método quantitativo simples e universal. Nesse trabalho, é feito um estudo comparativo entre as abordagens clássica e bayesiana do problema de testar as hipóteses de ocorrência ou não de 2º turno em um cenário típico de eleição majoritária (maioria absoluta) em dois turnos no Brasil. / The problem of inference about a proportion, widely explored in the statistical literature, plays a key role in the development of several theories of statistical inference and, invariably, is the object of investigation and discussion in comparative studies among different schools of inference. In addition, the estimation of proportions, as well as test of hypothesis for proportions, is very important in many areas of knowledge as it constitutes a simple and universal quantitative method. In this work a comparative study between the Classical and Bayesian approaches to the problem of testing the hypothesis of occurrence of second round (or not) in a typical scenario of a majoritarian election (absolute majority) in two rounds in Brazil is developed.
18 |
Distribuição slash multivariada aplicada a dados agrícolas / Multivariate slash distribution applied to agricultural dataFagundes, Regiane Slongo 17 January 2017 (has links)
Submitted by Neusa Fagundes (neusa.fagundes@unioeste.br) on 2017-09-25T18:57:03Z
No. of bitstreams: 1
Regiane_Fagundes2017.pdf: 6331934 bytes, checksum: faab7007f3c7c2e91c6bf26bc30fea8e (MD5) / Made available in DSpace on 2017-09-25T18:57:03Z (GMT). No. of bitstreams: 1
Regiane_Fagundes2017.pdf: 6331934 bytes, checksum: faab7007f3c7c2e91c6bf26bc30fea8e (MD5)
Previous issue date: 2017-01-17 / Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do Estado do Paraná (FA) / This study aimed at a discussing problems of multivariate statistical inference and linear spatial modeling when observations are from a continuous, symmetric population, with multivariate slash distribution. Firstly, a reparametrization of slash distribution was performed, assuming the existence of the finite second moment. Thus, some iterant properties were shown. Analytical expressions were tested for the score function and Fisher information matrix of reparameterized distribution. An approach to estimate some parameters by maximum likelihood was considered based at the EM (Expectation-Maximization) algorithm. Linear hypothesis tests have been described regarding the means vector and the covariance matrix using statistics such as C(α), likelihood ratio, Wald, and score. Studies of simulation were carried out to evaluate the efficiency of the statistical tests and EM algorithm. Data related to the agricultural area illustrated the methodology developed, and the hypothesis tests for equality of means, sphericity and equicorrelation were also applied. A slash linear spatial model, with and without the use of covariates, was proposed. Were Discussed the global and local influence diagnostic analysis in order to evaluate the influence of observations on the process of parameters’estimation. The curvatures required for the local influence procedure and based on the slash
model were derived, in which the perturbation scheme has been chosen properly and related to the different perturbation schemes. Spatial variability maps of chemical attributes of soil and yield were generated by kriging with external drift. Finally results of simulations and applications indicated that the slash distribution is a robust alternative when the data present high kurtosis. / O objetivo deste trabalho foi discutir problemas de inferência estatística multivariada e
de modelagem espacial quando as observações são provenientes de uma população
contínua, simétrica, com distribuição slash multivariada. Inicialmente, foi realizada uma
reparametrização da distribuição slash supondo existência do segundo momento finito,
sendo apresentadas algumas propriedades recorrentes. Provaram-se expressões analíticas
para a função escore e matriz de informação de Fisher da distribuição reparametrizada.
Abordou-se um enfoque para a estimação dos parâmetros por máxima verossimilhança
considerando um algoritmo do tipo EM (Esperança-Maximização). Descreveu-se a prova de
hipóteses lineares sob o vetor de médias e matriz de covariância com o uso das estatísticas
C(α), razão de verossimilhança, Wald e score. Estudos de simulação foram realizados
para avaliar a eficiência dos testes estatísticos e do algoritmo EM. Dados relacionados à
área agrícola ilustraram a metodologia desenvolvida, sendo aplicado sobre os mesmos os
testes de igualdade de médias, esfericidade e equicorrelação. Como ilustração da aplicação
da distribuição slash multivariada na área de modelagem estatística, o modelo espacial
linear slash, com e sem o uso de covariáveis, foi discutido e proposto. Com o intuito de
avaliar a influência das observações no processo de estimação dos parâmetros, discussões
relacionadas à análise de diagnóstico, global e local, foram apresentadas. Derivaram-se as
curvaturas requeridas no procedimento de influência local para o modelo slash, adequando o
esquema de perturbação a distribuição e considerando diferentes esquemas de perturbação.
Mapas de variabilidade espacial de atributos químicos do solo e produtividade foram gerados
utilizando krigagem com drift externo. Os resultados das simulações e aplicações indicaram
que a distribuição slash é uma alternativa robusta quando os dados apresentam alta curtose.
19 |
The 3σ-rule for outlier detection from the viewpoint of geodetic adjustmentLehmann, Rüdiger January 2013 (has links)
The so-called 3σ-rule is a simple and widely used heuristic for outlier detection. This term is a generic term of some statistical hypothesis tests whose test statistics are known as normalized or studentized residuals. The conditions, under which this rule is statistically substantiated, were analyzed, and the extent it applies to geodetic least-squares adjustment was investigated. Then, the efficiency or non-efficiency of this method was analyzed and demonstrated on the example of repeated observations. / Die sogenannte 3σ-Regel ist eine einfache und weit verbreitete Heuristik für die Ausreißererkennung. Sie ist ein Oberbegriff für einige statistische Hypothesentests, deren Teststatistiken als normierte oder studentisierte Verbesserungen bezeichnet werden. Die Bedingungen, unter denen diese Regel statistisch begründet ist, werden analysiert. Es wird untersucht, inwieweit diese Regel auf geodätische Ausgleichungsprobleme anwendbar ist. Die Effizienz oder Nichteffizienz dieser Methode wird analysiert und demonstriert am Beispiel von Wiederholungsmessungen.
20 |
<p dir="ltr">Differential privacy (DP) uses a probabilistic framework to measure the level of privacy protection of a mechanism that releases data analysis results to the public. Although DP is widely used by both government and industry, there is still a lack of research on statistical inference under DP guarantees. On the one hand, existing DP mechanisms mainly aim to extract dataset-level information instead of population-level information. On the other hand, DP mechanisms introduce calibrated noises into the released statistics, which often results in sampling distributions more complex and intractable than the non-private ones. This dissertation aims to provide general-purpose methods for statistical inference, such as confidence intervals (CIs) and hypothesis tests (HTs), that satisfy the DP guarantees. </p><p dir="ltr">In the first part of the dissertation, we examine a DP bootstrap procedure that releases multiple private bootstrap estimates to construct DP CIs. We present new DP guarantees for this procedure and propose to use deconvolution with DP bootstrap estimates to derive CIs for inference tasks such as population mean, logistic regression, and quantile regression. Our method achieves the nominal coverage level in both simulations and real-world experiments and offers the first approach to private inference for quantile regression.</p><p dir="ltr">In the second part of the dissertation, we propose to use the simulation-based ``repro sample'' approach to produce CIs and HTs based on DP statistics. Our methodology has finite-sample guarantees and can be applied to a wide variety of private inference problems. It appropriately accounts for biases introduced by DP mechanisms (such as by clamping) and improves over other state-of-the-art inference methods in terms of the coverage and type I error of the private inference. </p><p dir="ltr">In the third part of the dissertation, we design a debiased parametric bootstrap framework for DP statistical inference. We propose the adaptive indirect estimator, a novel simulation-based estimator that is consistent and corrects the clamping bias in the DP mechanisms. We also prove that our estimator has the optimal asymptotic variance among all well-behaved consistent estimators, and the parametric bootstrap results based on our estimator are consistent. Simulation studies show that our framework produces valid DP CIs and HTs in finite sample settings, and it is more efficient than other state-of-the-art methods.</p>
Page generated in 0.0733 seconds