1 |
The impact of sample size re-estimation on the type I error rate in the analysis of a continuous end-pointZhao, Songnian January 1900 (has links)
Master of Science / Department of Statistics / Christopher Vahl / Sample size estimation is generally based on assumptions made during the planning stage of a clinical trial. Often, there is limited information available to estimate the initial sample size. This may result in a poor estimate. For instance, an insufficient sample size may not have the capability to produce statistically significant results, while an over-sized study will lead to a waste of resources or even ethical issues in that too many patients are exposed to potentially ineffective treatments. Therefore, an interim analysis in the middle of a trial may be worthwhile to assure that the significance level is at the nominal level and/or the power is adequate to detect a meaningful treatment difference. In this report, the impact of sample size re-estimation on the type I error rate for the continuous end-point in a clinical trial with two treatments is evaluated through a simulation study. Two sample size estimation methods are taken into consideration: blinded and partially unblinded. For the blinded method, all collected data for two groups are used to estimate the variance, while only data from the control group are used to re-estimate the sample size for the partially unblinded method. The simulation study is designed with different combinations of assumed variance, assumed difference in treatment means, and re-estimation methods. The end-point is assumed to follow normal distribution and the variance for both groups are assumed to be identical. In addition, equal sample size is required for each group. According to the simulation results, the type I error rates are preserved for all settings.
|
2 |
Um estudo de simulação para comparação entre métodos de cálculo do número aproximado de graus de liberdade da estatística F em dados desbalanceados / A simulation study to compare the approximate number calculation methods of degrees of freedom of the F statistic in unbalanced dataHilário, Andréia Pereira Maria 21 January 2015 (has links)
O desbalanceamento de dados em experimentos está muitas vezes presente em diversas pesquisas nas mais variadas áreas do conhecimento. Embora existam muitas maneiras de análise de tais dados, além de diversos recursos computacionais já implementados em diversos softwares estatísticos, ainda perdura dúvidas entre os pesquisadores a respeito da opção de análise mais eficiente. A literatura fornece ao pesquisador direção na escolha da metodologia de análise a obter maior eficácia nos resultados de sua pesquisa, mas o número elevado de opções pode tornar a escolha difícil. Em se tratando de testes estatísticos, algumas das opções para se trabalhar com dados desbalanceados são os testes t e Wald-F, mas ainda resta ao pesquisador decidir entre as várias opções disponíveis nos pacotes, pois nem sempre as opções padrões são as mais indicadas. No presente trabalho foram realizadas simulações com diferentes cenários experimentais, utilizando-se o delineamento casualizado em blocos com um fator de tratamento em uma situação e o esquema de tratamentos em parcelas subdividas em outra, sendo comparados quatro métodos de cálculo do número aproximado de graus de liberdade (Containment, Residual, Satterthwaite e Kenward-Roger). Verificou-se que o método de Kenward-Roger controla de maneira mais eficiente a taxa de erro tipo I e não é inferior aos outros métodos com respeito ao poder do teste Wald-F. / The data imbalance in experiments is often present in several researches in various fields of knowledge. While there are many ways to analyze these data in addition to various computer resources already implemented in many statistical software, doubt still lingers among researchers about the most efficient analysis option. The literature provides the researcher direction in choosing the analysis methodology to get better in your search results, but the large number of options can make the difficult choice. When it comes to statistical tests, some of the options for working with unbalanced data are the tests t and Wald-F, but there is still the researcher to decide between the various options available in the packages because the defaults are not always the most suitable. This experiment was carried out simulations with different experimental scenarios, using the randomized block design with one factor in a situation treatment and treatment regimen subdivided parcels in another, and compared four methods of calculating the approximate number of degrees of freedom (Containment, Residual, Satterthwaite and Kenward-Roger). It has been found that the method of Kenward-Roger controls more efficiently the type I error rate and is not inferior to other methods with respect to the power of the test Wald-F.
|
3 |
The Two-Sample t-test and the Influence of Outliers : - A simulation study on how the type I error rate is impacted by outliers of different magnitude.Widerberg, Carl January 2019 (has links)
This study investigates how outliers of different magnitude impact the robustness of the twosample t-test. A simulation study approach is used to analyze the behavior of type I error rates when outliers are added to generated data. Outliers may distort parameter estimates such as the mean and variance and cause misleading test results. Previous research has shown that Welch’s ttest performs better than the traditional Student’s t-test when group variances are unequal. Therefore these two alternative statistics are compared in terms of type I error rates when outliers are added to the samples. The results show that control of type I error rates can be maintained in the presence of a single outlier. Depending on the magnitude of the outlier and the sample size, there are scenarios where the t-test is robust. However, the sensitivity of the t-test is illustrated by deteriorating type I error rates when more than one outlier are included. The comparison between Welch’s t-test and Student’s t-test shows that the former is marginally more robust against outlier influence.
|
4 |
Pressuposto da normalidade multivariada para o teste de razão de verossimilhança entre dois grupos de caracteres de mamoneira / Assumption of multivariate normality for the likelihood ratio test between two groups of characters of castor beansBrum, Betânia 29 February 2012 (has links)
Conselho Nacional de Desenvolvimento Científico e Tecnológico / The likelihood ratio test for independence between two groups of variables allows us to
identify whether there is a dependency relationship between two groups of variables, ie, if the
covariance between the two groups are zero. This test assumes normality multivariate data,
which limits its application, in many studies of agronomic area, times when you need use, for
example, the canonical correlation analysis. The objective of this study is to evaluate the type
I error and power of the likelihood ratio test (LRT) for independence between two groups of
variables in different scenarios, consisting of combinations of: sample sizes 16, 40 number of
combinations of two variables groups, and nine degrees of correlation between variables in
matrices (for power); multivariate normal distribution under normal and contaminated, as well
as compare the different scenarios, two formulas for calculating the test statistic. Thus, were
evaluated the effect of 640 and 5760 scenarios on rates of type I error and power,
respectively, in each one of probability distributions and formulas. The assessment of
performance of LRT was performed through computational simulation by Monte Carlo
method, using 2000 simulations in each of the scenarios generated. In multivariate normal
situation: when the number of variables is large (p = 24), the LRT for independence between
two groups of variables, controls the type I error rates and has high power in sample sizes
greater than 100 and 500, with use of formulas for small and large samples, respectively; and,
for sample sizes small (n = 25, 30 and 50), the test presents good performance, provided that,
the number of variables does not exceed to 12; and, the formula chosen, whether for small
samples. Under contaminated multivariate normal distribution, the LRT for independence
between two groups of variables have high values of power, but is not robust, because it has
high rates of type I error in any scenario evaluated. / O teste de razão de verossimilhança para a independência entre dois grupos de variáveis
permite identificar se há ou não relação de dependência entre dois grupos de variáveis, ou
seja, se as covariâncias entre os dois grupos são nulas. Esse teste pressupõe normalidade
multivariada dos dados, o que limita sua aplicação, em muitos estudos da área agronômica,
em que se necessita utilizar, por exemplo, a análise de correlação canônica. O objetivo deste
trabalho é avaliar o erro tipo I e o poder do teste de razão de verossimilhança (TRV) para
independência entre dois grupos de variáveis em diversos cenários, constituídos pelas
combinações de: 16 tamanhos de amostra; 40 combinações de número de variáveis dos dois
grupos; e, nove graus de correlação entre as variáveis (para o poder); sob distribuição normal
multivariada e distribuição normal multivariada contaminada, bem como, comparar, nos
diferentes cenários, duas fórmulas para cálculo da estatística do teste. Dessa forma, foram
avaliados o efeito de 640 e 5760 cenários sobre as taxas de erro tipo I e poder,
respectivamente, em cada uma das distribuições de probabilidade e fórmulas. A avaliação do
desempenho do TRV foi realizada por meio de simulação computacional pelo método Monte
Carlo, utilizando-se 2000 simulações em cada um dos cenários gerados. Em situação de
normalidade multivariada: quando o número de variáveis é grande (p= 24), o TRV para a
independência entre dois grupos de variáveis, controla as taxas de erro tipo I e apresentou
poder elevado, em tamanhos de amostra superiores a 100 e 500, com uso das fórmulas para
pequenas e grandes amostras, respectivamente; e, para tamanhos amostrais pequenos (n= 25,
30 e 50), o teste apresenta bom desempenho, desde que, o número de variáveis não exceda a
12; e, a fórmula escolhida, seja para pequenas amostras. Sob distribuição normal multivariada
contaminada, o TRV para a independência entre dois grupos de variáveis possui elevados
valores de poder, mas não é robusto, pois apresenta elevadas taxas de erro tipo I, em qualquer
cenário avaliado.
|
5 |
Um estudo de simulação para comparação entre métodos de cálculo do número aproximado de graus de liberdade da estatística F em dados desbalanceados / A simulation study to compare the approximate number calculation methods of degrees of freedom of the F statistic in unbalanced dataAndréia Pereira Maria Hilário 21 January 2015 (has links)
O desbalanceamento de dados em experimentos está muitas vezes presente em diversas pesquisas nas mais variadas áreas do conhecimento. Embora existam muitas maneiras de análise de tais dados, além de diversos recursos computacionais já implementados em diversos softwares estatísticos, ainda perdura dúvidas entre os pesquisadores a respeito da opção de análise mais eficiente. A literatura fornece ao pesquisador direção na escolha da metodologia de análise a obter maior eficácia nos resultados de sua pesquisa, mas o número elevado de opções pode tornar a escolha difícil. Em se tratando de testes estatísticos, algumas das opções para se trabalhar com dados desbalanceados são os testes t e Wald-F, mas ainda resta ao pesquisador decidir entre as várias opções disponíveis nos pacotes, pois nem sempre as opções padrões são as mais indicadas. No presente trabalho foram realizadas simulações com diferentes cenários experimentais, utilizando-se o delineamento casualizado em blocos com um fator de tratamento em uma situação e o esquema de tratamentos em parcelas subdividas em outra, sendo comparados quatro métodos de cálculo do número aproximado de graus de liberdade (Containment, Residual, Satterthwaite e Kenward-Roger). Verificou-se que o método de Kenward-Roger controla de maneira mais eficiente a taxa de erro tipo I e não é inferior aos outros métodos com respeito ao poder do teste Wald-F. / The data imbalance in experiments is often present in several researches in various fields of knowledge. While there are many ways to analyze these data in addition to various computer resources already implemented in many statistical software, doubt still lingers among researchers about the most efficient analysis option. The literature provides the researcher direction in choosing the analysis methodology to get better in your search results, but the large number of options can make the difficult choice. When it comes to statistical tests, some of the options for working with unbalanced data are the tests t and Wald-F, but there is still the researcher to decide between the various options available in the packages because the defaults are not always the most suitable. This experiment was carried out simulations with different experimental scenarios, using the randomized block design with one factor in a situation treatment and treatment regimen subdivided parcels in another, and compared four methods of calculating the approximate number of degrees of freedom (Containment, Residual, Satterthwaite and Kenward-Roger). It has been found that the method of Kenward-Roger controls more efficiently the type I error rate and is not inferior to other methods with respect to the power of the test Wald-F.
|
Page generated in 0.0893 seconds