61 |
Bootstrap bandwidth selection in kernel hazard rate estimation / S. Jansen van VuurenVan Vuuren, Stefan Jansen January 2011 (has links)
The purpose of this study is to thoroughly discuss kernel hazard function estimation, both
in the complete sample case as well as in the presence of random right censoring. Most of
the focus is on the very important task of automatic bandwidth selection. Two existing
selectors, least–squares cross validation as described by Patil (1993a) and Patil (1993b), as
well as the bootstrap bandwidth selector of Gonzalez–Manteiga, Cao and Marron (1996) will
be discussed. The bandwidth selector of Hall and Robinson (2009), which uses bootstrap
aggregation (or 'bagging'), will be extended to and evaluated in the setting of kernel hazard
rate estimation. We will also make a simple proposal for a bootstrap bandwidth selector.
The performance of these bandwidth selectors will be compared empirically in a simulation
study. The findings and conclusions of this study are reported. / Thesis (M.Sc. (Statistics))--North-West University, Potchefstroom Campus, 2011.
|
62 |
[en] MULTIPLE IMPUTATION IN MULTIVARIATE NORMAL DATA VIA A EM TYPE ALGORITHM / [pt] UM ALGORITMO - EM - PARA IMPUTAÇÃO MÚLTIPLA DE DADOS CENSURADOSFABIANO SALDANHA GOMES DE OLIVEIRA 05 July 2002 (has links)
[pt] Construímos um algoritmo tipo EM para estimar os parâmetros
por máxima verossimilhança. Os valores imputados são
calculados pela média condicional sujeito a ser
maior (ou menor) do que o valor observado. Como a estimação
é por máxima verossimilhança, a matriz de informação
permite o cálculo de intervalos de confiança para
os parâmetros e para os valores imputados. Fizemos
experiência com dados simulados e há também um estudo de
dados reais (onde na verdade a hipótese de normalidade não
se aplica). / [en] An EM algorithm was developed to parameter estimation of a
multivariate truncate normal distribution. The multiple
imputation is evaluated by the conditional expectation
becoming the estimated values greater or lower than the
observed value. The information matrix gives the confident
interval to the parameter and values estimations.
The proposed algorithm was tested with simulated and real
data (where the normality is not followed).
|
63 |
Uma nova abordagem para análise de dependência bivariadaMarchi, Vitor Alex Alves de 23 April 2010 (has links)
Made available in DSpace on 2016-06-02T20:06:04Z (GMT). No. of bitstreams: 1
3023.pdf: 2559668 bytes, checksum: 9cf8ca3c2627a6f2d69856b231e8a0a4 (MD5)
Previous issue date: 2010-04-23 / Financiadora de Estudos e Projetos / In this dissertation we describe and implement procedures for nonparametric estimation of copulas and Sibuya function, and also procedures for bivariate analysis of dependence based on the behavior of their contours plot. Besisdes, we describe and implement the chiplot procedure and as well as a procedure for analising bivariate dependence in presence of censoring in the sample. Particularly, we propose a way to use it in a local correlation analysis. The performance of the proposed procedures are illustrated and evaluated in cases of very simple correlation, but also in a more complex correlation schemes. / Nesta dissertação descrevemos e implementamos procedimentos para estimação paramétrica da cópula e da função de Sibuya, e também procedimentos para análise de dependência bivariada, baseados no comportamento das suas curvas de nível. Também, descrevemos e implementamos o procedimento chi-plot e um procedimento para a análise de dependência bivariada com presença de censura na amostra. Particularmente, propomos formas de usá-los em análise de correlação local. O desempenho dos procedimentos propostos são ilustrados e avaliados em casos de estruturas de correlação simples, mas também em esquemas de correlação mais complexa.
|
64 |
Modelos com sobreviventes de longa duração paramétricos e semi-paramétricos aplicados a um ensaio clínico aleatorizado / Parametric and semiparametric long-term survival models applied to a randomized clinical trialItalo Marcus da Mota Frazão 14 December 2012 (has links)
Diversos modelos têm sido propostos na literatura com o objetivo de analisar dados de sobrevivência em que a população sob estudo é assumida ser uma mistura de indivíduos suscetíveis (em risco) e não suscetíveis a um específico evento de interesse. Tais modelos são usualmente denominados modelos com sobreviventes de longa duração ou modelos com fração de cura. Neste trabalho, diversos desses modelos (nos contextos paramétrico e semi-paramétrico) foram considerados para analisar os dados de um ensaio clínico aleatorizado conduzido com o objetivo de comparar três estratégias terapêuticas (cirurgia, angioplastia e medicamentoso) utilizadas no tratamento de pacientes com doença coronariana multiarterial. Em todos os modelos, as funções de ligação logito e complemento log-log foram utilizadas para modelar a proporção de sobreviventes de longa duração (indivíduos não suscetíveis). Quanto à função de sobrevivência dos indivíduos suscetíveis, foram utilizados os modelos de Weibull e de Cox. Covariáveis foram consideradas tanto na proporção de sobreviventes de longa duração quanto na função de sobrevivência dos indivíduos suscetíveis. De modo geral, os modelos considerados se mostraram adequados para analisar os dados do ensaio clínico aleatorizado, indicando a cirurgia como a estratégia terapêutica mais eficiente. Indicaram também, que as covariáveis idade, hipertensão e diabetes mellitus exercem influência na ocorrência do óbito cardíaco, mas não no tempo até a ocorrência deste óbito nos pacientes suscetíveis. / Several models have been proposed in the literature with the aim of analyzing survival data when the population under study is assumed to be a mixture of susceptible (at risk) and not susceptible individuals to a specific event of interest. Such models are usually called long-term survivors models or cure rate models. In this work, several of these models (under both parametric and semi-parametric approaches) were considered to analyze the data from a randomized clinical trial conducted in order to compare three therapeutic strategies (surgery, angioplasty and medicine) used in the treatment of patients with multivessel coronary artery disease. For all models the logit and complementary log-log link functions were used to model the proportion of long-term survivors (not susceptible individuals). In regards to the survival function of the susceptible individuals, the Weibull and Cox models were used. Covariates were considered both in the proportion of longterm survivors and in the survival function of the susceptible individuals. Overall, the models considered were suitable for analyzing the data from the randomized clinical trial indicating surgery as the most effective therapeutic strategy. They also indicated that the covariates age, hypertension and diabetes mellitus exhibit influence on the occurrence of cardiac death, but not on the time to the occurrence of this death in susceptible patients.
|
65 |
Análise de sensibilidade e resíduos em modelos de regressão com respostas bivariadas por meio de cópulas / Bivariate response regression models with copulas: Sensitivity and residual analysisEduardo Monteiro de Castro Gomes 01 February 2008 (has links)
Neste trabalho são apresentados modelos de regressão com respostas bivariadas obtidos através de funções cópulas. O objetivo de utilizar estes modelos bivariados é modelar a correlação entre eventos e captar nos modelos de regressão a influência da associação entre as variáveis resposta na presença de censura nos dados. Os parâmetros dos modelos, são estimados por meio dos métodos de máxima verossimilhança e jackknife. Alguns métodos de análise de sensibilidade como influência global, local e local total de um indivíduo, são introduzidos e calculados considerando diferentes esquemas de perturbação. Uma análise de resíduos foi proposta para verificar a qualidade do ajuste dos modelos utilizados e também foi proposta novas medidas de resíduos para respostas bivariadas. Métodos de simulação de Monte Carlo foram conduzidos para estudar a distribuição empírica dos resíduos marginais e bivariados propostos. Finalmente, os resultados são aplicados à dois conjuntos de dados dsponíveis na literatura. / In this work bivariate response regression models are presented with the use of copulas. The objective of this approach is to model the correlation between events and capture the influence of this correlation in the regression parameters. The models are used in the context of survival analysis and are ¯tted to two data sets available in the literature. Inferences are obtained using maximum likelihood and Jackknife methods. Sensitivity techniques such as local and global in°uence are proposed and calculated. A residual analysis is proposed to check the adequacy of the models and simulation methods are used to asses the empirical distribution of the marginal univariate and bivariate residual measures proposed.
|
66 |
Modelo de regressão gama-G em análise de sobrevivência / Gama-G regression model in survival analysisElizabeth Mie Hashimoto 15 March 2013 (has links)
Dados de tempo de falha são caracterizados pela presença de censuras, que são observações que não foram acompanhadas até a ocorrência de um evento de interesse. Para estudar o comportamento de dados com essa natureza, distribuições de probabilidade são utilizadas. Além disso, é comum se ter uma ou mais variáveis explicativas associadas aos tempos de falha. Dessa forma, o objetivo geral do presente trabalho é propor duas novas distribuições utilizando a função geradora de distribuições gama, no contexto de modelos de regressão em análise de sobrevivência. Essa função possui um parâmetro de forma que permite criar famílias paramétricas de distribuições que sejam flexíveis para capturar uma ampla variedade de comportamentos simétricos e assimétricos. Assim, a distribuição Weibull e a distribuição log-logística foram modificadas, dando origem a duas novas distribuições de probabilidade, denominadas de gama-Weibull e gama-log-logística, respectivamente. Consequentemente, os modelos de regressão locação-escala, de longa-duração e com efeito aleatório foram estudados, considerando as novas distribuições de probabilidade. Para cada um dos modelos propostos, foi utilizado o método da máxima verossimilhança para estimar os parâmetros e algumas medidas de diagnóstico de influência global e local foram calculadas para encontrar possíveis pontos influentes. No entanto, os resíduos foram propostos apenas para os modelos locação-escala para dados com censura à direita e para dados com censura intervalar, bem um estudo de simulação para verificar a distribuição empírica dos resíduos. Outra questão explorada é a introdução dos modelos: gama-Weibull inflacionado de zeros e gama-log-logística inflacionado de zeros, para analisar dados de produção de óleo de copaíba. Por fim, diferentes conjunto de dados foram utilizados para ilustrar a aplicação de cada um dos modelos propostos. / Failure time data are characterized by the presence of censoring, which are observations that were not followed up until the occurrence of an event of interest. To study the behavior of the data of that nature, probability distributions are used. Furthermore, it is common to have one or more explanatory variables associated to failure times. Thus, the goal of this work is given to the generating of gamma distributions function in the context of regression models in survival analysis. This function has a shape parameter that allows create parametric families of distributions that are flexible to capture a wide variety of symmetrical and asymmetrical behaviors. Therefore, through the generating of gamma distributions function, the Weibull distribution and log-logistic distribution were modified to give two new probability distributions: gamma-Weibull and gammalog-logistic. Additionally, location-scale regression models, long-term models and models with random effects were also studied, considering the new distributions. For each of the proposed models, we used the maximum likelihood method to estimate the parameters and some diagnostic measures of global and local influence were calculated for possible influential points. However, residuals have been proposed for data with right censoring and interval-censored data and a simulation study to verify the empirical distribution of the residuals. Another issue explored is the introduction of models: gamma-Weibull inflated zeros and gamma-log-logistic inflated zeros, to analyze production data copaiba oil. Finally, different data set are used to illustrate the application of each of the models.
|
67 |
Extensões da distribuição gama generalizada: propriedades e aplicações / Extensions of the generalized gamma distribution: properties and applicationsMarcelino Alves Rosa de Pascoa 25 April 2012 (has links)
A distribuição gama generalizada (GG) possui, como casos particulares, distribuição Weibull, log-normal, gama, qui-quadrado, entre outras. Por essa razão, ela e considerada uma distribuição exvel no ajuste dos dados. A ideia de Cordeiro e Castro (2011) foi utilizada para o desenvolvimento de duas novas distribuições de probabilidade a partir da distribuição GG. Uma delas e denominada de Kumaraswamy gama generalizada (KumGG) e possui cinco parâmetros; a outra distribuição e uma modificação de um dos parmetros de forma da distribuição KumGG e foi denominada de distribuição Kumaraswamy gama generalizada estendida (KumGGE). Desenvolveu-se o modelo de regressão log-Kumaraswamy gama generalizada estendida. Alem disso, a ideia de Adamidis e Loukas (1998) para modicar distribuições foi utilizada para a distribuição GG; essa nova distribuição foi nomeada de gama generalizada geometrica (GGG). A vantagem desses novos modelos reside na capacidade de acomodar varias formas da função risco eles tambem se mostraram uteis na discriminação de modelos. Para cada um dos modelos foram calculados os momentos, função geradora de momentos, os desvios medios, a conabilidade e a função densidade de probabilidade da estatistica de ordem. Para a estimação dos parâmetros, foram utilizados os metodos de maxima verossimilhanca e bayesiano e, finalmente, para ilustrar a aplicação das novas distribuições foram analisados alguns conjuntos de dados reais. / The generalized gamma (GG) distribution has as particular cases the Weibull, log-normal, gamma and Chi-square distributions, among others. For this reason, it is considered a exible distribution for tting data. In this paper, the idea of Cordeiro and Castro (2011) is used to develop two new probability distributions based on the GG distribution. The rst is called the generalized gamma Kumaraswamy (KumGG) and has ve parameters, while the other involves a modication of one of the shape parameters of the KumGG distribution and is called the extended generalized gamma Kumaraswamy (KumGGE). Based in these, we develop the extended generalized log-Kumaraswamy regression model. Besides this, we employ the idea regarding modifying distributions of Adamidis and Loukas (1998) for the GG distribution, calling this new distribution the geometric generalized gamma (GGG). The advantage of these new models rests in their capacity to accommodate various risk function forms. They are also useful in model discrimination. We calculate the moments, moments generating function, mean deviations, reliability and probability density function of the order statistics. To estimate the parameters we use the maximum likelihood and Bayesian methods. Finally, to illustrate the application of the new distributions, we analyze some real data sets.
|
68 |
Modelo de regressão para dados com censura intervalar e dados de sobrevivência grupados / Regression model for interval-censored data and grouped survival dataElizabeth Mie Hashimoto 04 February 2009 (has links)
Neste trabalho foi proposto um modelo de regressão para dados com censura intervalar utilizando a distribuição Weibull-exponenciada, que possui como característica principal a função de taxa de falha que assume diferentes formas (unimodal, forma de banheira, crescente e decrescente). O atrativo desse modelo de regressão é a sua utilização para discriminar modelos, uma vez que o mesmo possui como casos particulares os modelos de regressão Exponencial, Weibull, Exponencial-exponenciada, entre outros. Também foi estudado um modelo de regressão para dados de sobrevivência grupados na qual a abordagem é fundamentada em modelos de tempo discreto e em tabelas de vida. A estrutura de regressão representada por uma probabilidade é modelada adotando-se diferentes funções de ligação, tais como, logito, complemento log-log, log-log e probito. Em ambas as pesquisas, métodos de validação dos modelos estatísticos propostos são descritos e fundamentados na análise de sensibilidade. Para detectar observações influentes nos modelos propostos, foram utilizadas medidas de diagnóstico baseadas na deleção de casos, denominadas de influência global e medidas baseadas em pequenas perturbações nos dados ou no modelo proposto, denominada de influência local. Para verificar a qualidade de ajuste do modelo e detectar pontos discrepantes foi realizada uma análise de resíduos nos modelos propostos. Os resultados desenvolvidos foram aplicados a dois conjuntos de dados reais. / In this study, a regression model for interval-censored data were developed, using the Exponentiated- Weibull distribution, that has as main characteristic the hazard function which assumes different forms (unimodal, bathtub shape, increase, decrease). A good feature of that regression model is their use to discriminate models, that have as particular cases, the models of regression: Exponential, Weibull, Exponential-exponentiated, amongst others. Also a regression model were studied for grouped survival data in which the approach is based in models of discrete time and in life tables, the regression structure represented by a probability is modeled through the use of different link function, logit, complementary log-log, log-log or probit. In both studies, validation methods for the statistical models studied are described and based on the sensitivity analysis. To find influential observations in the studied models, diagnostic measures were used based on case deletion, denominated as global influence and measures based on small perturbations on the data or in the studied model, denominated as local influence. To verify the goodness of fitting of the model and to detect outliers it was performed residual analysis for the proposed models. The developed results were applied to two real data sets.
|
69 |
O modelo Burr XII geométrico: propriedades e aplicações / The model Burr XII Geometric: properties and applicationsBeatriz Rezende Lanjoni 25 November 2013 (has links)
No presente trabalho são propostos dois modelos para dados censurados baseados na mistura da distribuição geométrica e na distribuição Burr XII considerando duas ativações latentes, máximo e mínimo. A distribuição Burr XII tem três parâmetros e é uma generalização da distribuição log-logística. Por sua vez a distribuição Burr XII Geométrica tipo I e tipo II tem quatro parâmetros e são generalizações da distribuição Burr XII relacionados as ativações latentes do mínimo e máximo respectivamente. Foram apresentadas algumas propriedades das duas novas distribuições tais como momentos, assimetria, curtose, função geradora de momentos e desvio médio. Além disso, foi intriduzido os modelos de regressão correspondentes, log Burr XII Geométrica tipo I e log Burr XII Geométrica tipo II. Adicionalmente foi desenvolvido um modelo de sobrevivência com fração de cura assumindo que o número de causas competitivas do evento de interesse segue a distribuição geométrica e o tempo do evento segue a distribuição Burr XII. Para todos os modelos desenvolvidos foi utilizado o método da máxima verossimilhança para estimar os parâmetros, que possibilita a construção de intervalos de confiança e testes de hipóteses. Por fim, são apresentadas três aplicações para ilustrar os modelos propostos. / In this paper are proposed two models for censored data based on the mixture of geometric distribution and Burr XII distribution considering two latent activations, maximum and minimum. The Burr XII distribution has three parameters and is a generalization of the log-logistic distribution. On the other hand Burr XII Geometric type I distribution and type II has four parameters and are a generalization of the Burr XII distribution related to minimum and maximum activations respectively. It were presented some properties of the news distributions such as moments, skewness, kurtosis, moment generating function and mean deviation. Furthermore, it was introduced two regression models, the log Burr XII Geometric type I and the log Burr XII Geometric type II. Additionally a new cure rate survival was formulated by assuming that the number of competing causes of the event of interest has the geometric distribution and the time to this event follows Burr XII distribution. For all models was developed the maximum likelihood method to estimate the parameters, which allows the construction of confidence intervals and hypothesis testing. Finally, three applications are presented to illustrate the proposed models.
|
70 |
A distribuição log-logística exponenciada geométrica: dupla ativação / The exponentiated log-logistic geometric distribution: dual activationNatalie Verónika Rondinel Mendoza 18 September 2012 (has links)
Neste trabalho é proposta uma nova distribuição de quatro parâmetros denominada distribuição log-logística exponenciada geométrica, baseada em um mecanismo de dupla ativação para modelar dados de tempo de vida. Para esta nova distribuição, foi realizado um estudo da função de densidade de probabilidade, da função de distribuição acumulada, da função de sobrevivência e da função de taxa de falha, a qual apresenta formas que podem modelar dados de tempo de vida, tais como: forma crescente, decrescente, unimodal, bimodal e forma de U. Obteve-se expansões da função de densidade, expressões para os momentos de probabilidade ponderada, função geradora de momentos, desvios médios e as curvas de Bonferroni e de Lorenz. Considerando dados censurados, foi utilizado o método de máxima verossimilhança para estimação dos parâmetros. Analogamente também é proposto um modelo de regressão baseado no logaritmo da distribuição log-logística exponenciada geométrica com dupla ativação, que é uma extensão dos modelos de regressão logística exponenciada e logística. Este modelo pode ser usado na análise de dados reais, por fornecer um melhor ajuste que os modelos de regressão particulares, logística exponenciada e logística. Finalmente, são apresentados duas aplicações para ilustrar a utilização da nova distribuição. / In this work, we propose a new distribution with four parameters the so called exponentiated log-logistic geometric distribution based on a double mechanism of activation for modeling lifetime data. For this new distribution, we study the density function, cumulative distribution, survival function and the failure rate function which allows major harzad rates: increasing, decreasing, bathtub, unimodal and bimodal failure rates. We also obtain the density function expansions and the expressions for the probability-weighted moments, moment generating function, mean deviation and Bonferroni and Lorenz curves. Considering censored data, we use the maximum likelihood method for estimating the parameters. Similarly, we also propose the regression model based on the logarithm of the exponentiated log-logistic geometric distribution with double activation, which is an extension of the exponential logistic and logistic regression models. This new model could be widely used in the analysis of real data to provide a better fit than exponetial logistic and logistic regression models. Finally, two applications are presented to illustrate the application of the new distribution.
|
Page generated in 0.0483 seconds