Spelling suggestions: "subject:"distribuições (probabilidade)"" "subject:"istribuições (probabilidade)""
11 |
Modelos de regressão simplex: resíduos de Pearson corrigidos e aplicações / Simplex regression models:corrected Pearson residuals and applicationsSantos, Lucimary Afonso dos 02 September 2011 (has links)
A distribuição simplex, proposta por Barndor-Nielsen e Jørgensen (1991) é útil para a modelagem de dados contínuos no intervalo (0,1). Nesse trabalho, desenvolve-se o modelo de regressão simplex considerando-se ´ = h(X; ¯), sendo h(:; :) uma função arbitr ária. Denem-se os resíduos para o modelo considerado e obtêm-se correções assintóticas para resíduos do tipo Ri. A primeira correção proposta baseou-se na obtenção da expressão assintótica para a densidade dos resíduos de Pearson, corrigidos até ordem O(n¡1). Esses resíduos foram denidos de forma a terem a mesma distribuição dos resíduos verdadeiros de Pearson. Estudos de simulação mostraram que a distribuição empírica dos resíduos corrigidos pela densidade encontra-se mais próxima da distribuição dos verdadeiros resíduos de Pearson do que para o resíduo não corrigido de Pearson. A segunda correção proposta considera o método dos momentos. Geralmente, E(Ri) e Var(Ri) são diferentes de zero e um, respectivamente, por termos de ordem O(n¡1). Usando-se os resultados de Cox e Snell (1968), obtiveram-se as expressões aproximadas de ordem O(n¡1) para E(Ri) e Var(Ri). Um estudo de simulação está sendo realizado para avaliação da técnica proposta. A técnica desenvolvida no primeiro estudo, foi aplicada a dois conjuntos de dados, sendo o primeiro deles, dados sobre oxidação de amônia, considerando-se preditor linear e o outro sobre porcentagem de massa seca (MS) em grãos de milho, considerando-se preditor linear e não linear. Os resultados obtidos para os dados de oxidação de amônia, indicaram que o modelo com preditor linear está bem ajustado aos dados, considerando-se a exclusão de alguns possíveis pontos inuentes, sendo que a correção proposta, para a densidade dos resíduos, apresenta os melhores resultados. Observando-se os resultados para os dados de massa seca, os melhores resultados foram obtidos, considerando-se um dos modelos com preditor não linear. / The simplex distribution, proposed by Barndor-Nielsen e Jørgensen (1991) is useful for modeling continuous data in the (0,1) interval. In this work, we developed the simplex regression model, considering ´ = h(X; ¯), where h(:; :) is an arbitrary function. We dened the residuals to this model and obtained asymptotic corrections to residuals of the type Ri. The rst correction proposed, was based in obtaining the asymptotic expression for the density of Pearson residuals, corrected to order O(n¡1). These residuals were dened in order to have the same distribution of true Pearson residuals. Simulation studies showed that the empirical distribution of the modied residuals is closer to the distribution of the true Pearson residuals than the unmodied Pearson residuals. The second one, considers the method of moments. Generally E(Ri) and Var(Ri) are dierent from zero and one, respectively, by terms of order O(n¡1). Using the results of Cox and Snell (1968), we obtained the approximate expressions of order O(n¡1) for E(Ri) and Var(Ri). A simulation study is being conducted to evaluate the proposed technique. We applied the techniques in two data sets, the rst one, is a dataset of ammonia oxidation, considering linear predictor and the other one was the percentage of dry matter in maize, considering linear predictor and nonlinear. The results obtained for the oxidation ammonia data indicated that the model considering linear predictor, tted well to the data, if we consider the exclusion of some possible inuential points. The proposed correction for the density of Pearson residuals, showed better results. Observing the results for the dry matter data, the best results were obtained for a model with a specied nonlinear predictor.
|
12 |
Modelos de regressão simplex: resíduos de Pearson corrigidos e aplicações / Simplex regression models:corrected Pearson residuals and applicationsLucimary Afonso dos Santos 02 September 2011 (has links)
A distribuição simplex, proposta por Barndor-Nielsen e Jørgensen (1991) é útil para a modelagem de dados contínuos no intervalo (0,1). Nesse trabalho, desenvolve-se o modelo de regressão simplex considerando-se ´ = h(X; ¯), sendo h(:; :) uma função arbitr ária. Denem-se os resíduos para o modelo considerado e obtêm-se correções assintóticas para resíduos do tipo Ri. A primeira correção proposta baseou-se na obtenção da expressão assintótica para a densidade dos resíduos de Pearson, corrigidos até ordem O(n¡1). Esses resíduos foram denidos de forma a terem a mesma distribuição dos resíduos verdadeiros de Pearson. Estudos de simulação mostraram que a distribuição empírica dos resíduos corrigidos pela densidade encontra-se mais próxima da distribuição dos verdadeiros resíduos de Pearson do que para o resíduo não corrigido de Pearson. A segunda correção proposta considera o método dos momentos. Geralmente, E(Ri) e Var(Ri) são diferentes de zero e um, respectivamente, por termos de ordem O(n¡1). Usando-se os resultados de Cox e Snell (1968), obtiveram-se as expressões aproximadas de ordem O(n¡1) para E(Ri) e Var(Ri). Um estudo de simulação está sendo realizado para avaliação da técnica proposta. A técnica desenvolvida no primeiro estudo, foi aplicada a dois conjuntos de dados, sendo o primeiro deles, dados sobre oxidação de amônia, considerando-se preditor linear e o outro sobre porcentagem de massa seca (MS) em grãos de milho, considerando-se preditor linear e não linear. Os resultados obtidos para os dados de oxidação de amônia, indicaram que o modelo com preditor linear está bem ajustado aos dados, considerando-se a exclusão de alguns possíveis pontos inuentes, sendo que a correção proposta, para a densidade dos resíduos, apresenta os melhores resultados. Observando-se os resultados para os dados de massa seca, os melhores resultados foram obtidos, considerando-se um dos modelos com preditor não linear. / The simplex distribution, proposed by Barndor-Nielsen e Jørgensen (1991) is useful for modeling continuous data in the (0,1) interval. In this work, we developed the simplex regression model, considering ´ = h(X; ¯), where h(:; :) is an arbitrary function. We dened the residuals to this model and obtained asymptotic corrections to residuals of the type Ri. The rst correction proposed, was based in obtaining the asymptotic expression for the density of Pearson residuals, corrected to order O(n¡1). These residuals were dened in order to have the same distribution of true Pearson residuals. Simulation studies showed that the empirical distribution of the modied residuals is closer to the distribution of the true Pearson residuals than the unmodied Pearson residuals. The second one, considers the method of moments. Generally E(Ri) and Var(Ri) are dierent from zero and one, respectively, by terms of order O(n¡1). Using the results of Cox and Snell (1968), we obtained the approximate expressions of order O(n¡1) for E(Ri) and Var(Ri). A simulation study is being conducted to evaluate the proposed technique. We applied the techniques in two data sets, the rst one, is a dataset of ammonia oxidation, considering linear predictor and the other one was the percentage of dry matter in maize, considering linear predictor and nonlinear. The results obtained for the oxidation ammonia data indicated that the model considering linear predictor, tted well to the data, if we consider the exclusion of some possible inuential points. The proposed correction for the density of Pearson residuals, showed better results. Observing the results for the dry matter data, the best results were obtained for a model with a specied nonlinear predictor.
|
13 |
Extensões da distribuição gama generalizada: propriedades e aplicações / Extensions of the generalized gamma distribution: properties and applicationsPascoa, Marcelino Alves Rosa de 25 April 2012 (has links)
A distribuição gama generalizada (GG) possui, como casos particulares, distribuição Weibull, log-normal, gama, qui-quadrado, entre outras. Por essa razão, ela e considerada uma distribuição exvel no ajuste dos dados. A ideia de Cordeiro e Castro (2011) foi utilizada para o desenvolvimento de duas novas distribuições de probabilidade a partir da distribuição GG. Uma delas e denominada de Kumaraswamy gama generalizada (KumGG) e possui cinco parâmetros; a outra distribuição e uma modificação de um dos parmetros de forma da distribuição KumGG e foi denominada de distribuição Kumaraswamy gama generalizada estendida (KumGGE). Desenvolveu-se o modelo de regressão log-Kumaraswamy gama generalizada estendida. Alem disso, a ideia de Adamidis e Loukas (1998) para modicar distribuições foi utilizada para a distribuição GG; essa nova distribuição foi nomeada de gama generalizada geometrica (GGG). A vantagem desses novos modelos reside na capacidade de acomodar varias formas da função risco eles tambem se mostraram uteis na discriminação de modelos. Para cada um dos modelos foram calculados os momentos, função geradora de momentos, os desvios medios, a conabilidade e a função densidade de probabilidade da estatistica de ordem. Para a estimação dos parâmetros, foram utilizados os metodos de maxima verossimilhanca e bayesiano e, finalmente, para ilustrar a aplicação das novas distribuições foram analisados alguns conjuntos de dados reais. / The generalized gamma (GG) distribution has as particular cases the Weibull, log-normal, gamma and Chi-square distributions, among others. For this reason, it is considered a exible distribution for tting data. In this paper, the idea of Cordeiro and Castro (2011) is used to develop two new probability distributions based on the GG distribution. The rst is called the generalized gamma Kumaraswamy (KumGG) and has ve parameters, while the other involves a modication of one of the shape parameters of the KumGG distribution and is called the extended generalized gamma Kumaraswamy (KumGGE). Based in these, we develop the extended generalized log-Kumaraswamy regression model. Besides this, we employ the idea regarding modifying distributions of Adamidis and Loukas (1998) for the GG distribution, calling this new distribution the geometric generalized gamma (GGG). The advantage of these new models rests in their capacity to accommodate various risk function forms. They are also useful in model discrimination. We calculate the moments, moments generating function, mean deviations, reliability and probability density function of the order statistics. To estimate the parameters we use the maximum likelihood and Bayesian methods. Finally, to illustrate the application of the new distributions, we analyze some real data sets.
|
14 |
Modelo estocástico para estimação da produtividade de soja no Estado de São Paulo utilizando simulação normal bivariada / Sthocastic model to estimate the soybean productivity in the State of São Paulo through bivaried normal simulationMartin, Thomas Newton 08 February 2007 (has links)
A disponibilidade de recursos, tanto de ordem financeira quanto de mão-de-obra, é escassa. Sendo assim, deve-se incentivar o planejamento regional que minimize a utilização de recursos. A previsão de safra por intermédio de técnicas de modelagem deve ser realizada anteriormente com base nas características regionais, indicando assim as diretrizes básicas da pesquisa, bem como o planejamento regional. Dessa forma, os objetivos deste trabalho são: (i) caracterizar as variáveis do clima por intermédio de diferentes distribuições de probabilidade; (ii) verificar a homogeneidade espacial e temporal para as variáveis do clima; (iii) utilizar a distribuição normal bivariada para simular parâmetros utilizados na estimação de produtividade da cultura de soja; e (iv) propor um modelo para estimar a ordem de magnitude da produtividade potencial (dependente da interação genótipo, temperatura, radiação fotossinteticamente ativa e fotoperíodo) e da produtividade deplecionada (dependente da podutividade potencial, da chuva e do armazenamento de água no solo) de grãos de soja, baseados nos valores diários de temperatura, insolação e chuva, para o estado de São Paulo. As variáveis utilizadas neste estudo foram: temperatura média, insolação, radiação solar fotossinteticamente ativa e precipitação pluvial, em escala diária, obtidas em 27 estações localizadas no Estado de São Paulo e seis estações localizadas em Estados vizinhos. Primeiramente, verificou-se a aderência das variáveis a cinco distribuições de probabilidade (normal, log-normal, exponencial, gama e weibull), por intermédio do teste de Kolmogorov-Smirnov. Verificou-se a homogeneidade espacial e temporal dos dados por intermédio da análise de agrupamento pelo método de Ward e estimou-se o tamanho de amostra (número de anos) para as variáveis. A geração de números aleatórios foi realizada por intermédio do método Monte Carlo. A simulação dos dados de radiação fotossinteticamente ativa e temperatura foram realizadas por intermédio de três casos (i) distribuição triangular assimétrica (ii) distribuição normal truncada a 1,96 desvio padrão da média e (iii) distribuição normal bivariada. Os dados simulados foram avaliados por intermédio do teste de homogeneidade de variância de Bartlett e do teste F, teste t, índice de concordância de Willmott, coeficiente angular da reta, o índice de desempenho de Camargo (C) e aderência à distribuição normal (univariada). O modelo utilizado para calcular a produtividade potencial da cultura de soja foi desenvolvido com base no modelo de De Wit, incluindo contribuições de Van Heenst, Driessen, Konijn, de Vries, dentre outros. O cálculo da produtividade deplecionada foi dependente da evapotranspiração potencial, da cultura e real e coeficiente de sensibilidade a deficiência hídrica. Os dados de precipitação pluvial foram amostrados por intermédio da distribuição normal. Sendo assim, a produção diária de carboidrato foi deplecionada em função do estresse hídrico e número de horas diárias de insolação. A interpolação dos dados, de modo a englobar todo o Estado de São Paulo, foi realizada por intermédio do método da Krigagem. Foi verificado que a maior parte das variáveis segue a distribuição normal de probabilidade. Além disso, as variáveis apresentam variabilidade espacial e temporal e o número de anos necessários (tamanho de amostra) para cada uma delas é bastante variável. A simulação utilizando a distribuição normal bivariada é a mais apropriada por representar melhor as variáveis do clima. E o modelo de estimação das produtividades potencial e deplecionada para a cultura de soja produz resultados coerentes com outros resultados obtidos na literatura. / The availability of resources, as much of financial order and human labor, is scarse. Therefore, it must stimulates the regional planning that minimizes the use of resources. Then, the forecast of harvests through modelling techniques must previously on the basis of be carried through the regional characteristics, thus indicating the routes of the research, as well as the regional planning. Then, the aims of this work are: (i) to characterize the climatic variables through different probability distributions; (ii) to verify the spatial and temporal homogeneity of the climatic variables; (iii) to verify the bivaried normal distribution to simulate parameters used to estimate soybean crop productivity; (iv) to propose a model of estimating the magnitud order of soybean crop potential productivity (it depends on the genotype, air temperature, photosynthetic active radiation; and photoperiod) and the depleted soybean crop productivity (it pedends on the potential productivity, rainfall and soil watter availability) based on daily values of temperature, insolation and rain, for the State of São Paulo. The variable used in this study had been the minimum, maximum and average air temperature, insolation, solar radiation, fotosynthetic active radiation and pluvial precipitation, in daily scale, gotten in 27 stations located in the State of São Paulo and six stations located in neighboring States. First, it was verified tack of seven variables in five probability distributions (normal, log-normal, exponential, gamma and weibull), through of Kolmogorov-Smirnov. The spatial and temporal verified through the analysis of grouping by Ward method and estimating the sample size (number of years) for the variable. The generation of random numbers was carried through the Monte Carlo Method. The simulation of the data of photosyntetic active radiation and temperature had been carried through three cases: (i) nonsymetric triangular distribution (ii) normal distribution truncated at 1.96 shunting line standard of the average and (iii) bivaried normal distribution. The simulated data had been evaluated through the test of homogeneity of variance of Bartlett and the F test, t test, agreement index of Willmott, angular coefficient of the straight line, the index of performance index of Camargo (C) and tack the normal distribution (univarieted). The proposed model to simulate the potential productivity of soybean crop was based on the de Wit concepts, including Van Heenst, Driessen, Konijn, Vries, and others researchers. The computation of the depleted productivity was dependent of the potential, crop and real evapotranspirations and the sensitivity hydric deficiency coefficient. The insolation and pluvial precipitation data had been showed through the normal distribution. Being thus, the daily production of carbohydrate was depleted as function of hydric stress and insolation. The interpolation of the data, in order to consider the whole State of Sao Paulo, was carried through the Kriging method. The results were gotten that most of the variable can follow the normal distribution. Moreover, the variable presents spatial and temporal variability and the number of necessary years (sample size) for each one of them is sufficiently changeable. The simulation using the bivaried normal distribution is most appropriate for better representation of climate variable. The model of estimating potential and depleted soybean crop productivities produces coherent values with the literature results.
|
15 |
Distribuição de probabilidade e dimensionamento amostral para tamanho de partícula em gramíneas forrageiras / Probability distribution and sample dimension for particle size in forage grassesNavarette López, Claudia Fernanda 16 January 2009 (has links)
O objetivo deste trabalho foi identificar a distribuição de probabilidade da variável tamanho de partícula em gramíneas forrageiras e fazer um dimensionamento amostral. Para isto foi realizada uma analise exploratória dos dados obtidos de um experimento planejado em blocos casualizados, a cada sub-amostra do conjunto de dados foram ajustadas as distribuições normal, gama, beta e Weibull. Foram realizados os testes de aderência não paramétricos de Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises e Anderson-Darling para avaliar o ajuste as distribuições. A estimativa do valor do logaritmo da função de máxima verossimilhança e indicativo da distribuição que melhor descreveu o conjunto de dados, assim como os critérios de informação de Akaike (AIC) e de informação bayesiano (BIC). Foram feitas simulações a partir dos parâmetros obtidos e feitos os testes não paramétricos para avaliar o ajuste com diferentes tamanhos de amostras. Encontrou-se que os dados n~ao seguem a distribuição normal, pois há assimetria nos histogramas melhor descritos pelas distribuições beta e Weibull. Os testes mostraram que as distribuições gama, beta e Weibull ajustam-se melhor aos dados porem pelo maior valor do logaritmo da função de verossimilhança, assim como pelos valores AIC e BIC, o melhor ajuste foi dado pela distribuição Weibull. As simulações mostraram que com os tamanhos n de 2 e 4 com 10 repetições cada, as distribuições gama e Weibull apresentaram bom ajuste aos dados, a proporção que o n cresce a distribuição dos dados tende a normalidade. O dimensionamento dado pela Amostra Aleatória Simples (ASA), mostrou que o tamanho 6 de amostra e suficiente, para descrever a distribuição de probabilidade do tamanho de partícula em gramíneas forrageiras / The purpose of this study was to identify the probability distribution of variable particle size in forages grasses and to do a sample dimension. For this was carried out an exploratory analysis of the data obtained from the experiment planned in randomized blocks. Each sample of the overall data was adjusted to Normal, Gama, Beta and Weibull distributions. Tests of adhesion not parametric of Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises and Anderson-Darling were conducted to indicate the adjustment at the distributions. The estimate of the value of the logarithm of function of maximum likelihood is indicative of distribution that better describes the data set, as well as information criteria of Akaike (AIC) and Bayesian information (BIC). Simulations from parameters obtained were made and tests not parametric to assess the t with dierent sizes of samples were made too. It was found that data are not normal, because have asymmetry in the histograms, better described by Beta and Weibull distributions. Tests showed that Gamma, Beta and Weibull distributions, have a ts better for the data; for the highest value in the logarithm of the likelihood function as well as smaller AIC and BIC, best t was forWeibull distribution. Simulations showed that with 2 and 4 sizes (n), with 10 repeat each one, the Gama and Weibull distributions showed good t to data, as the proportion in which n grows, distribution of data tends to normality. Dimensioning by simple random sample (ASA), showed that 6 is a sucient sample size to describe probability distribution for particle size in forage grasses.
|
16 |
Modelo de regressão para dados com censura intervalar e dados de sobrevivência grupados / Regression model for interval-censored data and grouped survival dataHashimoto, Elizabeth Mie 04 February 2009 (has links)
Neste trabalho foi proposto um modelo de regressão para dados com censura intervalar utilizando a distribuição Weibull-exponenciada, que possui como característica principal a função de taxa de falha que assume diferentes formas (unimodal, forma de banheira, crescente e decrescente). O atrativo desse modelo de regressão é a sua utilização para discriminar modelos, uma vez que o mesmo possui como casos particulares os modelos de regressão Exponencial, Weibull, Exponencial-exponenciada, entre outros. Também foi estudado um modelo de regressão para dados de sobrevivência grupados na qual a abordagem é fundamentada em modelos de tempo discreto e em tabelas de vida. A estrutura de regressão representada por uma probabilidade é modelada adotando-se diferentes funções de ligação, tais como, logito, complemento log-log, log-log e probito. Em ambas as pesquisas, métodos de validação dos modelos estatísticos propostos são descritos e fundamentados na análise de sensibilidade. Para detectar observações influentes nos modelos propostos, foram utilizadas medidas de diagnóstico baseadas na deleção de casos, denominadas de influência global e medidas baseadas em pequenas perturbações nos dados ou no modelo proposto, denominada de influência local. Para verificar a qualidade de ajuste do modelo e detectar pontos discrepantes foi realizada uma análise de resíduos nos modelos propostos. Os resultados desenvolvidos foram aplicados a dois conjuntos de dados reais. / In this study, a regression model for interval-censored data were developed, using the Exponentiated- Weibull distribution, that has as main characteristic the hazard function which assumes different forms (unimodal, bathtub shape, increase, decrease). A good feature of that regression model is their use to discriminate models, that have as particular cases, the models of regression: Exponential, Weibull, Exponential-exponentiated, amongst others. Also a regression model were studied for grouped survival data in which the approach is based in models of discrete time and in life tables, the regression structure represented by a probability is modeled through the use of different link function, logit, complementary log-log, log-log or probit. In both studies, validation methods for the statistical models studied are described and based on the sensitivity analysis. To find influential observations in the studied models, diagnostic measures were used based on case deletion, denominated as global influence and measures based on small perturbations on the data or in the studied model, denominated as local influence. To verify the goodness of fitting of the model and to detect outliers it was performed residual analysis for the proposed models. The developed results were applied to two real data sets.
|
17 |
Modelo de regressão gama-G em análise de sobrevivência / Gama-G regression model in survival analysisHashimoto, Elizabeth Mie 15 March 2013 (has links)
Dados de tempo de falha são caracterizados pela presença de censuras, que são observações que não foram acompanhadas até a ocorrência de um evento de interesse. Para estudar o comportamento de dados com essa natureza, distribuições de probabilidade são utilizadas. Além disso, é comum se ter uma ou mais variáveis explicativas associadas aos tempos de falha. Dessa forma, o objetivo geral do presente trabalho é propor duas novas distribuições utilizando a função geradora de distribuições gama, no contexto de modelos de regressão em análise de sobrevivência. Essa função possui um parâmetro de forma que permite criar famílias paramétricas de distribuições que sejam flexíveis para capturar uma ampla variedade de comportamentos simétricos e assimétricos. Assim, a distribuição Weibull e a distribuição log-logística foram modificadas, dando origem a duas novas distribuições de probabilidade, denominadas de gama-Weibull e gama-log-logística, respectivamente. Consequentemente, os modelos de regressão locação-escala, de longa-duração e com efeito aleatório foram estudados, considerando as novas distribuições de probabilidade. Para cada um dos modelos propostos, foi utilizado o método da máxima verossimilhança para estimar os parâmetros e algumas medidas de diagnóstico de influência global e local foram calculadas para encontrar possíveis pontos influentes. No entanto, os resíduos foram propostos apenas para os modelos locação-escala para dados com censura à direita e para dados com censura intervalar, bem um estudo de simulação para verificar a distribuição empírica dos resíduos. Outra questão explorada é a introdução dos modelos: gama-Weibull inflacionado de zeros e gama-log-logística inflacionado de zeros, para analisar dados de produção de óleo de copaíba. Por fim, diferentes conjunto de dados foram utilizados para ilustrar a aplicação de cada um dos modelos propostos. / Failure time data are characterized by the presence of censoring, which are observations that were not followed up until the occurrence of an event of interest. To study the behavior of the data of that nature, probability distributions are used. Furthermore, it is common to have one or more explanatory variables associated to failure times. Thus, the goal of this work is given to the generating of gamma distributions function in the context of regression models in survival analysis. This function has a shape parameter that allows create parametric families of distributions that are flexible to capture a wide variety of symmetrical and asymmetrical behaviors. Therefore, through the generating of gamma distributions function, the Weibull distribution and log-logistic distribution were modified to give two new probability distributions: gamma-Weibull and gammalog-logistic. Additionally, location-scale regression models, long-term models and models with random effects were also studied, considering the new distributions. For each of the proposed models, we used the maximum likelihood method to estimate the parameters and some diagnostic measures of global and local influence were calculated for possible influential points. However, residuals have been proposed for data with right censoring and interval-censored data and a simulation study to verify the empirical distribution of the residuals. Another issue explored is the introduction of models: gamma-Weibull inflated zeros and gamma-log-logistic inflated zeros, to analyze production data copaiba oil. Finally, different data set are used to illustrate the application of each of the models.
|
18 |
Modelagem de dados contínuos censurados, inflacionados de zeros / Modeling censored continous, zero inflatedJaneiro, Vanderly 16 July 2010 (has links)
Muitos equipamentos utilizados para quantificar substâncias, como toxinas em alimentos, freqüentemente apresentam deficiências para quantificar quantidades baixas. Em tais casos, geralmente indicam a ausência da substância quando esta existe, mas está abaixo de um valor pequeno \'ksi\' predeterminado, produzindo valores iguais a zero não necessariamente verdadeiros. Em outros casos, detectam a presença da substância, mas são incapazes de quantificá-la quando a quantidade da substância está entre \'ksai\' e um valor limiar \'tau\', conhecidos. Por outro lado, quantidades acima desse valor limiar são quantificadas de forma contínua, dando origem a uma variável aleatória contínua X cujo domínio pode ser escrito como a união dos intervalos, [ómicron, \"ksai\'), [\"ksai\', \'tau\' ] e (\'tau\', ?), sendo comum o excesso de valores iguais a zero. Neste trabalho, são propostos modelos que possibilitam discriminar a probabilidade de zeros verdadeiros, como o modelo de mistura com dois componentes, sendo um degenerado em zero e outro com distribuição contínua, sendo aqui consideradas as distribuições: exponencial, de Weibull e gama. Em seguida, para cada modelo, foram observadas suas características, propostos procedimentos para estimação de seus parâmetros e avaliados seus potenciais de ajuste por meio de métodos de simulação. Finalmente, a metodologia desenvolvida foi ilustrada por meio da modelagem de medidas de contaminação com aflatoxina B1, observadas em grãos de milho, de três subamostras de um lote de milho, analisados no Laboratório de Micotoxinas do Departamento de Agroindústria, Alimentos e Nutrição da ESALQ/USP. Como conclusões, na maioria dos casos, as simulações indicaram eficiência dos métodos propostos para as estimações dos parâmetros dos modelos, principalmente para a estimativa do parâmetro \'delta\' e do valor esperado, \'Epsilon\' (Y). A modelagem das medidas de aflatoxina, por sua vez, mostrou que os modelos propostos são adequados aos dados reais, sendo que o modelo de mistura com distribuição de Weibull, entretanto, ajustou-se melhor aos dados. / Much equipment used to quantify substances, such as toxins in foods, is unable to measure low amounts. In cases where the substance exists, but in an amount below a small fixed value \'ksi\' , the equipment usually indicates that the substance is not present, producing values equal to zero. In cases where the quantity is between \'\'ksi\' and a known threshold value \'tau\', it detects the presence of the substance but is unable to measure the amount. When the substance exists in amounts above the threshold value ?, it is measure continuously, giving rise to a continuous random variable X whose domain can be written as the union of intervals, [ómicron, \"ksai\'), [\"ksai\', \'tau\' ] and (\'tau\', ?), This random variable commonly has an excess of zero values. In this work we propose models that can detect the probability of true zero, such as the mixture model with two components, one being degenerate at zero and the other with continuous distribution, where we considered the distributions: exponential, Weibull and gamma. Then, for each model, its characteristics were observed, procedures for estimating its parameters were proposed and its potential for adjustment by simulation methods was evaluated. Finally, the methodology was illustrated by modeling measures of contamination with aflatoxin B1, detected in grains of corn from three sub-samples of a batch of corn analyzed at the laboratory of of Mycotoxins, Department of Agribusiness, Food and Nutrition ESALQ/USP. In conclusion, in the majority of cases the simulations indicated that the proposed methods are efficient in estimating the parameters of the models, in particular for estimating the parameter ? and the expected value, E(Y). The modeling of measures of aflatoxin, in turn, showed that the proposed models are appropriate for the actual data, however the mixture model with a Weibull distribution fits the data best.
|
19 |
Modelo de regressão gama-G em análise de sobrevivência / Gama-G regression model in survival analysisElizabeth Mie Hashimoto 15 March 2013 (has links)
Dados de tempo de falha são caracterizados pela presença de censuras, que são observações que não foram acompanhadas até a ocorrência de um evento de interesse. Para estudar o comportamento de dados com essa natureza, distribuições de probabilidade são utilizadas. Além disso, é comum se ter uma ou mais variáveis explicativas associadas aos tempos de falha. Dessa forma, o objetivo geral do presente trabalho é propor duas novas distribuições utilizando a função geradora de distribuições gama, no contexto de modelos de regressão em análise de sobrevivência. Essa função possui um parâmetro de forma que permite criar famílias paramétricas de distribuições que sejam flexíveis para capturar uma ampla variedade de comportamentos simétricos e assimétricos. Assim, a distribuição Weibull e a distribuição log-logística foram modificadas, dando origem a duas novas distribuições de probabilidade, denominadas de gama-Weibull e gama-log-logística, respectivamente. Consequentemente, os modelos de regressão locação-escala, de longa-duração e com efeito aleatório foram estudados, considerando as novas distribuições de probabilidade. Para cada um dos modelos propostos, foi utilizado o método da máxima verossimilhança para estimar os parâmetros e algumas medidas de diagnóstico de influência global e local foram calculadas para encontrar possíveis pontos influentes. No entanto, os resíduos foram propostos apenas para os modelos locação-escala para dados com censura à direita e para dados com censura intervalar, bem um estudo de simulação para verificar a distribuição empírica dos resíduos. Outra questão explorada é a introdução dos modelos: gama-Weibull inflacionado de zeros e gama-log-logística inflacionado de zeros, para analisar dados de produção de óleo de copaíba. Por fim, diferentes conjunto de dados foram utilizados para ilustrar a aplicação de cada um dos modelos propostos. / Failure time data are characterized by the presence of censoring, which are observations that were not followed up until the occurrence of an event of interest. To study the behavior of the data of that nature, probability distributions are used. Furthermore, it is common to have one or more explanatory variables associated to failure times. Thus, the goal of this work is given to the generating of gamma distributions function in the context of regression models in survival analysis. This function has a shape parameter that allows create parametric families of distributions that are flexible to capture a wide variety of symmetrical and asymmetrical behaviors. Therefore, through the generating of gamma distributions function, the Weibull distribution and log-logistic distribution were modified to give two new probability distributions: gamma-Weibull and gammalog-logistic. Additionally, location-scale regression models, long-term models and models with random effects were also studied, considering the new distributions. For each of the proposed models, we used the maximum likelihood method to estimate the parameters and some diagnostic measures of global and local influence were calculated for possible influential points. However, residuals have been proposed for data with right censoring and interval-censored data and a simulation study to verify the empirical distribution of the residuals. Another issue explored is the introduction of models: gamma-Weibull inflated zeros and gamma-log-logistic inflated zeros, to analyze production data copaiba oil. Finally, different data set are used to illustrate the application of each of the models.
|
20 |
Extensões da distribuição gama generalizada: propriedades e aplicações / Extensions of the generalized gamma distribution: properties and applicationsMarcelino Alves Rosa de Pascoa 25 April 2012 (has links)
A distribuição gama generalizada (GG) possui, como casos particulares, distribuição Weibull, log-normal, gama, qui-quadrado, entre outras. Por essa razão, ela e considerada uma distribuição exvel no ajuste dos dados. A ideia de Cordeiro e Castro (2011) foi utilizada para o desenvolvimento de duas novas distribuições de probabilidade a partir da distribuição GG. Uma delas e denominada de Kumaraswamy gama generalizada (KumGG) e possui cinco parâmetros; a outra distribuição e uma modificação de um dos parmetros de forma da distribuição KumGG e foi denominada de distribuição Kumaraswamy gama generalizada estendida (KumGGE). Desenvolveu-se o modelo de regressão log-Kumaraswamy gama generalizada estendida. Alem disso, a ideia de Adamidis e Loukas (1998) para modicar distribuições foi utilizada para a distribuição GG; essa nova distribuição foi nomeada de gama generalizada geometrica (GGG). A vantagem desses novos modelos reside na capacidade de acomodar varias formas da função risco eles tambem se mostraram uteis na discriminação de modelos. Para cada um dos modelos foram calculados os momentos, função geradora de momentos, os desvios medios, a conabilidade e a função densidade de probabilidade da estatistica de ordem. Para a estimação dos parâmetros, foram utilizados os metodos de maxima verossimilhanca e bayesiano e, finalmente, para ilustrar a aplicação das novas distribuições foram analisados alguns conjuntos de dados reais. / The generalized gamma (GG) distribution has as particular cases the Weibull, log-normal, gamma and Chi-square distributions, among others. For this reason, it is considered a exible distribution for tting data. In this paper, the idea of Cordeiro and Castro (2011) is used to develop two new probability distributions based on the GG distribution. The rst is called the generalized gamma Kumaraswamy (KumGG) and has ve parameters, while the other involves a modication of one of the shape parameters of the KumGG distribution and is called the extended generalized gamma Kumaraswamy (KumGGE). Based in these, we develop the extended generalized log-Kumaraswamy regression model. Besides this, we employ the idea regarding modifying distributions of Adamidis and Loukas (1998) for the GG distribution, calling this new distribution the geometric generalized gamma (GGG). The advantage of these new models rests in their capacity to accommodate various risk function forms. They are also useful in model discrimination. We calculate the moments, moments generating function, mean deviations, reliability and probability density function of the order statistics. To estimate the parameters we use the maximum likelihood and Bayesian methods. Finally, to illustrate the application of the new distributions, we analyze some real data sets.
|
Page generated in 0.0654 seconds