Spelling suggestions: "subject:"distribuições probabilidade"" "subject:"distribuições robabilidade""
21 |
Distribuição de probabilidade e dimensionamento amostral para tamanho de partícula em gramíneas forrageiras / Probability distribution and sample dimension for particle size in forage grassesClaudia Fernanda Navarette López 16 January 2009 (has links)
O objetivo deste trabalho foi identificar a distribuição de probabilidade da variável tamanho de partícula em gramíneas forrageiras e fazer um dimensionamento amostral. Para isto foi realizada uma analise exploratória dos dados obtidos de um experimento planejado em blocos casualizados, a cada sub-amostra do conjunto de dados foram ajustadas as distribuições normal, gama, beta e Weibull. Foram realizados os testes de aderência não paramétricos de Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises e Anderson-Darling para avaliar o ajuste as distribuições. A estimativa do valor do logaritmo da função de máxima verossimilhança e indicativo da distribuição que melhor descreveu o conjunto de dados, assim como os critérios de informação de Akaike (AIC) e de informação bayesiano (BIC). Foram feitas simulações a partir dos parâmetros obtidos e feitos os testes não paramétricos para avaliar o ajuste com diferentes tamanhos de amostras. Encontrou-se que os dados n~ao seguem a distribuição normal, pois há assimetria nos histogramas melhor descritos pelas distribuições beta e Weibull. Os testes mostraram que as distribuições gama, beta e Weibull ajustam-se melhor aos dados porem pelo maior valor do logaritmo da função de verossimilhança, assim como pelos valores AIC e BIC, o melhor ajuste foi dado pela distribuição Weibull. As simulações mostraram que com os tamanhos n de 2 e 4 com 10 repetições cada, as distribuições gama e Weibull apresentaram bom ajuste aos dados, a proporção que o n cresce a distribuição dos dados tende a normalidade. O dimensionamento dado pela Amostra Aleatória Simples (ASA), mostrou que o tamanho 6 de amostra e suficiente, para descrever a distribuição de probabilidade do tamanho de partícula em gramíneas forrageiras / The purpose of this study was to identify the probability distribution of variable particle size in forages grasses and to do a sample dimension. For this was carried out an exploratory analysis of the data obtained from the experiment planned in randomized blocks. Each sample of the overall data was adjusted to Normal, Gama, Beta and Weibull distributions. Tests of adhesion not parametric of Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises and Anderson-Darling were conducted to indicate the adjustment at the distributions. The estimate of the value of the logarithm of function of maximum likelihood is indicative of distribution that better describes the data set, as well as information criteria of Akaike (AIC) and Bayesian information (BIC). Simulations from parameters obtained were made and tests not parametric to assess the t with dierent sizes of samples were made too. It was found that data are not normal, because have asymmetry in the histograms, better described by Beta and Weibull distributions. Tests showed that Gamma, Beta and Weibull distributions, have a ts better for the data; for the highest value in the logarithm of the likelihood function as well as smaller AIC and BIC, best t was forWeibull distribution. Simulations showed that with 2 and 4 sizes (n), with 10 repeat each one, the Gama and Weibull distributions showed good t to data, as the proportion in which n grows, distribution of data tends to normality. Dimensioning by simple random sample (ASA), showed that 6 is a sucient sample size to describe probability distribution for particle size in forage grasses.
|
22 |
Modelo de regressão para dados com censura intervalar e dados de sobrevivência grupados / Regression model for interval-censored data and grouped survival dataElizabeth Mie Hashimoto 04 February 2009 (has links)
Neste trabalho foi proposto um modelo de regressão para dados com censura intervalar utilizando a distribuição Weibull-exponenciada, que possui como característica principal a função de taxa de falha que assume diferentes formas (unimodal, forma de banheira, crescente e decrescente). O atrativo desse modelo de regressão é a sua utilização para discriminar modelos, uma vez que o mesmo possui como casos particulares os modelos de regressão Exponencial, Weibull, Exponencial-exponenciada, entre outros. Também foi estudado um modelo de regressão para dados de sobrevivência grupados na qual a abordagem é fundamentada em modelos de tempo discreto e em tabelas de vida. A estrutura de regressão representada por uma probabilidade é modelada adotando-se diferentes funções de ligação, tais como, logito, complemento log-log, log-log e probito. Em ambas as pesquisas, métodos de validação dos modelos estatísticos propostos são descritos e fundamentados na análise de sensibilidade. Para detectar observações influentes nos modelos propostos, foram utilizadas medidas de diagnóstico baseadas na deleção de casos, denominadas de influência global e medidas baseadas em pequenas perturbações nos dados ou no modelo proposto, denominada de influência local. Para verificar a qualidade de ajuste do modelo e detectar pontos discrepantes foi realizada uma análise de resíduos nos modelos propostos. Os resultados desenvolvidos foram aplicados a dois conjuntos de dados reais. / In this study, a regression model for interval-censored data were developed, using the Exponentiated- Weibull distribution, that has as main characteristic the hazard function which assumes different forms (unimodal, bathtub shape, increase, decrease). A good feature of that regression model is their use to discriminate models, that have as particular cases, the models of regression: Exponential, Weibull, Exponential-exponentiated, amongst others. Also a regression model were studied for grouped survival data in which the approach is based in models of discrete time and in life tables, the regression structure represented by a probability is modeled through the use of different link function, logit, complementary log-log, log-log or probit. In both studies, validation methods for the statistical models studied are described and based on the sensitivity analysis. To find influential observations in the studied models, diagnostic measures were used based on case deletion, denominated as global influence and measures based on small perturbations on the data or in the studied model, denominated as local influence. To verify the goodness of fitting of the model and to detect outliers it was performed residual analysis for the proposed models. The developed results were applied to two real data sets.
|
23 |
Modelagem de dados contínuos censurados, inflacionados de zeros / Modeling censored continous, zero inflatedVanderly Janeiro 16 July 2010 (has links)
Muitos equipamentos utilizados para quantificar substâncias, como toxinas em alimentos, freqüentemente apresentam deficiências para quantificar quantidades baixas. Em tais casos, geralmente indicam a ausência da substância quando esta existe, mas está abaixo de um valor pequeno \'ksi\' predeterminado, produzindo valores iguais a zero não necessariamente verdadeiros. Em outros casos, detectam a presença da substância, mas são incapazes de quantificá-la quando a quantidade da substância está entre \'ksai\' e um valor limiar \'tau\', conhecidos. Por outro lado, quantidades acima desse valor limiar são quantificadas de forma contínua, dando origem a uma variável aleatória contínua X cujo domínio pode ser escrito como a união dos intervalos, [ómicron, \"ksai\'), [\"ksai\', \'tau\' ] e (\'tau\', ?), sendo comum o excesso de valores iguais a zero. Neste trabalho, são propostos modelos que possibilitam discriminar a probabilidade de zeros verdadeiros, como o modelo de mistura com dois componentes, sendo um degenerado em zero e outro com distribuição contínua, sendo aqui consideradas as distribuições: exponencial, de Weibull e gama. Em seguida, para cada modelo, foram observadas suas características, propostos procedimentos para estimação de seus parâmetros e avaliados seus potenciais de ajuste por meio de métodos de simulação. Finalmente, a metodologia desenvolvida foi ilustrada por meio da modelagem de medidas de contaminação com aflatoxina B1, observadas em grãos de milho, de três subamostras de um lote de milho, analisados no Laboratório de Micotoxinas do Departamento de Agroindústria, Alimentos e Nutrição da ESALQ/USP. Como conclusões, na maioria dos casos, as simulações indicaram eficiência dos métodos propostos para as estimações dos parâmetros dos modelos, principalmente para a estimativa do parâmetro \'delta\' e do valor esperado, \'Epsilon\' (Y). A modelagem das medidas de aflatoxina, por sua vez, mostrou que os modelos propostos são adequados aos dados reais, sendo que o modelo de mistura com distribuição de Weibull, entretanto, ajustou-se melhor aos dados. / Much equipment used to quantify substances, such as toxins in foods, is unable to measure low amounts. In cases where the substance exists, but in an amount below a small fixed value \'ksi\' , the equipment usually indicates that the substance is not present, producing values equal to zero. In cases where the quantity is between \'\'ksi\' and a known threshold value \'tau\', it detects the presence of the substance but is unable to measure the amount. When the substance exists in amounts above the threshold value ?, it is measure continuously, giving rise to a continuous random variable X whose domain can be written as the union of intervals, [ómicron, \"ksai\'), [\"ksai\', \'tau\' ] and (\'tau\', ?), This random variable commonly has an excess of zero values. In this work we propose models that can detect the probability of true zero, such as the mixture model with two components, one being degenerate at zero and the other with continuous distribution, where we considered the distributions: exponential, Weibull and gamma. Then, for each model, its characteristics were observed, procedures for estimating its parameters were proposed and its potential for adjustment by simulation methods was evaluated. Finally, the methodology was illustrated by modeling measures of contamination with aflatoxin B1, detected in grains of corn from three sub-samples of a batch of corn analyzed at the laboratory of of Mycotoxins, Department of Agribusiness, Food and Nutrition ESALQ/USP. In conclusion, in the majority of cases the simulations indicated that the proposed methods are efficient in estimating the parameters of the models, in particular for estimating the parameter ? and the expected value, E(Y). The modeling of measures of aflatoxin, in turn, showed that the proposed models are appropriate for the actual data, however the mixture model with a Weibull distribution fits the data best.
|
24 |
Modelo estocástico para estimação da produtividade de soja no Estado de São Paulo utilizando simulação normal bivariada / Sthocastic model to estimate the soybean productivity in the State of São Paulo through bivaried normal simulationThomas Newton Martin 08 February 2007 (has links)
A disponibilidade de recursos, tanto de ordem financeira quanto de mão-de-obra, é escassa. Sendo assim, deve-se incentivar o planejamento regional que minimize a utilização de recursos. A previsão de safra por intermédio de técnicas de modelagem deve ser realizada anteriormente com base nas características regionais, indicando assim as diretrizes básicas da pesquisa, bem como o planejamento regional. Dessa forma, os objetivos deste trabalho são: (i) caracterizar as variáveis do clima por intermédio de diferentes distribuições de probabilidade; (ii) verificar a homogeneidade espacial e temporal para as variáveis do clima; (iii) utilizar a distribuição normal bivariada para simular parâmetros utilizados na estimação de produtividade da cultura de soja; e (iv) propor um modelo para estimar a ordem de magnitude da produtividade potencial (dependente da interação genótipo, temperatura, radiação fotossinteticamente ativa e fotoperíodo) e da produtividade deplecionada (dependente da podutividade potencial, da chuva e do armazenamento de água no solo) de grãos de soja, baseados nos valores diários de temperatura, insolação e chuva, para o estado de São Paulo. As variáveis utilizadas neste estudo foram: temperatura média, insolação, radiação solar fotossinteticamente ativa e precipitação pluvial, em escala diária, obtidas em 27 estações localizadas no Estado de São Paulo e seis estações localizadas em Estados vizinhos. Primeiramente, verificou-se a aderência das variáveis a cinco distribuições de probabilidade (normal, log-normal, exponencial, gama e weibull), por intermédio do teste de Kolmogorov-Smirnov. Verificou-se a homogeneidade espacial e temporal dos dados por intermédio da análise de agrupamento pelo método de Ward e estimou-se o tamanho de amostra (número de anos) para as variáveis. A geração de números aleatórios foi realizada por intermédio do método Monte Carlo. A simulação dos dados de radiação fotossinteticamente ativa e temperatura foram realizadas por intermédio de três casos (i) distribuição triangular assimétrica (ii) distribuição normal truncada a 1,96 desvio padrão da média e (iii) distribuição normal bivariada. Os dados simulados foram avaliados por intermédio do teste de homogeneidade de variância de Bartlett e do teste F, teste t, índice de concordância de Willmott, coeficiente angular da reta, o índice de desempenho de Camargo (C) e aderência à distribuição normal (univariada). O modelo utilizado para calcular a produtividade potencial da cultura de soja foi desenvolvido com base no modelo de De Wit, incluindo contribuições de Van Heenst, Driessen, Konijn, de Vries, dentre outros. O cálculo da produtividade deplecionada foi dependente da evapotranspiração potencial, da cultura e real e coeficiente de sensibilidade a deficiência hídrica. Os dados de precipitação pluvial foram amostrados por intermédio da distribuição normal. Sendo assim, a produção diária de carboidrato foi deplecionada em função do estresse hídrico e número de horas diárias de insolação. A interpolação dos dados, de modo a englobar todo o Estado de São Paulo, foi realizada por intermédio do método da Krigagem. Foi verificado que a maior parte das variáveis segue a distribuição normal de probabilidade. Além disso, as variáveis apresentam variabilidade espacial e temporal e o número de anos necessários (tamanho de amostra) para cada uma delas é bastante variável. A simulação utilizando a distribuição normal bivariada é a mais apropriada por representar melhor as variáveis do clima. E o modelo de estimação das produtividades potencial e deplecionada para a cultura de soja produz resultados coerentes com outros resultados obtidos na literatura. / The availability of resources, as much of financial order and human labor, is scarse. Therefore, it must stimulates the regional planning that minimizes the use of resources. Then, the forecast of harvests through modelling techniques must previously on the basis of be carried through the regional characteristics, thus indicating the routes of the research, as well as the regional planning. Then, the aims of this work are: (i) to characterize the climatic variables through different probability distributions; (ii) to verify the spatial and temporal homogeneity of the climatic variables; (iii) to verify the bivaried normal distribution to simulate parameters used to estimate soybean crop productivity; (iv) to propose a model of estimating the magnitud order of soybean crop potential productivity (it depends on the genotype, air temperature, photosynthetic active radiation; and photoperiod) and the depleted soybean crop productivity (it pedends on the potential productivity, rainfall and soil watter availability) based on daily values of temperature, insolation and rain, for the State of São Paulo. The variable used in this study had been the minimum, maximum and average air temperature, insolation, solar radiation, fotosynthetic active radiation and pluvial precipitation, in daily scale, gotten in 27 stations located in the State of São Paulo and six stations located in neighboring States. First, it was verified tack of seven variables in five probability distributions (normal, log-normal, exponential, gamma and weibull), through of Kolmogorov-Smirnov. The spatial and temporal verified through the analysis of grouping by Ward method and estimating the sample size (number of years) for the variable. The generation of random numbers was carried through the Monte Carlo Method. The simulation of the data of photosyntetic active radiation and temperature had been carried through three cases: (i) nonsymetric triangular distribution (ii) normal distribution truncated at 1.96 shunting line standard of the average and (iii) bivaried normal distribution. The simulated data had been evaluated through the test of homogeneity of variance of Bartlett and the F test, t test, agreement index of Willmott, angular coefficient of the straight line, the index of performance index of Camargo (C) and tack the normal distribution (univarieted). The proposed model to simulate the potential productivity of soybean crop was based on the de Wit concepts, including Van Heenst, Driessen, Konijn, Vries, and others researchers. The computation of the depleted productivity was dependent of the potential, crop and real evapotranspirations and the sensitivity hydric deficiency coefficient. The insolation and pluvial precipitation data had been showed through the normal distribution. Being thus, the daily production of carbohydrate was depleted as function of hydric stress and insolation. The interpolation of the data, in order to consider the whole State of Sao Paulo, was carried through the Kriging method. The results were gotten that most of the variable can follow the normal distribution. Moreover, the variable presents spatial and temporal variability and the number of necessary years (sample size) for each one of them is sufficiently changeable. The simulation using the bivaried normal distribution is most appropriate for better representation of climate variable. The model of estimating potential and depleted soybean crop productivities produces coherent values with the literature results.
|
25 |
Modelo hierárquico bayesiano na determinação de associação entre marcadores e QTL em uma população F2 / Bayesian hierarchical model in the determination of association between markers and QTL in a F2 populationPereira, Renato Nunes 13 April 2012 (has links)
O objetivo do mapeamento de QTL (Quantitative Trait Loci ) e identificar sua posição no genoma, isto e, identificar em qual cromossomo esta e qual sua localização nesse cromossomo, bem como estimar seus efeitos genéticos. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são usados frequentemente para auxiliar no seu mapeamento. Alguns marcadores podem estar altamente ligados a um ou mais QTL e, dessa forma eles podem mostrar uma alta associação com a característica fenotípica. O efeito genético do QTL e os valores fenotípicos de uma característica quantitativa são normalmente descritos por um modelo linear. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são utilizados para representá-los. Em geral, e utilizado um numero grande de marcadores. Esses marcadores são utilizados no modelo linear para proceder ao processo de associação; dessa forma o modelo especificado contem um numero elevado de parâmetros a serem estimados. No entanto, e esperado que muitos destes parâmetros sejam não significativos, necessitando de um tratamento especial. Na estimação bayesiana esse problema e tratado por meio da estrutura de distribuições a priori utilizada. Um parâmetro que e esperado assumir o valor zero (não significativo) e naturalmente especificado por meio de uma distribuição que coloque um peso maior no zero, encolhimento bayesiano. Neste trabalho e proposta a utilização de dois modelos que utilizam distribuições a priori de encolhimento. Um dos modelos esta relacionado com o uso da distribuição a priori Laplace (Lasso bayesiano) e o outro com a Horseshoe (Estimador Horseshoe). Para avaliar o desempenho dos modelos na determinação da associação entre marcadores e QTL, realizou-se um estudo de simulação. Foi analisada a associação entre marcadores e QTL utilizando três características fenotípicas: produção de grãos, altura da espiga e altura da planta. Comparou-se os resultados obtidos neste trabalho com analises feitas na literatura na detecção dos marcadores associados a essas características. A implementação computacional dos algoritmos foi feita utilizando a linguagem C e executada no pacote estatístico R. O programa implementado na linguagem C e apresentado e disponibilizado. Devido a interação entre as linguagens de programação C e R, foi possível executar o programa no ambiente R. / The objective of the mapping of quantitative trait loci (QTL) is to identify its position in the genome, ie, identify which chromosome is and what is its location in the chromosome, as well as to estimate their genetic eects. Since the location of QTL are not known a priori, markers are often used to assist in it mapping. Some markers may be closely linked to one or more QTL, and thus they may show a strong association with the phenotypic trait. The genetic eect of QTL and the phenotypic values of a quantitative trait are usually described by a linear model. Since the QTL locations are not known a priori, markers are used to represent them. Generally is used a large number of markers. These markers are used in the linear model to make the process of association and thus the model specied contains a large number of parameters to be estimated. However, it is expected that many of these parameters are not signicant, requiring a special treatment. In Bayesian estimation this problem is treated through structure priori distribution used. A parameter that is expected to assume the value zero (not signicant) is naturally specied by means of a distribution that put more weight at zero, bayesian shrinkage. This paper proposes the use of two models using priori distributions to shrinkage. One of the models is related to the use of priori distribution Laplace (bayesian Lasso) and the other with Horseshoe (Horseshoe Estimator). To evaluate the performance of the models to determine the association between markers and QTL, we performed a simulation study. We analyzed the association between markers and QTL using three phenotypic traits: grain yield, ear height and plant height. We compared the results obtained in this study with analyzes in the literature on the detection of markers associated with these characteristics. The computational implementation of the algorithms was done using the C language and executed the statistical package R. The program is implemented in C languages presented and made available. Due to the interaction between the programming languages C and R, it was possible execute the program in the environment R.
|
26 |
Estudo do efeito da composição das partículas primárias na distribuição lateral de chuveiros atmosféricos do Observatório Pierre Auger / Study of the effect of the primary particles composition in the lateral distribution of air showers from the Pierre Auger ObservatoryTridapalli, Diogo Bernardes 24 February 2012 (has links)
No estudo dos raios cósmicos de ultra alta energia utilizando detectores de superfície a energia da partícula primária é estimada pela distribuição lateral (LDF - Lateral Distribution Function), que descreve a amplitude do sinal das estações em função da distância ao centro do chuveiro. Entretanto, com exceção da estimativa do centro do chuveiro, não se utiliza a LDF para obter mais nenhuma informação sobre o chuveiro, talvez porque ela não possua uma parametrização que a descreva completamente, especialmente para os chuveiros com energias mais altas. As primeiras interações dos raios cósmicos com a atmosfera são determinantes para o desenvolvimento dos chuveiros atmosféricos extensos. Tais interações dependem, entre outras coisas, da composição química dos raios cósmicos. Diferenças nessas interações podem causar alterações nas flutuações da distribuição lateral. Através de simulações dos chuveiros com diferentes partículas primárias pode ser possível estimar a composição dos raios cósmicos de ultra alta energia, comparando as flutuações das distribuições laterais de eventos reais com as de eventos simulados. Uma das grandezas relevantes para a flutuação da LDF é a incerteza do sinal das estações. O framework de análise do Observatório Pierre Auger aplica uma correção parametrizada empiricamente à incerteza do sinal das estações. Neste trabalho foi apresentada uma justificativa estatística para esta correção, que está relacionada à distribuição do sinal não ser uma Poisson, mas uma composição de processos com diferentes distribuições. Para a realização deste trabalho foi gerada uma biblioteca de chuveiros produzidos por dois simuladores de chuveiros atmosféricos, AIRES e CORSIKA, sendo que o AIRES utilizou o SIBYLL como modelo de interação hadrônica enquanto o CORSIKA utilizou o EPOS. Foram produzidos chuveiros iniciados por prótons e núcleos de ferro com os dois simuladores, e suas distribuições angulares foram consideradas isotrópicas. A distribuição de energia desses eventos segue uma lei de potência e varia entre 1 e 200 EeV. Utilizando a função de Nishimura, Kamata e Greisen (NKG) como parametrização para a LDF se observa resíduos sistematicamente positivos nas estações mais distantes do centro do chuveiro, que também têm o sinal mais próximo do trigger. Uma das hipóteses levantadas em outros trabalhos para esse comportamento é que ele estaria relacionado à influência das estações silenciosas, mas este trabalho mostra que o uso dessas estações tem pouca influência na flutuação da LDF. Na verdade esse efeito é causado porque as parametrizações da LDF no Offline não consideram que os sinais das estações possuem um corte devido o trigger, isto é, que a função de densidade de probabilidade que descreve o sinal real não é a mesma que descreve o sinal que é observado. Neste trabalho é proposta uma correção para as parametrizações da LDF que é implementada no Offline. Como resultado desta correção é observada uma redução significativa dos resíduos que eram sistematicamente positivos e que, após a correção, passam a ser compatíveis com zero. Neste trabalho foram realizadas três análises independentes para comparar os eventos reais com os simulados, das quais duas não dependem diretamente do ajuste da LDF e também não são sensíveis à energia. Elas permitem uma comparação entre os sinais supondo uma relação simples entre eles. No primeiro caso supõe-se que a diferença no sinal é devido à componente muônica do chuveiro e no segundo supõe-se que os dois conjuntos de eventos comparados são bem descritos por funções NKG mas com parâmetros S1000 diferentes. A terceira análise utiliza os resíduos dos ajustes da LDF e permite observar a composição em função da energia da partícula primária. Essa última análise foi realizada utilizando a função NKG com e sem correção do efeito do trigger. As diferentes análises utilizadas para estimar a composição dos raios cósmicos apresentaram resultados consistentes entre si, apesar das limitações encontradas em algumas delas. Todos esses indicadores de composição da partícula primária obtidos pelo detector de superfície são consistentes com os resultados obtidos pelas análises de Xmax do detector de fluorescência, reforçando a tese de que a composição dos raios cósmicos é predominantemente de próton entre 1 e 10 EeV e entre próton e ferro para energias acima de aproximadamente 10 EeV. / The energy of ultra high energy cosmic rays can be estimated from the lateral distribution function (LDF) of the shower as measured by surface detectors. The LDF describes the particle density as a function of the distance from the shower center. However, with the exception of the position of the shower center, no other information is extracted from it, may because it does not have a parametrization or an analytic function that describes it completely. The first interactions of cosmic rays with the atmosphere are decisive for the development of the extensive air showers. Such interactions, among other things, depend on the chemical composition of comic rays. Differences in these interactions can cause changes in the fluctuation shape of lateral distribution. Through simulations of showers with different primary particles it may be possible to estimate the composition of ultra high energy cosmic rays comparing the fluctuation shape of the lateral distributions of real events with those from simulated ones. One of the quantities relevant to the fluctuation of the LDF signal is the uncertainty of the stations. The analysis framework of the Pierre Auger Observatory applies a correction to the signal uncertainty of the signal. The parameterization of this correction is obtained empirically. In this work a statistical justification for this correction is proposed and is related to distribution of the signal which is not Poisson, but a composition of processes with different distributions. For this work a library of showers using two simulators of air showers, AIRES and CORSIKA, was produced. The showers simulated with the AIRES used SIBYLL as a hadronic interaction model while COSIKA used EPOS. Showers initiated by protons and iron nuclei with the two simulators were produced, and their angular distribution was considered isotropic. The energy distribution of these events follows a power law and ranges from 1 to 200 EeV. Using the Nishimura, Kamata and Greisen (NKG) function as a parameterization for the LDF, one obtains residues that are systematically positive at stations further from the center of the shower. These stations have a signalclose to the trigger level. One of the hypothesis raised in other works for this behavior is that it is related to the influence of the silent stations, but this work shows that their use has little impact on the fluctuation shape of the LDF. In fact, this effect is caused because the parametrizations of LDF in the Offline ignore that the signals of the stations have a cut due to the trigger, ie, the probability density function that describes the real signal is not the same that describes the observed signal. This work proposes a correction to the parameterizations of the LDF and implements it in the Offline. As a result of this correction, the residues, which were always positive, are significantly reduced and compatible with zero. In this study three independent analysis were performed to compare real and simulated events, two of them not dependent directly of the LDF fit and also not sensitive to the primary particle energy. They allow a comparison between the signals assuming a simple relationship between them. The first case assumes that the difference in signal is due to the muonic component of the shower and the second assumes that the two compared sets of events are well described by NKG functions but with different S1000. The third analysis uses the residues of the LDF fits and is able to observe the composition of as a function of primary particle energy. This last analysis was performed using the NKG function with and without correction of the trigger effect. The different analysis used to estimate the composition of cosmic rays showed results consistent, despite the limitations found in some of them. The primary particle composition obtained from the surface detectors in this work is consistent with the results derived from the elongation rate measured by the fluorescence detectors, supporting the hypotesis that the composition of cosmic rays is predominantly proton becoming heavier for energies above 10 EeV.
|
27 |
Modelos de regressão quando a função de taxa de falha não é monótona e o modelo probabilístico beta Weibull modificada / Regression models when the failure rate function is no monotone and the new beta modified Weibull modelSilva, Giovana Oliveira 05 February 2009 (has links)
Em aplicações na área de análise de sobrevivência, é freqüente a ocorrência de função de taxa de falha em forma de U ou unimodal, isto e, funções não-monótonas. Os modelos de regressão comumente usados para dados de sobrevivência são log-Weibull, função de taxa de falha monótona, e log-logística, função de taxa de falha decrescente ou unimodal. Um dos objetivos deste trabalho e propor os modelos de regressão, em forma de locação e escala, log-Weibull estendida que apresenta função de taxa de falha em forma de U e log- Burr XII que tem como caso particular o modelo de regressão log-logística. Considerando dados censurados, foram utilizados três métodos para estimação dos parâmetros, a saber, máxima verossimilhança, bayesiana e jackkinife. Para esses modelos foram calculadas algumas medidas de diagnósticos de influência local e global. Adicionalmente, desenvolveu-se uma análise de resíduos baseada no resíduo tipo martingale. Para diferentes parâmetros taxados, tamanhos de amostra e porcentagens de censuras, várias simulações foram feitas para avaliar a distribuição empírica do resíduo tipo martingale e compará-la com a distribuição normal padrão. Esses estudos sugerem que a distribuição empírica do resíduo tipo martingale para o modelo de regressão log-Weibull estendida com dados censurados aproxima-se de uma distribuição normal padrão quando comparados com outros resíduos considerados neste estudo. Para o modelo de regressão log-Burr XII, foi proposta uma modificação no resíduo tipo martingale baseada no estudo de simulação para obter concordância com a distribuição normal padrão. Conjuntos de dados reais foram utilizados para ilustrar a metodologia desenvolvida. Também pode ocorrer que em algumas aplicações a suposição de independência dos tempos de sobrevivência não é válida. Assim, outro objetivo deste trabalho é introduzir um modelo de regressão log-Burr XII com efeito aleatório para o qual foi proposto um método de estimação para os parâmetros baseado no algoritmo EM por Monte Carlo. Por fim, foi desenvolvido um novo modelo probabilístico denominado de beta Weibull modificado que apresenta cinco parâmetros. A vantagem desse novo modelo é a flexibilidade em acomodar várias formas da função de taxa de falha, por exemplo, U e unimodal, e mostrou-se útil na discriminação entre alguns modelos probabilísticos alternativos. O método de máxima verossimilhança e proposto para estimar os parâmetros desta distribuição. A matriz de informação observada foi calculada. Um conjunto de dados reais é usado para ilustrar a aplicação da nova distribuição / In survival analysis applications, the failure rate function may have frequently unimodal or bathtub shape, that is, non-monotone functions. The regression models commonly used for survival studies are log-Weibull, monotone failure rate function shape, and log-logistic, decreased or unimodal failure rate function shape. In the first part of this thesis, we propose location-scale regression models based on an extended Weibull distribution for modeling data with bathtub-shaped failure rate function and on a Burr XII distribution as an alternative to the log-logistic regression model. Assuming censored data, we consider a classical analysis, a Bayesian analysis and a jackknife estimator for the parameters of the proposed models. For these models, we derived the appropriate matrices for assessing the local influence on the parameter estimates under diferent perturbation schemes, and we also presented some ways to perform global influence. Additionally, we developed residual analy- sis based on the martingale-type residual. For di®erent parameter settings, sample sizes and censoring percentages, various simulation studies were performed and the empirical distribution of the martingale-type residual was displayed and compared with the standard normal distribution. These studies suggest that the empirical distribution of the martingale-type residual for the log-extended Weibull regression model with data censured present a high agreement with the standard normal distribution when compared with other residuals considered in these studies. For the log-Burr XII regression model, it was proposed a change in the martingale-type residual based on some studies of simulation in order to obtain an agreement with the standard normal distribution. Some applications to real data illustrate the usefulness of the methodology developed. It can also happen in some applications that the assumption of independence of the times of survival is not valid, so it was added to the log-Burr XII regression model of random exects for which an estimate method was proposed for the parameters based on the EM algorithm for Monte Carlo simulation. Finally, a five- parameter distribution so called the beta modified Weibull distribution is defined and studied. The advantage of that new distribution is its flexibility in accommodating several forms of the failure rate function, for instance, bathtub-shaped and unimodal shape, and it is also suitable for testing goodness-of-fit of some special sub-models. The method of maximum likelihood is used for estimating the model parameters. We calculate the observed information matrix. A real data set is used to illustrate the application of the new distribution.
|
28 |
Modelo de regressão log-gama generalizado exponenciado com dados censurados / The log-exponentiated generalized gamma regression model with censored dataCouto, Epaminondas de Vasconcellos 22 February 2010 (has links)
No presente trabalho, e proposto um modelo de regressão utilizando a distribuição gama generalizada exponenciada (GGE) para dados censurados, esta nova distribuição e uma extensão da distribuição gama generalizada. A distribuição GGE (CORDEIRO et al., 2009) que tem quatro parâmetros pode modelar dados de sobrevivência quando a função de risco tem forma crescente, decrescente, forma de U e unimodal. Neste trabalho apresenta-se uma expansão natural da distribuição GGE para dados censurados, esta distribuição desperta o interesse pelo fato de representar uma família paramétrica que possui como casos particulares outras distribuições amplamente utilizadas na analise de dados de tempo de vida, como as distribuições gama generalizada (STACY, 1962), Weibull, Weibull exponenciada (MUDHOLKAR et al., 1995, 1996), exponencial exponenciada (GUPTA; KUNDU, 1999, 2001), Rayleigh generalizada (KUNDU; RAKAB, 2005), dentre outras, e mostra-se útil na discriminação entre alguns modelos probabilísticos alternativos. Considerando dados censurados, e abordado o método de máxima verossimilhança para estimar os parâmetros do modelo proposto. Outra proposta deste trabalho e introduzir um modelo de regressão log-gama generalizado exponenciado com efeito aleatório. Por fim, são apresentadas três aplicações para ilustrar a distribuição proposta. / In the present study, we propose a regression model using the exponentiated generalized gama (EGG) distribution for censored data, this new distribution is an extension of the generalized gama distribution. The EGG distribution (CORDEIRO et al., 2009) that has four parameters it can model survival data when the risk function is increasing, decreasing, form of U and unimodal-shaped. In this work comes to a natural expansion of the EGG distribution for censored data, is awake distribution the interest for the fact of representing a parametric family that has, as particular cases, other distributions which are broadly used in lifetime data analysis, as the generalized gama (STACY, 1962), Weibull, exponentiated Weibull (MUDHOLKAR et al., 1995, 1996), exponentiated exponential (GUPTA; KUNDU, 1999, 2001), generalized Rayleigh (KUNDU; RAKAB, 2005), among others, and it is shown useful in the discrimination among some models alternative probabilistics. Considering censored data, the maximum likelihood estimator is considered for the proposed model parameters. Another proposal of this work was to introduce a log-exponentiated generalized gamma regression model with random eect. Finally, three applications were presented to illustrate the proposed distribution.
|
29 |
Estudo do efeito da composição das partículas primárias na distribuição lateral de chuveiros atmosféricos do Observatório Pierre Auger / Study of the effect of the primary particles composition in the lateral distribution of air showers from the Pierre Auger ObservatoryDiogo Bernardes Tridapalli 24 February 2012 (has links)
No estudo dos raios cósmicos de ultra alta energia utilizando detectores de superfície a energia da partícula primária é estimada pela distribuição lateral (LDF - Lateral Distribution Function), que descreve a amplitude do sinal das estações em função da distância ao centro do chuveiro. Entretanto, com exceção da estimativa do centro do chuveiro, não se utiliza a LDF para obter mais nenhuma informação sobre o chuveiro, talvez porque ela não possua uma parametrização que a descreva completamente, especialmente para os chuveiros com energias mais altas. As primeiras interações dos raios cósmicos com a atmosfera são determinantes para o desenvolvimento dos chuveiros atmosféricos extensos. Tais interações dependem, entre outras coisas, da composição química dos raios cósmicos. Diferenças nessas interações podem causar alterações nas flutuações da distribuição lateral. Através de simulações dos chuveiros com diferentes partículas primárias pode ser possível estimar a composição dos raios cósmicos de ultra alta energia, comparando as flutuações das distribuições laterais de eventos reais com as de eventos simulados. Uma das grandezas relevantes para a flutuação da LDF é a incerteza do sinal das estações. O framework de análise do Observatório Pierre Auger aplica uma correção parametrizada empiricamente à incerteza do sinal das estações. Neste trabalho foi apresentada uma justificativa estatística para esta correção, que está relacionada à distribuição do sinal não ser uma Poisson, mas uma composição de processos com diferentes distribuições. Para a realização deste trabalho foi gerada uma biblioteca de chuveiros produzidos por dois simuladores de chuveiros atmosféricos, AIRES e CORSIKA, sendo que o AIRES utilizou o SIBYLL como modelo de interação hadrônica enquanto o CORSIKA utilizou o EPOS. Foram produzidos chuveiros iniciados por prótons e núcleos de ferro com os dois simuladores, e suas distribuições angulares foram consideradas isotrópicas. A distribuição de energia desses eventos segue uma lei de potência e varia entre 1 e 200 EeV. Utilizando a função de Nishimura, Kamata e Greisen (NKG) como parametrização para a LDF se observa resíduos sistematicamente positivos nas estações mais distantes do centro do chuveiro, que também têm o sinal mais próximo do trigger. Uma das hipóteses levantadas em outros trabalhos para esse comportamento é que ele estaria relacionado à influência das estações silenciosas, mas este trabalho mostra que o uso dessas estações tem pouca influência na flutuação da LDF. Na verdade esse efeito é causado porque as parametrizações da LDF no Offline não consideram que os sinais das estações possuem um corte devido o trigger, isto é, que a função de densidade de probabilidade que descreve o sinal real não é a mesma que descreve o sinal que é observado. Neste trabalho é proposta uma correção para as parametrizações da LDF que é implementada no Offline. Como resultado desta correção é observada uma redução significativa dos resíduos que eram sistematicamente positivos e que, após a correção, passam a ser compatíveis com zero. Neste trabalho foram realizadas três análises independentes para comparar os eventos reais com os simulados, das quais duas não dependem diretamente do ajuste da LDF e também não são sensíveis à energia. Elas permitem uma comparação entre os sinais supondo uma relação simples entre eles. No primeiro caso supõe-se que a diferença no sinal é devido à componente muônica do chuveiro e no segundo supõe-se que os dois conjuntos de eventos comparados são bem descritos por funções NKG mas com parâmetros S1000 diferentes. A terceira análise utiliza os resíduos dos ajustes da LDF e permite observar a composição em função da energia da partícula primária. Essa última análise foi realizada utilizando a função NKG com e sem correção do efeito do trigger. As diferentes análises utilizadas para estimar a composição dos raios cósmicos apresentaram resultados consistentes entre si, apesar das limitações encontradas em algumas delas. Todos esses indicadores de composição da partícula primária obtidos pelo detector de superfície são consistentes com os resultados obtidos pelas análises de Xmax do detector de fluorescência, reforçando a tese de que a composição dos raios cósmicos é predominantemente de próton entre 1 e 10 EeV e entre próton e ferro para energias acima de aproximadamente 10 EeV. / The energy of ultra high energy cosmic rays can be estimated from the lateral distribution function (LDF) of the shower as measured by surface detectors. The LDF describes the particle density as a function of the distance from the shower center. However, with the exception of the position of the shower center, no other information is extracted from it, may because it does not have a parametrization or an analytic function that describes it completely. The first interactions of cosmic rays with the atmosphere are decisive for the development of the extensive air showers. Such interactions, among other things, depend on the chemical composition of comic rays. Differences in these interactions can cause changes in the fluctuation shape of lateral distribution. Through simulations of showers with different primary particles it may be possible to estimate the composition of ultra high energy cosmic rays comparing the fluctuation shape of the lateral distributions of real events with those from simulated ones. One of the quantities relevant to the fluctuation of the LDF signal is the uncertainty of the stations. The analysis framework of the Pierre Auger Observatory applies a correction to the signal uncertainty of the signal. The parameterization of this correction is obtained empirically. In this work a statistical justification for this correction is proposed and is related to distribution of the signal which is not Poisson, but a composition of processes with different distributions. For this work a library of showers using two simulators of air showers, AIRES and CORSIKA, was produced. The showers simulated with the AIRES used SIBYLL as a hadronic interaction model while COSIKA used EPOS. Showers initiated by protons and iron nuclei with the two simulators were produced, and their angular distribution was considered isotropic. The energy distribution of these events follows a power law and ranges from 1 to 200 EeV. Using the Nishimura, Kamata and Greisen (NKG) function as a parameterization for the LDF, one obtains residues that are systematically positive at stations further from the center of the shower. These stations have a signalclose to the trigger level. One of the hypothesis raised in other works for this behavior is that it is related to the influence of the silent stations, but this work shows that their use has little impact on the fluctuation shape of the LDF. In fact, this effect is caused because the parametrizations of LDF in the Offline ignore that the signals of the stations have a cut due to the trigger, ie, the probability density function that describes the real signal is not the same that describes the observed signal. This work proposes a correction to the parameterizations of the LDF and implements it in the Offline. As a result of this correction, the residues, which were always positive, are significantly reduced and compatible with zero. In this study three independent analysis were performed to compare real and simulated events, two of them not dependent directly of the LDF fit and also not sensitive to the primary particle energy. They allow a comparison between the signals assuming a simple relationship between them. The first case assumes that the difference in signal is due to the muonic component of the shower and the second assumes that the two compared sets of events are well described by NKG functions but with different S1000. The third analysis uses the residues of the LDF fits and is able to observe the composition of as a function of primary particle energy. This last analysis was performed using the NKG function with and without correction of the trigger effect. The different analysis used to estimate the composition of cosmic rays showed results consistent, despite the limitations found in some of them. The primary particle composition obtained from the surface detectors in this work is consistent with the results derived from the elongation rate measured by the fluorescence detectors, supporting the hypotesis that the composition of cosmic rays is predominantly proton becoming heavier for energies above 10 EeV.
|
30 |
Modelo hierárquico bayesiano na determinação de associação entre marcadores e QTL em uma população F2 / Bayesian hierarchical model in the determination of association between markers and QTL in a F2 populationRenato Nunes Pereira 13 April 2012 (has links)
O objetivo do mapeamento de QTL (Quantitative Trait Loci ) e identificar sua posição no genoma, isto e, identificar em qual cromossomo esta e qual sua localização nesse cromossomo, bem como estimar seus efeitos genéticos. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são usados frequentemente para auxiliar no seu mapeamento. Alguns marcadores podem estar altamente ligados a um ou mais QTL e, dessa forma eles podem mostrar uma alta associação com a característica fenotípica. O efeito genético do QTL e os valores fenotípicos de uma característica quantitativa são normalmente descritos por um modelo linear. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são utilizados para representá-los. Em geral, e utilizado um numero grande de marcadores. Esses marcadores são utilizados no modelo linear para proceder ao processo de associação; dessa forma o modelo especificado contem um numero elevado de parâmetros a serem estimados. No entanto, e esperado que muitos destes parâmetros sejam não significativos, necessitando de um tratamento especial. Na estimação bayesiana esse problema e tratado por meio da estrutura de distribuições a priori utilizada. Um parâmetro que e esperado assumir o valor zero (não significativo) e naturalmente especificado por meio de uma distribuição que coloque um peso maior no zero, encolhimento bayesiano. Neste trabalho e proposta a utilização de dois modelos que utilizam distribuições a priori de encolhimento. Um dos modelos esta relacionado com o uso da distribuição a priori Laplace (Lasso bayesiano) e o outro com a Horseshoe (Estimador Horseshoe). Para avaliar o desempenho dos modelos na determinação da associação entre marcadores e QTL, realizou-se um estudo de simulação. Foi analisada a associação entre marcadores e QTL utilizando três características fenotípicas: produção de grãos, altura da espiga e altura da planta. Comparou-se os resultados obtidos neste trabalho com analises feitas na literatura na detecção dos marcadores associados a essas características. A implementação computacional dos algoritmos foi feita utilizando a linguagem C e executada no pacote estatístico R. O programa implementado na linguagem C e apresentado e disponibilizado. Devido a interação entre as linguagens de programação C e R, foi possível executar o programa no ambiente R. / The objective of the mapping of quantitative trait loci (QTL) is to identify its position in the genome, ie, identify which chromosome is and what is its location in the chromosome, as well as to estimate their genetic eects. Since the location of QTL are not known a priori, markers are often used to assist in it mapping. Some markers may be closely linked to one or more QTL, and thus they may show a strong association with the phenotypic trait. The genetic eect of QTL and the phenotypic values of a quantitative trait are usually described by a linear model. Since the QTL locations are not known a priori, markers are used to represent them. Generally is used a large number of markers. These markers are used in the linear model to make the process of association and thus the model specied contains a large number of parameters to be estimated. However, it is expected that many of these parameters are not signicant, requiring a special treatment. In Bayesian estimation this problem is treated through structure priori distribution used. A parameter that is expected to assume the value zero (not signicant) is naturally specied by means of a distribution that put more weight at zero, bayesian shrinkage. This paper proposes the use of two models using priori distributions to shrinkage. One of the models is related to the use of priori distribution Laplace (bayesian Lasso) and the other with Horseshoe (Horseshoe Estimator). To evaluate the performance of the models to determine the association between markers and QTL, we performed a simulation study. We analyzed the association between markers and QTL using three phenotypic traits: grain yield, ear height and plant height. We compared the results obtained in this study with analyzes in the literature on the detection of markers associated with these characteristics. The computational implementation of the algorithms was done using the C language and executed the statistical package R. The program is implemented in C languages presented and made available. Due to the interaction between the programming languages C and R, it was possible execute the program in the environment R.
|
Page generated in 0.092 seconds