31 |
Modelos de regressão simplex: resíduos de Pearson corrigidos e aplicações / Simplex regression models:corrected Pearson residuals and applicationsLucimary Afonso dos Santos 02 September 2011 (has links)
A distribuição simplex, proposta por Barndor-Nielsen e Jørgensen (1991) é útil para a modelagem de dados contínuos no intervalo (0,1). Nesse trabalho, desenvolve-se o modelo de regressão simplex considerando-se ´ = h(X; ¯), sendo h(:; :) uma função arbitr ária. Denem-se os resíduos para o modelo considerado e obtêm-se correções assintóticas para resíduos do tipo Ri. A primeira correção proposta baseou-se na obtenção da expressão assintótica para a densidade dos resíduos de Pearson, corrigidos até ordem O(n¡1). Esses resíduos foram denidos de forma a terem a mesma distribuição dos resíduos verdadeiros de Pearson. Estudos de simulação mostraram que a distribuição empírica dos resíduos corrigidos pela densidade encontra-se mais próxima da distribuição dos verdadeiros resíduos de Pearson do que para o resíduo não corrigido de Pearson. A segunda correção proposta considera o método dos momentos. Geralmente, E(Ri) e Var(Ri) são diferentes de zero e um, respectivamente, por termos de ordem O(n¡1). Usando-se os resultados de Cox e Snell (1968), obtiveram-se as expressões aproximadas de ordem O(n¡1) para E(Ri) e Var(Ri). Um estudo de simulação está sendo realizado para avaliação da técnica proposta. A técnica desenvolvida no primeiro estudo, foi aplicada a dois conjuntos de dados, sendo o primeiro deles, dados sobre oxidação de amônia, considerando-se preditor linear e o outro sobre porcentagem de massa seca (MS) em grãos de milho, considerando-se preditor linear e não linear. Os resultados obtidos para os dados de oxidação de amônia, indicaram que o modelo com preditor linear está bem ajustado aos dados, considerando-se a exclusão de alguns possíveis pontos inuentes, sendo que a correção proposta, para a densidade dos resíduos, apresenta os melhores resultados. Observando-se os resultados para os dados de massa seca, os melhores resultados foram obtidos, considerando-se um dos modelos com preditor não linear. / The simplex distribution, proposed by Barndor-Nielsen e Jørgensen (1991) is useful for modeling continuous data in the (0,1) interval. In this work, we developed the simplex regression model, considering ´ = h(X; ¯), where h(:; :) is an arbitrary function. We dened the residuals to this model and obtained asymptotic corrections to residuals of the type Ri. The rst correction proposed, was based in obtaining the asymptotic expression for the density of Pearson residuals, corrected to order O(n¡1). These residuals were dened in order to have the same distribution of true Pearson residuals. Simulation studies showed that the empirical distribution of the modied residuals is closer to the distribution of the true Pearson residuals than the unmodied Pearson residuals. The second one, considers the method of moments. Generally E(Ri) and Var(Ri) are dierent from zero and one, respectively, by terms of order O(n¡1). Using the results of Cox and Snell (1968), we obtained the approximate expressions of order O(n¡1) for E(Ri) and Var(Ri). A simulation study is being conducted to evaluate the proposed technique. We applied the techniques in two data sets, the rst one, is a dataset of ammonia oxidation, considering linear predictor and the other one was the percentage of dry matter in maize, considering linear predictor and nonlinear. The results obtained for the oxidation ammonia data indicated that the model considering linear predictor, tted well to the data, if we consider the exclusion of some possible inuential points. The proposed correction for the density of Pearson residuals, showed better results. Observing the results for the dry matter data, the best results were obtained for a model with a specied nonlinear predictor.
|
32 |
Distribuição de probabilidade e dimensionamento amostral para tamanho de partícula em gramíneas forrageiras / Probability distribution and sample dimension for particle size in forage grassesNavarette López, Claudia Fernanda 16 January 2009 (has links)
O objetivo deste trabalho foi identificar a distribuição de probabilidade da variável tamanho de partícula em gramíneas forrageiras e fazer um dimensionamento amostral. Para isto foi realizada uma analise exploratória dos dados obtidos de um experimento planejado em blocos casualizados, a cada sub-amostra do conjunto de dados foram ajustadas as distribuições normal, gama, beta e Weibull. Foram realizados os testes de aderência não paramétricos de Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises e Anderson-Darling para avaliar o ajuste as distribuições. A estimativa do valor do logaritmo da função de máxima verossimilhança e indicativo da distribuição que melhor descreveu o conjunto de dados, assim como os critérios de informação de Akaike (AIC) e de informação bayesiano (BIC). Foram feitas simulações a partir dos parâmetros obtidos e feitos os testes não paramétricos para avaliar o ajuste com diferentes tamanhos de amostras. Encontrou-se que os dados n~ao seguem a distribuição normal, pois há assimetria nos histogramas melhor descritos pelas distribuições beta e Weibull. Os testes mostraram que as distribuições gama, beta e Weibull ajustam-se melhor aos dados porem pelo maior valor do logaritmo da função de verossimilhança, assim como pelos valores AIC e BIC, o melhor ajuste foi dado pela distribuição Weibull. As simulações mostraram que com os tamanhos n de 2 e 4 com 10 repetições cada, as distribuições gama e Weibull apresentaram bom ajuste aos dados, a proporção que o n cresce a distribuição dos dados tende a normalidade. O dimensionamento dado pela Amostra Aleatória Simples (ASA), mostrou que o tamanho 6 de amostra e suficiente, para descrever a distribuição de probabilidade do tamanho de partícula em gramíneas forrageiras / The purpose of this study was to identify the probability distribution of variable particle size in forages grasses and to do a sample dimension. For this was carried out an exploratory analysis of the data obtained from the experiment planned in randomized blocks. Each sample of the overall data was adjusted to Normal, Gama, Beta and Weibull distributions. Tests of adhesion not parametric of Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises and Anderson-Darling were conducted to indicate the adjustment at the distributions. The estimate of the value of the logarithm of function of maximum likelihood is indicative of distribution that better describes the data set, as well as information criteria of Akaike (AIC) and Bayesian information (BIC). Simulations from parameters obtained were made and tests not parametric to assess the t with dierent sizes of samples were made too. It was found that data are not normal, because have asymmetry in the histograms, better described by Beta and Weibull distributions. Tests showed that Gamma, Beta and Weibull distributions, have a ts better for the data; for the highest value in the logarithm of the likelihood function as well as smaller AIC and BIC, best t was forWeibull distribution. Simulations showed that with 2 and 4 sizes (n), with 10 repeat each one, the Gama and Weibull distributions showed good t to data, as the proportion in which n grows, distribution of data tends to normality. Dimensioning by simple random sample (ASA), showed that 6 is a sucient sample size to describe probability distribution for particle size in forage grasses.
|
33 |
Modelo de regressão gama-G em análise de sobrevivência / Gama-G regression model in survival analysisHashimoto, Elizabeth Mie 15 March 2013 (has links)
Dados de tempo de falha são caracterizados pela presença de censuras, que são observações que não foram acompanhadas até a ocorrência de um evento de interesse. Para estudar o comportamento de dados com essa natureza, distribuições de probabilidade são utilizadas. Além disso, é comum se ter uma ou mais variáveis explicativas associadas aos tempos de falha. Dessa forma, o objetivo geral do presente trabalho é propor duas novas distribuições utilizando a função geradora de distribuições gama, no contexto de modelos de regressão em análise de sobrevivência. Essa função possui um parâmetro de forma que permite criar famílias paramétricas de distribuições que sejam flexíveis para capturar uma ampla variedade de comportamentos simétricos e assimétricos. Assim, a distribuição Weibull e a distribuição log-logística foram modificadas, dando origem a duas novas distribuições de probabilidade, denominadas de gama-Weibull e gama-log-logística, respectivamente. Consequentemente, os modelos de regressão locação-escala, de longa-duração e com efeito aleatório foram estudados, considerando as novas distribuições de probabilidade. Para cada um dos modelos propostos, foi utilizado o método da máxima verossimilhança para estimar os parâmetros e algumas medidas de diagnóstico de influência global e local foram calculadas para encontrar possíveis pontos influentes. No entanto, os resíduos foram propostos apenas para os modelos locação-escala para dados com censura à direita e para dados com censura intervalar, bem um estudo de simulação para verificar a distribuição empírica dos resíduos. Outra questão explorada é a introdução dos modelos: gama-Weibull inflacionado de zeros e gama-log-logística inflacionado de zeros, para analisar dados de produção de óleo de copaíba. Por fim, diferentes conjunto de dados foram utilizados para ilustrar a aplicação de cada um dos modelos propostos. / Failure time data are characterized by the presence of censoring, which are observations that were not followed up until the occurrence of an event of interest. To study the behavior of the data of that nature, probability distributions are used. Furthermore, it is common to have one or more explanatory variables associated to failure times. Thus, the goal of this work is given to the generating of gamma distributions function in the context of regression models in survival analysis. This function has a shape parameter that allows create parametric families of distributions that are flexible to capture a wide variety of symmetrical and asymmetrical behaviors. Therefore, through the generating of gamma distributions function, the Weibull distribution and log-logistic distribution were modified to give two new probability distributions: gamma-Weibull and gammalog-logistic. Additionally, location-scale regression models, long-term models and models with random effects were also studied, considering the new distributions. For each of the proposed models, we used the maximum likelihood method to estimate the parameters and some diagnostic measures of global and local influence were calculated for possible influential points. However, residuals have been proposed for data with right censoring and interval-censored data and a simulation study to verify the empirical distribution of the residuals. Another issue explored is the introduction of models: gamma-Weibull inflated zeros and gamma-log-logistic inflated zeros, to analyze production data copaiba oil. Finally, different data set are used to illustrate the application of each of the models.
|
34 |
Modelo de regressão gama-G em análise de sobrevivência / Gama-G regression model in survival analysisElizabeth Mie Hashimoto 15 March 2013 (has links)
Dados de tempo de falha são caracterizados pela presença de censuras, que são observações que não foram acompanhadas até a ocorrência de um evento de interesse. Para estudar o comportamento de dados com essa natureza, distribuições de probabilidade são utilizadas. Além disso, é comum se ter uma ou mais variáveis explicativas associadas aos tempos de falha. Dessa forma, o objetivo geral do presente trabalho é propor duas novas distribuições utilizando a função geradora de distribuições gama, no contexto de modelos de regressão em análise de sobrevivência. Essa função possui um parâmetro de forma que permite criar famílias paramétricas de distribuições que sejam flexíveis para capturar uma ampla variedade de comportamentos simétricos e assimétricos. Assim, a distribuição Weibull e a distribuição log-logística foram modificadas, dando origem a duas novas distribuições de probabilidade, denominadas de gama-Weibull e gama-log-logística, respectivamente. Consequentemente, os modelos de regressão locação-escala, de longa-duração e com efeito aleatório foram estudados, considerando as novas distribuições de probabilidade. Para cada um dos modelos propostos, foi utilizado o método da máxima verossimilhança para estimar os parâmetros e algumas medidas de diagnóstico de influência global e local foram calculadas para encontrar possíveis pontos influentes. No entanto, os resíduos foram propostos apenas para os modelos locação-escala para dados com censura à direita e para dados com censura intervalar, bem um estudo de simulação para verificar a distribuição empírica dos resíduos. Outra questão explorada é a introdução dos modelos: gama-Weibull inflacionado de zeros e gama-log-logística inflacionado de zeros, para analisar dados de produção de óleo de copaíba. Por fim, diferentes conjunto de dados foram utilizados para ilustrar a aplicação de cada um dos modelos propostos. / Failure time data are characterized by the presence of censoring, which are observations that were not followed up until the occurrence of an event of interest. To study the behavior of the data of that nature, probability distributions are used. Furthermore, it is common to have one or more explanatory variables associated to failure times. Thus, the goal of this work is given to the generating of gamma distributions function in the context of regression models in survival analysis. This function has a shape parameter that allows create parametric families of distributions that are flexible to capture a wide variety of symmetrical and asymmetrical behaviors. Therefore, through the generating of gamma distributions function, the Weibull distribution and log-logistic distribution were modified to give two new probability distributions: gamma-Weibull and gammalog-logistic. Additionally, location-scale regression models, long-term models and models with random effects were also studied, considering the new distributions. For each of the proposed models, we used the maximum likelihood method to estimate the parameters and some diagnostic measures of global and local influence were calculated for possible influential points. However, residuals have been proposed for data with right censoring and interval-censored data and a simulation study to verify the empirical distribution of the residuals. Another issue explored is the introduction of models: gamma-Weibull inflated zeros and gamma-log-logistic inflated zeros, to analyze production data copaiba oil. Finally, different data set are used to illustrate the application of each of the models.
|
35 |
Distribuição de probabilidade e dimensionamento amostral para tamanho de partícula em gramíneas forrageiras / Probability distribution and sample dimension for particle size in forage grassesClaudia Fernanda Navarette López 16 January 2009 (has links)
O objetivo deste trabalho foi identificar a distribuição de probabilidade da variável tamanho de partícula em gramíneas forrageiras e fazer um dimensionamento amostral. Para isto foi realizada uma analise exploratória dos dados obtidos de um experimento planejado em blocos casualizados, a cada sub-amostra do conjunto de dados foram ajustadas as distribuições normal, gama, beta e Weibull. Foram realizados os testes de aderência não paramétricos de Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises e Anderson-Darling para avaliar o ajuste as distribuições. A estimativa do valor do logaritmo da função de máxima verossimilhança e indicativo da distribuição que melhor descreveu o conjunto de dados, assim como os critérios de informação de Akaike (AIC) e de informação bayesiano (BIC). Foram feitas simulações a partir dos parâmetros obtidos e feitos os testes não paramétricos para avaliar o ajuste com diferentes tamanhos de amostras. Encontrou-se que os dados n~ao seguem a distribuição normal, pois há assimetria nos histogramas melhor descritos pelas distribuições beta e Weibull. Os testes mostraram que as distribuições gama, beta e Weibull ajustam-se melhor aos dados porem pelo maior valor do logaritmo da função de verossimilhança, assim como pelos valores AIC e BIC, o melhor ajuste foi dado pela distribuição Weibull. As simulações mostraram que com os tamanhos n de 2 e 4 com 10 repetições cada, as distribuições gama e Weibull apresentaram bom ajuste aos dados, a proporção que o n cresce a distribuição dos dados tende a normalidade. O dimensionamento dado pela Amostra Aleatória Simples (ASA), mostrou que o tamanho 6 de amostra e suficiente, para descrever a distribuição de probabilidade do tamanho de partícula em gramíneas forrageiras / The purpose of this study was to identify the probability distribution of variable particle size in forages grasses and to do a sample dimension. For this was carried out an exploratory analysis of the data obtained from the experiment planned in randomized blocks. Each sample of the overall data was adjusted to Normal, Gama, Beta and Weibull distributions. Tests of adhesion not parametric of Kolmogorov-Smirnov, Lilliefos, Cramer-von Mises and Anderson-Darling were conducted to indicate the adjustment at the distributions. The estimate of the value of the logarithm of function of maximum likelihood is indicative of distribution that better describes the data set, as well as information criteria of Akaike (AIC) and Bayesian information (BIC). Simulations from parameters obtained were made and tests not parametric to assess the t with dierent sizes of samples were made too. It was found that data are not normal, because have asymmetry in the histograms, better described by Beta and Weibull distributions. Tests showed that Gamma, Beta and Weibull distributions, have a ts better for the data; for the highest value in the logarithm of the likelihood function as well as smaller AIC and BIC, best t was forWeibull distribution. Simulations showed that with 2 and 4 sizes (n), with 10 repeat each one, the Gama and Weibull distributions showed good t to data, as the proportion in which n grows, distribution of data tends to normality. Dimensioning by simple random sample (ASA), showed that 6 is a sucient sample size to describe probability distribution for particle size in forage grasses.
|
36 |
Modelo hierárquico bayesiano na determinação de associação entre marcadores e QTL em uma população F2 / Bayesian hierarchical model in the determination of association between markers and QTL in a F2 populationPereira, Renato Nunes 13 April 2012 (has links)
O objetivo do mapeamento de QTL (Quantitative Trait Loci ) e identificar sua posição no genoma, isto e, identificar em qual cromossomo esta e qual sua localização nesse cromossomo, bem como estimar seus efeitos genéticos. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são usados frequentemente para auxiliar no seu mapeamento. Alguns marcadores podem estar altamente ligados a um ou mais QTL e, dessa forma eles podem mostrar uma alta associação com a característica fenotípica. O efeito genético do QTL e os valores fenotípicos de uma característica quantitativa são normalmente descritos por um modelo linear. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são utilizados para representá-los. Em geral, e utilizado um numero grande de marcadores. Esses marcadores são utilizados no modelo linear para proceder ao processo de associação; dessa forma o modelo especificado contem um numero elevado de parâmetros a serem estimados. No entanto, e esperado que muitos destes parâmetros sejam não significativos, necessitando de um tratamento especial. Na estimação bayesiana esse problema e tratado por meio da estrutura de distribuições a priori utilizada. Um parâmetro que e esperado assumir o valor zero (não significativo) e naturalmente especificado por meio de uma distribuição que coloque um peso maior no zero, encolhimento bayesiano. Neste trabalho e proposta a utilização de dois modelos que utilizam distribuições a priori de encolhimento. Um dos modelos esta relacionado com o uso da distribuição a priori Laplace (Lasso bayesiano) e o outro com a Horseshoe (Estimador Horseshoe). Para avaliar o desempenho dos modelos na determinação da associação entre marcadores e QTL, realizou-se um estudo de simulação. Foi analisada a associação entre marcadores e QTL utilizando três características fenotípicas: produção de grãos, altura da espiga e altura da planta. Comparou-se os resultados obtidos neste trabalho com analises feitas na literatura na detecção dos marcadores associados a essas características. A implementação computacional dos algoritmos foi feita utilizando a linguagem C e executada no pacote estatístico R. O programa implementado na linguagem C e apresentado e disponibilizado. Devido a interação entre as linguagens de programação C e R, foi possível executar o programa no ambiente R. / The objective of the mapping of quantitative trait loci (QTL) is to identify its position in the genome, ie, identify which chromosome is and what is its location in the chromosome, as well as to estimate their genetic eects. Since the location of QTL are not known a priori, markers are often used to assist in it mapping. Some markers may be closely linked to one or more QTL, and thus they may show a strong association with the phenotypic trait. The genetic eect of QTL and the phenotypic values of a quantitative trait are usually described by a linear model. Since the QTL locations are not known a priori, markers are used to represent them. Generally is used a large number of markers. These markers are used in the linear model to make the process of association and thus the model specied contains a large number of parameters to be estimated. However, it is expected that many of these parameters are not signicant, requiring a special treatment. In Bayesian estimation this problem is treated through structure priori distribution used. A parameter that is expected to assume the value zero (not signicant) is naturally specied by means of a distribution that put more weight at zero, bayesian shrinkage. This paper proposes the use of two models using priori distributions to shrinkage. One of the models is related to the use of priori distribution Laplace (bayesian Lasso) and the other with Horseshoe (Horseshoe Estimator). To evaluate the performance of the models to determine the association between markers and QTL, we performed a simulation study. We analyzed the association between markers and QTL using three phenotypic traits: grain yield, ear height and plant height. We compared the results obtained in this study with analyzes in the literature on the detection of markers associated with these characteristics. The computational implementation of the algorithms was done using the C language and executed the statistical package R. The program is implemented in C languages presented and made available. Due to the interaction between the programming languages C and R, it was possible execute the program in the environment R.
|
37 |
Estudo do efeito da composição das partículas primárias na distribuição lateral de chuveiros atmosféricos do Observatório Pierre Auger / Study of the effect of the primary particles composition in the lateral distribution of air showers from the Pierre Auger ObservatoryTridapalli, Diogo Bernardes 24 February 2012 (has links)
No estudo dos raios cósmicos de ultra alta energia utilizando detectores de superfície a energia da partícula primária é estimada pela distribuição lateral (LDF - Lateral Distribution Function), que descreve a amplitude do sinal das estações em função da distância ao centro do chuveiro. Entretanto, com exceção da estimativa do centro do chuveiro, não se utiliza a LDF para obter mais nenhuma informação sobre o chuveiro, talvez porque ela não possua uma parametrização que a descreva completamente, especialmente para os chuveiros com energias mais altas. As primeiras interações dos raios cósmicos com a atmosfera são determinantes para o desenvolvimento dos chuveiros atmosféricos extensos. Tais interações dependem, entre outras coisas, da composição química dos raios cósmicos. Diferenças nessas interações podem causar alterações nas flutuações da distribuição lateral. Através de simulações dos chuveiros com diferentes partículas primárias pode ser possível estimar a composição dos raios cósmicos de ultra alta energia, comparando as flutuações das distribuições laterais de eventos reais com as de eventos simulados. Uma das grandezas relevantes para a flutuação da LDF é a incerteza do sinal das estações. O framework de análise do Observatório Pierre Auger aplica uma correção parametrizada empiricamente à incerteza do sinal das estações. Neste trabalho foi apresentada uma justificativa estatística para esta correção, que está relacionada à distribuição do sinal não ser uma Poisson, mas uma composição de processos com diferentes distribuições. Para a realização deste trabalho foi gerada uma biblioteca de chuveiros produzidos por dois simuladores de chuveiros atmosféricos, AIRES e CORSIKA, sendo que o AIRES utilizou o SIBYLL como modelo de interação hadrônica enquanto o CORSIKA utilizou o EPOS. Foram produzidos chuveiros iniciados por prótons e núcleos de ferro com os dois simuladores, e suas distribuições angulares foram consideradas isotrópicas. A distribuição de energia desses eventos segue uma lei de potência e varia entre 1 e 200 EeV. Utilizando a função de Nishimura, Kamata e Greisen (NKG) como parametrização para a LDF se observa resíduos sistematicamente positivos nas estações mais distantes do centro do chuveiro, que também têm o sinal mais próximo do trigger. Uma das hipóteses levantadas em outros trabalhos para esse comportamento é que ele estaria relacionado à influência das estações silenciosas, mas este trabalho mostra que o uso dessas estações tem pouca influência na flutuação da LDF. Na verdade esse efeito é causado porque as parametrizações da LDF no Offline não consideram que os sinais das estações possuem um corte devido o trigger, isto é, que a função de densidade de probabilidade que descreve o sinal real não é a mesma que descreve o sinal que é observado. Neste trabalho é proposta uma correção para as parametrizações da LDF que é implementada no Offline. Como resultado desta correção é observada uma redução significativa dos resíduos que eram sistematicamente positivos e que, após a correção, passam a ser compatíveis com zero. Neste trabalho foram realizadas três análises independentes para comparar os eventos reais com os simulados, das quais duas não dependem diretamente do ajuste da LDF e também não são sensíveis à energia. Elas permitem uma comparação entre os sinais supondo uma relação simples entre eles. No primeiro caso supõe-se que a diferença no sinal é devido à componente muônica do chuveiro e no segundo supõe-se que os dois conjuntos de eventos comparados são bem descritos por funções NKG mas com parâmetros S1000 diferentes. A terceira análise utiliza os resíduos dos ajustes da LDF e permite observar a composição em função da energia da partícula primária. Essa última análise foi realizada utilizando a função NKG com e sem correção do efeito do trigger. As diferentes análises utilizadas para estimar a composição dos raios cósmicos apresentaram resultados consistentes entre si, apesar das limitações encontradas em algumas delas. Todos esses indicadores de composição da partícula primária obtidos pelo detector de superfície são consistentes com os resultados obtidos pelas análises de Xmax do detector de fluorescência, reforçando a tese de que a composição dos raios cósmicos é predominantemente de próton entre 1 e 10 EeV e entre próton e ferro para energias acima de aproximadamente 10 EeV. / The energy of ultra high energy cosmic rays can be estimated from the lateral distribution function (LDF) of the shower as measured by surface detectors. The LDF describes the particle density as a function of the distance from the shower center. However, with the exception of the position of the shower center, no other information is extracted from it, may because it does not have a parametrization or an analytic function that describes it completely. The first interactions of cosmic rays with the atmosphere are decisive for the development of the extensive air showers. Such interactions, among other things, depend on the chemical composition of comic rays. Differences in these interactions can cause changes in the fluctuation shape of lateral distribution. Through simulations of showers with different primary particles it may be possible to estimate the composition of ultra high energy cosmic rays comparing the fluctuation shape of the lateral distributions of real events with those from simulated ones. One of the quantities relevant to the fluctuation of the LDF signal is the uncertainty of the stations. The analysis framework of the Pierre Auger Observatory applies a correction to the signal uncertainty of the signal. The parameterization of this correction is obtained empirically. In this work a statistical justification for this correction is proposed and is related to distribution of the signal which is not Poisson, but a composition of processes with different distributions. For this work a library of showers using two simulators of air showers, AIRES and CORSIKA, was produced. The showers simulated with the AIRES used SIBYLL as a hadronic interaction model while COSIKA used EPOS. Showers initiated by protons and iron nuclei with the two simulators were produced, and their angular distribution was considered isotropic. The energy distribution of these events follows a power law and ranges from 1 to 200 EeV. Using the Nishimura, Kamata and Greisen (NKG) function as a parameterization for the LDF, one obtains residues that are systematically positive at stations further from the center of the shower. These stations have a signalclose to the trigger level. One of the hypothesis raised in other works for this behavior is that it is related to the influence of the silent stations, but this work shows that their use has little impact on the fluctuation shape of the LDF. In fact, this effect is caused because the parametrizations of LDF in the Offline ignore that the signals of the stations have a cut due to the trigger, ie, the probability density function that describes the real signal is not the same that describes the observed signal. This work proposes a correction to the parameterizations of the LDF and implements it in the Offline. As a result of this correction, the residues, which were always positive, are significantly reduced and compatible with zero. In this study three independent analysis were performed to compare real and simulated events, two of them not dependent directly of the LDF fit and also not sensitive to the primary particle energy. They allow a comparison between the signals assuming a simple relationship between them. The first case assumes that the difference in signal is due to the muonic component of the shower and the second assumes that the two compared sets of events are well described by NKG functions but with different S1000. The third analysis uses the residues of the LDF fits and is able to observe the composition of as a function of primary particle energy. This last analysis was performed using the NKG function with and without correction of the trigger effect. The different analysis used to estimate the composition of cosmic rays showed results consistent, despite the limitations found in some of them. The primary particle composition obtained from the surface detectors in this work is consistent with the results derived from the elongation rate measured by the fluorescence detectors, supporting the hypotesis that the composition of cosmic rays is predominantly proton becoming heavier for energies above 10 EeV.
|
38 |
Estudo do efeito da composição das partículas primárias na distribuição lateral de chuveiros atmosféricos do Observatório Pierre Auger / Study of the effect of the primary particles composition in the lateral distribution of air showers from the Pierre Auger ObservatoryDiogo Bernardes Tridapalli 24 February 2012 (has links)
No estudo dos raios cósmicos de ultra alta energia utilizando detectores de superfície a energia da partícula primária é estimada pela distribuição lateral (LDF - Lateral Distribution Function), que descreve a amplitude do sinal das estações em função da distância ao centro do chuveiro. Entretanto, com exceção da estimativa do centro do chuveiro, não se utiliza a LDF para obter mais nenhuma informação sobre o chuveiro, talvez porque ela não possua uma parametrização que a descreva completamente, especialmente para os chuveiros com energias mais altas. As primeiras interações dos raios cósmicos com a atmosfera são determinantes para o desenvolvimento dos chuveiros atmosféricos extensos. Tais interações dependem, entre outras coisas, da composição química dos raios cósmicos. Diferenças nessas interações podem causar alterações nas flutuações da distribuição lateral. Através de simulações dos chuveiros com diferentes partículas primárias pode ser possível estimar a composição dos raios cósmicos de ultra alta energia, comparando as flutuações das distribuições laterais de eventos reais com as de eventos simulados. Uma das grandezas relevantes para a flutuação da LDF é a incerteza do sinal das estações. O framework de análise do Observatório Pierre Auger aplica uma correção parametrizada empiricamente à incerteza do sinal das estações. Neste trabalho foi apresentada uma justificativa estatística para esta correção, que está relacionada à distribuição do sinal não ser uma Poisson, mas uma composição de processos com diferentes distribuições. Para a realização deste trabalho foi gerada uma biblioteca de chuveiros produzidos por dois simuladores de chuveiros atmosféricos, AIRES e CORSIKA, sendo que o AIRES utilizou o SIBYLL como modelo de interação hadrônica enquanto o CORSIKA utilizou o EPOS. Foram produzidos chuveiros iniciados por prótons e núcleos de ferro com os dois simuladores, e suas distribuições angulares foram consideradas isotrópicas. A distribuição de energia desses eventos segue uma lei de potência e varia entre 1 e 200 EeV. Utilizando a função de Nishimura, Kamata e Greisen (NKG) como parametrização para a LDF se observa resíduos sistematicamente positivos nas estações mais distantes do centro do chuveiro, que também têm o sinal mais próximo do trigger. Uma das hipóteses levantadas em outros trabalhos para esse comportamento é que ele estaria relacionado à influência das estações silenciosas, mas este trabalho mostra que o uso dessas estações tem pouca influência na flutuação da LDF. Na verdade esse efeito é causado porque as parametrizações da LDF no Offline não consideram que os sinais das estações possuem um corte devido o trigger, isto é, que a função de densidade de probabilidade que descreve o sinal real não é a mesma que descreve o sinal que é observado. Neste trabalho é proposta uma correção para as parametrizações da LDF que é implementada no Offline. Como resultado desta correção é observada uma redução significativa dos resíduos que eram sistematicamente positivos e que, após a correção, passam a ser compatíveis com zero. Neste trabalho foram realizadas três análises independentes para comparar os eventos reais com os simulados, das quais duas não dependem diretamente do ajuste da LDF e também não são sensíveis à energia. Elas permitem uma comparação entre os sinais supondo uma relação simples entre eles. No primeiro caso supõe-se que a diferença no sinal é devido à componente muônica do chuveiro e no segundo supõe-se que os dois conjuntos de eventos comparados são bem descritos por funções NKG mas com parâmetros S1000 diferentes. A terceira análise utiliza os resíduos dos ajustes da LDF e permite observar a composição em função da energia da partícula primária. Essa última análise foi realizada utilizando a função NKG com e sem correção do efeito do trigger. As diferentes análises utilizadas para estimar a composição dos raios cósmicos apresentaram resultados consistentes entre si, apesar das limitações encontradas em algumas delas. Todos esses indicadores de composição da partícula primária obtidos pelo detector de superfície são consistentes com os resultados obtidos pelas análises de Xmax do detector de fluorescência, reforçando a tese de que a composição dos raios cósmicos é predominantemente de próton entre 1 e 10 EeV e entre próton e ferro para energias acima de aproximadamente 10 EeV. / The energy of ultra high energy cosmic rays can be estimated from the lateral distribution function (LDF) of the shower as measured by surface detectors. The LDF describes the particle density as a function of the distance from the shower center. However, with the exception of the position of the shower center, no other information is extracted from it, may because it does not have a parametrization or an analytic function that describes it completely. The first interactions of cosmic rays with the atmosphere are decisive for the development of the extensive air showers. Such interactions, among other things, depend on the chemical composition of comic rays. Differences in these interactions can cause changes in the fluctuation shape of lateral distribution. Through simulations of showers with different primary particles it may be possible to estimate the composition of ultra high energy cosmic rays comparing the fluctuation shape of the lateral distributions of real events with those from simulated ones. One of the quantities relevant to the fluctuation of the LDF signal is the uncertainty of the stations. The analysis framework of the Pierre Auger Observatory applies a correction to the signal uncertainty of the signal. The parameterization of this correction is obtained empirically. In this work a statistical justification for this correction is proposed and is related to distribution of the signal which is not Poisson, but a composition of processes with different distributions. For this work a library of showers using two simulators of air showers, AIRES and CORSIKA, was produced. The showers simulated with the AIRES used SIBYLL as a hadronic interaction model while COSIKA used EPOS. Showers initiated by protons and iron nuclei with the two simulators were produced, and their angular distribution was considered isotropic. The energy distribution of these events follows a power law and ranges from 1 to 200 EeV. Using the Nishimura, Kamata and Greisen (NKG) function as a parameterization for the LDF, one obtains residues that are systematically positive at stations further from the center of the shower. These stations have a signalclose to the trigger level. One of the hypothesis raised in other works for this behavior is that it is related to the influence of the silent stations, but this work shows that their use has little impact on the fluctuation shape of the LDF. In fact, this effect is caused because the parametrizations of LDF in the Offline ignore that the signals of the stations have a cut due to the trigger, ie, the probability density function that describes the real signal is not the same that describes the observed signal. This work proposes a correction to the parameterizations of the LDF and implements it in the Offline. As a result of this correction, the residues, which were always positive, are significantly reduced and compatible with zero. In this study three independent analysis were performed to compare real and simulated events, two of them not dependent directly of the LDF fit and also not sensitive to the primary particle energy. They allow a comparison between the signals assuming a simple relationship between them. The first case assumes that the difference in signal is due to the muonic component of the shower and the second assumes that the two compared sets of events are well described by NKG functions but with different S1000. The third analysis uses the residues of the LDF fits and is able to observe the composition of as a function of primary particle energy. This last analysis was performed using the NKG function with and without correction of the trigger effect. The different analysis used to estimate the composition of cosmic rays showed results consistent, despite the limitations found in some of them. The primary particle composition obtained from the surface detectors in this work is consistent with the results derived from the elongation rate measured by the fluorescence detectors, supporting the hypotesis that the composition of cosmic rays is predominantly proton becoming heavier for energies above 10 EeV.
|
39 |
Modelo hierárquico bayesiano na determinação de associação entre marcadores e QTL em uma população F2 / Bayesian hierarchical model in the determination of association between markers and QTL in a F2 populationRenato Nunes Pereira 13 April 2012 (has links)
O objetivo do mapeamento de QTL (Quantitative Trait Loci ) e identificar sua posição no genoma, isto e, identificar em qual cromossomo esta e qual sua localização nesse cromossomo, bem como estimar seus efeitos genéticos. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são usados frequentemente para auxiliar no seu mapeamento. Alguns marcadores podem estar altamente ligados a um ou mais QTL e, dessa forma eles podem mostrar uma alta associação com a característica fenotípica. O efeito genético do QTL e os valores fenotípicos de uma característica quantitativa são normalmente descritos por um modelo linear. Uma vez que as localizações dos QTL não são conhecidas a priori, marcadores são utilizados para representá-los. Em geral, e utilizado um numero grande de marcadores. Esses marcadores são utilizados no modelo linear para proceder ao processo de associação; dessa forma o modelo especificado contem um numero elevado de parâmetros a serem estimados. No entanto, e esperado que muitos destes parâmetros sejam não significativos, necessitando de um tratamento especial. Na estimação bayesiana esse problema e tratado por meio da estrutura de distribuições a priori utilizada. Um parâmetro que e esperado assumir o valor zero (não significativo) e naturalmente especificado por meio de uma distribuição que coloque um peso maior no zero, encolhimento bayesiano. Neste trabalho e proposta a utilização de dois modelos que utilizam distribuições a priori de encolhimento. Um dos modelos esta relacionado com o uso da distribuição a priori Laplace (Lasso bayesiano) e o outro com a Horseshoe (Estimador Horseshoe). Para avaliar o desempenho dos modelos na determinação da associação entre marcadores e QTL, realizou-se um estudo de simulação. Foi analisada a associação entre marcadores e QTL utilizando três características fenotípicas: produção de grãos, altura da espiga e altura da planta. Comparou-se os resultados obtidos neste trabalho com analises feitas na literatura na detecção dos marcadores associados a essas características. A implementação computacional dos algoritmos foi feita utilizando a linguagem C e executada no pacote estatístico R. O programa implementado na linguagem C e apresentado e disponibilizado. Devido a interação entre as linguagens de programação C e R, foi possível executar o programa no ambiente R. / The objective of the mapping of quantitative trait loci (QTL) is to identify its position in the genome, ie, identify which chromosome is and what is its location in the chromosome, as well as to estimate their genetic eects. Since the location of QTL are not known a priori, markers are often used to assist in it mapping. Some markers may be closely linked to one or more QTL, and thus they may show a strong association with the phenotypic trait. The genetic eect of QTL and the phenotypic values of a quantitative trait are usually described by a linear model. Since the QTL locations are not known a priori, markers are used to represent them. Generally is used a large number of markers. These markers are used in the linear model to make the process of association and thus the model specied contains a large number of parameters to be estimated. However, it is expected that many of these parameters are not signicant, requiring a special treatment. In Bayesian estimation this problem is treated through structure priori distribution used. A parameter that is expected to assume the value zero (not signicant) is naturally specied by means of a distribution that put more weight at zero, bayesian shrinkage. This paper proposes the use of two models using priori distributions to shrinkage. One of the models is related to the use of priori distribution Laplace (bayesian Lasso) and the other with Horseshoe (Horseshoe Estimator). To evaluate the performance of the models to determine the association between markers and QTL, we performed a simulation study. We analyzed the association between markers and QTL using three phenotypic traits: grain yield, ear height and plant height. We compared the results obtained in this study with analyzes in the literature on the detection of markers associated with these characteristics. The computational implementation of the algorithms was done using the C language and executed the statistical package R. The program is implemented in C languages presented and made available. Due to the interaction between the programming languages C and R, it was possible execute the program in the environment R.
|
40 |
A nova família de distribuições odd log-logística: teoria e aplicações / The new family of odd log-logistic distributions: theory and applicationsCruz, José Nilton da 18 February 2016 (has links)
Neste trabalho, foi proposta uma nova família de distribuições, a qual permite modelar dados de sobrevivência quando a função de risco tem formas unimodal e U (banheira). Ainda, foram consideradas as modificações das distribuições Weibull, Fréchet, half-normal generalizada, log-logística e lognormal. Tomando dados não-censurados e censurados, considerou-se os estimadores de máxima verossimilhança para o modelo proposto, a fim de verificar a flexibilidade da nova família. Além disso, um modelo de regressão locação-escala foi utilizado para verificar a influência de covariáveis nos tempos de sobrevida. Adicionalmente, conduziu-se uma análise de resíduos baseada nos resíduos deviance modificada. Estudos de simulação, utilizando-se de diferentes atribuições dos parâmetros, porcentagens de censura e tamanhos amostrais, foram conduzidos com o objetivo de verificar a distribuição empírica dos resíduos tipo martingale e deviance modificada. Para detectar observações influentes, foram utilizadas medidas de influência local, que são medidas de diagnóstico baseadas em pequenas perturbações nos dados ou no modelo proposto. Podem ocorrer situações em que a suposição de independência entre os tempos de falha e censura não seja válida. Assim, outro objetivo desse trabalho é considerar o mecanismo de censura informativa, baseado na verossimilhança marginal, considerando a distribuição log-odd log-logística Weibull na modelagem. Por fim, as metodologias descritas são aplicadas a conjuntos de dados reais. / In this study, a new family of distributions was proposed, which allows to model survival data when the function of risk has unimodal shapes and U (bathtub). Modifications of the Weibull, Fréchet, generalized half-normal, log-logistic and lognormal distributions were considered. Taking censored and non-censored data, we consider the maximum likelihood estimators for the proposed model, in order to check the flexibility of the new family. Also, it was considered a location-scale regression model, to verify the influence of covariates on survival times. Additionally, a residual analysis was conducted based on modified deviance residuals. For different parameters fixed, percentages of censoring and sample sizes, several simulation studies were performed with the objective of verify the empirical distribution of the martingale type and modified deviance residuals. To detect influential observations, measures of local influence were used, which are diagnostic measures based on small perturbations in the data or in the proposed model. It can occur situations in which the assumption of independence between the failure and censoring times is not valid. Thus, another objective of this work is to consider the informative censoring mechanism based on the marginal likelihood, considering the log-odd log-logistic Weibull distribution in modelling. Finally, the methodologies described are applied to sets of real data.
|
Page generated in 0.1299 seconds