981 |
Extensões da distribuição gama generalizada: propriedades e aplicações / Extensions of the generalized gamma distribution: properties and applicationsMarcelino Alves Rosa de Pascoa 25 April 2012 (has links)
A distribuição gama generalizada (GG) possui, como casos particulares, distribuição Weibull, log-normal, gama, qui-quadrado, entre outras. Por essa razão, ela e considerada uma distribuição exvel no ajuste dos dados. A ideia de Cordeiro e Castro (2011) foi utilizada para o desenvolvimento de duas novas distribuições de probabilidade a partir da distribuição GG. Uma delas e denominada de Kumaraswamy gama generalizada (KumGG) e possui cinco parâmetros; a outra distribuição e uma modificação de um dos parmetros de forma da distribuição KumGG e foi denominada de distribuição Kumaraswamy gama generalizada estendida (KumGGE). Desenvolveu-se o modelo de regressão log-Kumaraswamy gama generalizada estendida. Alem disso, a ideia de Adamidis e Loukas (1998) para modicar distribuições foi utilizada para a distribuição GG; essa nova distribuição foi nomeada de gama generalizada geometrica (GGG). A vantagem desses novos modelos reside na capacidade de acomodar varias formas da função risco eles tambem se mostraram uteis na discriminação de modelos. Para cada um dos modelos foram calculados os momentos, função geradora de momentos, os desvios medios, a conabilidade e a função densidade de probabilidade da estatistica de ordem. Para a estimação dos parâmetros, foram utilizados os metodos de maxima verossimilhanca e bayesiano e, finalmente, para ilustrar a aplicação das novas distribuições foram analisados alguns conjuntos de dados reais. / The generalized gamma (GG) distribution has as particular cases the Weibull, log-normal, gamma and Chi-square distributions, among others. For this reason, it is considered a exible distribution for tting data. In this paper, the idea of Cordeiro and Castro (2011) is used to develop two new probability distributions based on the GG distribution. The rst is called the generalized gamma Kumaraswamy (KumGG) and has ve parameters, while the other involves a modication of one of the shape parameters of the KumGG distribution and is called the extended generalized gamma Kumaraswamy (KumGGE). Based in these, we develop the extended generalized log-Kumaraswamy regression model. Besides this, we employ the idea regarding modifying distributions of Adamidis and Loukas (1998) for the GG distribution, calling this new distribution the geometric generalized gamma (GGG). The advantage of these new models rests in their capacity to accommodate various risk function forms. They are also useful in model discrimination. We calculate the moments, moments generating function, mean deviations, reliability and probability density function of the order statistics. To estimate the parameters we use the maximum likelihood and Bayesian methods. Finally, to illustrate the application of the new distributions, we analyze some real data sets.
|
982 |
Gráficos CUSUM e EWMA para monitorar dados de contagem com distribuição binominal negativa. / CUSUM and EWMA control charts to monitor series of Negative Binomial count data,Pablo Cezar Urbieta 22 March 2016 (has links)
Gráficos de controle têm sido amplamente utilizados na manufatura para melhoria de processos. Diversas abordagens tem sido propostas para melhorar o desempenho dos gráficos existentes na literatura. Além disso, o uso de gráficos de controle tem se estendido para outras áreas, tais como, economia, finanças, medicina, etc. O objetivo deste trabalho é comparar o gráfico CUSUM com o gráfico EWMA para monitoramento do número diário de internações hospitalares. Para tanto, utilizou-se uma série histórica de internações devido a doenças respiratórias para a população acima de 65 anos. Um modelo linear foi ajustado considerando que o número de internações segue uma distribuição Binomial Negativa. São simulados diversos cenários de mudança no número médio de internações e utilizando diferentes estatísticas baseadas em transformações, é feita uma comparação entre estes gráficos. Verifica-se que o gráfico EWMA com limite de controle assintótico possui desempenho muito similar ao gráfico CUSUM. Já o EWMA implementado com limite de controle exato apresenta melhor desempenho em relação ao gráfico CUSUM quando se atribui pesos menores aos dados atuais. / Control charts have been widely used for process improvement in manufacturing. In literature several approaches have been proposed to improve the current charts performance. In addition, the use of control charts has been extended to other areas such as economics, finance, medicine, and others. The objective of this study is to compare CUSUM control chart with EWMA control chart for monitoring daily number of hospital admissions. Using a historical hospitalizations series due to respiratory diseases for people over 65 years old, a Negative Binomial regression model is fitted. Several scenarios are simulated using different shifts in the mean and using different statistics based on transformations, in order to compare these charts. It is shown that EWMA control chart with asymptotic control limit has similar performance as CUSUM control chart. However, using smaller values for new observations the EWMA control chart with exact control limit has better performance than CUSUM control chart.
|
983 |
Condições socioeconômicas e ambientais associadas à hanseníase na Bahia, Brasil / Socio-economic and environmental effects influencing the development of leprosy in Bahia, BrazilWilliam Cabral de Miranda 19 June 2015 (has links)
Introdução: A hanseníase, doença infecciosa crônica, causada pelo bacilo Mycobacterium leprae, tem seu mecanismo de transmissão não totalmente esclarecido. A transmissão ativa pode estar associada a movimentos migratórios, condições sociais ou outras fontes de infecção (como a manutenção do bacilo no ambiente). Objetivos: Descrever o padrão espacial do risco relativo da hanseníase em menores de 15 anos no estado da Bahia; identificar possíveis agrupamentos espaciais e investigar a possível associação entre o risco relativo da hanseníase e fatores socioeconômicos e ambientais. Metodologia: Este estudo ecológico utilizou dados do Sistema de Informação de Agravos de Notificação (SINAN) de 2005 a 2011, do Censo Demográfico do Instituto Brasileiro de Geografia e Estatística de 2010, da Federação das Indústrias do Estado do Rio de Janeiro, Informações Demográficas e Socioeconômicas do Departamento de Informática do SUS, bases cartográficas digitais de dados ambientais do IBGE e bases cartográficas digitais do estado da Bahia e estados vizinhos. Os riscos relativos por município foram padronizados pela covariável gênero. A análise de varredura espacial com o programa SaTScan permitiu verificar a existência de agrupamentos espaciais do tipo alto e/ou baixo. O segundo estágio da análise consistiu em verificar a possível associação entre risco relativo da hanseníase como variável dependente e variáveis socioeconômicas e ambientais como explicativas, através de análises de regressão hierárquica multivariada não espacial e espacial, de acordo com quadro conceitual definido previamente. Resultados: Durante o período de estudo foram notificados 1.674 casos, que representam 7,87% dos casos totais. As taxas em menores de 15 anos, padronizadas por gênero, diminuiu de 0,89/10.000 em 2005 para 0,57 em 2011. A estatística de varredura espacial identificou 4 agrupamentos de risco alto e 6 de risco baixo. No modelo de regressão hierárquica, o risco relativo foi associado positivamente com porcentagem de corpos dágua, Índice de Gini, porcentagem de população urbana, número médio de moradores em domicílios particulares permanentes, e negativamente com o número de residentes nascidos na Bahia. Conclusão: Este estudo mostrou que a hanseníase ainda está ativa no Nordeste do Brasil, principalmente em ambientes urbanos. Embora o risco relativo da hanseníase tenha diminuído, ele ainda permanece muito alto. Migrações de assentamentos rurais para as cidades, bem como mais pessoas vivendo em domicílios e desigualdades sociais são resultados de um processo histórico no nordeste do Brasil, que dão suporte para a continuidade do processo de transmissão da doença. A associação entre o risco relativo da hanseníase e corpos dágua na escala geográfica proposta, indica que a hipótese que associa a M. leprae e ambientes úmidos ainda não pode ser descartada. / Background: Leprosy is a chronic infectious disease caused by the bacillus Mycobacterium leprae. Its mechanism of transmission has not been completely understood. The active transmission may be associated with people migration, social conditions or other sources of infection (such as maintenance of bacilli in the environment). Objectives: To describe the spatial pattern of the relative risk of leprosy in children under 15 years old in the State of Bahia; to identify possible spatial clusters and to investigate the possible association between the relative risk of leprosy with socioeconomic and environmental factors. Methods: This ecological study used data from the Brazilian Disease Notification System (Sistema Nacional de Informação de Agravos de Notificação SINAN) for the studied period of 2005 to 2011; Instituto Brasileiro de Geografia e Estatstica (IBGE 2011), Department of Data and Information Technology (Informações Demográficas e Socioeconômicas do Departamento de Informática do SUS DATASUS, 2010) and the Federation of Industries of the State of Rio de Janeiro FIRJAN (2010), Cartographic base of municipalities in Bahia and surrounding States corresponded to the shape files from the Brazilian Demographic Census. Relative risks were calculated accounting for the respective covariate gender. The spatial scan analysis with SaTScan program allowed to verify the existence of high and/or low spatial clusters. The second stage of the analysis consisted of verifying possible associations between the relative risks of leprosy as a dependent variable, and socio-economic and environmental variables as independent. This was performed using a multivariate regression analysis according to a previously defined conceptual framework. Results: During the study period, 1,674 cases were reported, representing 7.87% of the total cases. Overall rates have decreased from 0.88/10 000 in 2005 to 0.52 in 2011. Spatial scan statistics identified 4 high-risk and 6 low-risk clusters. In the regression model, after allowing for spatial dependence, relative risks were associated with higher percentage of water bodies, higher Gini index, higher percentage of urban population, larger average number of dwellers by permanent residence and smaller percentage of residents born in Bahia. Conclusions: This study showed that leprosy is still active in the Northeast of Brazil, especially in urban environments. Although relative risks of leprosy in Bahia have been decreasing, they remain very high. Migration of rural settlements to the cities, more people living in households and social inequalities are the result of a historical process in northeastern Brazil, that support the continuity of the disease transmission process. The association between relative risks of leprosy and water bodies in the proposed geographic scale indicates that hypothesis linking M. leprae and humid environments cannot be discarded.
|
984 |
Uma contribuição ao estudo de acidentes fatais por queda de rochas: o caso da mineração peruana. / A contribuition to the study of fatal accidents by rocks falls: the case of peruvian mining.Renan Collantes Candia 26 July 2011 (has links)
A dependência de países em vias de desenvolvimento com relação às indústrias primárias como a mineração é evidente. Na economia peruana, aproximadamente, 6% do PIB e mais de 50% das exportações são provenientes desta atividade econômica, destacando sua posição competitiva no cenário mundial. A importância desta atividade aparece, também, quando o assunto em questão é a segurança do trabalho. Assim, embora nos últimos anos tenha-se percebido uma diminuição no número de acidentes na mineração peruana, a taxa de mortalidade ainda é alta quando comparada com outros países de tradição mineira, especialmente os mais desenvolvidos. No Peru, oficialmente, as causas fundamentais para a ocorrência de acidentes são atribuídas aos fatores pessoais e de trabalho, assim como às condições e aos atos inseguros. Nesse contexto, a identificação dessas causas, visando à proposta de soluções efetivas para melhor gerenciar os sistemas de segurança e de saúde na indústria da mineração, é muito importante. Esta tese estuda os acidentes por queda de rochas em minas subterrâneas do Peru. Para tal foi utilizado como fonte de informação primária o registro de acidentes fatais de 2007 em minas de médio e grande porte. Esse registro foi concedido pela Oficina de Fiscalización Minera del Organismo Superior de la Inversión en Energía y Minería del Peru (OSINERGMIN), órgão pertencente ao Ministério de Energía y Minas del Perú (MEM). O estudo mostra que a maioria dos acidentes fatais são provocados pela queda de rochas em escavações subterrâneas; assim, no período em estudo, este tipo de acidente representou 29,41% dos eventos. O estudo das características pessoais das vítimas mostra ainda que trabalhadores que desenvolvem funções de perfuração, preparação e instalação de suporte pós-desmonte tanto em frentes de lavra de produção quanto em escavações de desenvolvimento morrem por causa de traumatismos múltiplos e encefalo-cranianos severos. A maioria das vítimas pertencia a empresas mineiras terceirizadas. A partir do estudo das características pessoais das vítimas e utilizando os Métodos de Regressão Logística (MRL), propõe-se um modelo matemático para determinar a chance de se sofrer acidente por queda de rochas, em relação a outros tipos de acidentes. Os resultados mostram que trabalhadores que desempenham a função de ajudante, bem como trabalhadores com experiência de mais de três anos têm menos chance de sofrer acidentes por queda de rochas. Finalmente, foram identificados as causas fundamentais e imediatas dos acidentes estudados. Entre os fatores pessoais e de trabalho destacam-se o excesso de confiança e a supervisão deficiente como sendo as principais causas deste tipo de acidente. O estudo mostra também que o descumprimento de procedimentos operacionais e a presença de rochas soltas nas escavações constituem os principais tipos de atos e condições inseguras, respectivamente. / There are several evidences that developing countries depend on primary industries like mining. In fact about 6% of the Peruvian Gross Domestic Product (GDP) and 50% of exports are provided by mining. As well as in economy, mining has been strongly affecting the statistics concerning the safety in the workplace. Thus, although in recent years there was a decrease in the number of mining accidents in Peruvian mining, the fatality rate is still high compared to other traditional mining countries, especially the developed ones. In Peru, according to official statements, the primary causes of the accidents are attributed to personal and work factors, as well as unsafe conditions and acts. Based on this information, the identification of these causes, aiming the proposal of effective solutions to enhance safety and health management systems in mining becomes a very important issue. This thesis has studied the accidents caused by the fall of rocks in Peruvian underground mines, using as the main source of information about the fatalities occurred in 2007 in medium and large mines. This information was provided by the Oficina de Fiscalización Minera del Organismo Superior de la Inversión en Energía y Minería del Perú (OSINERGMIN), an agency under administration of the Ministry of Energy and Mines of Peru (MEM). The study shows that the majority of fatal accidents are caused by rock falls in underground excavations, and also that rock falls have accounted for 29.41% of all events during the studied period. Studying the personal characteristics of the victims also showed that the main victims are workers when they were developing drilling and preparation and installation of rock support activities in development areas as well as in production and excavations areas. The data showed that the majority died by severe multiple and cranial traumas and most of them were third part workers. From the study of the personal characteristics of victims and using the Methods of Logistic Regression (MLR), this research proposes a mathematical model to determine the chance of suffering an accident by rocks falls compared to other types of accidents. Also, the selected model showed that, from the statistical point of view, the experience in mining is the most representative variable and those workers having most of three years of experience have lower probability to suffer injuries by rock falls. Finally, the root and immediate causes of accidents were identified. Among personal and working factors the overconfidence and lack of supervision were respectively highlighted. The study also showed that non-complying operational procedures and the presence of loose rocks during the excavations are respectively the main types of unsafe acts and conditions.
|
985 |
Relacionamento entre câncer colorretal e indicadores socioeconômicos no município de São Paulo: uso de modelos de regressão espacial / Relationship between colorectal cancer and socioeconomic indicators in São Paulo: use of spatial regression models.Márcio José de Medeiros 22 May 2015 (has links)
Introdução: O câncer de localização colorretal é o terceiro tipo de câncer mais comumente diagnosticado no mundo. As taxas de incidências do câncer colorretal não são homogêneas, apresentando diferenças entre os países. Não há estudos brasileiros que investiguem a variação geográfica da incidência de câncer colorretal conjuntamente com indicadores socioeconômicos. Esta avaliação pode revelar diferenças locais importantes na ocorrência da doença. Objetivos: Descrever as taxas de incidência e de mortalidade do câncer colorretal no Município de São Paulo, segundo sexo e faixa etária, no período de 1997 a 2009 e realizar análise da distribuição espacial segundo distrito dos casos de câncer colorretal diagnosticados em residentes no Município de São Paulo entre 1997 e 2009. Material e Métodos: Foram analisados os novos casos de câncer colorretal diagnosticados em residentes no Município de São Paulo de 1997 a 2009. Estes dados foram fornecidos pelo Registro de Câncer de Base Populacional de São Paulo (RCBP-SP). A análise dos dados foi realizada em duas etapas: na primeira, com cárater exploratório/descritivo, os dados analíticos foram utilizados para descrever a incidência e mortalidade por câncer colorretal no período pesquisado. Na segunda etapa, os casos de câncer colorretal foram geocodificados, agrupados por distrito administrativo e estudados segundo a metodologia de análise para dados de área. Toda análise foi implementada no software R. Resultados: Com 7,7 por cento e 7,3 por cento dos casos respectivamente em homens e mulheres, câncer colorretal foi o segundo tipo de câncer mais frequente, sendo a quarta (9,0 por cento dos óbitos) e a segunda (11,0 por cento dos óbitos) causa de morte respectivamente em homens e mulheres. Do total de casos incidentes (39.250), 47,50 por cento são do sexo masculino e 52,50 por cento do sexo feminino. Destes, 4.784 (37,7 por cento ) evoluíram a óbito, sendo 48,1 por cento no sexo masculino e 51,9 por cento no sexo feminino. As taxas específicas por sexo e faixa etária de incidência aumentam fortemente com a idade, na faixa etária de 80 ou mais anos chega a 377,9 e 282,9 (por 100 mil hab.) para o sexo masculino e feminino respectivamente, sendo relativamente próximas em ambos os sexos até a idade de 49 anos e maiores para homens nas faixas etárias subsequentes. As taxas específicas por sexo e faixa etária de mortalidade, apresentam comportamento análogo, aumentam fortemente com a idade, na faixa etária de 80 ou mais anos chega a 206,9 e 159,9 (por 100 mil hab.) para o sexo masculino e feminino respectivamente. A taxa anual de incidência ajustada pela população de SEGI (1960) e modificada por DOLL et al. (1966) apresenta-se em torno de 30,0 (por 100 mil hab.) nos três primeiros anos observados (1997-1999), chega a 19,0 (por 100 mil hab.) em 2002, volta a crescer nos anos seguintes (2003-2005), chegando a 31,7 (por 100 mil hab.) e matem-se estável de 2007 a 2009. A taxa anual de mortalidade de câncer colorretal ajustada pela população crescente até 2004, chegando a 15,7 (por 100 mil hab.) e decrescem nos anos seguintes, chegando a aproximadamente 3,6 mortes por 100 mil habitantes em 2009. A média anual da taxa bruta de incidência e os indicadores socioeconômicos apresentam dependência forte dependência espacial, sendo o menor Índice I de Moran observado foi para o índice de exclusão/inclusão dos anos potenciais de vida perdidos (IEX apvp = 0,29), os demais são acima de 0,6. Os indicadores apresentam forte correlação linear com a média anual da taxa bruta de incidência. Conclusões: As distribuições da incidência e da mortalidade apresentam padrões semelhantes ao identificado mundialmente. O Município de São Paulo tem taxas equivalentes às encontradas nas regiões em transição econômica. Foi identificada forte dependência espacial na distribuição da incidência de câncer colorretal no Município de São Paulo, com a formação de clusters nas áreas centrais e periféricas. As maiores taxas são encontradas nas áreas centrais e nas periferias. A distribuição espacial da incidência de câncer colorretal apresenta forte associação com a distribuição dos indicadores de status socioeconômico no Município de São Paulo, em particular apresenta associação positiva com indicadores de renda e escolaridade. / Introduction: Colorectal cancer is the third most common diagnosed cancer worldwide. Colorectal cancer incidence rates are not homogeneous, with differences between countries. No Brazilian studies investigated the geographical variation of colorectal cancer incidence with socioeconomic indicators. This study may reveal important local differences in the occurrence of the disease. Objectives: To describe colorectal cancer incidence and mortality in São Paulo, by sex and age using 1997-2009 data and perform the spatial distribution analysis according to district colorectal cancer cases diagnosed in residents at Municipality of São Paulo between 1997 and 2009. Methods: Colorectal cancer cases diagnosed from 1997 to 2009 in São Paulo residents were analyzed. These data were provided by Population Based Cancer Registry of São Paulo (RCBP-SP). Data analysis was performed in two stages. First, analytical data were used to describe the incidence and mortality from colorectal cancer. Second, colorectal cancer cases were geocoded, grouped by administrative district and studied according data area analysis methodology. All analysis was implemented in software R. Results: 7.7 per cent and 7.3 per cent of observed cases was respectively in men and women, colorectal cancer was the second most common cancer, the fourth (9.0 per cent ) cause of death in men and the second (11.0 per cent ) cause in women. It was diagnosed 39,250 colorectal cancer new cases, 47.50 per cent in men and 52.50 per cent in women. And 4,784 (37.7 per cent ) died, with 48.1 per cent in male and 51.9 per cent in female. The specific incidence rates strongly increase with age, at the 80 years or more age reaches 377.9 and 282.9 (per 100,000 inhabitants) for male and female respectively. The mortality specific rates, have similar behavior, strongly increase with age and at the 80 years or more age reaches 206.9 and 159.9 (per 100,000 inhabitants), for males and female respectively. The annual age adjusted incidence rate was around 30.0 (per 100,000 inhab.) in the first observed years (1997-1999), arrives to 19.0 (per 100,000 inhab.) in 2002, grow back reaching 31.7 (per 100,000 inhab.) and kill stable from 2007 to 2009. The annual age colorectal cancer mortality rate grow reaching 15.7 (per 100,000 inhab.) and decrease in the following years, reaching approximately 3.6 deaths per 100,000 inhabitants in 2009. The average annual the crude incidence rate and the socio-economic indicators show strong spatial dependence, the lowest Moran´s I Index was observed for the exclusion/inclusion potential years of life lost index (IEX apvp = 0.29). The indicators show strong linear correlation with the average annual crude incidence rate. Conclusions: Distributions of incidence and mortality have similar worldwide patterns. The Municipality of São Paulo has equivalent rates founded in regions in economic transition. It was identified strong spatial dependence in the distribution of the incidence of colorectal cancer, with the formation of clusters in the central and peripheral areas of Municipality of São Paulo. The highest rates were found in the central areas and lowest were found in the suburbs. The spatial distribution of colorectal cancer incidence has a strong association with the socioeconomic status indicators distribution in Municipality of São Paulo. It was identified positive association between colorectal cancer incidence with income and education indicators.
|
986 |
Modelos de regressão com coeficientes funcionais para séries temporais / Functional-coefficient regression models for time seriesMichel Helcias Montoril 28 February 2013 (has links)
Nesta tese, consideramos o ajuste de modelos de regressão com coeficientes funcionais para séries temporais, por meio de splines, ondaletas clássicas e ondaletas deformadas. Consideramos os casos em que os erros do modelo são independentes e correlacionados. Através das três abordagens de estimação, obtemos taxas de convergência a zero para distâncias médias entre as funções do modelo e seus respectivos estimadores, propostos neste trabalho. No caso das abordagens de ondaletas (clássicas e deformadas), obtemos também resultados assintóticos em situações mais específicas, nas quais as funções do modelo pertencem a espaços de Sobolev e espaços de Besov. Além disso, estudos de simulação de Monte Carlo e aplicações a dados reais são apresentados. Por meio desses estudos numéricos, fazemos comparações entre as três abordagens de estimação propostas, e comparações entre outras abordagens já conhecidas na literatura, onde verificamos desempenhos satisfatórios, no sentido das abordagens propostas fornecerem resultados competitivos, quando comparados aos resultados oriundos de metodologias já utilizadas na literatura. / In this thesis, we study about fitting functional-coefficient regression models for time series, by splines, wavelets and warped wavelets. We consider models with independent and correlated errors. Through the three estimation approaches, we obtain rates of convergence to zero for average distances between the functions of the model and their estimators proposed in this work. In the case of (warped) wavelets approach, we also obtain asymptotic results in more specific situations, in which the functions of the model belong to Sobolev and Besov spaces. Moreover, Monte Carlo simulation studies and applications to real data sets are presented. Through these numerical results, we make comparisons between the three estimation approaches proposed here and comparisons between other approaches known in the literature, where we verify interesting performances in the sense that the proposed approaches provide competitive results compared to the results from methodologies used in literature.
|
987 |
Modelo de regressão para dados com censura intervalar e dados de sobrevivência grupados / Regression model for interval-censored data and grouped survival dataElizabeth Mie Hashimoto 04 February 2009 (has links)
Neste trabalho foi proposto um modelo de regressão para dados com censura intervalar utilizando a distribuição Weibull-exponenciada, que possui como característica principal a função de taxa de falha que assume diferentes formas (unimodal, forma de banheira, crescente e decrescente). O atrativo desse modelo de regressão é a sua utilização para discriminar modelos, uma vez que o mesmo possui como casos particulares os modelos de regressão Exponencial, Weibull, Exponencial-exponenciada, entre outros. Também foi estudado um modelo de regressão para dados de sobrevivência grupados na qual a abordagem é fundamentada em modelos de tempo discreto e em tabelas de vida. A estrutura de regressão representada por uma probabilidade é modelada adotando-se diferentes funções de ligação, tais como, logito, complemento log-log, log-log e probito. Em ambas as pesquisas, métodos de validação dos modelos estatísticos propostos são descritos e fundamentados na análise de sensibilidade. Para detectar observações influentes nos modelos propostos, foram utilizadas medidas de diagnóstico baseadas na deleção de casos, denominadas de influência global e medidas baseadas em pequenas perturbações nos dados ou no modelo proposto, denominada de influência local. Para verificar a qualidade de ajuste do modelo e detectar pontos discrepantes foi realizada uma análise de resíduos nos modelos propostos. Os resultados desenvolvidos foram aplicados a dois conjuntos de dados reais. / In this study, a regression model for interval-censored data were developed, using the Exponentiated- Weibull distribution, that has as main characteristic the hazard function which assumes different forms (unimodal, bathtub shape, increase, decrease). A good feature of that regression model is their use to discriminate models, that have as particular cases, the models of regression: Exponential, Weibull, Exponential-exponentiated, amongst others. Also a regression model were studied for grouped survival data in which the approach is based in models of discrete time and in life tables, the regression structure represented by a probability is modeled through the use of different link function, logit, complementary log-log, log-log or probit. In both studies, validation methods for the statistical models studied are described and based on the sensitivity analysis. To find influential observations in the studied models, diagnostic measures were used based on case deletion, denominated as global influence and measures based on small perturbations on the data or in the studied model, denominated as local influence. To verify the goodness of fitting of the model and to detect outliers it was performed residual analysis for the proposed models. The developed results were applied to two real data sets.
|
988 |
Diagnóstico e redução da influência da multicolinearidade na estimação de efeitos genéticos aditivos e não-aditivos em uma população de bovinos compostos (Bos taurus x Bos indicus) / Diagnostic and reduction of the influence of multicollinearity in the estimation of genetic additive and non-additive effects in multibreed population of cattle (Bos taurus x Bos indicus)Raphael Antonio Prado Dias 28 January 2009 (has links)
Os efeitos genéticos aditivos e de heterozigoses são importantes na avaliação genética de populações compostas. Quando existem fortes relações lineares entre as variáveis explanatórias, os coeficientes de regressão tem erros-padrão elevados, são sensíveis a mudanças nos dados e a adição ou eliminação de variáveis explicativas no modelo. A alternativa usada na tentativa de diminuir esse problema foi aplicar o método de regressão de cumeeira - RC, pois na presença de multicolinearidade, pode permitir a obtenção de estimativas mais estáveis dos efeitos aditivos de origem genética e de heterozigose, em relação às obtidas pelo método dos quadrados mínimos - QM. Foram analisados os dados de pesos ao nascimento - PESNAS, ao desmame - PESDES, perímetro escrotal aos 390 dias - CE e escore para musculosidade aos 390 dias - MUSC de bovinos compostos Montana Tropicalr, com diferentes composições raciais NABCs, obtidos em várias fazendas brasileiras, relativos aos animais nascidos no período de 1994 a 2008. O modelo incluiu os efeitos aditivos e não aditivos. O grau da multicolinearidade foi obtido através do valor do fator de inflação da variância - V IF, dos índices de condição e da decomposição proporcional da variância. Os parâmetros de cumeeira foram obtidos a partir da multiplicação de uma constante, pela razão entre o V IF da covariável correspondente e o maior V IF. O traço de cumeeira foi utilizado para verificar se as estimativas dos coeficientes se estabilizaram, para o parâmetro de cumeeira obtido para cada variável explicativa. Duas análises foram aplicadas: i) os efeitos foram estimados por quadrados mínimos; ii) os efeitos foram estimados por regressão de cumeeira. Para cada variável resposta foi identificado o número de colinearidades, seus respectivos graus e as variáveis explicativas envolvidas em cada uma. As covariáveis envolvidas no modelo, para peso ao nascimento participaram de uma colinearidade forte e quatro colinearidades fracas; para peso ao desmame e escore de musculosidade aos 390 dias, houve duas relações de quase dependência fortes e três fracas, enquanto que para perímetro escrotal aos 390 dias obteve-se três colinearidades fortes e três fracas. O método que estimou os coeficientes por regressao de cumeeira foi melhor que o método dos quadrados mínimos, para todas as caracter´sticas. A m´edia dos V IFs para PESNAS, PESDES, CE e MUSC reduziram de 15, 5; 16; 17, 5 e 23, 9 para 5, 8; 5, 3; 5, 7 e 5, 1 respectivamente, após o uso da RC. Os erros-padrão diminuíram fornecendo estimativas mais estáveis que as obtidas por quadrados mínimos. Apenas para a covariável A sobre a variável resposta peso ao nascimento as soluções obtidas por QM e RC diferiram em direção, no mais, houve diferenças em magnitude / The genetic additive and heterozygosity effects are important in the genetic evaluation of multibreed populations. When there is strong linear relation between the explanatory variables, the regression coefficients have large standard errors and are sensitive to changes in the data set and to the addition or removal of explanatory variables in the model. The alternative used to try to reduce this problem was to apply the method of ridge regression - RC, which could allow for the estimation of more stable coefficients of direct and maternal breed additive effects of genetic origin and heterozygosity in relation to those obtained by the method of least squares QM . The objective is to analyze the data of birth weight - PESNAS, weaning - PESDES, the scrotal perimeter 390 days - CE and scoring for the muscularity 390 days - MUSC of cattle compounds Montana Tropical r, with different racial compositions NABCs, obtained in several Brazilian farms on of animals born from 1994 to 2008. The model included additive and non-additive effects. The degrees of multicollinearity were obtained through the value of the variance inflation factor - V IF, the index conditions - IC and by proportional decomposition of Variance. The ridge parameters were obtained from the multiplication of a constant to the ratio of the VIF from each covariate and the highest VIF. For each explanatory variable, the ridge trace was used to verify that the estimated coefficients were stabilized using the ridge parameter. Two different methods were applied: i) the effects were estimated by least squares; ii) the effects were estimated by ridge regression. For each response variable the number of colinearities was identified, their degrees and the variables involved in each. The covariates used in the model for birth weight participated in a strong colinearity and four other weak colinearities; for weaning weight and muscle score for 390 days, there were two strong relations of dependency and three almost weak, while for the perimeter scrotal 390 days it was observed three strong and three weak colinearities. The ridge regression coefficients method was considered better than that of least squares for all factors. The V IFs average for PESNAS, PESDES, CE and MUSC reduced from 15.5, 16, 17.5 and 23.9 to 5.8, 5.3, 5.7 and 5.1 respectively, after using the RC. The standard errors of the estimators decreased providing estimates more stable than those obtained by least squares. Only for A covariate on the response variable weight at birth the solutions obtained by QM and RC differ in direction, where the other ones differed only in magnitude.
|
989 |
Modelos lineares mistos para dados longitudinais em ensaio fatorial com tratamento adicional / Mixed linear models for longitudinal data in a factorial experiment with additional treatmentGilson Silvério da Rocha 09 October 2015 (has links)
Em experimentos agronômicos são comuns ensaios planejados para estudar determinadas culturas por meio de múltiplas mensurações realizadas na mesma unidade amostral ao longo do tempo, espaço, profundidade entre outros. Essa forma com que as mensurações são coletadas geram conjuntos de dados que são chamados de dados longitudinais. Nesse contexto, é de extrema importância a utilização de metodologias estatísticas que sejam capazes de identificar possíveis padrões de variação e correlação entre as mensurações. A possibilidade de inclusão de efeitos aleatórios e de modelagem das estruturas de covariâncias tornou a metodologia de modelos lineares mistos uma das ferramentas mais apropriadas para a realização desse tipo de análise. Entretanto, apesar de todo o desenvolvimento teórico e computacional, a utilização dessa metodologia em delineamentos mais complexos envolvendo dados longitudinais e tratamentos adicionais, como os utilizados na área de forragicultura, ainda é passível de estudos. Este trabalho envolveu o uso do diagrama de Hasse e da estratégia top-down na construção de modelos lineares mistos no estudo de cortes sucessivos de forragem provenientes de um experimento de adubação com boro em alfafa (Medicago sativa L.) realizado no campo experimental da Embrapa Pecuária Sudeste. Primeiramente, considerou-se uma abordagem qualitativa para todos os fatores de estudo e devido à complexidade do delineamento experimental optou-se pela construção do diagrama de Hasse. A incorporação de efeitos aleatórios e seleção de estruturas de covariâncias para os resíduos foram realizadas com base no teste da razão de verossimilhanças calculado a partir de parâmetros estimados pelo método da máxima verossimilhança restrita e nos critérios de informação de Akaike (AIC), Akaike corrigido (AICc) e bayesiano (BIC). Os efeitos fixos foram testados por meio do teste Wald-F e, devido aos efeitos significativos das fontes de variação associadas ao fator longitudinal, desenvolveu-se um estudo de regressão. A construção do diagrama de Hasse foi fundamental para a compreensão e visualização simbólica do relacionamento de todos os fatores presentes no estudo, permitindo a decomposição das fontes de variação e de seus graus de liberdade, garantindo que todos os testes fossem realizados corretamente. A inclusão de efeito aleatório associado à unidade experimental foi essencial para a modelagem do comportamento de cada unidade e a estrutura de componentes de variância com heterogeneidade, incorporada aos resíduos, foi capaz de modelar eficientemente a heterogeneidade de variâncias presente nos diferentes cortes da cultura da alfafa. A verificação do ajuste foi realizada por meio de gráficos de diagnósticos de resíduos. O estudo de regressão permitiu avaliar a produtividade de matéria seca da parte aérea da planta (kg ha-1) de cortes consecutivos da cultura da alfafa, envolvendo a comparação de adubações com diferentes fontes e doses de boro. Os melhores resultados de produtividade foram observados para a combinação da fonte ulexita com as doses 3, 6 e 9 kg ha-1 de boro. / Assays aimed at studying some crops through multiple measurements performed in the same sample unit along time, space, depth etc. have been frequently adopted in agronomical experiments. This type of measurement originates a dataset named longitudinal data, in which the use of statistical procedures capable of identifying possible standards of variation and correlation among measurements has great importance. The possibility of including random effects and modeling of covariance structures makes the methodology of mixed linear models one of the most appropriate tools to perform this type of analysis. However, despite of all theoretical and computational development, the use of such methodology in more complex designs involving longitudinal data and additional treatments, such as those used in forage crops, still needs to be studied. The present work covered the use of the Hasse diagram and the top-down strategy in the building of mixed linear models for the study of successive cuts from an experiment involving boron fertilization in alfalfa (Medicago sativa L.) carried out in the field area of Embrapa Southeast Livestock. First, we considered a qualitative approach for all study factors and we chose the Hasse diagram building due to the model complexity. The inclusion of random effects and selection of covariance structures for residues were performed based on the likelihood ratio test, calculated based on parameters estimated through the restricted maximum likelihood method, the Akaike\'s Information Criterion (AIC), the Akaike\'s information criterion corrected (AICc) and the Bayesian Information Criterion (BIC). The fixed effects were analyzed through the Wald-F test and we performed a regression study due to the significant effects of the variation sources associated with the longitudinal factor. The Hasse diagram building was essential for understanding and symbolic displaying regarding the relation among all factors present in the study, thus allowing variation sources and their degrees of freedom to be decomposed, assuring that all tests were correctly performed. The inclusion of random effect associated with the sample unit was essential for modeling the behavior of each unity. Furthermore, the structure of variance components with heterogeneity, added to the residues, was capable of modeling efficiently the heterogeneity of variances present in the different cuts of alfalfa plants. The fit was checked by residual diagnostic plots. The regression study allowed us to evaluate the productivity of shoot dry matter (kg ha-1) related to successive cuts of alfalfa plants, involving the comparison of fertilization with different boron sources and doses. We observed the best productivity in the combination of the source ulexite with the doses 3, 6 and 9 kg ha-1 boron.
|
990 |
A distribuição log-logística exponenciada geométrica: dupla ativação / The exponentiated log-logistic geometric distribution: dual activationNatalie Verónika Rondinel Mendoza 18 September 2012 (has links)
Neste trabalho é proposta uma nova distribuição de quatro parâmetros denominada distribuição log-logística exponenciada geométrica, baseada em um mecanismo de dupla ativação para modelar dados de tempo de vida. Para esta nova distribuição, foi realizado um estudo da função de densidade de probabilidade, da função de distribuição acumulada, da função de sobrevivência e da função de taxa de falha, a qual apresenta formas que podem modelar dados de tempo de vida, tais como: forma crescente, decrescente, unimodal, bimodal e forma de U. Obteve-se expansões da função de densidade, expressões para os momentos de probabilidade ponderada, função geradora de momentos, desvios médios e as curvas de Bonferroni e de Lorenz. Considerando dados censurados, foi utilizado o método de máxima verossimilhança para estimação dos parâmetros. Analogamente também é proposto um modelo de regressão baseado no logaritmo da distribuição log-logística exponenciada geométrica com dupla ativação, que é uma extensão dos modelos de regressão logística exponenciada e logística. Este modelo pode ser usado na análise de dados reais, por fornecer um melhor ajuste que os modelos de regressão particulares, logística exponenciada e logística. Finalmente, são apresentados duas aplicações para ilustrar a utilização da nova distribuição. / In this work, we propose a new distribution with four parameters the so called exponentiated log-logistic geometric distribution based on a double mechanism of activation for modeling lifetime data. For this new distribution, we study the density function, cumulative distribution, survival function and the failure rate function which allows major harzad rates: increasing, decreasing, bathtub, unimodal and bimodal failure rates. We also obtain the density function expansions and the expressions for the probability-weighted moments, moment generating function, mean deviation and Bonferroni and Lorenz curves. Considering censored data, we use the maximum likelihood method for estimating the parameters. Similarly, we also propose the regression model based on the logarithm of the exponentiated log-logistic geometric distribution with double activation, which is an extension of the exponential logistic and logistic regression models. This new model could be widely used in the analysis of real data to provide a better fit than exponetial logistic and logistic regression models. Finally, two applications are presented to illustrate the application of the new distribution.
|
Page generated in 0.0465 seconds