1 |
Mixtures of Skew-t Factor AnalyzersMurray, Paula 11 1900 (has links)
Model-based clustering allows for the identification of subgroups in a data set through the use of finite mixture models. When applied to high-dimensional microarray data, we can discover groups of genes characterized by their gene expression profiles. In this thesis, a mixture of skew-t factor analyzers is introduced for the clustering of high-dimensional data. Notably, we make use of a version of the skew-t distribution which has not previously appeared in mixture-modelling literature. Allowing a constraint on the factor loading matrix leads to two mixtures of skew-t factor analyzers models. These models are implemented using the alternating expectation-conditional maximization algorithm for parameter estimation with an Aitken's acceleration stopping criterion used to determine convergence. The Bayesian information criterion is used for model selection and the performance of each model is assessed using the adjusted Rand index. The models are applied to both real and simulated data, obtaining clustering results which are equivalent or superior to those of established clustering methods.
|
2 |
A Matrix Variate Generalization of the Skew Pearson Type VII and Skew T DistributionZheng, Shimin, Gupta, A. K., Liu, Xuefeng 01 January 2012 (has links)
We define and study multivariate and matrix variate skew Pearson type VII and skew t-distributions. We derive the marginal and conditional distributions, the linear transformation, and the stochastic representations of the multivariate and matrix variate skew Pearson type VII distributions and skew t-distributions. Also, we study the limiting distributions.
|
3 |
A Matrix Variate Generalization of the Skew Pearson Type VII and Skew T DistributionZheng, Shimin, Gupta, A. K., Liu, Xuefeng 01 January 2012 (has links)
We define and study multivariate and matrix variate skew Pearson type VII and skew t-distributions. We derive the marginal and conditional distributions, the linear transformation, and the stochastic representations of the multivariate and matrix variate skew Pearson type VII distributions and skew t-distributions. Also, we study the limiting distributions.
|
4 |
Some extensions in measurement error models / Algumas extensões em modelos com erros de mediçãoTomaya, Lorena Yanet Cáceres 14 December 2018 (has links)
In this dissertation, we approach three different contributions in measurement error model (MEM). Initially, we carry out maximum penalized likelihood inference in MEMs under the normality assumption. The methodology is based on the method proposed by Firth (1993), which can be used to improve some asymptotic properties of the maximum likelihood estimators. In the second contribution, we develop two new estimation methods based on generalized fiducial inference for the precision parameters and the variability product under the Grubbs model considering the two-instrument case. One method is based on a fiducial generalized pivotal quantity and the other one is built on the method of the generalized fiducial distribution. Comparisons with two existing approaches are reported. Finally, we propose to study inference in a heteroscedastic MEM with known error variances. Instead of the normal distribution for the random components, we develop a model that assumes a skew-t distribution for the true covariate and a centered Students t distribution for the error terms. The proposed model enables to accommodate skewness and heavy-tailedness in the data, while the degrees of freedom of the distributions can be different. We use the maximum likelihood method to estimate the model parameters and compute them via an EM-type algorithm. All proposed methodologies are assessed numerically through simulation studies and illustrated with real datasets extracted from the literature. / Neste trabalho abordamos três contribuições diferentes em modelos com erros de medição (MEM). Inicialmente estudamos inferência pelo método de máxima verossimilhança penalizada em MEM sob a suposição de normalidade. A metodologia baseia-se no método proposto por Firth (1993), o qual pode ser usado para melhorar algumas propriedades assintóticas de os estimadores de máxima verossimilhança. Em seguida, propomos construir dois novos métodos de estimação baseados na inferência fiducial generalizada para os parâmetros de precisão e a variabilidade produto no modelo de Grubbs para o caso de dois instrumentos. O primeiro método é baseado em uma quantidade pivotal generalizada fiducial e o outro é baseado no método da distribuição fiducial generalizada. Comparações com duas abordagens existentes são reportadas. Finalmente, propomos estudar inferência em um MEM heterocedástico em que as variâncias dos erros são consideradas conhecidas. Nós desenvolvemos um modelo que assume uma distribuição t-assimétrica para a covariável verdadeira e uma distribuição t de Student centrada para os termos dos erros. O modelo proposto permite acomodar assimetria e cauda pesada nos dados, enquanto os graus de liberdade das distribuições podem ser diferentes. Usamos o método de máxima verossimilhança para estimar os parâmetros do modelo e calculá-los através de um algoritmo tipo EM. Todas as metodologias propostas são avaliadas numericamente em estudos de simulação e são ilustradas com conjuntos de dados reais extraídos da literatura
|
5 |
Diagnóstico de influência bayesiano em modelos de regressão da família t-assimétrica / Bayesian influence diagnostic in skew-t family linear regression modelsSilva, Diego Wesllen da 05 May 2017 (has links)
O modelo de regressão linear com erros na família de distribuições t-assimétrica, que contempla as distribuições normal, t-Student e normal assimétrica como casos particulares, tem sido considerado uma alternativa robusta ao modelo normal. Para concluir qual modelo é, de fato, mais robusto, é importante ter um método tanto para identificar uma observação como discrepante quanto aferir a influência que esta observação terá em nossas estimativas. Nos modelos de regressão bayesianos, uma das medidas de identificação de observações discrepantes mais conhecidas é a conditional predictive ordinate (CPO). Analisamos a influência dessas observações nas estimativas tanto de forma global, isto é, no vetor completo de parâmetros do modelo quanto de forma marginal, apenas nos parâmetros regressores. Consideramos a norma L1 e a divergência Kullback-Leibler como medidas de influência das observações nas estimativas dos parâmetros. Além disso, encontramos as distribuições condicionais completas de todos os modelos para o uso do algoritmo de Gibbs obtendo, assim, amostras da distribuição a posteriori dos parâmetros. Tais amostras são utilizadas no calculo do CPO e das medidas de divergência estudadas. A principal contribuição deste trabalho é obter as medidas de influência global e marginal calculadas para os modelos t-Student, normal assimétrico e t-assimétrico. Na aplicação em dados reais originais e contaminados, observamos que, em geral, o modelo t-Student é uma alternativa robusta ao modelo normal. Por outro lado, o modelo t-assimétrico não é, em geral, uma alternativa robusta ao modelo normal. A capacidade de robustificação do modelo t-assimétrico está diretamente ligada à posição do resíduo do ponto discrepante em relação a distribuição dos resíduos. / The linear regression model with errors in the skew-t family, which includes the normal, Student-t and skew normal distributions as particular cases, has been considered as a robust alternative to the normal model. To conclude which model is in fact more robust its important to have a method to identify an observation as outlier, as well as to assess the influence of this observation in the estimates. In bayesian regression models, one of the most known measures to identify an outlier is the conditional predictive ordinate (CPO). We analyze the influence of these observations on the estimates both in a global way, that is, in the complete parameter vector of the model and in a marginal way, only in the regressor parameters. We consider the L1 norm and the Kullback-Leibler divergence as influence measures of the observations on the parameter estimates. Using the bayesian approach, we find the complete conditional distributions of all the models for the usage of the Gibbs sampler thus obtaining samples of the posterior distribution of the parameters. These samples are used in the calculation of the CPO and the studied divergence measures. The major contribution of this work is to present the global and marginal influence measures calculated for the Student-t, skew normal and skew-t models. In the application on original and contaminated real data, we observed that in general the Student-t model is a robust alternative to the normal model. However, the skew-t model is not a robust alternative to the normal model. The robustification capability of the skew-t model is directly linked to the position of the residual of the outlier in relation to the distribution of the residuals.
|
6 |
Diagnóstico de influência bayesiano em modelos de regressão da família t-assimétrica / Bayesian influence diagnostic in skew-t family linear regression modelsDiego Wesllen da Silva 05 May 2017 (has links)
O modelo de regressão linear com erros na família de distribuições t-assimétrica, que contempla as distribuições normal, t-Student e normal assimétrica como casos particulares, tem sido considerado uma alternativa robusta ao modelo normal. Para concluir qual modelo é, de fato, mais robusto, é importante ter um método tanto para identificar uma observação como discrepante quanto aferir a influência que esta observação terá em nossas estimativas. Nos modelos de regressão bayesianos, uma das medidas de identificação de observações discrepantes mais conhecidas é a conditional predictive ordinate (CPO). Analisamos a influência dessas observações nas estimativas tanto de forma global, isto é, no vetor completo de parâmetros do modelo quanto de forma marginal, apenas nos parâmetros regressores. Consideramos a norma L1 e a divergência Kullback-Leibler como medidas de influência das observações nas estimativas dos parâmetros. Além disso, encontramos as distribuições condicionais completas de todos os modelos para o uso do algoritmo de Gibbs obtendo, assim, amostras da distribuição a posteriori dos parâmetros. Tais amostras são utilizadas no calculo do CPO e das medidas de divergência estudadas. A principal contribuição deste trabalho é obter as medidas de influência global e marginal calculadas para os modelos t-Student, normal assimétrico e t-assimétrico. Na aplicação em dados reais originais e contaminados, observamos que, em geral, o modelo t-Student é uma alternativa robusta ao modelo normal. Por outro lado, o modelo t-assimétrico não é, em geral, uma alternativa robusta ao modelo normal. A capacidade de robustificação do modelo t-assimétrico está diretamente ligada à posição do resíduo do ponto discrepante em relação a distribuição dos resíduos. / The linear regression model with errors in the skew-t family, which includes the normal, Student-t and skew normal distributions as particular cases, has been considered as a robust alternative to the normal model. To conclude which model is in fact more robust its important to have a method to identify an observation as outlier, as well as to assess the influence of this observation in the estimates. In bayesian regression models, one of the most known measures to identify an outlier is the conditional predictive ordinate (CPO). We analyze the influence of these observations on the estimates both in a global way, that is, in the complete parameter vector of the model and in a marginal way, only in the regressor parameters. We consider the L1 norm and the Kullback-Leibler divergence as influence measures of the observations on the parameter estimates. Using the bayesian approach, we find the complete conditional distributions of all the models for the usage of the Gibbs sampler thus obtaining samples of the posterior distribution of the parameters. These samples are used in the calculation of the CPO and the studied divergence measures. The major contribution of this work is to present the global and marginal influence measures calculated for the Student-t, skew normal and skew-t models. In the application on original and contaminated real data, we observed that in general the Student-t model is a robust alternative to the normal model. However, the skew-t model is not a robust alternative to the normal model. The robustification capability of the skew-t model is directly linked to the position of the residual of the outlier in relation to the distribution of the residuals.
|
7 |
An Investigation of Distribution FunctionsSu, Nan-cheng 24 June 2008 (has links)
The study of properties of probability distributions has always been a persistent theme of statistics and of applied probability. This thesis deals with an investigation of distribution functions under the following two topics: (i) characterization of distributions based on record values and order statistics, (ii) properties of the skew-t distribution.
Within the extensive characterization literature there are several results involving properties of record values and order statistics. Although there have been many well known results already developed, it is still of great interest to find new characterization of distributions based on record values and order statistics. In the first part, we provide the conditional distribution of any record value given the maximum order statistics and study characterizations of distributions based on record values and the maximum order statistics. We also give some characterizations of the mean value function within the class of order statistics point processes, by using certain relations between the conditional moments of the jump times or current lives. These results can be applied to characterize the uniform distribution using the sequence of order statistics, and the exponential distribution using the sequence of record values, respectively.
Azzalini (1985, 1986) introduced the skew-normal distribution which includes the normal distribution and has some properties like the normal and yet is skew. This class of distributions is useful in studying robustness and for modeling skewness. Since then, skew-symmetric distributions have been proposed by many authors. In the second part, the so-called generalized skew-t distribution is defined and studied. Examples of distributions in this class, generated by the ratio of two independent skew-symmetric distributions, are given. We also investigate properties of the skew-symmetric distribution.
|
8 |
Statistical Inference for a New Class of Skew t Distribution and Its Related PropertiesBasalamah, Doaa 04 August 2017 (has links)
No description available.
|
9 |
Modelos multidimensionais da TRI com distribuições assimétricas para os traços latentes / Multidimensional IRT models with skew distributions for latent traits.Gilberto da Silva Matos 15 December 2008 (has links)
A falta de alternativas ao modelo normal uni/multivariado já é um problema superado pois atualmente é possível encontrar inúmeros trabalhos que introduzem e desenvolvem generalizações da distribuição normal com relação `a assimetria, curtose e/ou multimodalidade (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006)). No contexto dos modelos unidimensionais da Teoria da Resposta ao Item (TRI), Bazán (2005) percebeu esta realidade e introduziu uma classe denominada PANA (Probito Assimétrico - Normal Assimétrica) a qual permite modelar possíveis comportamentos assimétricos de um modelo (uma probabilidade) de resposta ao item bem como a especificação de uma distribuição normal assimétrica para os traços latentes (unidimensionais) a qual é utilizada no processo de estimação. Motivado pela necessidade de melhor representar os fenômenos da área psicométrica (Heinen, 1996, p. 105) e da atual disponibilidade de distribuições elípticas assimétricas cujas propriedades são tão convenientes quanto aquelas devidas `a distribuição normal, a proposta do presente trabalho é apresentar uma extensão do modelo K-dimensional de 3 Parâmetros Probito (Kd3PP) com vetores de traços latentes normalmente distribuídos para o caso t-Assimétrico, gerando, assim, o que denominamos modelo Kd3PP-tA. Nossa proposta, portanto, pode ser considerada como uma extensão do trabalho desenvolvido por Bazán (2005) tanto no sentido de extender a distribuição unidimensional assimétrica dos traços latentes para o caso multidimensional quanto no que conscerne em considerar o achatamento (curtose) da distribuição. Nossa proposta também pode ser vista como uma extensão do trabalho de Béguin e Glas (2001) no sentido de desenvolver o método de estimação bayesiana dos modelos multidimensionais da TRI via DAGS (Dados Aumentados com Amostrador de Gibbs) para o caso em que os vetores de traços latentes comportam-se segundo uma distribuição multivariada t-Assimétrica. No desenvolvimento deste trabalho nos deparamos com uma das principais dificuldades encontradas no processo de estimação e inferência dos modelos multidimensionais da TRI que é a falta de identificabilidade e, com a intenção de ampliar e desmistificar nossos conhecimentos sobre um assunto ainda pouco explorado na literatura da TRI, apresentamos um estudo bibliográfico sobre este tema tanto sob o contexto da inferência clássica quanto bayesiana. Com o intuito de identificar situações particulares em que o uso de uma distribuição normal assimétrica para os traços latentes seja de maior relevância para a estimação e inferência dos parâmetros de item, bem como outros parâmetros relacionados à distribuição dos traços latentes, algumas análises sobre conjuntos de dados simulados são desenvolvidas. Como conclusão destas análises, podemos dizer que há uma melhora superficial quando a informação sobre uma possível assimetria na distribuição dos traços latentes não é ignorada. Além disso, os resultados favoreceram a seleção dos modelos que consideram distribuições assimétricas para os traços latentes, principalmente quando são considerados os modelos que possibilitam a estimação dos parâmetros de localização e escala da distribuição dos vetores de traços latentes. Duas principais contribuições que consideramos de ordem prática, são: a análise e a interpretação de testes através da estimação de modelos uni e multidimensionais da TRI que consideram tanto distribuições simétricas quanto assimétricas para os vetores de traços latentes e a disponibilização de uma função escrita em códigos R e C++ para a estimação dos modelos apresentados e desenvolvidos no presente trabalho. / The lack of alternatives to the univariate or multivariate normal model has been already solved because actually it has been possible to find several works that introduce and develop generalizations of the normal distribution in relation to the asymmetry, kurtosis and/or multimodality (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006). In the context of unidimensional models of the Item Response Theory (IRT), Baz´an (2005) observed this fact and introduced a class called PANA (Probito Assimétrico - Normal Assimétrica) which allows to take account for asymmetry in the shape of an item response model (probability) and the specification of a skew normal distribution for unidimensional latent traits which is used in the estimation process. Motivated by the need to better represent the phenomenon of psychometric area (Heinen, 1996, p. 105) and the current availability of skew elliptical distributions whose properties are as convenient as those due to normal distribution, the proposal of this work is to provide an extension of multidimensional 3 Parameters Probit model (Kd3PP) where latent traits vectors are normally distributed for the case of Skew-t distribution (Sahu et al., 2003), generating therefore what we call Kd3PP-St model. Our proposal, therefore, can be regarded as an extension of the work of Bazán (2005) in two ways: the first is extending the unidimensional skew normal distribution of latent traits to the multidimensional case and second in the sense to consider the flattening (kurtosis) of this distribution. Our proposal can also be seen as an extension of the work of B´eguin e Glas (2001) in the sense that we develop the Bayesian estimation method of the 3 parameters multidimensional item response model by DAGS (Augmentated Data with Gibbs sampling) for the case where the latent trait vectors behave according to a Skew-t multivariate distribution. In the development of this work we come across one of the main difficulties encountered in the process of estimation and inference of multidimensional IRT models which is the lack of identifiabilitie and, with the intent to demystify and expand our knowledge on a subject still little explored in the literature of the IRT, we present a bibliographical study on this subject both in the context of classical and Bayesian inference. In order to identify particular situations where the use of a skew normal distribution is more relevant to the estimation and inference of item parameters as well as other parameters related to the distribution of latent traits, some analyses on simulated data sets are developed. As results of these analyses, we can say that there is a modest improvement when information about a possible asymmetry in the distribution of latent traits is not ignored. Moreover, the results favored the selection of models that consider asymmetric distributions for latent traits, especially when models that enable the estimation of parameters of location and scale from this distribution are considered. Two main contributions that we consider of pratical interest are: analysis and interpretations of tests using unidimensional and multidimensional IRT models that consider both simetric and skewed distributions for the vectors of latent traits and a function written in R and C++ language program that is made disponible for the estimation of models treated in this work.
|
10 |
Modelos multidimensionais da TRI com distribuições assimétricas para os traços latentes / Multidimensional IRT models with skew distributions for latent traits.Matos, Gilberto da Silva 15 December 2008 (has links)
A falta de alternativas ao modelo normal uni/multivariado já é um problema superado pois atualmente é possível encontrar inúmeros trabalhos que introduzem e desenvolvem generalizações da distribuição normal com relação `a assimetria, curtose e/ou multimodalidade (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006)). No contexto dos modelos unidimensionais da Teoria da Resposta ao Item (TRI), Bazán (2005) percebeu esta realidade e introduziu uma classe denominada PANA (Probito Assimétrico - Normal Assimétrica) a qual permite modelar possíveis comportamentos assimétricos de um modelo (uma probabilidade) de resposta ao item bem como a especificação de uma distribuição normal assimétrica para os traços latentes (unidimensionais) a qual é utilizada no processo de estimação. Motivado pela necessidade de melhor representar os fenômenos da área psicométrica (Heinen, 1996, p. 105) e da atual disponibilidade de distribuições elípticas assimétricas cujas propriedades são tão convenientes quanto aquelas devidas `a distribuição normal, a proposta do presente trabalho é apresentar uma extensão do modelo K-dimensional de 3 Parâmetros Probito (Kd3PP) com vetores de traços latentes normalmente distribuídos para o caso t-Assimétrico, gerando, assim, o que denominamos modelo Kd3PP-tA. Nossa proposta, portanto, pode ser considerada como uma extensão do trabalho desenvolvido por Bazán (2005) tanto no sentido de extender a distribuição unidimensional assimétrica dos traços latentes para o caso multidimensional quanto no que conscerne em considerar o achatamento (curtose) da distribuição. Nossa proposta também pode ser vista como uma extensão do trabalho de Béguin e Glas (2001) no sentido de desenvolver o método de estimação bayesiana dos modelos multidimensionais da TRI via DAGS (Dados Aumentados com Amostrador de Gibbs) para o caso em que os vetores de traços latentes comportam-se segundo uma distribuição multivariada t-Assimétrica. No desenvolvimento deste trabalho nos deparamos com uma das principais dificuldades encontradas no processo de estimação e inferência dos modelos multidimensionais da TRI que é a falta de identificabilidade e, com a intenção de ampliar e desmistificar nossos conhecimentos sobre um assunto ainda pouco explorado na literatura da TRI, apresentamos um estudo bibliográfico sobre este tema tanto sob o contexto da inferência clássica quanto bayesiana. Com o intuito de identificar situações particulares em que o uso de uma distribuição normal assimétrica para os traços latentes seja de maior relevância para a estimação e inferência dos parâmetros de item, bem como outros parâmetros relacionados à distribuição dos traços latentes, algumas análises sobre conjuntos de dados simulados são desenvolvidas. Como conclusão destas análises, podemos dizer que há uma melhora superficial quando a informação sobre uma possível assimetria na distribuição dos traços latentes não é ignorada. Além disso, os resultados favoreceram a seleção dos modelos que consideram distribuições assimétricas para os traços latentes, principalmente quando são considerados os modelos que possibilitam a estimação dos parâmetros de localização e escala da distribuição dos vetores de traços latentes. Duas principais contribuições que consideramos de ordem prática, são: a análise e a interpretação de testes através da estimação de modelos uni e multidimensionais da TRI que consideram tanto distribuições simétricas quanto assimétricas para os vetores de traços latentes e a disponibilização de uma função escrita em códigos R e C++ para a estimação dos modelos apresentados e desenvolvidos no presente trabalho. / The lack of alternatives to the univariate or multivariate normal model has been already solved because actually it has been possible to find several works that introduce and develop generalizations of the normal distribution in relation to the asymmetry, kurtosis and/or multimodality (Branco e Arellano-Valle (2004), Genton (2004), Arellano-Valle et al. (2006). In the context of unidimensional models of the Item Response Theory (IRT), Baz´an (2005) observed this fact and introduced a class called PANA (Probito Assimétrico - Normal Assimétrica) which allows to take account for asymmetry in the shape of an item response model (probability) and the specification of a skew normal distribution for unidimensional latent traits which is used in the estimation process. Motivated by the need to better represent the phenomenon of psychometric area (Heinen, 1996, p. 105) and the current availability of skew elliptical distributions whose properties are as convenient as those due to normal distribution, the proposal of this work is to provide an extension of multidimensional 3 Parameters Probit model (Kd3PP) where latent traits vectors are normally distributed for the case of Skew-t distribution (Sahu et al., 2003), generating therefore what we call Kd3PP-St model. Our proposal, therefore, can be regarded as an extension of the work of Bazán (2005) in two ways: the first is extending the unidimensional skew normal distribution of latent traits to the multidimensional case and second in the sense to consider the flattening (kurtosis) of this distribution. Our proposal can also be seen as an extension of the work of B´eguin e Glas (2001) in the sense that we develop the Bayesian estimation method of the 3 parameters multidimensional item response model by DAGS (Augmentated Data with Gibbs sampling) for the case where the latent trait vectors behave according to a Skew-t multivariate distribution. In the development of this work we come across one of the main difficulties encountered in the process of estimation and inference of multidimensional IRT models which is the lack of identifiabilitie and, with the intent to demystify and expand our knowledge on a subject still little explored in the literature of the IRT, we present a bibliographical study on this subject both in the context of classical and Bayesian inference. In order to identify particular situations where the use of a skew normal distribution is more relevant to the estimation and inference of item parameters as well as other parameters related to the distribution of latent traits, some analyses on simulated data sets are developed. As results of these analyses, we can say that there is a modest improvement when information about a possible asymmetry in the distribution of latent traits is not ignored. Moreover, the results favored the selection of models that consider asymmetric distributions for latent traits, especially when models that enable the estimation of parameters of location and scale from this distribution are considered. Two main contributions that we consider of pratical interest are: analysis and interpretations of tests using unidimensional and multidimensional IRT models that consider both simetric and skewed distributions for the vectors of latent traits and a function written in R and C++ language program that is made disponible for the estimation of models treated in this work.
|
Page generated in 0.07 seconds