Made available in DSpace on 2015-03-26T13:32:06Z (GMT). No. of bitstreams: 1
texto completo.pdf: 358534 bytes, checksum: 24e75168f2f6257c7ffe917ef5ade7c8 (MD5)
Previous issue date: 2009-02-16 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Nowadays research often collect information on many variables from a great number of experimental units, hence produce and store large amount of data, which in turn requires methods that can handle such situations. Statistical methods such as the principal component analysis (PCA), that can reduce the dimensionality of the analysis without significant information loss, are of great interest. PCA can use either the covariance (S) or the correlation (R) matrix among variables, but the analysis may result in different Principal Components (PC) resulting from R or S. In order to indicate the best strategies for different scenarios, we conducted a simulation study to investigate the effects of variable scaling over the viability and quality of the results from PCA analysis used to cluster experimental units. In addition to this first simulation study, we also conducted a second one using animal science and economical variables from 255 dairy producers from three locations of Minas Gerais State. The goal was to verify the most appropriate data structure for cluster analysis, such that it best classifies the most economically viable producers. In both studies we used a transformation of variables based on its coefficient of variation, which resulted in a new covariance matrix named S*. Results showed that the use of matrix S favored economical variables with larger variances, while use of R matrix resulted as the most important variables the ones with larger correlations among them. Calculations of PC using matrix S* minimized these scaling problems when S and R matrices are used. Analysis using S is entirely affected by the variable scale while using R is not affected by the scale at all. We concluded that the S* matrix was the most appropriate for the present case study because it considered the most important economical variables to be the ones most related to the animal science variables. / Com o aumento substancial na quantidade de dados armazenados, surge a necessidade da utilização de métodos que permitam analisar simultaneamente várias variáveis medidas em cada elemento amostral, e ainda com a possibilidade de reduzir a dimensionalidade desse conjunto sem perda significativa de informação. Entre eles, pode-se citar o método dos componentes principais, cuja obtenção pode envolver a matriz de covariâncias (S) ou a de correlações (R) das variáveis de interesse. Como a utilização dessas matrizes pode fornecer diferentes componentes, objetivou-se investigar, por meio da simulação de dados, os efeitos das escalas das características sobre a qualidade e a viabilidade da classificação dos elementos amostrais, buscando assim, indicar estratégias de análise mais adequadas em diferentes casos. Além do estudo de simulação, foi realizado outro com variáveis zootécnicas e econômicas referentes a 255 produtores de leite de três regiões do estado de Minas Gerais, com o objetivo de verificar qual a melhor estrutura de dados em classificar de forma mais apropriada os produtores mais viáveis economicamente. Em ambos os estudos, foi efetuada uma transformação nos valores das variáveis baseada nos respectivos coeficientes de variação, cuja matriz de covariâncias foi denominada de S*. Observou-se que a utilização da matriz S privilegiou as variáveis econômicas de maiores variâncias, enquanto a matriz R considerou as variáveis mais correlacionadas entre si como as mais importantes. A obtenção dos CPs com base na matriz S* minimizou os problemas das escalas inerentes aos usos das matrizes S e R. A primeira, por considerá-la totalmente e, a segunda, por desconsiderá-la. Desta forma, considerou-se a matriz S* como a mais indicada no presente estudo de caso, uma vez que priorizou como mais importantes, as variáveis econômicas mais relacionadas às variáveis zootécnicas.
Identifer | oai:union.ndltd.org:IBICT/oai:localhost:123456789/4020 |
Date | 16 February 2009 |
Creators | Campana, Ana Carolina Mota |
Contributors | Silva, Carlos Henrique Osório, Peternelli, Luiz Alexandre, Ribeiro Junior, José Ivo, Santos, Nerilson Terra, Campos, José Maurício de Souza |
Publisher | Universidade Federal de Viçosa, Mestrado em Estatística Aplicada e Biometria, UFV, BR, Estatística Aplicada e Biometria |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Repositório Institucional da UFV, instname:Universidade Federal de Viçosa, instacron:UFV |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds