Objetivou-se, com este trabalho, estudar os métodos hierárquicos de análise de agrupamentos (ligação simples, ligação completa, ligação média, centróide e de Ward com base nas distâncias Euclidiana, Euclidiana ao quadrado, Manhattan e Mahalanobis), de modo a identificar qual é o mais adequado para uma base de dados arqueológicos. Utilizou-se uma base de dados fornecida pelo Grupo de Estudos Arqueométricos do IPEN CNEN/SP, na qual foram analisadas 146 amostras de fragmentos cerâmicos de três sítios arqueológicos por análise por ativação com nêutrons instrumental, sendo determinadas as frações de massa de 24 elementos químicos: As, Ba, Ce, Co, Cr, Cs, Eu, Fe, Hf, K, La, Lu, Na, Nd, Rb, Sb, Sc, Sm, Ta, Tb, Th, U, Yb e Zn. Para a determinação do melhor método, foram avaliados os dendrogramas conjuntamente com o valor dos coeficientes de correlação cofenética (CCC), obtidos para cada método. O método da ligação média mostrou-se mais coerente na formação dos agrupamentos, apresentando também os maiores valores do CCC. Por último, um script com funções do programa estatístico R foi desenvolvido para calcular o CCC, com o intuito de auxiliar os pesquisadores a encontrar o método de agrupamento mais apropriado para sua base de dados. / The objective of this work was to study the hierarchical methods of cluster analysis (single linkage, complete linkage, average linkage, centroid and Ward with base in the Euclidean distance, Squared Euclidean distance, Manhattan and Mahalanobis) to identify which is the most appropriate in archaeological data set. It was used a data set provided by the Archaeometry Studies Group from IPEN CNEN/SP in which 146 samples of ceramic fragments from three archaeological sites analyzed by instrumental neutron activation analysis, being determined the mass fractions of 24 chemical elements: As, Ba, Ce, Co, Cr, Cs, Eu, Fe, Hf, K, La, Lu, Na, Nd, Rb, Sb, Sc, Sm, Ta, Tb, Th, U, Yb and Zn. For the determination of the best method, it was evaluated the dendrograms together with value of the cophenetic correlation coefficient (CCC) obtained for each method. The average linkage method was more coherent in formation of the clusters, and with higher CCC values. Finally, a script with functions of the R statistical software was developed to calculate the CCC with aim to be a tool for researchers find the most appropriate method of cluster analysis for their data set.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-31102018-112210 |
Date | 11 September 2018 |
Creators | Priscilla Ramos Carvalho |
Contributors | Casimiro Jaime Alfredo Sepúlveda Munita, Lucia Pereira Barroso, Andreza Portella Ribeiro |
Publisher | Universidade de São Paulo, Tecnologia Nuclear, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds