Made available in DSpace on 2014-12-17T15:47:48Z (GMT). No. of bitstreams: 1
DanielSAA.pdf: 691771 bytes, checksum: c2a3333a69e8d426409687ac8cfac27f (MD5)
Previous issue date: 2008-11-11 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite
mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which
have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used
for comparisons with new methods / O uso de t?cnicas de agrupamento na descoberta de subtipos de c?ncer tem atra?do grande aten??o da comunidade cient?fica. Enquanto bioinformatas prop?em novas t?cnicas de agrupamento que levam em considera??o caracter?sticas dos dados de express?o g?nica, a comunidade m?dica prefere utilizar as t?cnicas cl?ssicas de agrupamento. De fato, n?o existem trabalhos na literatura que realizam uma avalia??o em grande escala de t?cnicas de agrupamento nesse
contexto. Diante disso, este trabalho apresenta o primeiro estudo em grande escala de sete t?cnicas de agrupamento e quatro medidas de proximidade para a an?lise de 35 conjuntos de dados de express?o g?nica. Mais especificamente, os resultados mostram que a t?cnica mistura finita de gaussianas, seguida pelo k-means, apresentam os melhores resultados em termos de recupera??o da estrutura natural dos dados. Esses m?todos tamb?m apresentam a menor diferen?a entre o n?mero real de classes e o n?mero de grupos presente na melhor parti??o. Al?m disso, os m?todos de agrupamento hier?rquico, que v?m sendo bastante utilizados pela comunidade m?dica, apresentaram os piores resultados quando comparados com os outros m?todos investigados. Este trabalho tamb?m apresenta, como uma refer?ncia est?vel para a avalia??o e
compara??o de diferentes algoritmos de agrupamento para dados de express?o g?nica de c?ncer, um conjunto de bases de dados (benchmark data sets) que pode ser compartilhado entre pesquisadores e usado na compara??o de novos m?todos
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufrn.br:123456789/17988 |
Date | 11 November 2008 |
Creators | Ara?jo, Daniel Sabino Amorim de |
Contributors | CPF:52378560478, http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1, Canuto, Anne Magaly de Paula, CPF:66487099449, http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8, Prud?ncio, Ricardo Bastos Cavalcante, CPF:62417703300, http://lattes.cnpq.br/2984888073123287, Costa Filho, Ivan Gesteira, Souto, Marc?lio Carlos Pereira de |
Publisher | Universidade Federal do Rio Grande do Norte, Programa de P?s-Gradua??o em Sistemas e Computa??o, UFRN, BR, Ci?ncia da Computa??o |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | application/pdf |
Source | reponame:Repositório Institucional da UFRN, instname:Universidade Federal do Rio Grande do Norte, instacron:UFRN |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0025 seconds