Neste trabalho é proposto um estudo comparativo de alguns métodos de Agrupamento (Hierárquico, K-médias e Self-Organizing Maps) e de Classificação (K-Vizinhos, Fisher, Máxima Verossimilhança, Aggregating e Regressão Local), os quais são apresentados teoricamente. Tais métodos são testados e comparados em conjuntos de dados reais, gerados com a técnica de Microarray. Esta técnica permite mensurar os níveis de expressão de milhares de genes simultaneamente, possibilitando comparações entre amostras de tecidos pelos perfis de expressão. É apresentada uma revisão de conceitos básicos relacionados ao processo de normalização, sendo este uma das primeiras etapas da análise deste tipo de conjunto de dados. Em particular, estivemos interessados em encontrar pequenos grupos de genes que fossem ?suficientes? para distinguir amostras em condições¸ biológicas diferentes. Por fim, é proposto um método de busca que, dado os resultados de um experimento envolvendo um grande número de genes, encontra de uma forma eficiente os melhores classificadores. / In this work we propose a comparative study of some clustering methods (Hierarchic, K -Means and Self-Organizing Maps) and some classification methods (K-Neighbours, Fisher, Maximum Likelihood, Aggregating and Local Regression), which are presented teoretically. The methods are tested and compared based on the analysis of some real data sets, generated from Microarray experiments. This technique allows for the measurement of expression levels from thousands of genes simultaneously, thus allowing the comparative analysis of sample of tissues in relation to their expression profile. We present a review of basic concepts regarding normalization of microarray data, one of the first steps in microarray analysis. In particular, we were interested in finding small groups of genes that were ?sufficient? to identify samples originating from different biological conditions. Finally, a search method is proposed, which will find efficiently the best classifiers from the results of an experiment involving a huge number of genes.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-06062007-112551 |
Date | 30 October 2003 |
Creators | Elier Broche Cristo |
Contributors | Eduardo Jordao Neves, Nancy Lopes Garcia, Julia Maria Pavan Soler |
Publisher | Universidade de São Paulo, Estatística, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0038 seconds