Com o advento da tecnologia de microarray, uma grande quantidade de dados de expressão gênica encontra-se disponível. Após a extração das taxas de expressão dos genes, técnicas de formação de clusters são utilizadas para a análise dos dados. Diante da diversidade do conhecimento que pode ser extraído dos dados de expressão gênica, existe a necessidade de diferentes técnicas de formação de clusters. O modelo dinâmico desenvolvido em (Zhao et. al. 2003a) apresenta diversas características interessantes para o problema de formação de clusters, entre as quais podemos citar: a não necessidade de fornecer o número de cluster, a propriedade de multi-escala, serem altamente paralelos e, principalmente, permitirem a inserção de regras e mecanismos mais complexos para a formação dos clusters. Todavia, este modelo apresenta dificuldades em determinar clusters de formato e tamanho arbitrários, além de não realizar a clusterização hierárquica, sendo estas duas características desejáveis para uma técnica de clusterização. Neste trabalho, foram desenvolvidas três técnicas para superar as limitações do modelo dinâmico proposto em (Zhao et. al. 2003a). O Modelo1, o qual é uma simplificação do modelo dinâmico original, porém mais eficiente. O Modelo2, que a partir da inserção de um novo conjunto de elementos no modelo dinâmico, permite a formação de clusters de formato e tamanho arbitrário. E um algoritmo para a clusterização hierárquica que utiliza o Modelo1 como bloco de construção. Os modelos desenvolvidos foram aplicados em dados biológicos, segmentando imagens de microarray e auxiliando na análise do conjunto expressão de genes de St. Jude Leukemia. / With the advent of microarray technology, a large amount of gene expression data is now available. Clustering is the computational technique usually employed to analyze and explore the data produced by microarrays. Due to the variety of information that can be extracted from the expression data, many clustering techniques with different approaches are needed. In the work proposed by (Zhao et. al. 2003a), the dynamical model for data clustering has several interesting features to the clustering task: the number of clusters does not need to be known, the multi-scale property, high parallelism, and it is flexible to use more complex rules while clustering the data. However, two desirable features for clustering techniques are not present: the ability to detect different clusters sizes and shapes, and a hierarchical representation of the clusters. This project presents three techniques, overcoming the restrictions of the dynamical model proposed by (Zhao et. al. 2003a). The first technique, called Model1, is more effective than the original model and was obtained simplifying it. The second technique, called Model2, is capable of detecting different clusters sizes and shapes. The third technique consists in a hierarchical algorithm that uses Model1 as a building block. The techniques here developed were used with biological data. Microarray image segmentation was performed and the St. Jude Leukemia gene expression data was analyzed and explored.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-23012007-103117 |
Date | 16 October 2006 |
Creators | Antonio Paulo Galdeano Damiance Junior |
Contributors | Zhao Liang, André Carlos Ponce de Leon Ferreira de Carvalho, Emilio Del Moral Hernandez |
Publisher | Universidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0019 seconds