Coeficientes de determinação, predição intrinsicamente multivariada e genética / Coefficient of determination, intrinsically multivariate and genetic prediction

Esta dissertação de mestrado tem como finalidade descrever o trabalho realizado em uma pesquisa que envolve a análise de expressões gênicas provenientes de microarrays com o objetivo de encontrar genes importantes em um organismo ou em uma determinada doença, como o câncer. Acreditamos que a descoberta desses genes, que chamamos aqui de genes de predição intrinsicamente multivariada (genes IMP), possa levar a descobertas de importantes processos biológicos ainda não conhecidos na literatura. A busca por genes IMP foi realizada em conjunto com estudos de modelos e conceitos matemáticos e estatísticos como redes Booleanas, cadeias de Markov, Coeficiente de Determinação (CoD), Classificação em análise de expressões gênicas e métodos de estimação de erro. No modelo de redes Booleanas, introduzido na Biologia por Kauffman, as expressões gênicas são quantizadas em apenas dois níveis: \"ligado\'\' ou \"desligado\'\'. O nível de expressão (estado) de cada gene, está relacionado com o estado de alguns outros genes através de uma função lógica. Adicionando uma perturbação aleatória a este modelo, temos um modelo mais geral conhecido como redes Booleanas com perturbação. O sistema dinâmico representado pela rede é uma cadeia de Markov ergódica e existe então uma distribuição de probabilidade estacionária. Temos a hipótese de que os experimentos de microarray seguem esta distribuição estacionária. O CoD é uma medida normalizada de quanto a expressão de um gene alvo pode ser melhor predita observando-se a expressão de um conjunto de genes preditores. Uma determinada configuração de CoDs caracteriza um gene alvo como sendo um gene IMP. Podemos trabalhar não somente com genes alvo, mas também com fenótipos alvo, onde o fenótipo de um sistema biológico poderia ser representado por uma variável aleatória binária. Por exemplo, podemos estar interessados em saber quais genes estão relacionados ao fenótipo de vida/morte de uma célula. Como a distribuição de probabilidade das amostras de microarray é desconhecida, o estudo dos CoDs é feito através de estimativas. Entre os métodos de estimação de erro estudados para este propósito podemos citar: Holdout, Resubstituição, Cross-validation, Bootstrap e .632 Bootstrap. Os métodos foram implementados para calcular os CoDs, permitindo então a busca por genes IMP. Os programas implementados na pesquisa foram usados em conjunto com uma pesquisa realizada pelo Prof. Dr. Hugo A. Armelin do Instituto de Química da USP. Este estudo em particular envolve a busca de genes importantes relacionados à morte de células tumorigênicas de camundongo disparada por FGF2 (Fibroblast Growth Factor 2). Nesta pesquisa observamos sub-redes de genes envolvidos no processo biológico em questão e também encontramos genes que podem estar relacionados ao fenômeno de morte das células de camundongo ou que estão, de fato, participando de alguma via disparada pelo FGF2. Esta abordagem de análise de expressões gênicas, juntamente com a pesquisa realizada pelo Prof. Armelin, resulta em uma metodologia para buscas de genes envolvidos em novos mecanismos de células tumorigênicas, ativados pelo FGF2. Na realidade esta metodologia pode ser aplicada em qualquer processo biológico de interesse científico, desde que seja possível modelar o problema proposto no contexto de redes Booleanas, coeficientes de determinação e genes IMP. / This Master\'s degree dissertation describes a research that involves an analysis of gene expression data from microarray experiments with the purpose to find important genes in certain organisms or diseases such as cancer. We believe that these type of genes, called intrinsically multivariately predictive genes (IMP genes), can lead to the discovery of important biological process that are unknown in the literature. The search for IMP genes was done with the study of mathematical and statistical models such as Boolean Networks, Markov Chains, Coefficient of Determination (CoD), Classification and Error Estimation Methods. In the Boolean network model, introduced in Biology by Kauffman, the gene expression is quantized in only two levels: ON and OFF. The expression level (state) of each gene is related with the state of some other genes through a logical function. Adding a random perturbation to this model, we have a more general Boolean-type model called Boolean network with perturbation. The dynamical system represented by this network is an ergodic Markov chain and thereby it possesses a steady-state distribution. We have the hypothesis that the microarray experiments follow this steady-state distribution. The CoD is a normalized measure of how much a gene expression of a target gene can be better predicted observing the expression of a set of predictor genes. A certain configuration of CoDs characterizes a target gene as an IMP gene. We can deal not only with target genes, but also with target phenotypes, where the phenotype of a biological system could be represented by a binary random variable. For example, we could be interested in knowing which genes are related to a life/death cell phenotype. Since the joint probability distribution of the gene expressions is unknown, the CoDs must be computed through estimated values. Among the error estimation methods studied we can cite: Holdout, Resubstitution, Cross-validation, Bootstrap and .632 Bootstrap. Those methods were implemented as a software in order to compute the CoDs and thereby allowing us to search for IMP genes. The software we implemented in this research was used within a research developed by Professor Dr. Hugo A. Armelin from the Instituto de Química - University of Sao Paulo. This particular research involves the search for important genes related to the death of tumorigenic mouse cells triggered by FGF2 (Fibroblast Growth Factor 2). From this research cooperation, we built some gene subnetworks involved in the target biological process and we found some genes that could be related to the death phenotype of mouse cells. This approach of gene expression analysis, together with the research developed by Professor Armelin, results in a methodology to search for important genes that could be involved in new mechanisms of tumorigenic cells triggered by FGF2. Actually, this methodology can be applied to any biological process of scientific interest, if one can model the proposed problem in the context of Boolean Networks, Coefficient of Determination and IMP genes.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-06062007-151732
Date21 December 2006
CreatorsCarlos Henrique Aguena Higa
ContributorsRonaldo Fumio Hashimoto, Roberto Marcondes Cesar Junior, Hernando Antonio Del Portillo Obando
PublisherUniversidade de São Paulo, Ciência da Computação, USP, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0032 seconds