Doenças complexas são caracterizadas por serem poligênicas e multifatoriais, o que representa um desafio em relação à busca de genes relacionados a elas. Com o advento das tecnologias de sequenciamento em larga escala do genoma e das medições de expressão gênica (transcritoma), bem como o conhecimento de interações proteína-proteína, doenças complexas têm sido sistematicamente investigadas. Particularmente, baseando-se no paradigma Network Medicine, as redes de interação proteína-proteína (PPI -- Protein-Protein Interaction) têm sido utilizadas para priorizar genes relacionados às doenças complexas segundo suas características topológicas. Entretanto, as redes PPI são afetadas pelo viés da literatura, em que as proteínas mais estudadas tendem a ter mais conexões, degradando a qualidade dos resultados. Adicionalmente, métodos que utilizam somente redes PPI fornecem apenas resultados estáticos e não-específicos, uma vez que as topologias destas redes não são específicas de uma determinada doença. Neste trabalho, desenvolvemos uma metodologia para priorizar genes e vias biológicas relacionados à uma dada doença complexa, através de uma abordagem integrativa de dados de redes PPI, transcritômica e genômica, visando aumentar a replicabilidade dos diferentes estudos e a descoberta de novos genes associados à doença. Após a integração das redes PPI com dados de expressão gênica, aplicamos as hipóteses da Network Medicine à rede resultante para conectar genes sementes (relacionados à doença, definidos a partir de estudos de associação) através de caminhos mínimos que possuam maior co-expressão entre seus genes. Dados de expressão em duas condições (controle e doença) são usados separadamente para obter duas redes, em que cada nó (gene) dessas redes é pontuado segundo fatores topológicos e de co-expressão. Baseado nesta pontuação, desenvolvemos dois escores de ranqueamento: um que prioriza genes com maior alteração entre suas pontuações em cada condição, e outro que privilegia genes com a maior soma destas pontuações. A aplicação do método a três estudos envolvendo dados de expressão de esquizofrenia recuperou com sucesso genes diferencialmente co-expressos em duas condições, e ao mesmo tempo evitou o viés da literatura. Além disso, houve uma melhoria substancial na replicação dos resultados pelo método aplicado aos três estudos, que por métodos convencionais não alcançavam replicabilidade satisfatória. / Complex diseases are characterized as being poligenic and multifactorial, so this poses a challenge regarding the search for genes related to them. With the advent of high-throughput technologies for genome sequencing and gene expression measurements (transcriptome), as well as the knowledge of protein-protein interactions, complex diseases have been sistematically investigated. Particularly, Protein-Protein Interaction (PPI) networks have been used to prioritize genes related to complex diseases according to its topological features. However, PPI networks are affected by ascertainment bias, in which the most studied proteins tend to have more connections, degrading the quality of the results. Additionally, methods using only PPI networks can provide just static and non-specific results, since the topologies of these networks are not specific of a given disease. In this work, we developed a methodology to prioritize genes and biological pathways related to a given complex disease, through an approach that integrates data from PPI networks, transcriptomics and genomics, aiming to increase replicability of different studies and to discover new genes associated to the disease. The methodology integrates PPI network and gene expression data, and then applies the Network Medicine Hypotheses to the resulting network in order to connect seed genes (obtained from association studies) through shortest paths possessing larger coexpression among their genes. Gene expression data in two conditions (control and disease) are used to obtain two networks, where each node (gene) in these networks is rated according to topological and coexpression aspects. Based on this rating, we developed two ranking scores: one that prioritizes genes with the largest alteration between their ratings in each condition, and another that favors genes with the greatest sum of these scores. The application of this method to three studies involving schizophrenia expression data successfully recovered differentially co-expressed gene in two conditions, while avoiding the ascertainment bias. Furthermore, when applied to the three studies, the method achieved a substantial improvement in replication of results, while other conventional methods did not reach a satisfactory replicability.
Identifer | oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-17112015-172846 |
Date | 30 June 2015 |
Creators | Sérgio Nery Simões |
Contributors | Ronaldo Fumio Hashimoto, Helena Paula Brentani, Roberto Marcondes Cesar Junior, Mariana Maschietto, Helder Takashi Imoto Nakaya, João Ricardo Sato |
Publisher | Universidade de São Paulo, Bioinformática, USP, BR |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0031 seconds