Global ETD Search

Return to search

Biologia computacional aplicada para a análise de dados em larga escala / Computational biology for high-through put data analysis

A enorme quantidade de dados que vem sendo gerada por tecnologias modernas de biologia representam um grande desafio para áreas como a bioinformática. Há uma série de programas disponíveis para a análise destes dados, mas que nem sempre são compreendidos o suficiente para serem corretamente aplicados, ou ainda, há problemas que requerem o desenvolvimento de novas soluções. Neste trabalho, nós apresentamos a análise de dados de duas das principais fontes de dados em larga escala: microarrays e sequenciamento. Na primeira, avaliamos se a estatística do método Rank Products (RP) é adequada para a identificação de genes diferencialmente expressos em estudos de doenças complexas, cujo uma das características é a heterogeneidade genética entre indivíduos com o mesmo fenótipo. Na segunda, desenvolvemos uma ferramenta chamada hunT para buscar por genes alvos do fator de transcrição T - um importante marcador de mesoderma com papel chave no desenvolvimento de vertebrados -, através da identificação de sítios de ligação para o T em suas sequências reguladoras. O desempenho do RP foi testado usando dados simulados e dados reais de um estudo de fissura lábio-palatina não-sindrômica, de autismo e também de um estudo que avalia o efeito da privação do sono em humanos. Nossos resultados mostraram que o RP é uma solução eficiente para detectar genes consistentemente desregulados em somente um subgrupo de pacientes, que esta habilidade é mantida com poucas amostras, mas que o seu desempenho é prejudicado quando são analisados poucos genes. Obtivemos fortes evidências biológicas da eficiência do método nos estudos com dados reais através da identificação de genes e vias previamente associados às doenças e da validação de novos genes candidatos através da técnica de PCR quantitativo em tempo real. Já o programa hunT identificou 4.602 genes de camundongo com o sítio de ligação para o domínio do T, sendo alguns deles já demonstrados experimentalmente. Identificamos 32 destes genes com expressão alterada em um estudo onde avaliamos o transcriptoma da diferenciação in vitro de células tronco embrionárias de camundongo para mesoderma, sugerindo a participação destes genes neste processo sendo regulados pelo T / The large amount of data generated by modern technologies of biology provides a big challenge for areas such as bioinformatics. In order to analyze these data there are several computer programs available; however these are not always well understood enough to be correctly applied. Moreover, there are problems that require the development of new solutions. In this work, we present the data analysis of two main high-throughput data sources: microarrays and sequencing. Firstly, we evaluated whether the statistic of Rank Products method (RP) is suitable for the identification of differentially expressed genes in studies of complex diseases, which are characterized by the vast genetic heterogeneity among the individuals affected. Secondly, we developed a tool named hunT to search for target genes of T transcription factor - an important mesodermal marker that plays a key role in the vertebrate development -, by identifying binding sites for T in their regulatory sequences. The RP performance was tested using both simulated and real data from three different studies: non-syndromic cleft lip and palate, autism and sleep deprivation effect in Humans. Our results have shown that RP is an effective solution for the identification of consistently deregulated genes in a subgroup of patients, this ability is maintained even with few samples, however its performance is impaired when only few genes are analyzed. We have obtained strong biological of effectiveness of the method in the studies with real data by not only identifying genes and pathways previously associated with diseases but also corroborating the behavior of novel candidate genes with the real-time PCR technique. The hunT program has identified 4,602 mouse genes containing the binding site for the T domain, some of which have already been demonstrated experimentally. We identified 32 of these genes with altered expression in a study which evaluated the transcriptome of in vitro differentiation of mouse embryonic stem cells to mesoderm, suggesting the involvement of these genes in this process regulated by T

http://www.teses.usp.br/teses/disponiveis/41/41131/tde-28082013-094721/

Dados em larga escala

Identifer	oai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-28082013-094721
Date	16 April 2013
Creators	Daniele Yumi Sunaga de Oliveira
Contributors	Maria Rita dos Santos e Passos Bueno, Ronaldo Fumio Hashimoto, Ronaldo Fumio Hashimoto, Júlio Cesar Nievola, Eduardo Moraes Rego Reis
Publisher	Universidade de São Paulo, Ciências Biológicas (Biologia Genética), USP, BR
Source Sets	IBICT Brazilian ETDs
Language	Portuguese
Detected Language	Portuguese
Type	info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Source	reponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rights	info:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds

Biologia computacional aplicada para a análise de dados em larga escala / Computational biology for high-through put data analysis

Description

Links & Downloads

Tags

Additional Fields