Return to search

Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica

Submitted by Automação e Estatística (sst@bczm.ufrn.br) on 2018-07-03T15:32:36Z
No. of bitstreams: 1
ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-07-11T13:58:20Z (GMT) No. of bitstreams: 1
ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5) / Made available in DSpace on 2018-07-11T13:58:20Z (GMT). No. of bitstreams: 1
ThaisDeAlmeidaRatisRamos_DISSERT.pdf: 5907109 bytes, checksum: 89a190289f7aa32aedb29f2dff662907 (MD5)
Previous issue date: 2018-05-11 / A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes
que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme
suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em
projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela
inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem
não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e
determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável
chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de
aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6
metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per
Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores
da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia
para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os
desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para
validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados
aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a
ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos
genes, com base no enriquecimento de processos biológicos, e associar com fatores de
transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico,
foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função
discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de
dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram
observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao
sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea.
Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas
funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização
sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos.
Também foi observado que geralmente grupos com mais de 80% de genes não codificantes,
mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é
do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de
40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o
potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de
dados genômicos, possibilitando associações dos processos biológicos com RNAs não
codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história
evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon
ou http://corazon.integrativebioinformatics.me. / The creation of gene expression encyclopedias possibilities the understanding of gene groups
that are co-expressed in different tissues and comprehend gene clusters according to their
functions and origin. Due to the huge amount of data generated in large-scale transcriptomics
projects, an intense demand to use techniques provided by artificial intelligence became
widely used in bioinformatics. Unsupervised learning is the machine learning task that
analyzes the data provided and tries to determine if some objects can be grouped in some way,
forming clusters. We developed an online tool called CORAZON (Correlation Analyses
Zipper Online), which implements three unsupervised machine learning algorithms (mean
shift, k-means and hierarchical) to cluster gene expression datasets, six normalization
methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM),
Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and
normalization by the highest attribute value for each instance), and a strategy to observe the
attributes influence, all in a friendly environment. The algorithms performances were
evaluated through five models commonly used to validate clustering methodologies, each one
composed by fifty randomly generated datasets. The algorithms presented accuracies ranging
between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily
knowledgement and functional insights, based on the Gene Ontology enrichment, and connect
with transcription factors. To select the best number of clusters for k-means and hierarchical
algorithms we used Bayesian information criterion (BIC), followed by the derivative of the
discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total,
we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can
observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the
reproductive system and in all three groups are observed with a single tissue, such as testis,
brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have
specificities in their functions: detection of stimulus involved in sensory perception,
reproduction, synaptic signaling, nervous system, immunological system, system
development, and metabolics. We also observed that clusters with more than 80% of noncodings,
more than 40% of their coding genes are recents appearing in mammalian class and
the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding
genes, have more than 40% of them appeared in eukaryota and the minority from mammalian.
These results illustrate the potential of the methods in CORAZON tool, which can help in the
large quantities analysis of genomic data, possibiliting the potential associations analyzes
between non-coding RNAs and the biological processes of clustered together coding genes, as
well as the possibility of evolutionary history study. CORAZON is freely available at
http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufrn.br:123456789/25581
Date11 May 2018
CreatorsRamos, Thaís de Almeida Ratis
Contributors05950126807, Esteves, Gustavo Henrique, 26739642826, Dalmolin, Rodrigo Juliani Siqueira, 94020035091, Coutinho, Vinicius Ramos Henriques Maracajá, 05273920493, Rego, Thais Gaudêncio do, Ortega, José Miguel
PublisherPROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA, UFRN, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Repositório Institucional da UFRN, instname:Universidade Federal do Rio Grande do Norte, instacron:UFRN
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0031 seconds