Return to search

Seleção de características a partir da integração de dados por meio de análise de variação de número de cópias (CNV) para associação genótipo-fenótipo de doenças complexas

Orientador: Prof. Dr. David Corrêa Martins Júnior / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, Santo André, 2018. / As pesquisas em biologia sistêmica caracterizam-se pela interdisciplinaridade, a compreensão
com visão ampla sobre as interações ocorridas internamente em organismos biológicos,
hereditariedade e a influência de fatores ambientais. Neste cenário, é constituída uma
rede complexa de interações na qual seus componentes são de diferentes tipos, como as
variações do número de cópias (Copy Number Variation - CNVs), genes, entre outros.
As doenças complexas que ocorrem neste contexto normalmente são consequências de
perturbações intracelulares e intercelulares em tecidos e órgãos, sendo desenvolvidas de
forma multifatorial, ou seja, a causa e o desenvolvimento dessas doenças são fruto de
diversos fatores genéticos e ambientais. Nos últimos anos, tem sido produzido um volume
bastante elevado de dados biológicos gerados por técnicas de sequenciamento de alto
desempenho, requerendo pesquisas que envolvam para uma análise integrada desses dados.
As variações do número de cópias (Copy Number Variation - CNVs), ou seja, a variação
no número de repetições de subsequências de DNA entre indivíduos, se mostram úteis
visto que estão relacionadas com outros tipos de dados como genes e dados de expressão
gênica (abundâncias de mRNAs transcritos pelos genes em diferentes contextos). Devido
a natureza heterogênea e a imensa quantidade de dados, a análise integrativa é um desafio
computacional para o qual abordagens vêm sendo propostas. Neste sentido, nesta
dissertação foi proposto um método que realiza a integração de dados (CNVs, dados de
expressão gênica, haploinsuficiência, imprint, entre outros) por meio de um processo que
permite identificar trechos comuns de CNVs entre amostras de diferentes indivíduos, sejam
estas amostras de caso ou de controle e que possuem informações obtidas a partir das
integrações feitas. Com este processo, o método aqui proposto diferencia-se dos métodos
que realizam integração de dados por meio da análise de sobreposição dos dados biológicos,
mas não geram novos dados contendo intervalos de CNVs existentes entre as amostras. O
método proposto foi analisado com base no estudo de caso do autismo (Transtornos do
Espectro Autista - TEA). O autismo, além de ser considerado uma doença complexa, possui
algumas particularidades que dificultam o seu estudo quando comparado a outros tipos
de doenças complexas como o câncer, por exemplo. Foram realizados dois experimentos
que envolveram dados dos CNVs de indivíduos com TEA (caso) e indivíduos sem este
transtorno (controle). Também foi feito um experimento utilizando amostras de CNVs de
TEA e amostras de CNVs relacionados a outras doenças do neurodesenvolvimento. Os
experimentos envolveram a integração dos tipos de dados propostos. Foi possível identificar
trechos de CNVs que estão presentes somente em amostras associadas aos casos e não em
controles, ou cenários de trechos de CNVs presentes em amostras de TEA e ausentes nas
amostras de outras doenças do neurodesenvolvimento, e vice-versa. Os resultados também
refletiram a tendência de indivíduos do gênero masculino serem mais afetados por TEA em
relação ao feminino. Foi possível também identificar genes associados e informações como
o biotipo e se estão presentes em dados de haploinsuficiência, imprint ou ainda dados de
expressão agrupados em regiões e períodos. Finalmente, análises de enriquecimento das
listas de genes dos CNVs resultantes do método apontam para diversas vias relacionadas
com o TEA, tais como as vias de sinalização do receptor toll-like dependente de TRIF, do
ácido gama-aminobutírico (GABA), de transmissão sináptica e secreção neurotransmissora,
de recepção da insulina, de percepção sensorial olfativa, e de adesão celular independente
de cálcio. / Researches in systems biology are characterized by interdisciplinarity, wide-ranging understanding
of interactions within biological organisms, heredity, and the influence of
environmental factors. In this scenario, a complex network of interactions is constituted of
different types of components, such as CNVs (Copy Number Variations), genes, and others.
Complex diseases that occur in this context are usually consequences of intracellular,
intercellular, tissue, organ, and multifactorial disorders, i.e., the cause and development
of these diseases are the result of various genetic and environmental factors. In recent
years, a very large volume of biological data generated by high performance sequencing
techniques has been produced, requiring researches involving an integrated analysis of
these data. CNVs, i.e., the variation in the number of DNA subsequences between individuals,
are useful because they are related to other types of data such as genes and
gene expression data (abundances of mRNAs transcribed by genes in different contexts).
Due to the heterogeneous nature and the immense amount of data, integrative analysis
is a computational challenge for which approaches have been proposed. In this sense, in
this dissertation a method was proposed that performs a data integration (CNVs, gene
expression data, haploinsufficiency, imprint, among others) through a process that allows
to identify common portions of CNVs between samples of different individuals, being these
case or control samples and that have information obtained from the integration performed.
In this context, the method proposed here differs from the methods that carry out data
integration through the analysis of the overlay of the biological data, but does not generate
new data containing ranges of CNVs existing between the samples. The proposed method
was analyzed on the basis of the case study of Autistic Spectrum Disorder (ASD). Besides
being considered a complex disease, TEA has some peculiarities that hinder its study
when compared to other types of complex diseases such as cancer, for example. As a case
study, two experiments were carried out that involved data from the CNVs of individuals
with ASD (case) and individuals without this disorder (control). An experiment was also
done using samples of ASD CNVs and CNVs samples related to other neurodevelopmental
diseases. The experiments involved the integration of the proposed data types. Among the
results, the method identified excerpts of CNVs that are present only in samples associated
with the cases and not in controls, or scenarios of CNVs snippets present in TEA samples
and not present in other neurodevelopmental disease samples, and vice-versa. The results
also reflected the tendency for males to be more affected by TEA compared to the females.
In the excerpts of CNVs in certain results, it was possible to identify associated gene
informations such as the biotype and whether they are present in Haploinsufficiency, imprint
or even expression data grouped in regions and periods. Finally, enrichment analyses
involving lists of genes from the resulting CNVs point to several signaling pathways related
to TEA, such as TRIF-dependent toll-like receptor signaling, gamma aminobutyric acid
(GABA), synaptic transmission and neurotransmitter secretion, insulin reception, olfactory
sensorial perception, and calcium independent cell-cell adhesion.

Identiferoai:union.ndltd.org:IBICT/oai:BDTD:110526
Date January 2018
CreatorsMeneguin, Christian Reis
ContributorsMartins Junior, David Corrêa, Simões, Ana Carolina Quirino, Tahira, Ana Carolina
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf, 195 f. : il.
Sourcereponame:Repositório Institucional da UFABC, instname:Universidade Federal do ABC, instacron:UFABC
Rightsinfo:eu-repo/semantics/openAccess
Relationhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110526&midiaext=76221, http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=110526&midiaext=76222, Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=110526

Page generated in 0.0023 seconds