Expression quantitative trait loci (eQTL) mapping constitutes a challenging problem
due to the high-dimensional multivariate nature of continuous gene expression traits and
discrete genotypes from genetical genomics experiments.
Next to the expression heterogeneity produced by confounding factors and other
sources of unwanted variation, indirect e ects spread throughout genes as a result of
genetic, molecular and environmental perturbations. Disentangling direct from indirect
e ects while adjusting for unwanted variability should help us moving from current parts
list of molecular components to understanding how these components work together in
networks of eQTL and gene to gene associations.
There is a large body of statistical methodology to tackle this challenge within the
context of linear models for continuous data. However, little has been investigated in using
graphical Markov models (GMMs) and conditional independence on mixed continuous
and discrete data from genetical genomics data sets, which are powerful tools for the
analysis of complex associations.
In this thesis we investigate the use of mixed GMMs to estimate eQTL networks from
data. We develop procedures to simulate these models and data from them to gather
insight into the propagation of additive e ects throughout the network. We derive the
parameters for a likelihood ratio exact test that enables use of higher-order conditional
independence with mixed GMMs. We exploit this test in the context of limited-order
correlations and marginal distributions to obtain estimates of the underlying eQTL net-
work. We show in the context of a yeast genetical genomics data set, that this estimate
leads to a sparser network with more direct associations that provide valuable insight into
the genetic control of gene expression in yeast. We develop an algorithm for accurate es-
timation of the genetic e ects of eQTLs in the presence of missing data. All algorithms
described in this thesis are implemented in the R/Bioconductor package qpgraph. / La cartogra a gen etica dels trets quantitatius d'expressi o (eQTL) esdev e un gran repte
degut a la naturalesa multivariant d'alta dimensionalitat dels trets continus d'expressi o
g enica i els genotips discrets dels experiments de gen omica gen etica.
A m es de l'heterogene tat de l'expressi o produ da pels factors de confusi o i altres fonts
de variabilitat no desitjada, els efectes indirectes s'estenen per tots els gens com a resultat
de perturbacions gen etiques, moleculars i ambientals. L'identi caci o d'efectes directes tot
ajustant pels efectes de variabilitat no desitjada, ens hauria de permetre entendre com
els diferents components moleculars interaccionen en xarxes d'associacions entre eQTLs
i gens.
Per abordar aquest problema, existeixen nombrosos m etodes estad stics en el context
dels models lineals per a dades cont nues. En canvi, els models gr a cs de Markov (GMMs)
i la independ encia condicional, tot i que s on eines adients per a l'estudi d'associacions
complexes, han estat poc investigades en el context de dades mixtes cont nues i discretes
de gen omica gen etica.
En aquesta tesi, investiguem l' us dels GMMs mixtes per a estimar xarxes d'eQTLs.
Desenvolupem procediments per a simular GMMs mixtes i simular dades a partir d'aquests
models per tal d'investigar la propagaci o dels efectes additius a trav es de la xarxa. Derivem
els par ametres d'un test de versemblan ca exacte que ens permet utilitzar independ
encies condicionals d'ordre gran amb els GMMs mixtes. Utilitzem aquest test en el
context de correlacions d'ordre limitat i distribucions marginals per a obtenir estimacions
de la xarxa d'eQTLs subjacent. Tamb e mostrem que, en el context d'un conjunt de dades
de gen omica gen etica de llevat, aquesta estimaci o d ona lloc a una xarxa esparsa amb associacions
m es directes que ens proporcionen informaci o rellevant sobre el control gen etic
de l'expressi o dels gens en llevat. Desenvolupem un algoritme per estimar de manera
acurada els efectes gen etics dels eQTLs a partir de dades missing. Tots els algoritmes
descrits en aquesta tesi estan implementats en el paquet de R/Bioconductor qpgraph.
Identifer | oai:union.ndltd.org:TDX_UPF/oai:www.tdx.cat:10803/145479 |
Date | 12 May 2014 |
Creators | Tur Mongé, Inma 1985- |
Contributors | Castelo Valdueza, Robert, Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut |
Publisher | Universitat Pompeu Fabra |
Source Sets | Universitat Pompeu Fabra |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | 156 p., application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | info:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs. |
Page generated in 0.0018 seconds