Spelling suggestions: "subject:"biología computacional"" "subject:"ciología computacional""
1 |
Statistical Methods Development for the Multiomic Systems BiologyUgidos Guerrero, Manuel 28 April 2023 (has links)
[ES] La investigación en Biología de Sistemas se ha expandido en los últimos años. El análisis simultáneo de diferentes tipos de datos ómicos permite el estudio de las conexiones y relaciones entre los diferentes niveles de organización celular. La presente tesis doctoral tiene como objetivo desarrollar y aplicar estrategias de integración multiómica al campo de la biología de sistemas.
El elevado coste de las tecnologías ómicas, dificulta que los laboratorios puedan abordar un estudio multiómico completo. No obstante, la gran disponibilidad de datos ómicos en repositorios públicos, permite el uso de estos datos ya generados. Desafortunadamente, la combinación de datos ómicos provenientes de diferentes orígenes, da lugar a la aparición de un ruido no deseado en los datos, el efecto lote. El efecto lote impide el correcto análisis conjunto de los datos y es necesario el uso de los llamados Algoritmos de Corrección de Efecto Lote para eliminarlo. En la actualidad, existe un gran número de éstos algoritmos que se basan en diferentes modelos estadísticos. Sin embargo, los métodos existentes no están pensados para los diseños multiómicos ya que solo permiten la corrección de un mismo tipo de ómica que debe haber sido medida en todos los lotes. Por ello desarrollamos la herramienta MultiBaC basada en la regresión PLS y modelos ANOVA-SCA, que permite la corrección del efecto lote en diseños multiómicos, permitiendo la corrección de datos que no hayan sido medidos en todos los lotes. En este trabajo, MultiBaC fué validado y evaluado en diferentes conjuntos de datos, además presentamos MultiBaC como paquete de R para facilitar su uso.
La mayoría de métodos existentes de integración multiómica son métodos multivariantes basados en el análisis del espacio latente. Estos métodos se conocen como ``dirigidos por datos'', y se basan en la búsqueda de correlaciones para determinar las relaciones entre las variables. Estos métodos necesitan de gran cantidad de observaciones o muestras para poder encontrar correlaciones significativas. Lamentablemente, en el mundo de la biología molecular, los conjuntos de datos con un gran número de muestras no son muy habituales, debido al elevado coste de generación de los datos. Como alternativa a los métodos dirigidos por datos, algunas estrategias de integración multiómicas se basan en métodos ``dirigidos por modelos''. Estos métodos pueden ajustarse con un menor número de observaciones y son muy útiles para encontrar relaciones mecanísticas entre los componentes celulares. Los métodos dirigidos por modelos necesitan de una información a priori, el modelo, que normalmente es un modelo metabólico del organismo estudiado. Actualmente, sólo transcriptómica y metabolómica cuantitativa, han sido los dos tipos de dato ómico que se han integrado con éxito usando métodos dirigidos por modelos.Sin embargo, la metabolómica cuantitativa no está muy extendida y la mayoría de laboratorios generan metabolómica no cuantitativa, la cuál no puede integrarse con los métodos actuales. Para contribuir en esta cuestión, desarrollamos MAMBA, una herramienta de integración multiómica dirigida por modelos y basada en métodología de optimización matemática, que es capaz de analizar conjuntamente metabolómica no cuantitativa con otro tipo de ómica asociada a genes, como por ejemplo la trascriptómica. MAMBA fue comparado con otros métodos existentes en cuanto a la capacidad de predcción de metabolitos y fué aplicado al conjunto interno de datos multiómicos. Este conjunto de datos multiómicos fue generado dentro del proyecto PROMETEO, en el cuál está enmarcada esta tesis. MAMBA demostró capturar la biología conocida sobre nuestro diseño experimental, además de ser útil para derivar nuevas observaciones e hipótesis biológicas.
En conjunto, esta tesis presenta herramientas útiles para el campo de la biología de sistemas, y que cubren tanto el preprocesado de datos multiómicos como su posterior análisis estadístico integrativo. / [CA] La investigació en Biologia de Sistemes s'ha expandit els darrers. L'anàlisi simultània de diferents tipus de dades òmiques permet l'estudi de les connexions i les relacions entre els diferents nivells d'organització cel·lular. Aquesta tesi doctoral té com a objectiu desenvolupar i aplicar estratègies dintegració multiòmica al camp de la biologia de sistemes.
L'elevat cost de les tecnologies òmiques dificulta que els laboratoris puguin abordar un estudi multiòmic complet. Això no obstant, la gran disponibilitat de dades òmiques en repositoris públics permet l'ús d'aquestes dades ja generades. Malauradament, la combinació de dades òmiques provinents de diferents orígens, dóna lloc a l'aparició d'un soroll no desitjat en les dades, l'efecte lot. L'efecte lot impedeix la correcta anàlisi conjunta de les dades i cal utilitzar els anomenats algorismes de correcció d'Efecte lot per eliminar-lo. Actualment hi ha un gran nombre d'aquests algorismes que corregeixen l'efecte lot que es basen en diferents models estadístics. Tot i això, els mètodes existents no estan pensats per als dissenys multiòmics ja que només permeten la correcció d'un mateix tipus de dada òmica que ha d'haver estat mesurada en tots els lots. Per això desenvolupem la nostra eina MultiBaC basada en la regressió PLS i models ANOVA-SCA, que pot corregir l'efecte lot en dissenys multiòmics, permetent la correcció de dades que no hagin estat mesurades a tots els lots. En aquest treball, MultiBaC ha sigut validat i avaluat en diferents conjunts de dades, a més a més, presentem MultiBaC com a paquet de R per facilitar l'ús de la nostra eina.
La majoria de mètodes d'integració multiòmica existents són mètodes multivariants basats en l'anàlisi de l'espai latent. Aquests mètodes es coneixen com a "dirigits per dades", i es basen en la cerca de correlacions per determinar les relacions entre les diferents variables. Els mètodes dirigits per dades necessiten gran quantitat d'observacions o mostres per poder trobar correlacions significatives entre les variables. Lamentablement, al món de la biologia molecular, els conjunts de dades amb un gran nombre de mostres no són molt habituals, degut a l'elevat cost de generació de les dades òmiques. Com a alternativa als mètodes dirigits per dades, algunes estratègies d'integració multiòmiques es basen en mètodes "dirigits per models". Aquests mètodes poden ajustar-se amb un nombre menor d'observacions i són molt útils per trobar relacions mecanístiques entre els components cel·lulars. Tot i això, els mètodes dirigits per models necessiten una informació a priori, el model, que normalment és un model metabòlic de l'organisme estudiat. Actualment, únicament transcriptòmica i metabolòmica quantitativa, han estat els dos tipus de dada òmica que s'han integrat amb èxit usant mètodes dirigits per models. No obstant això, la metabolòmica quantitativa no està gaire estesa i la majoria de laboratoris generen metabolòmica no quantitativa, les quals no es poden integrar amb els mètodes actuals. Per contribuir en aquesta qüestió, hem desenvolupat MAMBA, una eina d'integració multiòmica dirigida per models i basada en la metodologia d'optimització matemàtica, que és capaç d'analitzar conjuntament metabolòmica no quantitativa amb un altre tipus d'òmica associada a gens, com per exemple la trascriptòmica. MAMBA va ser comparat amb altres mètodes existents quant a la capacitat de predcció de metabòlits i va ser aplicat al conjunt intern de dades multiòmiques. Aquest conjunt de dades multiòmiques va ser generat dins del projecte PROMETEO, en el qual està emmarcada aquesta tesi. Es demostra que MAMBA capturar la biologia coneguda sobre el nostre disseny experimental, a més de ser útil per derivar noves observacions i hipòtesis biològiques.
En conjunt, aquesta tesi presenta eines útils per al camp de la biologia de sistemes, i que cobreixen tant el preprocessament de dades multiòmiques com la seua posterior anàlisi estadística integrativa. / [EN] Systems Biology research has expanded over the last years together with the development of omic technologies. The combination and simultaneous analysis of different kind of omic data allows the study of the connections and relationships between different cellular layers. Indeed, multiomic integration strategies provides a key source of knowledge about the cell as a system. The present Ph.D. thesis aims to study, develop and apply multiomic integration approaches to the field of systems biology.
The still high cost of omics technologies makes it difficult for most laboratories to afford a complete multiomic study. However, the wide availability of omic data in public repositories allows the use of these already generated data. Unfortunately, the combination of omic data from different sources provokes the appearance of unwanted noise in data, known as batch effect. Batch effect impairs the correct integrative analysis of the data. Therefore, the use of so-called Batch Effect Correction Algorithms is necessary. As of today, there is a large number of such algorithms based on different statistical models and methods that correct batch effect and are part of the data pre-processing steps. However, the existing methods are not intended for multi-omics designs as they only allow the correction of the same type of omic data that must be measured across all batches. For this reason, we developed MultiBaC algorithm, which removes batch effect in multiomic designs, allowing the correction of data that are not measured across all batches. MultiBaC is based on PLS regression and ANOVA-SCA models and was validated and evaluated on different datasets. We also present MultiBaC as an R package to facilitate the use of this tool.
Most existing multiomic integration approaches are multivariate methods based on latent space analysis. These methods are known as data-driven as they are based on the search for correlations to determine the relationships between the different variables. Data-driven methods require a large number of observations or samples to find robust and/or significant correlations among features. Unfortunately, in the molecular biology field, data sets with a large number of samples are not very common, again due to the high cost of generating omic data. As an alternative to data-driven methods, some multiomic integration strategies are based on model-driven approaches. These methods can be fitted with a smaller number of observations and are very useful for finding mechanistic relationships between different cellular components. However, model-driven methods require a priori information, which is usually a metabolic model of the organism under study. Currently, only transcriptomics and quantitative metabolomics have been successfully integrated using model-driven methods. Nonetheless, quantitative metabolomics is not very widespread and most laboratories generate non-quantitative or semi-quantitative metabolomics, which cannot be integrated with current methods. To address this issue, we developed MAMBA, a model-driven multiomic integration method that relies on mathematical optimization problems and is able to jointly analyze non-quantitative or semi-quantitative metabolomics with other types of gene-centric omic data, such as transcriptomics. MAMBA was compared to other existing methods in terms of metabolite prediction accuracy and was applied to a multiomic dataset generated within the PROMETEO project, in which this thesis is framed. MAMBA proved to capture the known biology of our experimental design and was useful for deriving new findings and biological hypotheses.
Altogether, this thesis presents useful tools for the field of systems biology, covering both the pre-processing of multiomic datasets and their subsequent statistical integrative analysis. / Ugidos Guerrero, M. (2023). Statistical Methods Development for the Multiomic Systems Biology [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/193031
|
2 |
Estudi bioinformàtic de la funcionalitat i conservació de l’splicing alternatiuMorata Chirivella, Jordi 28 June 2012 (has links)
L'estudi de les diferències fenotípiques entre espècies, i entre individus, ha estat una de les grans qüestions fonamentals en els camps de la biologia evolutiva i la genètica. Ben aviat, es va fer palès que la regulació de l’expressió gènica tindria un paper clau en establir aquestes diferències de complexitat. L’adveniment de les tècniques massives de seqüenciació no van sinó confirmar aquesta visió primerenca. Avui dia coneixem un grapat de mecanismes que determinen aquestes diferències entre organismes, com són la divergència de seqüència proteica, la duplicació gènica o la divergència de la regió cis-reguladora, entre d’altres.
En la darrera dècada, l’splicing alternatiu ha anat afermant-se com a mecanisme post-transcripcional freqüent i ha anat prenent protagonisme com a font de variabilitat de transcrits i isoformes proteiques, a més a més de jugar un paper regulador de l’expressió gènica. Per tant, l’splicing alternatiu és un ferm candidat a introduir diferències substancials al proteoma que expliquin la diversitat fenotípica entre organismes.
Així doncs, aquest treball es va marcar com a objectiu aclarir fins a quin punt la variabilitat que introduïa l’splicing alternatiu tenia implicacions en el fenotip, quina era la seva conservació i si actuava de manera coordinada o independent amb d’altres mecanismes. En primer lloc, vam estudiar la relació que hi havia entre l’splicing alternatiu i les altres fonts moleculars de diversitat fenotípica i si era possible que l’splicing alternatiu pogués introduir variabilitat amb implicacions fenotípiques per si sola. A continuació, ens vam centrar en els mecanismes reguladors de l’expressió gènica basats en splicing alternatiu, analitzant les seves propietats i la seva conservació entre espècies. Finalment, vam examinar la implicació de l’splicing alternatiu en el fenomen de la domin{ncia gènica, ja que és un procés conegut que determina diferències fenotípiques intraespecífiques.
El primer pas fou, doncs, comparar l’splicing alternatiu amb d’altres fonts moleculars de diferències fenotípiques: les divergències de la seqüència proteica, de la regió cis-reguladora del gen i de l’expressió gènica entre hum{ i ratolí. En un estudi massiu de les propietats de tots aquests fenòmens entre 13970 parelles d’ortòlegs, vam observar que l’splicing alternatiu podia introduir diferències abans que les altres variables poguessin fer-ho. Quan les identitats de seqüència proteica o de la regió cis-reguladora eren massa elevades com per introduir diferències, l’splicing alternatiu ja presentava patrons prou diferents en la concurrència d’splicing entre hum{ i ratolí. A més a més, la relació entre l’equivalència d’isoformes amb aquestes divergències també va resultar ser molt lleu, fet que ens va fer pensar que l’splicing alternatiu pot introduir isoformes específiques que contribueixin a les diferències entre espècies abans que les altres divergències puguin fer-ho.
Pel que fa al segon bloc, vam investigar la conservació i propietats dels mecanismes reguladors de l’expressió gènica basats en AS. Primer de tot, vam confirmar la independència entre les divergències d’expressió gènica i l’splicing alternatiu, fet que ens indica que actuen a diferents nivells. A continuació, vam definir i classificar aquests mecanismes reguladors depenent com l’splicing alternatiu alterava l’arquitectura de dominis de les isoformes. La conservació d’aquests efectes, dels mecanismes reguladors basats en AS, va resultar ser baixa per tots els casos. Pel que fa als esdeveniments on es perdien un o més dominis a les isoformes alternatives, a més a més de ser baixa la conservació del mecanisme, també ho va ser l’equivalència dels esdeveniments d’splicing alternatiu. Així, tot i tenir efectes a nivell de seqüència no homòlegs, la funció es conservava, fet que ens porta a suggerir que aquests esdeveniments d’AS són un exemple de convergència funcional.
Per últim, ens vam fixar en el procés de la dominància, abastament conegut, que introdueix diferències fenotípiques clares entre individus de la mateixa espècie, sobretot en el cas de malalties. Donat el fet que es coneixia una relació inversa entre paralogia i haploinsuficiència, per una banda, i paralogia i splicing per l’altra, sumat a la capacitat d’introduir variabilitat per part de l’splicing alternatiu, vam endegar aquest estudi amb la idea de descriure la relació entre dominància i splicing. El resultat final ens va mostrar una independència dels dos processos, fet que ens va fer qüestionar la relació entre paralogia i splicing alternatiu. Per la resta de variables estudiades, la caracterització de la dominància va concordar amb els resultats de treballs anteriors. / RESUMEN
El estudio de las diferencias fenotípicas entre especies ha sido una de les cuestiones fundamentales de la biología evolutiva y la genética. Muy pronto fue evidente que la regulación de la expresión génica seria clava en el establecimiento de estas diferencias, tesis confirmada con las técnicas masivas de secuenciación actuales. Hoy en día, se conocen una serie de mecanismos que determinan estas diferencias, como son la divergencia de la secuencia proteica, la duplicación génica o la divergencia de la región cis-reguladora.
En la última década, el splicing alternativo (AS) ha ido afianzándose como mecanismo post-transcripcional y ha ido tomando protagonismo como fuente de variabilidad de transcritos y isoformas, además de jugar un papel regulador de la expresión génica. Por lo tanto, el AS es un firme candidato a introducir diferencias sustanciales en el proteoma que expliquen la diversidad fenotípica entre organismos. Así pues, este trabajo se marcó como objetivo aclarar hasta qué punto la variabilidad que introducía el AS tenía implicaciones en el fenotipo, cuál era su conservación y si actuaba de manera coordinada o independiente con otros mecanismos. En primer lugar, estudiamos la relación que había entre el AS y las otras fuentes moleculares de diversidad fenotípica y si era posible que el AS pudiera introducir variabilidad con implicaciones fenotípicas por sí sola. A continuación, nos centramos en los mecanismos reguladores de la expresión génica basados en AS, analizando sus propiedades y su conservación entre especies. Finalmente, examinamos la implicación del AS en la dominancia génica.
En el primer bloque comparamos el AS con otras fuentes moleculares de diferencias fenotípicas: las divergencias de la secuencia proteica, de la región cis-reguladora del gen y de la expresión génica entre humano y ratón. En un estudio masivo de las propiedades de todos estos fenómenos entre 13.970 ortólogos, observamos que el AS podía introducir diferencias antes que las otras variables pudieran hacerlo. Cuando las identidades de secuencia proteica o de la región cis-reguladora eran demasiado elevadas como para introducir diferencias, el AS ya presentaba patrones bastante diferentes en la concurrencia de AS entre humano y ratón. Además, la relación entre la equivalencia de isoformas con estas divergencias también resultó ser muy leve, lo que nos hizo pensar que el AS puede introducir isoformas específicas que contribuyan a las diferencias entre especies antes que las demás divergencias puedan hacerlo.
En el segundo bloque investigamos la conservación y propiedades de los mecanismos reguladores de la expresión génica basados en AS. En primer lugar, confirmamos la independencia entre las divergencias de expresión génica y del AS, lo que nos indica que actúan a diferentes niveles. A continuación, definimos estos mecanismos reguladores dependiendo como el AS alteraba la arquitectura de dominios de las isoformas. La conservación de los mecanismos reguladores basados en AS resultó ser baja en todos los casos. En cuanto a los eventos donde se perdían uno o más dominios en las isoformas alternativas, también fue baja la equivalencia de los eventos de AS. Así, pese a tener efectos a nivel de secuencia no homólogos, la función se conservaba, lo que nos permite sugerir que éste es un escenario de convergencia funcional.
Por último, nos fijamos en el proceso de la dominancia, largamente conocido, que introduce diferencias fenotípicas intraespecíficas. Dado que se conocía una relación inversa entre paralogía y haploinsuficiencia, por un lado, y paralogía y AS por la otra, sumado a la capacidad de introducir variabilidad por parte del AS, iniciamos este estudio con la idea de describir la relación entre dominancia y AS. El estudio nos mostró una independencia de los dos procesos, cuestionando así la relación entre paralogía y AS. Para el resto de variables estudiadas, la caracterización de la dominancia concordó con resultados de trabajos anteriores. / The study of phenotypic differences between species, and between individuals, has been one of the great fundamental questions in the fields of evolutionary biology and genetics. Soon, it became clear that the regulation of gene expression would have a key role in establishing these differences in complexity. The advent of mass sequencing techniques did confirm this view. Nowadays, we know a handful of mechanisms that determine these differences between organisms, such as protein sequence divergence, gene duplication and divergence of cis-regulatory region, among others.
In the last decade, alternative splicing has been asserting itself as a post-transcriptional mechanism and frequently has taken center stage as a source of variability of transcripts and protein isoforms, and also as a key player in the regulation the gene expression. Therefore, alternative splicing is a strong candidate to introduce substantial differences in the proteome that could explain the phenotypic diversity among organisms.
Thus, this work was intended to clarify to what extent the variability introduced the alternative splicing (AS) had implications for the phenotype, which was its conservation and if it acted in a coordinated or independent way relative to other mechanisms. First, we studied the relationship that existed between AS and other sources of molecular and phenotypic diversity and elucidate if AS could introduce phenotypic variability with its own implications. Then we focused on the regulatory mechanisms of gene expression based on AS, analyzing their properties and their conservation between species. Finally, we examined the involvement of AS in the phenomenon of genetic dominance, since it is a known process that determines intraspecific phenotypic differences.
The first step was therefore to compare the AS with other sources of molecular phenotypic differences: differences in the protein sequence, the cis-regulatory region of the gene and gene expression between human and mouse. In a massive study of the properties of these phenomena among 13,970 pairs of orthologous, we observed that alternative splicing could introduce differences before other variables could do it. When the identities of protein sequence or cis-regulatory region were too high for introducing differences, AS patterns appeared quite different in the occurrence of splicing between human and mouse. Furthermore, we found that the relationship between the equivalence of isoforms with those differences was very mild, which made us think that AS can introduce specific isoforms that contribute to differences between species before other divergences can do it.
Regarding the second section, we investigated the properties and the conservation of the regulatory mechanisms of gene expression based on AS. First, we confirmed the independence between the divergence of gene expression and AS, which indicates that they act at different levels. Then we defined and classified these regulatory mechanisms depending on how the AS altered the domain architecture of the isoforms. The conservation of these effects, the regulatory mechanisms based on AS, was found to be low for all cases. With regard to the events where they lost one or more domains in the alternative isoforms, in addition to the low conservation of the mechanism, it was also low the equivalence of alternative splicing events. So, despite having an non-homologue effect on the level of sequence, the function was preserved, which leads us to suggest that these AS events are an example of functional convergence.
Finally, we studied the well known process of dominance which introduces clear phenotypic differences between individuals of the same species, especially in the case of diseases. Given the fact that it is known the inverse relationship between paralogy and haploinsufficiency and, in the other hand, the inverse relationship between paralogy and AS, adding to this the ability of introducing variability by AS, we undertook this study with the idea of describe the relationship between dominance and splicing. The final result showed us that they are two independent processes, which made us question the relationship between paralogy and AS. For the remaining variables, the characterization of the dominance results agreed with previous work.
|
3 |
Mixed quantum and classical simulation techniques for mapping electron transfer in proteinsWallrapp, Frank 04 April 2011 (has links)
El
objetivo
de
esta
tesis
se
centra
en
el
estudio
de
la
transferencia
de
electrones
(ET),
una
de
las
reacciones
más
simples
y
cruciales
en
bioquímica.
Para
dichos
procesos,
obtener
información
directa
de
los
factores
que
lo
promueves,
asi
como
del
camino
de
transferencia
electronica,
no
es
una
tarea
trivial.
Dicha
información
a
un
nivel
de
conocimiento
detallado
atómico
y
electrónico,
sin
embargo,
es
muy
valiosa
en
términos
de
una
mejor
comprensión
del
ciclo
enzimático,
que
podría
conducir,
por
ejemplo,
a
un
diseño
más
eficaz
de
inhibidores.
El
objetivo
principal
de
esta
tesis
es
el
desarrollo
de
una
metodología
para
el
estudio
cuantitativo
de
la
ET
en
los
sistemas
biológicos.
En
este
sentido,
hemos
desarrollado
un
nuevo
método
para
obtener
el
camino
de
transferencia
electrónico,
llamado
QM/MM
e-‐
Pathway,
que
se
puede
aplicar
en
sistemas
complejos
con
ET
de
largo
alcance.
El
método
se
basa
en
una
búsqueda
sucesiva
de
residuos
importantes
para
la
ET,
utilizando
la
modificación
de
la
región
quantica
en
métodos
mixtos
QM/MM,
y
siguiendo
la
evolución
de
la
densidad
de
espín
dentro
de
la
zona
de
transferencia.
Hemos
demostrado
la
utilidad
y
la
aplicabilidad
del
algoritmo
en
el
complejo
P450cam/Pdx,
identificando
el
papel
clave
de
la
Arg112
(en
P450cam)
y
del
Asp48
(en
Pdx),
ambos
conocidos
en
la
literatura.
Además
de
obtener
caminos
de
ET,
hemos
cuantificado
su
importancia
en
términos
del
acoplamiento
electrónico
entre
el
dador
y
aceptor
para
los
diferentes
caminos.
En
este
sentido,
se
realizaron
dos
estudios
de
la
influencia
del
solvente
y
de
la
temperatura
en
el
acoplamiento
electrónico
para
sistemas
modelo
oligopéptidos.
Ambos
estudios
revelaron
que
los
valores
del
acoplamiento
electrónico
fluctúan
fuertemente
a
lo
largo
de
las
trayectorias
de
dinámica
molecular
obtenidas,
y
el
mecanismo
de
transferencia
de
electrones
se
ve
ampliamente
afectado
por
el
espacio
conformacional
del
sistema.
La
combinación
del
QM/MM
e-‐pathway
y
de
los
cálculos
de
acoplamiento
electronico
fueron
utilizados
finalmente
para
investigar
la
ET
en
el
complejo
CCP/Cytc.
Nuestros
hallazgos
indican
el
papel
fundamental
del
Trp191
en
localizar
un
estadio
intermedio
para
la
transferencia
electronica,
así
como
el
camino
ET
principal
que
incluye
Ala194,
Ala193,
Gly192
y
Trp191.
Ambos
hallazgos
fueron
confirmados
a
través
de
la
literatura.
Los
resultados
obtenidos
para
el
muestro
de
manios
de
ET,
junto
con
su
evaluación
a
través
de
cálculos
de
acoplamiento
electrónico,
sugieren
un
enfoque
sencillo
y
prometedor
para
investigar
ET
de
largo
alcance
en
proteínas. / The
focus
of
this
PhD
thesis
lies
on
electron
transfer
(ET)
processes,
belonging
to
the
simplest
but
most
crucial
reactions
in
biochemistry.
Getting
direct
information
of
the
forces
driving
the
process
and
the
actual
electron
pathway
is
not
a
trivial
task.
Such
atomic
and
electronic
detailed
information,
however,
is
very
valuable
in
terms
of
a
better
understanding
of
the
enzymatic
cycle,
which
might
lead,
for
example,
to
more
efficient
protein
inhibitor
design.
The
main
objective
of
this
thesis
was
the
development
of
a
methodology
for
the
quantitative
study
of
ET
in
biological
systems.
In
this
regard,
we
developed
a
novel
approach
to
map
long-‐range
electron
transfer
pathways,
called
QM/MM
e-‐Pathway.
The
method
is
based
on
a
successive
search
for
important
ET
residues
in
terms
of
modifying
the
QM
region
following
the
evolution
of
the
spin
density
of
the
electron
(hole)
within
a
given
transfer
region.
We
proved
the
usefulness
and
applicability
of
the
algorithm
on
the
P450cam/Pdx
complex,
indicating
the
key
role
of
Arg112
of
P450cam
and
Asp48
of
Pdx
for
its
ET
pathway,
both
being
known
to
be
important
from
the
literature.
Besides
only
identifying
the
ET
pathways,
we
further
quantified
their
importance
in
terms
of
electronic
coupling
of
donor
and
acceptor
incorporating
the
particular
pathway
residues.
Within
this
regard,
we
performed
two
systematic
evaluations
of
the
underlying
reasons
for
the
influence
of
solvent
and
temperature
onto
electronic
coupling
in
oligopeptide
model
systems.
Both
studies
revealed
that
electronic
coupling
values
strongly
fluctuate
throughout
the
molecular
dynamics
trajectories
obtained,
and
the
mechanism
of
electron
transfer
is
affected
by
the
conformational
space
the
system
is
able
to
occupy.
Combining
both
ET
mapping
and
electronic
coupling
calculations,
we
finally
investigated
the
electron
transfer
in
the
CcP/Cytc
complex.
Our
findings
indicate
the
key
role
of
Trp191
being
the
bridge-‐localized
state
of
the
ET
as
well
as
the
main
pathway
consisting
of
Ala194,
Ala193,
Gly192
and
Trp191
between
CcP
and
Cytc.
Both
findings
were
confirmed
through
the
literature.
Moreover,
our
calculations
on
several
snapshots
state
a
nongated
ET
mechanism
in
this
protein
complex.
The
methodology
developed
along
this
thesis,
mapping
ET
pathways
together
with
their
evaluation
through
electronic
coupling
calculations,
suggests
a
straightforward
and
promising
approach
to
investigate
long-‐range
ET
in
proteins.
|
4 |
Understanding Isoform Expression and Alternative Splicing Biology through Single-Cell RNAseqArzalluz Luque, Ángeles 27 April 2024 (has links)
[ES] La introducción de la secuenciación de ARN a nivel de célula única (scRNA-seq) en el ámbito de la transcriptómica ha redefinido nuestro entendimiento de la diversidad celular, arrojando luz sobre los mecanismos subyacentes a la heterogeneidad tisular. No obstante, al inicio de esta tesis, las limitaciones de a esta tecnología obstaculizaban su aplicación en el estudio de procesos complejos, entre ellos el splicing alternativo. A pesar de ello, los patrones de splicing a nivel celular planteaban incógnitas que esta tecnología tenía el potencial de resolver: ¿es posible observar, a nivel celular, la misma diversidad de isoformas que se detecta mediante RNA-seq a nivel de tejido? ¿Qué función desempeñan las isoformas alternativas en la constitución de la identidad celular?
El objetivo de esta tesis es desbloquear el potencial del scRNA-seq para el análisis de isoformas, abordando sus dificultades técnicas y analíticas mediante el desarrollo de nuevas metodologías computacionales. Para lograrlo, se trazó una hoja de ruta con tres objetivos. Primero, se establecieron cuatro requisitos para el estudio de las isoformas mediante scRNA-seq, llevando a cabo una revisión de la literatura existente para evaluar su cumplimiento. Tras completar este marco con simulaciones computacionales, se identificaron las debilidades y fortalezas de los métodos de scRNA-seq y las herramientas computacionales disponibles. Durante la segunda etapa de la investigación, estos conocimientos se utilizaron para diseñar un protocolo óptimo de procesamiento de datos de scRNA-seq. En concreto, se integraron datos de lecturas largas a nivel de tejido con datos de scRNA-seq para garantizar una identificación adecuada de las isoformas así como su cuantificación a nivel celular. Este proceso permitió ampliar las estrategias computacionales disponibles para la reconstrucción de transcriptomas a partir de lecturas largas, mejoras que fueron implementadas en SQANTI3, software de referencia en transcriptómica. Por último, los datos procesados se utilizaron para desarrollar un nuevo método de análisis de co-expresión de isoformas a fin de desentrañar redes de regulación del splicing alternativo implicadas en la constitución de la identidad celular.
Dada la elevada variabilidad de los datos de scRNA-seq, este método se basa en la utilización de una estrategia de correlación basada en percentiles que atenúa el ruido técnico y permite la identificación de grupos de isoformas co-expresadas. Una vez configurada la red de co-expresión, se introdujo una nueva estrategia de análisis para la detección de patrones de co-utilización de isoformas que suceden de forma independiente a la expresión a nivel de gen, denominada co-Differential Isoform Usage. Este enfoque facilita la identificación de una capa de regulación de la identidad celular atribuible únicamente a mecanismos post-transcripcionales. Para una interpretación biológica más profunda, se aplicó una estrategia de anotación computacional de motivos y dominios funcionales en las isoformas definidas con lecturas largas, revelando las propiedades biológicas de las isoformas involucradas en la red de co-expresión. Estas investigaciones culminan en el lanzamiento de acorde, un paquete de R que encapsula las diferentes metodologías desarrolladas en esta tesis, potenciando la reproducibilidad de sus resultados y proporcionando una nueva herramienta para explorar la biología de las isoformas alternativas a nivel de célula única.
En resumen, esta tesis describe una serie de esfuerzos destinados a desbloquear el potencial de los datos de scRNA-seq para avanzar en la comprensión del splicing alternativo. Desde un contexto de escasez de herramientas y conocimiento previo, se han desarrollado soluciones de análisis innovadoras que permiten la aplicación de scRNA-seq al estudio de las isoformas alternativas, proporcionando recursos innovadores para profundizar en la regulación post-transcripcional y la función celular. / [CA] La introducció de la seqüenciació d'ARN a escala de cèl·lula única (scRNA-seq) en l'àmbit de la transcriptòmica ha redefinit el nostre enteniment de la diversitat cel·lular, projectant llum sobre els mecanismes subjacents a l'heterogeneïtat tissular. Malgrat les limitacions inicials d'aquesta tecnologia, especialment en el context de processos complexos com l'splicing alternatiu, els patrons d'splicing a escala cel·lular plantejaven incògnites amb potencial de resolució: és possible observar, a escala cel·lular, la mateixa diversitat d'isoformes que es detecta mitjançant RNA-seq en teixits? Quina funció tenen les isoformes alternatives en la constitució de la identitat cel·lular?
L'objectiu d'aquesta tesi és desbloquejar el potencial del scRNA-seq per a l'anàlisi d'isoformes alternatives, abordant les seues dificultats tècniques i analítiques amb noves metodologies computacionals. Per a això, es va traçar una ruta amb tres objectius. Primerament, es van establir quatre requisits per a l'estudi de les isoformes mitjançant scRNA-seq, amb una revisió de la literatura existent per avaluar-ne el compliment. Després de completar aquest marc amb simulacions computacionals, es van identificar les debilitats i fortaleses dels mètodes de scRNA-seq i de les eines computacionals disponibles. Durant la segona etapa de la investigació, aquests coneixements es van utilitzar per dissenyar un protocol òptim de processament de dades de scRNA-seq. En concret, es van integrar dades de lectures llargues a escala de teixit amb dades de scRNA-seq per a garantir una identificació adequada de les isoformes així com la seua quantificació a escala cel·lular. Aquest procés va permetre ampliar les estratègies computacionals disponibles per a la reconstrucció de transcriptomes a partir de lectures llargues, millores que van ser implementades en SQANTI3, un programari de referència en transcriptòmica. Finalment, les dades processades es van fer servir per a desenvolupar un nou mètode d'anàlisi de coexpressió d'isoformes amb l'objectiu de desentranyar xarxes de regulació de l'splicing alternatiu implicades en la constitució de la identitat cel·lular.
Donada l'elevada variabilitat de les dades de scRNA-seq, aquest mètode es basa en la utilització d'una estratègia de correlació basada en percentils que minimitza el soroll tècnic i permet la identificació de grups d'isoformes coexpressades. Un cop configurada la xarxa de coexpressió, es va introduir una nova estratègia d'anàlisi per a la detecció de patrons de co-utilització d'isoformes que succeeixen de forma independent a l'expressió del seu gen, denominada co-Differential Isoform Usage. Aquest enfocament facilita la identificació d'una capa de regulació de la identitat cel·lular atribuïble únicament a mecanismes post-transcripcionals. Per a una interpretació biològica més profunda, es va aplicar una estratègia d'anotació computacional de motius i dominis funcionals en les isoformes definides amb lectures llargues, revelant les propietats biològiques de les isoformes involucrades en la xarxa de coexpressió. Aquestes investigacions culminen en el llançament d'acorde, un paquet de R que encapsula les diferents metodologies desenvolupades en aquesta tesi, potenciant la reproducibilitat dels seus resultats i proporcionant una nova eina per a explorar la biologia de les isoformes alternatives a escala de cèl·lula única.
En resum, aquesta tesi descriu una sèrie d'esforços destinats a desbloquejar el potencial de les dades de scRNA-seq per a avançar en la comprensió de l'splicing alternatiu. Des d'un context de manca d'eines i coneixement previ, s'han desenvolupat solucions d'anàlisi innovadores que permeten l'aplicació de scRNA-seq a l'estudi de les isoformes alternatives, proporcionant recursos innovadors per a aprofundir en la regulació post-transcripcional i la funció cel·lular. / [EN] In the world of transcriptomics, the emergence of single-cell RNA sequencing (scRNA-seq) ignited a revolution in our understanding of cellular diversity, unraveling novel mechanisms in tissue heterogeneity, development and disease. However, when this thesis began, using scRNA-seq to understand Alternative Splicing (AS) was a challenging frontier due the inherent limitations of the technology. In spite of this research gap, pertinent questions persisted regarding cell-level AS patterns, particularly concerning the recapitulation of isoform diversity observed in bulk RNA-seq data at the cellular level and the roles played by cell and cell type-specific isoforms.
The work conducted in the present thesis aims to harness the potential of scRNA-seq for alternative isoform analysis, outlining technical and analytical challenges and designing computational methods to overcome them. To achieve this, we established a roadmap with three main aims. First, we set requirements for studying isoforms using scRNA-seq and conducted an extensive review of existing research, interrogating whether these requirements were met. Combining this acquired knowledge with several computational simulations allowed us to delineate the strengths and pitfalls of available data generation methods and computational tools. During the second research stage, this insight was used to design a suitable data processing pipeline, in which we jointly employed bulk long-read and short-read scRNA-seq sequenced from full-length cDNAs to ensure adequate isoform reconstruction as well as sensitive cell-level isoform quantification. Additionally, we refined available transcriptome curation strategies, introducing them as innovative modules in the transcriptome quality control software SQANTI3. Lastly, we harnessed single-cell isoform expression data and the rich biological diversity inherent in scRNA-seq, encompassing various cell types, in the design of a novel isoform co-expression analysis method. Percentile correlations effectively mitigated single-cell noise, unveiling clusters of co-expressed isoforms and exposing a layer of regulation in cellular identity that operated independently of gene expression. We additionally introduced co-Differential Isoform Usage (coDIU) analysis, enhancing our ability to interpret isoform cluster networks. This endeavour, combined with the computational annotation of functional sites and domains in the long read-defined isoform models, unearthed a distinctive functional signature in coDIU genes. This research effort materialized in the release of acorde, an R package that encapsulates all analyses functionalities developed throughout this thesis, providing a reproducible means for the scientific community to further explore the depths of alternative isoform biology within single-cell transcriptomics.
This thesis describes a complex journey aimed at unlocking the potential of scRNA-seq data for investigating AS and isoforms: from a landscape marked by the scarcity of tools and guidelines, towards the development of novel analysis solutions and the acquisition of valuable biological insight. In a swiftly evolving field, our methodological contributions constitute a significant leap forward in the application of scRNA-seq to the study of alternative isoform expression, providing innovative resources for delving deeper into the intricacies of post-transcriptional regulation and cellular function through the lens of single-cell transcriptomics. / The research project was funded by the BIO2015-71658 and BES-2016-076994 grants awarded by
the Spanish Ministry of Science and Innovation / Arzalluz Luque, Á. (2024). Understanding Isoform Expression and Alternative Splicing Biology through Single-Cell RNAseq [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203888
|
5 |
Development and application of computational methdologies for Integrated Molecular Systems BiologyKarathia, Hiren Mahendrabhai 30 November 2012 (has links)
L'objectiu del treball presentat en aquesta tesi va ser el desenvolupament i l'aplicació de metodologies computacionals que integren l’anàlisis de informació sobre seqüències proteiques, informació funcional i genòmica per a la reconstrucció, anotació i organització de proteomes complets, de manera que els resultats es poden comparar entre qualsevol nombre d'organismes amb genomes completament seqüenciats.
Metodològicament, m'he centrat en la identificació de l'organització molecular dins d'un proteoma complet d'un organisme de referència i comparació amb proteomes d'altres organismes, en espacial, estructural i funcional, el teixit cel • lular de desenvolupament, o els nivells de la fisiologia. La metodologia es va aplicar per abordar la qüestió de la identificació de organismes model adequats per a estudiar diferents fenòmens biològics. Això es va fer mitjançant la comparació d’un conjunt de proteines involucrades en diferents fenòmens biològics en Saccharomyces cerevisiae i Homo sapiens amb els conjunts corresponents d'altres organismes amb genomes. La tesi conclou amb la presentació d'un servidor web, Homol-MetReS, en què s'implementa la metodologia. Homol-MetReS proporciona un entorn de codi obert a la comunitat científica en què es poden realitzar múltiples nivells de comparació i anàlisi de proteomes. / El objetivo del trabajo presentado en esta tesis fue el desarrollo y la aplicación de metodologías computacionales que integran el análisis de la secuencia y de la información funcional y genómica, con el objetivo de reconstruir, anotar y organizar proteomas completos, de tal manera que estos proteomas se puedan comparar entre cualquier número de organismos con genomas completamente secuenciados.
Metodológicamente, I centrado en la identificación de organización molecular dentro de un proteoma completo de un organismo de referencia, vinculando cada proteína en que proteoma a las proteínas de otros organismos, de tal manera que cualquiera puede comparar los dos proteomas en espacial, estructural, funcional tejido, celular, el desarrollo o los niveles de la fisiología. La metodología se aplicó para abordar la cuestión de la identificación de organismos modelo adecuados para estudiar diferentes fenómenos biológicos. Esto se hizo comparando conjuntos de proteínas involucradas en diferentes fenómenos biológicos en Saccharomyces cerevisiae y Homo sapiens con los conjuntos correspondientes de otros organismos con genomas completamente secuenciados. La tesis concluye con la presentación de un servidor web, Homol-MetReS, en el que se implementa la metodología. Homol-MetReS proporciona un entorno de código abierto a la comunidad científica en la que se pueden realizar múltiples niveles de comparación y análisis de proteomas. / The aim of the work presented in this thesis was the development and application of computational methodologies that integrate sequence, functional, and genomic information to provide tools for the reconstruction, annotation and organization of complete proteomes in such a way that the results can be compared between any number of organisms with fully sequenced genomes. Methodologically, I focused on identifying molecular organization within a complete proteome of a reference organism and comparing with proteomes of other organisms at spatial, structural, functional, cellular tissue, development or physiology levels. The methodology was applied to address the issue of identifying appropriate model organisms to study different biological phenomena. This was done by comparing the protein sets involved in different biological phenomena in Saccharomyces cerevisiae and Homo sapiens. This thesis concludes by presenting a web server, Homol-MetReS, on which the methodology is implemented. It provides an open source environment to the scientific community on which they can perform multi-level comparison and analysis of proteomes.
|
6 |
Integrative approaches to investigate the molecular basis of diseases and adverse drug reactions: from multivariate statistical analysis to systems biologyBauer-Mehren, Anna 08 November 2010 (has links)
Despite some great success, many human diseases cannot be effectively treated, prevented or cured, yet. Moreover, prescribed drugs are often not very efficient and cause undesired side effects. Hence, there is a need to investigate the molecular basis of diseases and adverse drug reactions in more detail. For this purpose, relevant biomedical data needs to be gathered, integrated and analysed in a meaningful way. In this regard, we have developed novel integrative analysis approaches based on both perspectives, classical multivariate statistics and systems biology. A novel multilevel statistical method has been developed for exploiting molecular and pharmacological information for a set of drugs in order to investigate undesired side effects. Systems biology approaches have been used to study the genetic basis of human diseases at a global scale. For this purpose, we have developed an integrated gene-disease association database and tools for user-friendly access and analysis. We showed that modularity applies for mendelian, complex and environmental diseases and identified disease-related core biological processes. We have constructed a workflow to investigate adverse drug reactions using our gene-disease association database. A detailed study of currently available pathway data has been performed to evaluate its applicability to build network models. Finally, a strategy to integrate information about sequence variations with biological pathways has been implemented to study the effect of the sequence variations onto biological processes. In summary, the developed methods are of immense practical value for other biomedical researchers and can aid to improve the understanding of the molecular basis of diseases and adverse drug reactions.A pesar de que existen tratamientos eficaces para las enfermedades, no hay todavía una cura o un tratamiento efectivo para muchas de ellas. Asimismo los medicamentos pueden ser ineficaces o causar efectos secundarios indeseables. Por lo tanto, es necesario investigar en profundidad las bases moleculares de las enfermedades y de los efectos secundarios de los medicamentos. Para ello, es necesario identificar y analizar de forma integrada los datos biomédicos relevantes. En este sentido, hemos desarrollado nuevos métodos de análisis e integración de datos biomédicos que van desde el análisis estadístico multivariante a la biología de sistemas. En primer lugar, hemos desarrollado un nuevo método estadístico multinivel para la explotación de la información molecular y farmacológica de un conjunto de drogas a fin de investigar efectos secundarios no deseados. Luego, hemos usado métodos de biología de sistemas para estudiar las bases genéticas de enfermedades humanas a escala global. Para ello, hemos integrado en una base de datos asociaciones entre genes y enfermedades y hemos desarrollado herramientas para el fácil acceso y análisis de los datos. Mostramos que las enfermedades mendelianas, complejas y ambientales presentan modularidad e identificamos los procesos biológicos relacionados con dichas enfermedades. Hemos construido una herramienta para investigar las reacciones adversas a los medicamentos basada en nuestra base de datos de asociaciones entre genes y enfermedades. Realizamos un estudio detallado de los datos disponibles sobre los procesos biológicos para evaluar su aplicabilidad en la construcción de modelos dinámicos. Por último, desarrollamos una estrategia para integrar la información sobre las variaciones de secuencia de genes con los procesos biológicos para estudiar el efecto de dichas variaciones en los procesos biológicos. En resumen, los métodos presentados en esta tesis constituyen una herramienta valiosa para otros investigadores y pueden ayudar a mejorar la comprensión de las bases moleculares de las enfermedades y de las reacciones adversas a los medicamentos.
|
Page generated in 0.0989 seconds