Global ETD Search

1	Statistical Methods Development for the Multiomic Systems Biology Ugidos Guerrero, Manuel 28 April 2023 (has links) [ES] La investigación en Biología de Sistemas se ha expandido en los últimos años. El análisis simultáneo de diferentes tipos de datos ómicos permite el estudio de las conexiones y relaciones entre los diferentes niveles de organización celular. La presente tesis doctoral tiene como objetivo desarrollar y aplicar estrategias de integración multiómica al campo de la biología de sistemas. El elevado coste de las tecnologías ómicas, dificulta que los laboratorios puedan abordar un estudio multiómico completo. No obstante, la gran disponibilidad de datos ómicos en repositorios públicos, permite el uso de estos datos ya generados. Desafortunadamente, la combinación de datos ómicos provenientes de diferentes orígenes, da lugar a la aparición de un ruido no deseado en los datos, el efecto lote. El efecto lote impide el correcto análisis conjunto de los datos y es necesario el uso de los llamados Algoritmos de Corrección de Efecto Lote para eliminarlo. En la actualidad, existe un gran número de éstos algoritmos que se basan en diferentes modelos estadísticos. Sin embargo, los métodos existentes no están pensados para los diseños multiómicos ya que solo permiten la corrección de un mismo tipo de ómica que debe haber sido medida en todos los lotes. Por ello desarrollamos la herramienta MultiBaC basada en la regresión PLS y modelos ANOVA-SCA, que permite la corrección del efecto lote en diseños multiómicos, permitiendo la corrección de datos que no hayan sido medidos en todos los lotes. En este trabajo, MultiBaC fué validado y evaluado en diferentes conjuntos de datos, además presentamos MultiBaC como paquete de R para facilitar su uso. La mayoría de métodos existentes de integración multiómica son métodos multivariantes basados en el análisis del espacio latente. Estos métodos se conocen como ``dirigidos por datos'', y se basan en la búsqueda de correlaciones para determinar las relaciones entre las variables. Estos métodos necesitan de gran cantidad de observaciones o muestras para poder encontrar correlaciones significativas. Lamentablemente, en el mundo de la biología molecular, los conjuntos de datos con un gran número de muestras no son muy habituales, debido al elevado coste de generación de los datos. Como alternativa a los métodos dirigidos por datos, algunas estrategias de integración multiómicas se basan en métodos ``dirigidos por modelos''. Estos métodos pueden ajustarse con un menor número de observaciones y son muy útiles para encontrar relaciones mecanísticas entre los componentes celulares. Los métodos dirigidos por modelos necesitan de una información a priori, el modelo, que normalmente es un modelo metabólico del organismo estudiado. Actualmente, sólo transcriptómica y metabolómica cuantitativa, han sido los dos tipos de dato ómico que se han integrado con éxito usando métodos dirigidos por modelos.Sin embargo, la metabolómica cuantitativa no está muy extendida y la mayoría de laboratorios generan metabolómica no cuantitativa, la cuál no puede integrarse con los métodos actuales. Para contribuir en esta cuestión, desarrollamos MAMBA, una herramienta de integración multiómica dirigida por modelos y basada en métodología de optimización matemática, que es capaz de analizar conjuntamente metabolómica no cuantitativa con otro tipo de ómica asociada a genes, como por ejemplo la trascriptómica. MAMBA fue comparado con otros métodos existentes en cuanto a la capacidad de predcción de metabolitos y fué aplicado al conjunto interno de datos multiómicos. Este conjunto de datos multiómicos fue generado dentro del proyecto PROMETEO, en el cuál está enmarcada esta tesis. MAMBA demostró capturar la biología conocida sobre nuestro diseño experimental, además de ser útil para derivar nuevas observaciones e hipótesis biológicas. En conjunto, esta tesis presenta herramientas útiles para el campo de la biología de sistemas, y que cubren tanto el preprocesado de datos multiómicos como su posterior análisis estadístico integrativo. / [CA] La investigació en Biologia de Sistemes s'ha expandit els darrers. L'anàlisi simultània de diferents tipus de dades òmiques permet l'estudi de les connexions i les relacions entre els diferents nivells d'organització cel·lular. Aquesta tesi doctoral té com a objectiu desenvolupar i aplicar estratègies dintegració multiòmica al camp de la biologia de sistemes. L'elevat cost de les tecnologies òmiques dificulta que els laboratoris puguin abordar un estudi multiòmic complet. Això no obstant, la gran disponibilitat de dades òmiques en repositoris públics permet l'ús d'aquestes dades ja generades. Malauradament, la combinació de dades òmiques provinents de diferents orígens, dóna lloc a l'aparició d'un soroll no desitjat en les dades, l'efecte lot. L'efecte lot impedeix la correcta anàlisi conjunta de les dades i cal utilitzar els anomenats algorismes de correcció d'Efecte lot per eliminar-lo. Actualment hi ha un gran nombre d'aquests algorismes que corregeixen l'efecte lot que es basen en diferents models estadístics. Tot i això, els mètodes existents no estan pensats per als dissenys multiòmics ja que només permeten la correcció d'un mateix tipus de dada òmica que ha d'haver estat mesurada en tots els lots. Per això desenvolupem la nostra eina MultiBaC basada en la regressió PLS i models ANOVA-SCA, que pot corregir l'efecte lot en dissenys multiòmics, permetent la correcció de dades que no hagin estat mesurades a tots els lots. En aquest treball, MultiBaC ha sigut validat i avaluat en diferents conjunts de dades, a més a més, presentem MultiBaC com a paquet de R per facilitar l'ús de la nostra eina. La majoria de mètodes d'integració multiòmica existents són mètodes multivariants basats en l'anàlisi de l'espai latent. Aquests mètodes es coneixen com a "dirigits per dades", i es basen en la cerca de correlacions per determinar les relacions entre les diferents variables. Els mètodes dirigits per dades necessiten gran quantitat d'observacions o mostres per poder trobar correlacions significatives entre les variables. Lamentablement, al món de la biologia molecular, els conjunts de dades amb un gran nombre de mostres no són molt habituals, degut a l'elevat cost de generació de les dades òmiques. Com a alternativa als mètodes dirigits per dades, algunes estratègies d'integració multiòmiques es basen en mètodes "dirigits per models". Aquests mètodes poden ajustar-se amb un nombre menor d'observacions i són molt útils per trobar relacions mecanístiques entre els components cel·lulars. Tot i això, els mètodes dirigits per models necessiten una informació a priori, el model, que normalment és un model metabòlic de l'organisme estudiat. Actualment, únicament transcriptòmica i metabolòmica quantitativa, han estat els dos tipus de dada òmica que s'han integrat amb èxit usant mètodes dirigits per models. No obstant això, la metabolòmica quantitativa no està gaire estesa i la majoria de laboratoris generen metabolòmica no quantitativa, les quals no es poden integrar amb els mètodes actuals. Per contribuir en aquesta qüestió, hem desenvolupat MAMBA, una eina d'integració multiòmica dirigida per models i basada en la metodologia d'optimització matemàtica, que és capaç d'analitzar conjuntament metabolòmica no quantitativa amb un altre tipus d'òmica associada a gens, com per exemple la trascriptòmica. MAMBA va ser comparat amb altres mètodes existents quant a la capacitat de predcció de metabòlits i va ser aplicat al conjunt intern de dades multiòmiques. Aquest conjunt de dades multiòmiques va ser generat dins del projecte PROMETEO, en el qual està emmarcada aquesta tesi. Es demostra que MAMBA capturar la biologia coneguda sobre el nostre disseny experimental, a més de ser útil per derivar noves observacions i hipòtesis biològiques. En conjunt, aquesta tesi presenta eines útils per al camp de la biologia de sistemes, i que cobreixen tant el preprocessament de dades multiòmiques com la seua posterior anàlisi estadística integrativa. / [EN] Systems Biology research has expanded over the last years together with the development of omic technologies. The combination and simultaneous analysis of different kind of omic data allows the study of the connections and relationships between different cellular layers. Indeed, multiomic integration strategies provides a key source of knowledge about the cell as a system. The present Ph.D. thesis aims to study, develop and apply multiomic integration approaches to the field of systems biology. The still high cost of omics technologies makes it difficult for most laboratories to afford a complete multiomic study. However, the wide availability of omic data in public repositories allows the use of these already generated data. Unfortunately, the combination of omic data from different sources provokes the appearance of unwanted noise in data, known as batch effect. Batch effect impairs the correct integrative analysis of the data. Therefore, the use of so-called Batch Effect Correction Algorithms is necessary. As of today, there is a large number of such algorithms based on different statistical models and methods that correct batch effect and are part of the data pre-processing steps. However, the existing methods are not intended for multi-omics designs as they only allow the correction of the same type of omic data that must be measured across all batches. For this reason, we developed MultiBaC algorithm, which removes batch effect in multiomic designs, allowing the correction of data that are not measured across all batches. MultiBaC is based on PLS regression and ANOVA-SCA models and was validated and evaluated on different datasets. We also present MultiBaC as an R package to facilitate the use of this tool. Most existing multiomic integration approaches are multivariate methods based on latent space analysis. These methods are known as data-driven as they are based on the search for correlations to determine the relationships between the different variables. Data-driven methods require a large number of observations or samples to find robust and/or significant correlations among features. Unfortunately, in the molecular biology field, data sets with a large number of samples are not very common, again due to the high cost of generating omic data. As an alternative to data-driven methods, some multiomic integration strategies are based on model-driven approaches. These methods can be fitted with a smaller number of observations and are very useful for finding mechanistic relationships between different cellular components. However, model-driven methods require a priori information, which is usually a metabolic model of the organism under study. Currently, only transcriptomics and quantitative metabolomics have been successfully integrated using model-driven methods. Nonetheless, quantitative metabolomics is not very widespread and most laboratories generate non-quantitative or semi-quantitative metabolomics, which cannot be integrated with current methods. To address this issue, we developed MAMBA, a model-driven multiomic integration method that relies on mathematical optimization problems and is able to jointly analyze non-quantitative or semi-quantitative metabolomics with other types of gene-centric omic data, such as transcriptomics. MAMBA was compared to other existing methods in terms of metabolite prediction accuracy and was applied to a multiomic dataset generated within the PROMETEO project, in which this thesis is framed. MAMBA proved to capture the known biology of our experimental design and was useful for deriving new findings and biological hypotheses. Altogether, this thesis presents useful tools for the field of systems biology, covering both the pre-processing of multiomic datasets and their subsequent statistical integrative analysis. / Ugidos Guerrero, M. (2023). Statistical Methods Development for the Multiomic Systems Biology [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/193031 Biostatistics Computational biology Systems biology Molecular biology Biología computacional Bioestadística Biología de sistemas Biología molecular ESTADISTICA E INVESTIGACION OPERATIVA
2	Estudi bioinformàtic de la funcionalitat i conservació de l’splicing alternatiu Morata Chirivella, Jordi 28 June 2012 (has links) L'estudi de les diferències fenotípiques entre espècies, i entre individus, ha estat una de les grans qüestions fonamentals en els camps de la biologia evolutiva i la genètica. Ben aviat, es va fer palès que la regulació de l’expressió gènica tindria un paper clau en establir aquestes diferències de complexitat. L’adveniment de les tècniques massives de seqüenciació no van sinó confirmar aquesta visió primerenca. Avui dia coneixem un grapat de mecanismes que determinen aquestes diferències entre organismes, com són la divergència de seqüència proteica, la duplicació gènica o la divergència de la regió cis-reguladora, entre d’altres. En la darrera dècada, l’splicing alternatiu ha anat afermant-se com a mecanisme post-transcripcional freqüent i ha anat prenent protagonisme com a font de variabilitat de transcrits i isoformes proteiques, a més a més de jugar un paper regulador de l’expressió gènica. Per tant, l’splicing alternatiu és un ferm candidat a introduir diferències substancials al proteoma que expliquin la diversitat fenotípica entre organismes. Així doncs, aquest treball es va marcar com a objectiu aclarir fins a quin punt la variabilitat que introduïa l’splicing alternatiu tenia implicacions en el fenotip, quina era la seva conservació i si actuava de manera coordinada o independent amb d’altres mecanismes. En primer lloc, vam estudiar la relació que hi havia entre l’splicing alternatiu i les altres fonts moleculars de diversitat fenotípica i si era possible que l’splicing alternatiu pogués introduir variabilitat amb implicacions fenotípiques per si sola. A continuació, ens vam centrar en els mecanismes reguladors de l’expressió gènica basats en splicing alternatiu, analitzant les seves propietats i la seva conservació entre espècies. Finalment, vam examinar la implicació de l’splicing alternatiu en el fenomen de la domin{ncia gènica, ja que és un procés conegut que determina diferències fenotípiques intraespecífiques. El primer pas fou, doncs, comparar l’splicing alternatiu amb d’altres fonts moleculars de diferències fenotípiques: les divergències de la seqüència proteica, de la regió cis-reguladora del gen i de l’expressió gènica entre hum{ i ratolí. En un estudi massiu de les propietats de tots aquests fenòmens entre 13970 parelles d’ortòlegs, vam observar que l’splicing alternatiu podia introduir diferències abans que les altres variables poguessin fer-ho. Quan les identitats de seqüència proteica o de la regió cis-reguladora eren massa elevades com per introduir diferències, l’splicing alternatiu ja presentava patrons prou diferents en la concurrència d’splicing entre hum{ i ratolí. A més a més, la relació entre l’equivalència d’isoformes amb aquestes divergències també va resultar ser molt lleu, fet que ens va fer pensar que l’splicing alternatiu pot introduir isoformes específiques que contribueixin a les diferències entre espècies abans que les altres divergències puguin fer-ho. Pel que fa al segon bloc, vam investigar la conservació i propietats dels mecanismes reguladors de l’expressió gènica basats en AS. Primer de tot, vam confirmar la independència entre les divergències d’expressió gènica i l’splicing alternatiu, fet que ens indica que actuen a diferents nivells. A continuació, vam definir i classificar aquests mecanismes reguladors depenent com l’splicing alternatiu alterava l’arquitectura de dominis de les isoformes. La conservació d’aquests efectes, dels mecanismes reguladors basats en AS, va resultar ser baixa per tots els casos. Pel que fa als esdeveniments on es perdien un o més dominis a les isoformes alternatives, a més a més de ser baixa la conservació del mecanisme, també ho va ser l’equivalència dels esdeveniments d’splicing alternatiu. Així, tot i tenir efectes a nivell de seqüència no homòlegs, la funció es conservava, fet que ens porta a suggerir que aquests esdeveniments d’AS són un exemple de convergència funcional. Per últim, ens vam fixar en el procés de la dominància, abastament conegut, que introdueix diferències fenotípiques clares entre individus de la mateixa espècie, sobretot en el cas de malalties. Donat el fet que es coneixia una relació inversa entre paralogia i haploinsuficiència, per una banda, i paralogia i splicing per l’altra, sumat a la capacitat d’introduir variabilitat per part de l’splicing alternatiu, vam endegar aquest estudi amb la idea de descriure la relació entre dominància i splicing. El resultat final ens va mostrar una independència dels dos processos, fet que ens va fer qüestionar la relació entre paralogia i splicing alternatiu. Per la resta de variables estudiades, la caracterització de la dominància va concordar amb els resultats de treballs anteriors. / RESUMEN El estudio de las diferencias fenotípicas entre especies ha sido una de les cuestiones fundamentales de la biología evolutiva y la genética. Muy pronto fue evidente que la regulación de la expresión génica seria clava en el establecimiento de estas diferencias, tesis confirmada con las técnicas masivas de secuenciación actuales. Hoy en día, se conocen una serie de mecanismos que determinan estas diferencias, como son la divergencia de la secuencia proteica, la duplicación génica o la divergencia de la región cis-reguladora. En la última década, el splicing alternativo (AS) ha ido afianzándose como mecanismo post-transcripcional y ha ido tomando protagonismo como fuente de variabilidad de transcritos y isoformas, además de jugar un papel regulador de la expresión génica. Por lo tanto, el AS es un firme candidato a introducir diferencias sustanciales en el proteoma que expliquen la diversidad fenotípica entre organismos. Así pues, este trabajo se marcó como objetivo aclarar hasta qué punto la variabilidad que introducía el AS tenía implicaciones en el fenotipo, cuál era su conservación y si actuaba de manera coordinada o independiente con otros mecanismos. En primer lugar, estudiamos la relación que había entre el AS y las otras fuentes moleculares de diversidad fenotípica y si era posible que el AS pudiera introducir variabilidad con implicaciones fenotípicas por sí sola. A continuación, nos centramos en los mecanismos reguladores de la expresión génica basados en AS, analizando sus propiedades y su conservación entre especies. Finalmente, examinamos la implicación del AS en la dominancia génica. En el primer bloque comparamos el AS con otras fuentes moleculares de diferencias fenotípicas: las divergencias de la secuencia proteica, de la región cis-reguladora del gen y de la expresión génica entre humano y ratón. En un estudio masivo de las propiedades de todos estos fenómenos entre 13.970 ortólogos, observamos que el AS podía introducir diferencias antes que las otras variables pudieran hacerlo. Cuando las identidades de secuencia proteica o de la región cis-reguladora eran demasiado elevadas como para introducir diferencias, el AS ya presentaba patrones bastante diferentes en la concurrencia de AS entre humano y ratón. Además, la relación entre la equivalencia de isoformas con estas divergencias también resultó ser muy leve, lo que nos hizo pensar que el AS puede introducir isoformas específicas que contribuyan a las diferencias entre especies antes que las demás divergencias puedan hacerlo. En el segundo bloque investigamos la conservación y propiedades de los mecanismos reguladores de la expresión génica basados en AS. En primer lugar, confirmamos la independencia entre las divergencias de expresión génica y del AS, lo que nos indica que actúan a diferentes niveles. A continuación, definimos estos mecanismos reguladores dependiendo como el AS alteraba la arquitectura de dominios de las isoformas. La conservación de los mecanismos reguladores basados en AS resultó ser baja en todos los casos. En cuanto a los eventos donde se perdían uno o más dominios en las isoformas alternativas, también fue baja la equivalencia de los eventos de AS. Así, pese a tener efectos a nivel de secuencia no homólogos, la función se conservaba, lo que nos permite sugerir que éste es un escenario de convergencia funcional. Por último, nos fijamos en el proceso de la dominancia, largamente conocido, que introduce diferencias fenotípicas intraespecíficas. Dado que se conocía una relación inversa entre paralogía y haploinsuficiencia, por un lado, y paralogía y AS por la otra, sumado a la capacidad de introducir variabilidad por parte del AS, iniciamos este estudio con la idea de describir la relación entre dominancia y AS. El estudio nos mostró una independencia de los dos procesos, cuestionando así la relación entre paralogía y AS. Para el resto de variables estudiadas, la caracterización de la dominancia concordó con resultados de trabajos anteriores. / The study of phenotypic differences between species, and between individuals, has been one of the great fundamental questions in the fields of evolutionary biology and genetics. Soon, it became clear that the regulation of gene expression would have a key role in establishing these differences in complexity. The advent of mass sequencing techniques did confirm this view. Nowadays, we know a handful of mechanisms that determine these differences between organisms, such as protein sequence divergence, gene duplication and divergence of cis-regulatory region, among others. In the last decade, alternative splicing has been asserting itself as a post-transcriptional mechanism and frequently has taken center stage as a source of variability of transcripts and protein isoforms, and also as a key player in the regulation the gene expression. Therefore, alternative splicing is a strong candidate to introduce substantial differences in the proteome that could explain the phenotypic diversity among organisms. Thus, this work was intended to clarify to what extent the variability introduced the alternative splicing (AS) had implications for the phenotype, which was its conservation and if it acted in a coordinated or independent way relative to other mechanisms. First, we studied the relationship that existed between AS and other sources of molecular and phenotypic diversity and elucidate if AS could introduce phenotypic variability with its own implications. Then we focused on the regulatory mechanisms of gene expression based on AS, analyzing their properties and their conservation between species. Finally, we examined the involvement of AS in the phenomenon of genetic dominance, since it is a known process that determines intraspecific phenotypic differences. The first step was therefore to compare the AS with other sources of molecular phenotypic differences: differences in the protein sequence, the cis-regulatory region of the gene and gene expression between human and mouse. In a massive study of the properties of these phenomena among 13,970 pairs of orthologous, we observed that alternative splicing could introduce differences before other variables could do it. When the identities of protein sequence or cis-regulatory region were too high for introducing differences, AS patterns appeared quite different in the occurrence of splicing between human and mouse. Furthermore, we found that the relationship between the equivalence of isoforms with those differences was very mild, which made us think that AS can introduce specific isoforms that contribute to differences between species before other divergences can do it. Regarding the second section, we investigated the properties and the conservation of the regulatory mechanisms of gene expression based on AS. First, we confirmed the independence between the divergence of gene expression and AS, which indicates that they act at different levels. Then we defined and classified these regulatory mechanisms depending on how the AS altered the domain architecture of the isoforms. The conservation of these effects, the regulatory mechanisms based on AS, was found to be low for all cases. With regard to the events where they lost one or more domains in the alternative isoforms, in addition to the low conservation of the mechanism, it was also low the equivalence of alternative splicing events. So, despite having an non-homologue effect on the level of sequence, the function was preserved, which leads us to suggest that these AS events are an example of functional convergence. Finally, we studied the well known process of dominance which introduces clear phenotypic differences between individuals of the same species, especially in the case of diseases. Given the fact that it is known the inverse relationship between paralogy and haploinsufficiency and, in the other hand, the inverse relationship between paralogy and AS, adding to this the ability of introducing variability by AS, we undertook this study with the idea of describe the relationship between dominance and splicing. The final result showed us that they are two independent processes, which made us question the relationship between paralogy and AS. For the remaining variables, the characterization of the dominance results agreed with previous work. Bioinformàtica Bioinformática Bioinformatics Splicing alternatiu Splicing alternativo Alternative splicing Proteòmica Proteomics Proteómica Biologia computacional Biología computacional Computational biology Ciències Experimentals i Matemàtiques 577
3	Mixed quantum and classical simulation techniques for mapping electron transfer in proteins Wallrapp, Frank 04 April 2011 (has links) El objetivo de esta tesis se centra en el estudio de la transferencia de electrones (ET), una de las reacciones más simples y cruciales en bioquímica. Para dichos procesos, obtener información directa de los factores que lo promueves, asi como del camino de transferencia electronica, no es una tarea trivial. Dicha información a un nivel de conocimiento detallado atómico y electrónico, sin embargo, es muy valiosa en términos de una mejor comprensión del ciclo enzimático, que podría conducir, por ejemplo, a un diseño más eficaz de inhibidores. El objetivo principal de esta tesis es el desarrollo de una metodología para el estudio cuantitativo de la ET en los sistemas biológicos. En este sentido, hemos desarrollado un nuevo método para obtener el camino de transferencia electrónico, llamado QM/MM e-‐ Pathway, que se puede aplicar en sistemas complejos con ET de largo alcance. El método se basa en una búsqueda sucesiva de residuos importantes para la ET, utilizando la modificación de la región quantica en métodos mixtos QM/MM, y siguiendo la evolución de la densidad de espín dentro de la zona de transferencia. Hemos demostrado la utilidad y la aplicabilidad del algoritmo en el complejo P450cam/Pdx, identificando el papel clave de la Arg112 (en P450cam) y del Asp48 (en Pdx), ambos conocidos en la literatura. Además de obtener caminos de ET, hemos cuantificado su importancia en términos del acoplamiento electrónico entre el dador y aceptor para los diferentes caminos. En este sentido, se realizaron dos estudios de la influencia del solvente y de la temperatura en el acoplamiento electrónico para sistemas modelo oligopéptidos. Ambos estudios revelaron que los valores del acoplamiento electrónico fluctúan fuertemente a lo largo de las trayectorias de dinámica molecular obtenidas, y el mecanismo de transferencia de electrones se ve ampliamente afectado por el espacio conformacional del sistema. La combinación del QM/MM e-‐pathway y de los cálculos de acoplamiento electronico fueron utilizados finalmente para investigar la ET en el complejo CCP/Cytc. Nuestros hallazgos indican el papel fundamental del Trp191 en localizar un estadio intermedio para la transferencia electronica, así como el camino ET principal que incluye Ala194, Ala193, Gly192 y Trp191. Ambos hallazgos fueron confirmados a través de la literatura. Los resultados obtenidos para el muestro de manios de ET, junto con su evaluación a través de cálculos de acoplamiento electrónico, sugieren un enfoque sencillo y prometedor para investigar ET de largo alcance en proteínas. / The focus of this PhD thesis lies on electron transfer (ET) processes, belonging to the simplest but most crucial reactions in biochemistry. Getting direct information of the forces driving the process and the actual electron pathway is not a trivial task. Such atomic and electronic detailed information, however, is very valuable in terms of a better understanding of the enzymatic cycle, which might lead, for example, to more efficient protein inhibitor design. The main objective of this thesis was the development of a methodology for the quantitative study of ET in biological systems. In this regard, we developed a novel approach to map long-‐range electron transfer pathways, called QM/MM e-‐Pathway. The method is based on a successive search for important ET residues in terms of modifying the QM region following the evolution of the spin density of the electron (hole) within a given transfer region. We proved the usefulness and applicability of the algorithm on the P450cam/Pdx complex, indicating the key role of Arg112 of P450cam and Asp48 of Pdx for its ET pathway, both being known to be important from the literature. Besides only identifying the ET pathways, we further quantified their importance in terms of electronic coupling of donor and acceptor incorporating the particular pathway residues. Within this regard, we performed two systematic evaluations of the underlying reasons for the influence of solvent and temperature onto electronic coupling in oligopeptide model systems. Both studies revealed that electronic coupling values strongly fluctuate throughout the molecular dynamics trajectories obtained, and the mechanism of electron transfer is affected by the conformational space the system is able to occupy. Combining both ET mapping and electronic coupling calculations, we finally investigated the electron transfer in the CcP/Cytc complex. Our findings indicate the key role of Trp191 being the bridge-‐localized state of the ET as well as the main pathway consisting of Ala194, Ala193, Gly192 and Trp191 between CcP and Cytc. Both findings were confirmed through the literature. Moreover, our calculations on several snapshots state a nongated ET mechanism in this protein complex. The methodology developed along this thesis, mapping ET pathways together with their evaluation through electronic coupling calculations, suggests a straightforward and promising approach to investigate long-‐range ET in proteins. Biología Computacional Biofísica Proteínas complejas Mecánica cuántica Dinámica conformacional Camino de trransferencia de electrones Generalized Mulliken-Hush Fragment charge difference method Computational biology molecular mechanics 57
4	Understanding Isoform Expression and Alternative Splicing Biology through Single-Cell RNAseq Arzalluz Luque, Ángeles 27 April 2024 (has links) [ES] La introducción de la secuenciación de ARN a nivel de célula única (scRNA-seq) en el ámbito de la transcriptómica ha redefinido nuestro entendimiento de la diversidad celular, arrojando luz sobre los mecanismos subyacentes a la heterogeneidad tisular. No obstante, al inicio de esta tesis, las limitaciones de a esta tecnología obstaculizaban su aplicación en el estudio de procesos complejos, entre ellos el splicing alternativo. A pesar de ello, los patrones de splicing a nivel celular planteaban incógnitas que esta tecnología tenía el potencial de resolver: ¿es posible observar, a nivel celular, la misma diversidad de isoformas que se detecta mediante RNA-seq a nivel de tejido? ¿Qué función desempeñan las isoformas alternativas en la constitución de la identidad celular? El objetivo de esta tesis es desbloquear el potencial del scRNA-seq para el análisis de isoformas, abordando sus dificultades técnicas y analíticas mediante el desarrollo de nuevas metodologías computacionales. Para lograrlo, se trazó una hoja de ruta con tres objetivos. Primero, se establecieron cuatro requisitos para el estudio de las isoformas mediante scRNA-seq, llevando a cabo una revisión de la literatura existente para evaluar su cumplimiento. Tras completar este marco con simulaciones computacionales, se identificaron las debilidades y fortalezas de los métodos de scRNA-seq y las herramientas computacionales disponibles. Durante la segunda etapa de la investigación, estos conocimientos se utilizaron para diseñar un protocolo óptimo de procesamiento de datos de scRNA-seq. En concreto, se integraron datos de lecturas largas a nivel de tejido con datos de scRNA-seq para garantizar una identificación adecuada de las isoformas así como su cuantificación a nivel celular. Este proceso permitió ampliar las estrategias computacionales disponibles para la reconstrucción de transcriptomas a partir de lecturas largas, mejoras que fueron implementadas en SQANTI3, software de referencia en transcriptómica. Por último, los datos procesados se utilizaron para desarrollar un nuevo método de análisis de co-expresión de isoformas a fin de desentrañar redes de regulación del splicing alternativo implicadas en la constitución de la identidad celular. Dada la elevada variabilidad de los datos de scRNA-seq, este método se basa en la utilización de una estrategia de correlación basada en percentiles que atenúa el ruido técnico y permite la identificación de grupos de isoformas co-expresadas. Una vez configurada la red de co-expresión, se introdujo una nueva estrategia de análisis para la detección de patrones de co-utilización de isoformas que suceden de forma independiente a la expresión a nivel de gen, denominada co-Differential Isoform Usage. Este enfoque facilita la identificación de una capa de regulación de la identidad celular atribuible únicamente a mecanismos post-transcripcionales. Para una interpretación biológica más profunda, se aplicó una estrategia de anotación computacional de motivos y dominios funcionales en las isoformas definidas con lecturas largas, revelando las propiedades biológicas de las isoformas involucradas en la red de co-expresión. Estas investigaciones culminan en el lanzamiento de acorde, un paquete de R que encapsula las diferentes metodologías desarrolladas en esta tesis, potenciando la reproducibilidad de sus resultados y proporcionando una nueva herramienta para explorar la biología de las isoformas alternativas a nivel de célula única. En resumen, esta tesis describe una serie de esfuerzos destinados a desbloquear el potencial de los datos de scRNA-seq para avanzar en la comprensión del splicing alternativo. Desde un contexto de escasez de herramientas y conocimiento previo, se han desarrollado soluciones de análisis innovadoras que permiten la aplicación de scRNA-seq al estudio de las isoformas alternativas, proporcionando recursos innovadores para profundizar en la regulación post-transcripcional y la función celular. / [CA] La introducció de la seqüenciació d'ARN a escala de cèl·lula única (scRNA-seq) en l'àmbit de la transcriptòmica ha redefinit el nostre enteniment de la diversitat cel·lular, projectant llum sobre els mecanismes subjacents a l'heterogeneïtat tissular. Malgrat les limitacions inicials d'aquesta tecnologia, especialment en el context de processos complexos com l'splicing alternatiu, els patrons d'splicing a escala cel·lular plantejaven incògnites amb potencial de resolució: és possible observar, a escala cel·lular, la mateixa diversitat d'isoformes que es detecta mitjançant RNA-seq en teixits? Quina funció tenen les isoformes alternatives en la constitució de la identitat cel·lular? L'objectiu d'aquesta tesi és desbloquejar el potencial del scRNA-seq per a l'anàlisi d'isoformes alternatives, abordant les seues dificultats tècniques i analítiques amb noves metodologies computacionals. Per a això, es va traçar una ruta amb tres objectius. Primerament, es van establir quatre requisits per a l'estudi de les isoformes mitjançant scRNA-seq, amb una revisió de la literatura existent per avaluar-ne el compliment. Després de completar aquest marc amb simulacions computacionals, es van identificar les debilitats i fortaleses dels mètodes de scRNA-seq i de les eines computacionals disponibles. Durant la segona etapa de la investigació, aquests coneixements es van utilitzar per dissenyar un protocol òptim de processament de dades de scRNA-seq. En concret, es van integrar dades de lectures llargues a escala de teixit amb dades de scRNA-seq per a garantir una identificació adequada de les isoformes així com la seua quantificació a escala cel·lular. Aquest procés va permetre ampliar les estratègies computacionals disponibles per a la reconstrucció de transcriptomes a partir de lectures llargues, millores que van ser implementades en SQANTI3, un programari de referència en transcriptòmica. Finalment, les dades processades es van fer servir per a desenvolupar un nou mètode d'anàlisi de coexpressió d'isoformes amb l'objectiu de desentranyar xarxes de regulació de l'splicing alternatiu implicades en la constitució de la identitat cel·lular. Donada l'elevada variabilitat de les dades de scRNA-seq, aquest mètode es basa en la utilització d'una estratègia de correlació basada en percentils que minimitza el soroll tècnic i permet la identificació de grups d'isoformes coexpressades. Un cop configurada la xarxa de coexpressió, es va introduir una nova estratègia d'anàlisi per a la detecció de patrons de co-utilització d'isoformes que succeeixen de forma independent a l'expressió del seu gen, denominada co-Differential Isoform Usage. Aquest enfocament facilita la identificació d'una capa de regulació de la identitat cel·lular atribuïble únicament a mecanismes post-transcripcionals. Per a una interpretació biològica més profunda, es va aplicar una estratègia d'anotació computacional de motius i dominis funcionals en les isoformes definides amb lectures llargues, revelant les propietats biològiques de les isoformes involucrades en la xarxa de coexpressió. Aquestes investigacions culminen en el llançament d'acorde, un paquet de R que encapsula les diferents metodologies desenvolupades en aquesta tesi, potenciant la reproducibilitat dels seus resultats i proporcionant una nova eina per a explorar la biologia de les isoformes alternatives a escala de cèl·lula única. En resum, aquesta tesi descriu una sèrie d'esforços destinats a desbloquejar el potencial de les dades de scRNA-seq per a avançar en la comprensió de l'splicing alternatiu. Des d'un context de manca d'eines i coneixement previ, s'han desenvolupat solucions d'anàlisi innovadores que permeten l'aplicació de scRNA-seq a l'estudi de les isoformes alternatives, proporcionant recursos innovadors per a aprofundir en la regulació post-transcripcional i la funció cel·lular. / [EN] In the world of transcriptomics, the emergence of single-cell RNA sequencing (scRNA-seq) ignited a revolution in our understanding of cellular diversity, unraveling novel mechanisms in tissue heterogeneity, development and disease. However, when this thesis began, using scRNA-seq to understand Alternative Splicing (AS) was a challenging frontier due the inherent limitations of the technology. In spite of this research gap, pertinent questions persisted regarding cell-level AS patterns, particularly concerning the recapitulation of isoform diversity observed in bulk RNA-seq data at the cellular level and the roles played by cell and cell type-specific isoforms. The work conducted in the present thesis aims to harness the potential of scRNA-seq for alternative isoform analysis, outlining technical and analytical challenges and designing computational methods to overcome them. To achieve this, we established a roadmap with three main aims. First, we set requirements for studying isoforms using scRNA-seq and conducted an extensive review of existing research, interrogating whether these requirements were met. Combining this acquired knowledge with several computational simulations allowed us to delineate the strengths and pitfalls of available data generation methods and computational tools. During the second research stage, this insight was used to design a suitable data processing pipeline, in which we jointly employed bulk long-read and short-read scRNA-seq sequenced from full-length cDNAs to ensure adequate isoform reconstruction as well as sensitive cell-level isoform quantification. Additionally, we refined available transcriptome curation strategies, introducing them as innovative modules in the transcriptome quality control software SQANTI3. Lastly, we harnessed single-cell isoform expression data and the rich biological diversity inherent in scRNA-seq, encompassing various cell types, in the design of a novel isoform co-expression analysis method. Percentile correlations effectively mitigated single-cell noise, unveiling clusters of co-expressed isoforms and exposing a layer of regulation in cellular identity that operated independently of gene expression. We additionally introduced co-Differential Isoform Usage (coDIU) analysis, enhancing our ability to interpret isoform cluster networks. This endeavour, combined with the computational annotation of functional sites and domains in the long read-defined isoform models, unearthed a distinctive functional signature in coDIU genes. This research effort materialized in the release of acorde, an R package that encapsulates all analyses functionalities developed throughout this thesis, providing a reproducible means for the scientific community to further explore the depths of alternative isoform biology within single-cell transcriptomics. This thesis describes a complex journey aimed at unlocking the potential of scRNA-seq data for investigating AS and isoforms: from a landscape marked by the scarcity of tools and guidelines, towards the development of novel analysis solutions and the acquisition of valuable biological insight. In a swiftly evolving field, our methodological contributions constitute a significant leap forward in the application of scRNA-seq to the study of alternative isoform expression, providing innovative resources for delving deeper into the intricacies of post-transcriptional regulation and cellular function through the lens of single-cell transcriptomics. / The research project was funded by the BIO2015-71658 and BES-2016-076994 grants awarded by the Spanish Ministry of Science and Innovation / Arzalluz Luque, Á. (2024). Understanding Isoform Expression and Alternative Splicing Biology through Single-Cell RNAseq [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/203888 Transcriptómica Isoformas alternativas Splicing alternativo Bioinformática Biología computacional Computational biology Bioinformatics Alternative splicing Alternative isoforms Single-cell RNA-seq Transcriptomics ESTADISTICA E INVESTIGACION OPERATIVA
5	Development and application of computational methdologies for Integrated Molecular Systems Biology Karathia, Hiren Mahendrabhai 30 November 2012 (has links) L'objectiu del treball presentat en aquesta tesi va ser el desenvolupament i l'aplicació de metodologies computacionals que integren l’anàlisis de informació sobre seqüències proteiques, informació funcional i genòmica per a la reconstrucció, anotació i organització de proteomes complets, de manera que els resultats es poden comparar entre qualsevol nombre d'organismes amb genomes completament seqüenciats. Metodològicament, m'he centrat en la identificació de l'organització molecular dins d'un proteoma complet d'un organisme de referència i comparació amb proteomes d'altres organismes, en espacial, estructural i funcional, el teixit cel • lular de desenvolupament, o els nivells de la fisiologia. La metodologia es va aplicar per abordar la qüestió de la identificació de organismes model adequats per a estudiar diferents fenòmens biològics. Això es va fer mitjançant la comparació d’un conjunt de proteines involucrades en diferents fenòmens biològics en Saccharomyces cerevisiae i Homo sapiens amb els conjunts corresponents d'altres organismes amb genomes. La tesi conclou amb la presentació d'un servidor web, Homol-MetReS, en què s'implementa la metodologia. Homol-MetReS proporciona un entorn de codi obert a la comunitat científica en què es poden realitzar múltiples nivells de comparació i anàlisi de proteomes. / El objetivo del trabajo presentado en esta tesis fue el desarrollo y la aplicación de metodologías computacionales que integran el análisis de la secuencia y de la información funcional y genómica, con el objetivo de reconstruir, anotar y organizar proteomas completos, de tal manera que estos proteomas se puedan comparar entre cualquier número de organismos con genomas completamente secuenciados. Metodológicamente, I centrado en la identificación de organización molecular dentro de un proteoma completo de un organismo de referencia, vinculando cada proteína en que proteoma a las proteínas de otros organismos, de tal manera que cualquiera puede comparar los dos proteomas en espacial, estructural, funcional tejido, celular, el desarrollo o los niveles de la fisiología. La metodología se aplicó para abordar la cuestión de la identificación de organismos modelo adecuados para estudiar diferentes fenómenos biológicos. Esto se hizo comparando conjuntos de proteínas involucradas en diferentes fenómenos biológicos en Saccharomyces cerevisiae y Homo sapiens con los conjuntos correspondientes de otros organismos con genomas completamente secuenciados. La tesis concluye con la presentación de un servidor web, Homol-MetReS, en el que se implementa la metodología. Homol-MetReS proporciona un entorno de código abierto a la comunidad científica en la que se pueden realizar múltiples niveles de comparación y análisis de proteomas. / The aim of the work presented in this thesis was the development and application of computational methodologies that integrate sequence, functional, and genomic information to provide tools for the reconstruction, annotation and organization of complete proteomes in such a way that the results can be compared between any number of organisms with fully sequenced genomes. Methodologically, I focused on identifying molecular organization within a complete proteome of a reference organism and comparing with proteomes of other organisms at spatial, structural, functional, cellular tissue, development or physiology levels. The methodology was applied to address the issue of identifying appropriate model organisms to study different biological phenomena. This was done by comparing the protein sets involved in different biological phenomena in Saccharomyces cerevisiae and Homo sapiens. This thesis concludes by presenting a web server, Homol-MetReS, on which the methodology is implemented. It provides an open source environment to the scientific community on which they can perform multi-level comparison and analysis of proteomes. Sistemes de Biologia Molecular Integració de dades biològiques Biologia Computacional Anàlisi de la seqüència Sistemas de Biología Molecular Integración de datos biológicos Biología Computacional Molecular Systems Biology Proteome Computational Biology Bioquímica i Biologia Molecular 573
6	Integrative approaches to investigate the molecular basis of diseases and adverse drug reactions: from multivariate statistical analysis to systems biology Bauer-Mehren, Anna 08 November 2010 (has links) Despite some great success, many human diseases cannot be effectively treated, prevented or cured, yet. Moreover, prescribed drugs are often not very efficient and cause undesired side effects. Hence, there is a need to investigate the molecular basis of diseases and adverse drug reactions in more detail. For this purpose, relevant biomedical data needs to be gathered, integrated and analysed in a meaningful way. In this regard, we have developed novel integrative analysis approaches based on both perspectives, classical multivariate statistics and systems biology. A novel multilevel statistical method has been developed for exploiting molecular and pharmacological information for a set of drugs in order to investigate undesired side effects. Systems biology approaches have been used to study the genetic basis of human diseases at a global scale. For this purpose, we have developed an integrated gene-disease association database and tools for user-friendly access and analysis. We showed that modularity applies for mendelian, complex and environmental diseases and identified disease-related core biological processes. We have constructed a workflow to investigate adverse drug reactions using our gene-disease association database. A detailed study of currently available pathway data has been performed to evaluate its applicability to build network models. Finally, a strategy to integrate information about sequence variations with biological pathways has been implemented to study the effect of the sequence variations onto biological processes. In summary, the developed methods are of immense practical value for other biomedical researchers and can aid to improve the understanding of the molecular basis of diseases and adverse drug reactions.A pesar de que existen tratamientos eficaces para las enfermedades, no hay todavía una cura o un tratamiento efectivo para muchas de ellas. Asimismo los medicamentos pueden ser ineficaces o causar efectos secundarios indeseables. Por lo tanto, es necesario investigar en profundidad las bases moleculares de las enfermedades y de los efectos secundarios de los medicamentos. Para ello, es necesario identificar y analizar de forma integrada los datos biomédicos relevantes. En este sentido, hemos desarrollado nuevos métodos de análisis e integración de datos biomédicos que van desde el análisis estadístico multivariante a la biología de sistemas. En primer lugar, hemos desarrollado un nuevo método estadístico multinivel para la explotación de la información molecular y farmacológica de un conjunto de drogas a fin de investigar efectos secundarios no deseados. Luego, hemos usado métodos de biología de sistemas para estudiar las bases genéticas de enfermedades humanas a escala global. Para ello, hemos integrado en una base de datos asociaciones entre genes y enfermedades y hemos desarrollado herramientas para el fácil acceso y análisis de los datos. Mostramos que las enfermedades mendelianas, complejas y ambientales presentan modularidad e identificamos los procesos biológicos relacionados con dichas enfermedades. Hemos construido una herramienta para investigar las reacciones adversas a los medicamentos basada en nuestra base de datos de asociaciones entre genes y enfermedades. Realizamos un estudio detallado de los datos disponibles sobre los procesos biológicos para evaluar su aplicabilidad en la construcción de modelos dinámicos. Por último, desarrollamos una estrategia para integrar la información sobre las variaciones de secuencia de genes con los procesos biológicos para estudiar el efecto de dichas variaciones en los procesos biológicos. En resumen, los métodos presentados en esta tesis constituyen una herramienta valiosa para otros investigadores y pueden ayudar a mejorar la comprensión de las bases moleculares de las enfermedades y de las reacciones adversas a los medicamentos. redes biológicas procesos biológicos análisis de redes asociaciones entre genes y enfermedades efectos adversos a medicamentos análisis estadístico multivariante investigación biomédica biología de enfermedades biología de sistemas integración de datos biología computacional bioinformática drug safety signal genetic origin of disease network biology biological pathway gene-disease associations multivariate statistical analysis adverse drug reactions disease biology biomedical research systems biology data integration computational biology bioinformatics 57

1

Page generated in 0.0618 seconds