Global ETD Search

1	Development and application of bioinformatic tools for the representation and analysis of genetic diversity Casillas Viladerrams, Sònia 20 February 2008 (has links) La variació genètica és la pedra angular de l'evolució biològica. La descripció i explicació de les forces que controlen la variació genètica dins i entre poblacions és el principal objectiu de la genètica de poblacions. L'obtenció d'un número explosiu de seqüències nucleotídiques a diferents gens i espècies ha canviat radicalment les perspectives de la genètica de poblacions, transformant-la des d'una ciència empírica insuficient fins a un esforç interdisciplinari de gran abast, on els aparells de generació de noves seqüències a gran escala s'integren amb eines bioinformàtiques per a l'extracció i gestió de dades, juntament amb avançats models teòrics i estadístics per a la seva interpretació. Aquesta tesi és un projecte de bioinformàtica i genètica de poblacions complet, l'objectiu principal del qual és l'estudi de la diversitat genètica a les poblacions. S'ha dut a terme en tres passos seqüencials: (i) el desenvolupament d'eines per a l'extracció, processat, filtrat i control de qualitat de seqüències nucleotídiques, (ii) la generació de bases de dades de coneixement a partir de les dades obtingudes a la primera part i (iii) la prova d'hipòtesis que requereixen de dades de varies espècies i loci. A la primera part de la tesi hem desenvolupat PDA (Pipeline Diversity Analysis), una aplicació Web de codi obert que permet l'exploració del polimorfisme a grans conjunts de seqüències de DNA heterogènies. Aquesta eina es nodreix dels milions de seqüències haplotípiques d'estudis individuals que hi ha emmagatzemades a les principals bases de dades moleculars i genera dades de genètica de poblacions que poden ser utilitzades per a descriure patrons de variació nucleotídica a qualsevol espècie o gen. Totes les dades extretes i analitzades a la primera part de la tesi són utilitzades a la segona part per a crear un recurs via Web complet que proporciona col·leccions de seqüències polimòrfiques amb les seves mesures de diversitat associades en el gènere Drosophila (DPDB, Drosophila Polymorphism Database). Aquest recurs ha significat un repte ambiciós que ha permès posar a prova l'eficiència del sistema creat a la primera part.Finalment, s'inclouen dos estudis que utilitzen els mòduls d'extracció i anàlisi de dades desenvolupats a la primera part. En el primer, hem estudiat patrons de variació genètica per a inferir selecció negativa i positiva a seqüències conservades no codificadores a Drosophila. Per a aquest estudi hem utilitzat dades de re-seqüenciació a D. melanogaster junt amb dades genòmiques comparatives a d'altres espècies de Drosophila per a demostrar que les regions fredes de mutació no poden explicar aquests blocs conservats. Els resultats mostren que les seqüències conservades no codificadores són mantingudes per l'acció de la selecció purificadora. El segon estudi es centra en l'evolució codificant dels gens Hox, una classe de factors de transcripció essencials en el desenvolupament primerenc que estan involucrats en l'especificació de les regions al llarg de l'eix anteroposterior del cos. Hem mesurat les taxes de divergència nucleotídica i de fixació d'insercions i delecions a tres gens Hox, i les hem comparat amb les de tres gens derivats de Hox i un conjunt de gens no Hox per a provar la hipòtesi que els gens Hox evolucionen lentament. Els resultats mostren que tant el número de substitucions no sinònimes com el grau de constrenyiment funcional no són significativament diferents entre els gens Hox i els no Hox, i que els gens Hox i els derivats de Hox contenen significativament més insercions i delecions que els gens no Hox a les seves seqüències codificants. Per tant, els gens Hox evolucionen més ràpidament que altres gens essencials expressats al desenvolupament primerenc, amb patrons d'expressió complexos o amb introns llargs rics en elements cis-reguladors.Resumint, els treballs presentats a aquesta tesi tanquen un cicle complet de projecte bioinformàtic, incloent tots els passos necessaris des de l'extracció de dades fins a la generació de nou coneixement científic. És més, el resultat de cada pas és la llavor per a múltiples possibles estudis en el següent pas, i per tant aquesta tesi té moltes aplicacions per a la comunitat científica. / La variación genética es la piedra angular de la evolución biológica. La descripción y explicación de las fuerzas que controlan la variación genética dentro y entre poblaciones es el principal objetivo de la genética de poblaciones. La obtención de un número explosivo de secuencias nucleotídicas en distintos genes y especies ha cambiado radicalmente las perspectivas de la genética de poblaciones, transformándola desde una ciencia empírica insuficiente a un esfuerzo interdisciplinario de un gran alcance, donde los aparatos de generación de nuevas secuencias a gran escala se integran con herramientas bioinformáticas para la extracción y gestión de datos, junto a avanzados modelos teóricos y estadísticos para su interpretación.Esta tesis es un proyecto de bioinformática y genética de poblaciones completo, cuyo objetivo es el estudio de la diversidad genética en las poblaciones, que se ha llevado a cabo en tres pasos secuenciales: (i) el desarrollo de herramientas para la extracción, procesado, filtrado y control de calidad de secuencias nucleotídicas, (ii) la generación de bases de datos de conocimiento a partir de los datos obtenidos en la primera parte y (iii) la puesta a prueba de hipótesis que requieren de datos de varias especies y loci. En la primera parte de la tesis hemos desarrollado PDA (Pipeline Diversity Analysis), una aplicación Web de código abierto que permite la exploración del polimorfismo en grandes conjuntos de secuencias de DNA heterogéneas. Esta herramienta se alimenta de los millones de secuencias haplotípicas de estudios individuales que hay almacenados en las principales bases de datos moleculares y genera datos de genética de poblaciones que pueden ser utilizados para describir patrones de variación nucleotídica en cualquier especie o gen. Todos los datos extraídos y analizados en la primera parte de la tesis son utilizados en la segunda parte para crear un recurso vía Web completo que proporciona colecciones de secuencias polimórficas con sus medidas de diversidad asociadas en el género Drosophila (DPDB, Drosophila Polymorphism Database). Este recurso ha significado un reto ambicioso que ha permitido poner a prueba la eficiencia del sistema creado en la primera parte.Finalmente, se incluyen dos estudios que utilizan los módulos de extracción y análisis de datos desarrollados en la primera parte. En el primero, hemos estudiado los patrones de variación genética en secuencias conservadas no codificadoras para inferir selección negativa y positiva en Drosophila. En este estudio hemos utilizado datos de re-secuenciación en D. melanogaster junto con datos genómicos comparativos en otras especies de Drosophila para demostrar que las regiones frías de mutación no pueden explicar estos bloques conservados. Los resultados muestran que las secuencias conservadas no codificadoras se mantienen por la acción de la selección purificadora. El segundo estudio se centra en la evolución codificadora de los genes Hox, una clase de factores de transcripción esenciales en el desarrollo temprano que están involucrados en la especificación de las regiones a lo largo del eje anteroposterior del cuerpo. Hemos medido las tasas de divergencia nucleotídica y de fijación de inserciones y deleciones en tres genes Hox, y las hemos comparado con las de tres genes derivados de Hox y un conjunto de genes no Hox para probar la hipótesis que los genes Hox evolucionan lentamente. Los resultados muestran que tanto el número de sustituciones no sinónimas como el grado de constreñimiento funcional no son significativamente distintos entre los genes Hox y los no Hox, y que los genes Hox y los derivados de Hox contienen significativamente más inserciones y deleciones que los genes no Hox en sus secuencias codificadoras. Así, los genes Hox evolucionan más rápidamente que otros genes esenciales expresados en el desarrollo temprano, con patrones de expresión complejos o con intrones largos ricos en elementos cis-reguladores.En síntesis, los trabajos presentados en esta tesis cierran un ciclo completo de proyecto bioinformático, incluyendo todos los pasos necesarios desde la extracción de datos hasta la generación de nuevo conocimiento científico. Es más, el resultado de cada paso es la semilla para múltiples posibles estudios en el siguiente paso, y por lo tanto esta tesis tiene muchas aplicaciones para la comunidad científica. / Genetic variation is the cornerstone of biological evolution. The description and explanation of the forces controlling genetic variation within and between populations is the main goal of population genetics. The deciphering of an explosive number of nucleotide sequences in different genes and species has changed radically the scope of population genetics, transforming it from an empirically insufficient science into a powerfully explanatory interdisciplinary endeavor, where high-throughput instruments generating new sequence data are integrated with bioinformatic tools for data mining and management, and advanced theoretical and statistical models for data interpretation. This thesis is an integrative and comprehensive bioinformatics and population genetics project whose central topic is the genetic diversity of populations. It is accomplished in three sequential steps: (i) the development of tools for data mining, processing, filtering and quality checking of raw data, (ii) the generation of databases of knowledge from refined data obtained in the first step, and (iii) the testing of hypotheses that require multi-species and/or multi-locus data. In the first part of the thesis, we have developed PDA Pipeline Diversity Analysis , an open-source, web-based tool that allows the exploration of polymorphism in large datasets of heterogeneous DNA sequences. This tool feeds from the millions of haplotypic sequences from individual studies that are stored in the main molecular biology databases, and generates high-quality, population genetics data that can be used to describe patterns of nucleotide variation in any species or gene. All the extracted and analyzed data resulting from the first part of this thesis is used in the second step to create a comprehensive on-line resource that provides searchable collections of polymorphic sequences with their associated diversity measures in the genus Drosophila (DPDB Drosophila Polymorphism Database ). This resource means an ambitious pledge to test the efficiency of the system created in the first part.Finally, two different studies that make use of the modules of data mining and analysis developed are shown. First, we study patterns of sequence variation to infer constraint and adaptation in Drosophila conserved noncoding sequences (CNSs). For this study we have used population genetics re-sequencing data from D. melanogaster together with comparative genomic data from other Drosophila species. We show that patterns of nucleotide sequence evolution in Drosophila CNSs are incompatible with the notion that mutational cold-spots explain these conserved blocks. Rather, the results support the hypothesis that CNSs are maintained by the action of purifying selection. The second study focuses on the coding evolution of Hox genes, a class of essential transcription factors expressed early in development that are involved in the specification of regional identities along the anteroposterior body axis. We have measured the rates of nucleotide divergence and fixation of insertions and deletions of three Hox genes, and compared them with those of three Hox-derived genes and a set non-Hox genes to test the hypothesis that Hox genes evolve slowly. Our results show that both the number of nonsynonymous substitutions and the degree of functional constraint are not significantly different between Hox and non-Hox genes, and that Hox and Hox-derived genes contain significantly more insertions and deletions than non-Hox genes in their coding sequences. Thus, Hox genes evolve faster than other essential genes expressed early in development, with complex expression patterns or with long introns rich in cis-regulatory elements.As a whole, the works presented in this thesis round a complete bioinformatics project off, including all the necessary steps from mining the data to generating new scientific knowledge. More interestingly, the outcome of each step is the seed of multiple possible studies in the next step, and thus this thesis has many applications for the scientific community. Drosophila Diversitat genètica Bioinformàtica Ciències Experimentals 575
2	Caracterització cinètica de la formació de fibres amiloides i cerca de funcions remotes de dominis d'activació de procarboxipeptidases humanes Cerdà Costa, Núria 16 December 2008 (has links) Els dominis d'activació són presents en la porció N-terminal de la forma inactiva de les procarboxipeptidases de la subfamília de proteases M14A, i les seves funcions descrites comprenen tant el manteniment d'aquest estat inactiu com l'assistència en el plegament de l'enzim complet. La limitada mida i la notable estabilitat derivada de la gran quantitat d'estructura secundària han fet que un d'aquests dominis, el de la procarboxipeptidasa A2 humana (ADA2h) hagi estat un bon model per a l'estudi del plegament proteic, en treballs anteriors, i de l'agregació en forma de fibres amiloides en la present tesi. Els estudis cinètics de dicroisme circular de la variant salvatge i una extensa bateria de mutants puntuals revelen la seqüència corresponent a la cadena beta-4 com la responsable de la direcció del procés d'agregació ordenada en conformació beta. Mutacions en aquesta zona tenen la capacitat tant d'accelerar dramàticament la velocitat d'agregació, com d'abolir-la totalment. Les correlacions amb algorismes predictius de l'agregació basats en les propietats físico-químiques de la seqüència polipeptídica posen de manifest la rellevància principal de l'estructura primària en el govern del procés. La cinètica d'agregació per dicroisme circular mostra una naturalesa dual, amb una segona etapa pràcticament independent de concentració proteica, indicant una etapa tardana de reorganització conformacional. Estudis cinètics complementaris per espectroscòpia d'infraroig mostren igualment una reorganització molecular i assenyalen que la conformació agregada en beta present a la fibra amiloide sembla originar-se primerament a partir de les hèlixs-alfa parcialment desplegades. L'estudi de mutants amb diferent propensió a l'agregació i estabilitat ha mostrat que les mutacions comporten canvis en la via d'agregació, però que finalment arriben al mateix punt de fibril·lació.Una possible funció alternativa per a un d'aquests dominis, els quals tenen una extraordinària complexitat en comparació amb altres seqüències inhibidores en cis, ha estat cercada mitjançant eines bioinformàtiques. Certa similitud seqüencial i estructural sembla ser trobada entre el domini d'activació de la procarboxipeptidasa A4 humana (ADA4h) i un domini d'unió a RNA (RRM), suggerint una possible funció ancestral per al primer, bé que no tots els residus claus per a la interacció són presents a ADA4h. La hipòtesi ha estat comprovada experimentalment mitjançant un gel de retardament, observant-se una unió a RNA dèbil i inespecífica per al RNA assajat, d'acord amb el que s'havia predit bioinformàticament. Aquest fet no exclou, emperò, una unió fisiològica i específica amb un altra molècula de RNA diferent a l'assajada. / Los dominios de activación están presentes en la porción N-terminal de la forma inactiva de las procarboxipeptidasas de la subfamilia de proteasas M14A, y sus funciones descritas comprenden tanto el mantenimiento de este estado inactivo como la asistencia en el plegamiento de la enzima completa. Su limitada longitud y notable estabilidad, derivada de la gran cantidad de estructura secundaria, han hecho que uno de estos dominios, el de la procarboxipeptidasa A2 humana (ADA2h) haya sido un buen modelo para el estudio del plegamiento proteico, en trabajos anteriores, y de la agregación en forma de fibras amiloides en la presente tesis. Los estudios cinéticos de dicroísmo circular de la variante salvaje y una extensa batería de mutantes puntuales revelan la secuencia correspondiente a la cadena beta-4 como la responsable de la dirección del proceso de agregación ordenada en conformación beta. Mutaciones en esta zona tienen la capacidad tanto de acelerar dramáticamente la velocidad de agregación, como de abolirla totalmente. Las correlaciones con algoritmos predictivos de agregación basados en las propiedades fisicoquímicas de la secuencia polipeptídica ponen de manifiesto la relevancia principal de la estructura primaria en el gobierno del proceso. La cinética de agregación por dicroísmo circular muestra una naturaleza dual, con una segunda etapa prácticamente independiente de concentración proteica, indicando una etapa tardía de reorganización conformacional. Estudios cinéticos complementarios por espectroscopia de infrarrojo muestran igualmente una reorganización molecular y señalan que la conformación agregada en beta presente en la fibra amiloide parece originarse primeramente a partir de las hélices alfa parcialmente desplegadas. El estudio de mutantes con diferente propensión de agregación y estabilidad ha demostrado que las mutaciones producen cambios en la vía de agregación, pero que finalmente convergen en el mismo punto de fibrilación.Una posible función alternativa para uno de estos dominios, las cuales tienen una extraordinaria complejidad en comparación con otras secuencias inhibidoras en cis, ha sido buscada mediante herramientas bioinformáticas. Cierta similitud secuencial y estructural parece haber sido encontrada entre el dominio de activación de la procarboxipeptidasa A4 humana (ADA4h) y un dominio de unión a RNA (RRM), sugiriendo una posible función ancestral para el primero, aunque no todos los residuos clave para la interacción son presentes en ADA4h. La hipótesis ha sido comprobada experimentalmente mediante un gel de retardo, observándose una unión a RNA débil e inespecífica para el RNA ensayado, de acuerdo con lo que había sido predicho bioinformáticamente. Este hecho no excluiría una unión fisiológica y específica con otra molécula de RNA diferente a la ensayada. / The activation domains are found in the N-terminal portion of the inactive form of the M14A subfamily procarboxypeptidases, and their described functions comprise the maintenance of the inactive state and the folding assistance of the proenzyme. Their limited size and notable stability, derived from the high amount of secondary structure, promoted the use of one of these domains, the activation domain of procarboxypeptidase A2 (ADA2h), as a folding model, in previous works, and as an amyloid formation model in the present thesis. The kinetic experiments of aggregation on the wild-type protein and a big battery of point mutants indicate that the sequence corresponding to beta-strand 4 is the main responsible of the direction of the ordered aggregation process. Mutations in this zone can either accelerate or decelerate the velocity of the aggregation process, and even abolish aggregation completely. The correlations with prediction algorithms based on the physicochemical properties of the polypeptide sequence show the relevance of the primary structure in the lead of the process. The kinetics of aggregation followed by circular dichroism exhibit a dual nature, with a second phase almost independent of protein concentration, thus indicating a late phase of conformational reorganisation. Complementary kinetic studies on ADA2h followed by infrared spectroscopy also reveal a molecular reorganisation phase, and identify the partially exposed alpha-helices as the origin of the aggregated conformation. These experiments were carried out with 3 other point mutants with different stability and aggregation velocities (according to the previous experiments), and proved that the mutations introduce changes in the aggregation pathway although the same final point is reached for all of them.A possible alternative function for one of these domains, which have an extraordinary complexity compared to other inhibitory sequences found in cis, has been investigated using bioinformatic tools. Some sequential and structural similarity has been found between the activation domain of procarboxypeptidase A4 (ADA4h) and a RNA binding domain (RRM), thus suggesting a possible ancestral function for the activation domain. However, not all the key residues required for an interaction with RNA can be found in ADA4h, hence a weaker interaction was predicted. This hypothesis has been experimentally tested using electrophoretic mobility shift assays (EMSA), observing a weak and unspecific RNA binding. It remains to be tested, however, if a physiological (and therefore specific) binding could be carried out for ADA4h using a different RNA molecule from the one assayed. Proteasa Bioinformàtica Agregació Ciències Experimentals 612
3	Evolució cromosòmica en mamífers: cariotips ancestrals i punts de trencament evolutius Farré Belmonte, Marta 16 May 2012 (has links) Per a poder entendre la dinàmica evolutiva dels genomes és imprescindible conèixer com estan organitzats els cromosomes de les diferents espècies i determinar quins tipus de reorganitzacions cromosòmiques estan implicades en els processos d’especiació i en esdeveniments macroevolutius que afecten als grans grups taxonòmics. És per això que en aquesta tesi ens hem plantejat definir el cariotip ancestral de mamífers, amniotes i tetràpodes per a poder determinar les regions conservades (Homologous Syntenic Blocks, HSBs) i les regions de trencament evolutiu (Evolutionary Breakpoint Regions, EBRs) partint del genoma humà com a referència. Gràcies a la inclusió del genoma d’espècies outgroup (granota i gall), hem pogut millorar el cariotip ancestral de tetràpodes i amniotes, definint noves associacions sintèniques com a caràcters sinapomòrfics dels amniotes i dels mamífers. Igualment, hem analitzat la distribució de les EBRs en el genoma humà, veient que aquestes regions no estan distribuïdes a l’atzar i un 20% d’elles han estat re-utilitzades al llarg de l’evolució. Hem relacionat la distribució de les EBRs amb l’abundància de seqüències repetitives en el genoma humà, trobant un enriquiment de repeticions en tàndem en aquestes EBRs i una co-localització amb certs elements mòbils o transponibles (AAAT-Alus). A més a més, hem estudiat el paper del constrenyiment selectiu sobre el manteniment de les regions conservades i hem vist que certes reorganitzacions cromosòmiques no es troben en la natura ja que disrupcions en les regions afectades provocarien canvis d’expressió gènica possiblement letals per la progènie. Finalment, hem estudiat el paper de les reorganitzacions cromosòmiques en el procés d’especiació, on hem posat de manifest que regions genòmiques implicades en inversions són regions de baixa recombinació en relació a les regions no reorganitzades i per tant podrien donar lloc a un procés d’aïllament reproductiu per l’acúmul d’incompatibilitats genètiques en els híbrids. Per poder explicar les nostres observacions hem proposat un model on la presència d’heterocariotips flotants en el node d’especiació provocaria una supressió de recombinació en les regions invertides encara observable en les espècies actuals. / The study of the genome organization as well as how chromosomal reorganizations are involved in speciation and adaptation processes are the key points to better understand the evolutionary dynamics of vertebrate genomes and their inter- and intra-specific phylogenetic relationships. In this thesis we described the ancestral karyotype for mammals, amniotes and tetrapods in order to determine the homologous synteny blocks (HSBs) and evolutionary breakpoint regions (EBRs) in the human genome. Using the chicken and frog genomes as outgroups, we were able to improved previously described ancestral karyotypes for tetrapods and amniotes and we defined new syntenic associations as an amniote or mammal synapomoprhies. We also analysed the distribution of EBRs in the human genome, showing that EBRs are not randomly distributed and 20% are reused during the evolutionary period. The distribution of EBRs is related to the abundance of repetitive sequences, exhibiting an enrichment of specific tandem repeats in EBRs and co-localizing with mobile elements (AAAT-Alu). Furthermore, we studied the selective constrain on the maintenance of conserved regions. We observed that certain reorganizations are not found in natural populations because disruptions of the regions involved in reorganizations would lead to changes in gene expression probably lethal for the progeny. Finally, we studied the relation between chromosomal reorganizations and speciation. We showed that regions affected by reorganizations have lower recombination rates than regions not rearranged, thus, an increase of genic incompatibilities in these regions could lead to reproductive isolation by the existence of a barrier of gen flow. In order to explain our observations we proposed the floating heterokaryotypes model, where the presence of heterokaryotypes in the speciation node resulted on a suppression of recombination in the rearranged regions, which is still detected on the extant species. Evolució Mamífers Bioinformàtica Ciències Experimentals 576
4	Propietats físiques de l'ADN en escala genòmica, Les Goñi Macià, Josep Ramon 15 December 2008 (has links) Es coneix com era post-genòmica els anys posteriors a la seqüenciació massiva dels genomes d'organismes i espècies superiors (entre elles la humana) i que ens permeten per primer cop, tenir una visió global dels mecanismes biològics que regulen la vida de cèl·lula. En aquests primers anys d'aquesta nova era, s'ha donat especial rellevància a la identificació i estudi funcional de motius de seqüència en el genoma, assumint la hipòtesi que la capa física (la molècula d'ADN) es un mer suport per a un codi que és interpretat per la cèl·lula. El treball exposat en aquesta memòria posa en relleu la importància del nivell físic de l'ADN (ja sigui en la molècula de doble hèlix o en estructures d'ordre superior), en tots els aspectes funcionals de la molècula. Els resultats exposats en les publicacions científiques que integren aquest treball es demostra la relació entre la estructura de l'ADN i les regions reguladores dels gens (els promotors). Es prova també la viabilitat de l'ús d'estructures no canòniques de l'ADN (com per exemple les triple hèlices) en teràpies anti-gèniques. Finalment es descriu la implementació d'una plataforma bioinformàtica que permet per primer cop, l'estudi dels factors fisicoquímics en escala genòmica. / The post-genomics era is known as the years before the massive sequencing of genomes (the human between others) and that allow us for the first time have a global vision of biological systems that regulates the cellular activity. The main studies of the first years of this new era prioritized the identification of sequence motives and the study of their functionality, assuming the hypothesis that the physical layer behind (the DNA molecule) is just a support for code that is interpreted by the cell.The work presented in this document highlight the relevance of the DNA physical layer (from the double helices to higher level structures and chromatin) in all the cellular aspects.The results of this thesis prove the relationship between DNA structure and gene regulatory regions (the promoters). The feasibility of using non-canonic DNA conformations (as DNA triple helices) in anti-gene therapies is also shown. Finally the implementation of a bioinformatics platform to study for the first time the physicochemical factors of DNA at genomics scale is described. Promotors (Genètica) Bioinformàtica Genoma Ciències de la Salut 575
5	Meta-alignment of biological sequences Blanco García, Enrique 21 July 2006 (has links) Les seqüències són una de les estructures de dades més versàtils que existeixen. De forma relativament senzilla, en una seqüència de símbols es pot emmagatzemar informació de qualsevol tipus. L'anàlisi sistemàtic de seqüències es un àrea molt rica de l'algorísmica amb numeroses aproximacions desenvolupades amb éxit. En concret, la comparació de seqüències mitjançant l'alineament d'aquestes és una de les eines més potents. Una de les aproximacions més populars i eficients per alinear dues seqüències es l'ús de la programació dinàmica. Malgrat la seva evident utilitat, un alineament de dues seqüències no és sempre la millor opció per a caracteritzar la seva funció. Moltes vegades, les seqüències codifiquen la informació en diferents nivells (meta-informació). És llavors quan la comparació directa entre dues seqüències no es capaç de revelar aquelles estructures d'ordre superior que podrien explicar la relació establerta entre aquestes seqüències.Amb aquest treball hem contribuït a millorar la forma en que dues seqüències poden ser comparades, desenvolupant una família d'algorismes d'alineament de la informació d'alt nivell codificada en seqüències biològiques (meta-alineaments). Inicialment, hem redissenyat un antic algorisme, basat en programació dinàmica, que és capaç d'alinear dues seqüències de meta-informació, procedint després a introduir-hi vàries millores per accelerar la seva velocitat. A continuació hem desenvolupat un algorisme de meta-aliniament capaç d'alinear un número múltiple de seqüències, combinant l'algorisme general amb un esquema de clustering jeràrquic. A més, hem estudiat les propietats dels meta-alineaments produïts, modificant l'algorisme per tal d'identificar alineaments amb una configuració no necessàriament col.lineal, el que permet llavors la detecció de permutacions en els resultats.La vida molecular és un exemple paradigmátic de la versatilitat de les seqüències. Les comparaciones entre genomes, ara que la seva seqüència està disponible, permeten identificar numerosos elements biològicament funcionals. La seqüència de nucleòtids de molts gens, per exemple, es troba acceptablement conservada entre diferents espècies. En canvi, les seqüències que regulen la activació dels propis gens són més curtes i variables. Així l'activació simultànea d'un conjunt de gens es pot explicar només a partir de la conservació de configuracions comunes d'elements reguladors d'alt nivell i no pas a partir de la simple conservació de les seves seqüències. Per tant, hem entrenat els nostres programes de meta-alineament en una sèrie de conjunts de regions reguladores recopilades per nosaltres mateixos de la literatura i desprès, hem provat la utilitat biològica de la nostra aproximació, caracteritzant automàticament de forma exitosa les regions activadores de gens humans conservats en altres espècies. / The sequences are very versatile data structures. In a straightforward manner, a sequence of symbols can store any type of information. Systematic analysis of sequences is a very rich area of algorithmics, with lots of successful applications. The comparison by sequence alignment is a very powerful analysis tool. Dynamic programming is one of the most popular and efficient approaches to align two sequences. However, despite their utility, alignments are not always the best option for characterizing the function of two sequences. Sequences often encode information in different levels of organization (meta-information). In these cases, direct sequence comparison is not able to unveil those higher-order structures that can actually explain the relationship between the sequences.We have contributed with the work presented here to improve the way in which two sequences can be compared, developing a new family of algorithms that align high level information encoded in biological sequences (meta-alignment). Initially, we have redesigned an existent algorithm, based in dynamic programming, to align two sequences of meta-information, introducing later several improvements for a better performance. Next, we have developed a multiple meta-alignment algorithm, by combining the general algorithm with the progressive schema. In addition, we have studied the properties of the resulting meta-alignments, modifying the algorithm to identify non-collinear or permuted configurations.Molecular life is a great example of the sequence versatility. Comparative genomics provide the identification of numerous biologically functional elements. The nucleotide sequence of many genes, for example, is relatively well conserved between different species. In contrast, the sequences that regulate the gene expression are shorter and weaker. Thus, the simultaneous activation of a set of genes only can be explained in terms of conservation between configurations of higher-order regulatory elements, that can not be detected at the sequence level. We, therefore, have trained our meta-alignment programs in several datasets of regulatory regions collected from the literature. Then, we have tested the accuracy of our approximation to successfully characterize the promoter regions of human genes and their orthologs in other species. alineament de seqüències gens genòmica intel·ligència artificial bioinformàtica informàtica 004
6	Estudio teórico sobre la influencia del solvente en la estructura y dinámica del ADN Rueda Borrego, Manuel 22 March 2006 (has links) Esta tesis se centra en el estudio de la influencia del solvente en la estructura y dinámica del ADN mediante técnicas de simulación por ordenador.En la misma se han realizado dos bloques diferenciados, cuyos objetivos concretos serían: 1- El estudio de una secuencia de ADN en solución con diferentes fuerzas iónicas con el objetivo de racionalizar cómo los contraiones modulan las propiedades estructurales y dinámicas de la molécula. 2- El estudio de diversos ácidos nucleicos canónicos y no canónicos en ausencia de solvente, bajo condiciones similares a las que tienen lugar en los experimentos de espectrometría de masas por ionización con electrospray (ESI-MS). Este bloque, a su vez, está dividido en tres trabajos: i/-estudio de la doble hélice de ADN en condiciones de vacío propias de los experimentos de ESI-M, ii/-estudio de la naturaleza de complejos no covalentes entre minor groove binders (mG-binders) y ADN de doble cadena en condiciones de vacío, iii/-análisis del comportamiento de estructuras de ADN formadas por cuatro cadenas (G-cuadrúplex) en condiciones de vacío.La técnica utilizada para este propósito ha sido la Dinámica Molecular, la cual permite la descripción rigurosa a nivel atómico de las propiedades estructurales, energéticas y dinámicas de la molécula. Los resultados obtenidos en esta tesis complementan la información disponible en la actualidad sobre la estructura y conformación del ADN en dichas condiciones extremas. / This thesis is centered in the theoretical study of the influence of the solvent in the structure and dynamics of the DNA. First, there is a study of 12-mer sequence of DNA under different ionic strengths with the objective of elucidate how the molecule is influenced by the ionic atmosphere. Later on, different nucleic acids are studied with the absence of solvent under similar conditions to the Electrospray Ionization Mass spectrometry technique with the objective of study the structural, energetic and dynamics properties of DNA in the gas phase. The systems studied are:-Double helix of DNA.-Non covalent complexes between minor-groove binders and double stranded DNA.-G-quadruplexes of DNA.The main computational approach used has been the Molecular Dynamics technique. This powerful method allows to study at atomistic level the Nucleic Acids under those extreme conditions mentioned. The results obtained in this thesis complement the experimental information available about the structure and conformation of DNA in vacuum. Dinàmica molecular Tècniques de simulació per ordinador ADN Solvent Bioinformàtica Ciències Experimentals i Matemàtiques 577
7	Role of network topology based methods in discovering novel gene-phenotype associations Güney, Emre, 1983- 25 September 2012 (has links) The cell is governed by the complex interactions among various types of biomolecules. Coupled with environmental factors, variations in DNA can cause alterations in normal gene function and lead to a disease condition. Often, such disease phenotypes involve coordinated dysregulation of multiple genes that implicate inter-connected pathways. Towards a better understanding and characterization of mechanisms underlying human diseases, here, I present GUILD, a network-based disease-gene prioritization framework. GUILD associates genes with diseases using the global topology of the protein-protein interaction network and an initial set of genes known to be implicated in the disease. Furthermore, I investigate the mechanistic relationships between disease-genes and explain the robustness emerging from these relationships. I also introduce GUILDify, an online and user-friendly tool which prioritizes genes for their association to any user-provided phenotype. Finally, I describe current state-of-the-art systems-biology approaches where network modeling has helped extending our view on diseases such as cancer. / La cèl•lula es regeix per interaccions complexes entre diferents tipus de biomolècules. Juntament amb factors ambientals, variacions en el DNA poden causar alteracions en la funció normal dels gens i provocar malalties. Sovint, aquests fenotips de malaltia involucren una desregulació coordinada de múltiples gens implicats en vies interconnectades. Per tal de comprendre i caracteritzar millor els mecanismes subjacents en malalties humanes, en aquesta tesis presento el programa GUILD, una plataforma que prioritza gens relacionats amb una malaltia en concret fent us de la topologia de xarxe. A partir d’un conjunt conegut de gens implicats en una malaltia, GUILD associa altres gens amb la malaltia mitjancant la topologia global de la xarxa d’interaccions de proteïnes. A més a més, analitzo les relacions mecanístiques entre gens associats a malalties i explico la robustesa es desprèn d’aquesta anàlisi. També presento GUILDify, un servidor web de fácil ús per la priorització de gens i la seva associació a un determinat fenotip. Finalment, descric els mètodes més recents en què el model•latge de xarxes ha ajudat extendre el coneixement sobre malalties complexes, com per exemple a càncer. Systems Biology Network Disease Prioritization Cancer Robustness Bioinformàtica Sistemes Biologia Xarxa Malaltia Priorització Càncer Robustesa 575
8	Estudi bioinformàtic de la funcionalitat i conservació de l’splicing alternatiu Morata Chirivella, Jordi 28 June 2012 (has links) L'estudi de les diferències fenotípiques entre espècies, i entre individus, ha estat una de les grans qüestions fonamentals en els camps de la biologia evolutiva i la genètica. Ben aviat, es va fer palès que la regulació de l’expressió gènica tindria un paper clau en establir aquestes diferències de complexitat. L’adveniment de les tècniques massives de seqüenciació no van sinó confirmar aquesta visió primerenca. Avui dia coneixem un grapat de mecanismes que determinen aquestes diferències entre organismes, com són la divergència de seqüència proteica, la duplicació gènica o la divergència de la regió cis-reguladora, entre d’altres. En la darrera dècada, l’splicing alternatiu ha anat afermant-se com a mecanisme post-transcripcional freqüent i ha anat prenent protagonisme com a font de variabilitat de transcrits i isoformes proteiques, a més a més de jugar un paper regulador de l’expressió gènica. Per tant, l’splicing alternatiu és un ferm candidat a introduir diferències substancials al proteoma que expliquin la diversitat fenotípica entre organismes. Així doncs, aquest treball es va marcar com a objectiu aclarir fins a quin punt la variabilitat que introduïa l’splicing alternatiu tenia implicacions en el fenotip, quina era la seva conservació i si actuava de manera coordinada o independent amb d’altres mecanismes. En primer lloc, vam estudiar la relació que hi havia entre l’splicing alternatiu i les altres fonts moleculars de diversitat fenotípica i si era possible que l’splicing alternatiu pogués introduir variabilitat amb implicacions fenotípiques per si sola. A continuació, ens vam centrar en els mecanismes reguladors de l’expressió gènica basats en splicing alternatiu, analitzant les seves propietats i la seva conservació entre espècies. Finalment, vam examinar la implicació de l’splicing alternatiu en el fenomen de la domin{ncia gènica, ja que és un procés conegut que determina diferències fenotípiques intraespecífiques. El primer pas fou, doncs, comparar l’splicing alternatiu amb d’altres fonts moleculars de diferències fenotípiques: les divergències de la seqüència proteica, de la regió cis-reguladora del gen i de l’expressió gènica entre hum{ i ratolí. En un estudi massiu de les propietats de tots aquests fenòmens entre 13970 parelles d’ortòlegs, vam observar que l’splicing alternatiu podia introduir diferències abans que les altres variables poguessin fer-ho. Quan les identitats de seqüència proteica o de la regió cis-reguladora eren massa elevades com per introduir diferències, l’splicing alternatiu ja presentava patrons prou diferents en la concurrència d’splicing entre hum{ i ratolí. A més a més, la relació entre l’equivalència d’isoformes amb aquestes divergències també va resultar ser molt lleu, fet que ens va fer pensar que l’splicing alternatiu pot introduir isoformes específiques que contribueixin a les diferències entre espècies abans que les altres divergències puguin fer-ho. Pel que fa al segon bloc, vam investigar la conservació i propietats dels mecanismes reguladors de l’expressió gènica basats en AS. Primer de tot, vam confirmar la independència entre les divergències d’expressió gènica i l’splicing alternatiu, fet que ens indica que actuen a diferents nivells. A continuació, vam definir i classificar aquests mecanismes reguladors depenent com l’splicing alternatiu alterava l’arquitectura de dominis de les isoformes. La conservació d’aquests efectes, dels mecanismes reguladors basats en AS, va resultar ser baixa per tots els casos. Pel que fa als esdeveniments on es perdien un o més dominis a les isoformes alternatives, a més a més de ser baixa la conservació del mecanisme, també ho va ser l’equivalència dels esdeveniments d’splicing alternatiu. Així, tot i tenir efectes a nivell de seqüència no homòlegs, la funció es conservava, fet que ens porta a suggerir que aquests esdeveniments d’AS són un exemple de convergència funcional. Per últim, ens vam fixar en el procés de la dominància, abastament conegut, que introdueix diferències fenotípiques clares entre individus de la mateixa espècie, sobretot en el cas de malalties. Donat el fet que es coneixia una relació inversa entre paralogia i haploinsuficiència, per una banda, i paralogia i splicing per l’altra, sumat a la capacitat d’introduir variabilitat per part de l’splicing alternatiu, vam endegar aquest estudi amb la idea de descriure la relació entre dominància i splicing. El resultat final ens va mostrar una independència dels dos processos, fet que ens va fer qüestionar la relació entre paralogia i splicing alternatiu. Per la resta de variables estudiades, la caracterització de la dominància va concordar amb els resultats de treballs anteriors. / RESUMEN El estudio de las diferencias fenotípicas entre especies ha sido una de les cuestiones fundamentales de la biología evolutiva y la genética. Muy pronto fue evidente que la regulación de la expresión génica seria clava en el establecimiento de estas diferencias, tesis confirmada con las técnicas masivas de secuenciación actuales. Hoy en día, se conocen una serie de mecanismos que determinan estas diferencias, como son la divergencia de la secuencia proteica, la duplicación génica o la divergencia de la región cis-reguladora. En la última década, el splicing alternativo (AS) ha ido afianzándose como mecanismo post-transcripcional y ha ido tomando protagonismo como fuente de variabilidad de transcritos y isoformas, además de jugar un papel regulador de la expresión génica. Por lo tanto, el AS es un firme candidato a introducir diferencias sustanciales en el proteoma que expliquen la diversidad fenotípica entre organismos. Así pues, este trabajo se marcó como objetivo aclarar hasta qué punto la variabilidad que introducía el AS tenía implicaciones en el fenotipo, cuál era su conservación y si actuaba de manera coordinada o independiente con otros mecanismos. En primer lugar, estudiamos la relación que había entre el AS y las otras fuentes moleculares de diversidad fenotípica y si era posible que el AS pudiera introducir variabilidad con implicaciones fenotípicas por sí sola. A continuación, nos centramos en los mecanismos reguladores de la expresión génica basados en AS, analizando sus propiedades y su conservación entre especies. Finalmente, examinamos la implicación del AS en la dominancia génica. En el primer bloque comparamos el AS con otras fuentes moleculares de diferencias fenotípicas: las divergencias de la secuencia proteica, de la región cis-reguladora del gen y de la expresión génica entre humano y ratón. En un estudio masivo de las propiedades de todos estos fenómenos entre 13.970 ortólogos, observamos que el AS podía introducir diferencias antes que las otras variables pudieran hacerlo. Cuando las identidades de secuencia proteica o de la región cis-reguladora eran demasiado elevadas como para introducir diferencias, el AS ya presentaba patrones bastante diferentes en la concurrencia de AS entre humano y ratón. Además, la relación entre la equivalencia de isoformas con estas divergencias también resultó ser muy leve, lo que nos hizo pensar que el AS puede introducir isoformas específicas que contribuyan a las diferencias entre especies antes que las demás divergencias puedan hacerlo. En el segundo bloque investigamos la conservación y propiedades de los mecanismos reguladores de la expresión génica basados en AS. En primer lugar, confirmamos la independencia entre las divergencias de expresión génica y del AS, lo que nos indica que actúan a diferentes niveles. A continuación, definimos estos mecanismos reguladores dependiendo como el AS alteraba la arquitectura de dominios de las isoformas. La conservación de los mecanismos reguladores basados en AS resultó ser baja en todos los casos. En cuanto a los eventos donde se perdían uno o más dominios en las isoformas alternativas, también fue baja la equivalencia de los eventos de AS. Así, pese a tener efectos a nivel de secuencia no homólogos, la función se conservaba, lo que nos permite sugerir que éste es un escenario de convergencia funcional. Por último, nos fijamos en el proceso de la dominancia, largamente conocido, que introduce diferencias fenotípicas intraespecíficas. Dado que se conocía una relación inversa entre paralogía y haploinsuficiencia, por un lado, y paralogía y AS por la otra, sumado a la capacidad de introducir variabilidad por parte del AS, iniciamos este estudio con la idea de describir la relación entre dominancia y AS. El estudio nos mostró una independencia de los dos procesos, cuestionando así la relación entre paralogía y AS. Para el resto de variables estudiadas, la caracterización de la dominancia concordó con resultados de trabajos anteriores. / The study of phenotypic differences between species, and between individuals, has been one of the great fundamental questions in the fields of evolutionary biology and genetics. Soon, it became clear that the regulation of gene expression would have a key role in establishing these differences in complexity. The advent of mass sequencing techniques did confirm this view. Nowadays, we know a handful of mechanisms that determine these differences between organisms, such as protein sequence divergence, gene duplication and divergence of cis-regulatory region, among others. In the last decade, alternative splicing has been asserting itself as a post-transcriptional mechanism and frequently has taken center stage as a source of variability of transcripts and protein isoforms, and also as a key player in the regulation the gene expression. Therefore, alternative splicing is a strong candidate to introduce substantial differences in the proteome that could explain the phenotypic diversity among organisms. Thus, this work was intended to clarify to what extent the variability introduced the alternative splicing (AS) had implications for the phenotype, which was its conservation and if it acted in a coordinated or independent way relative to other mechanisms. First, we studied the relationship that existed between AS and other sources of molecular and phenotypic diversity and elucidate if AS could introduce phenotypic variability with its own implications. Then we focused on the regulatory mechanisms of gene expression based on AS, analyzing their properties and their conservation between species. Finally, we examined the involvement of AS in the phenomenon of genetic dominance, since it is a known process that determines intraspecific phenotypic differences. The first step was therefore to compare the AS with other sources of molecular phenotypic differences: differences in the protein sequence, the cis-regulatory region of the gene and gene expression between human and mouse. In a massive study of the properties of these phenomena among 13,970 pairs of orthologous, we observed that alternative splicing could introduce differences before other variables could do it. When the identities of protein sequence or cis-regulatory region were too high for introducing differences, AS patterns appeared quite different in the occurrence of splicing between human and mouse. Furthermore, we found that the relationship between the equivalence of isoforms with those differences was very mild, which made us think that AS can introduce specific isoforms that contribute to differences between species before other divergences can do it. Regarding the second section, we investigated the properties and the conservation of the regulatory mechanisms of gene expression based on AS. First, we confirmed the independence between the divergence of gene expression and AS, which indicates that they act at different levels. Then we defined and classified these regulatory mechanisms depending on how the AS altered the domain architecture of the isoforms. The conservation of these effects, the regulatory mechanisms based on AS, was found to be low for all cases. With regard to the events where they lost one or more domains in the alternative isoforms, in addition to the low conservation of the mechanism, it was also low the equivalence of alternative splicing events. So, despite having an non-homologue effect on the level of sequence, the function was preserved, which leads us to suggest that these AS events are an example of functional convergence. Finally, we studied the well known process of dominance which introduces clear phenotypic differences between individuals of the same species, especially in the case of diseases. Given the fact that it is known the inverse relationship between paralogy and haploinsufficiency and, in the other hand, the inverse relationship between paralogy and AS, adding to this the ability of introducing variability by AS, we undertook this study with the idea of describe the relationship between dominance and splicing. The final result showed us that they are two independent processes, which made us question the relationship between paralogy and AS. For the remaining variables, the characterization of the dominance results agreed with previous work. Bioinformàtica Bioinformática Bioinformatics Splicing alternatiu Splicing alternativo Alternative splicing Proteòmica Proteomics Proteómica Biologia computacional Biología computacional Computational biology Ciències Experimentals i Matemàtiques 577
9	Computational study of cancer Gundem, Gunes 29 September 2011 (has links) In my thesis, I focused on integrative analysis of high-throughput oncogenomic data. This was done in two parts: In the first part, I describe IntOGen, an integrative data mining tool for the study of cancer. This system collates, annotates, pre-processes and analyzes large-scale data for transcriptomic, copy number aberration and mutational profiling of a large number of tumors in multiple cancer types. All oncogenomic data is annotated with ICD-O terms. We perform analysis at different levels of complexity: at the level of genes, at the level of modules, at the level of studies and finally combination of studies. The results are publicly available in a web service. I also present the Biomart interface of IntOGen for bulk download of data. In the final part, I propose a methodology based on sample-level enrichment analysis to identify patient subgroups from high-throughput profiling of tumors. I also apply this approach to a specific biological problem and characterize properties of worse prognosis tumor in multiple cancer types. This methodology can be used in the translational version of IntOGen. oncogenomics high-throughput data bioinformatics cancer IntOGen sample-level enrichment analysis pronòstic oncogenòmica bioinformàtica 57
10	Modelling splicing Tilgner, Hagen, 1980- 02 June 2011 (has links) L’Splicing de les molècules d’ARN és el procés pel qual les seqüències interposades (“introns”) s’eliminen, i les seqüències restants es concatenen per a formar l’ARN madur. La investigació recent mostra que gairebé tots els gens amb splicing es veuen afectats per splicing alternatiu. Aquí, en primer lloc definim la longitud mínima d’un oligomer d’ARN per a funcionar com a lloc d’unió d’un factor d’splicing. A continuació, explorem la capacitat d’aquests oligomers per a predir estructures completes exó-intró. Destaquem els oligomers que són més informatius per a això, i demostrem que la mateixa precisió com en enfocaments anteriors es pot aconseguir amb menys oligomers. L’observació de que aquest enfocament és lluny de predir amb exactitud tota l’estructura exó-intró ens va portar a investigar els factors que juguen un paper en l’splicing co-transcripcional. Demostrem que els nucleosomes es col.loquen preferentment en els exons i plantegem la hipòtesi que juguen un paper en les decisions de l’splicing. A continuació, introduïm el “completed splicing index” i concluem que l’splicing co-transcripcional és molt generalitzat. A més, l’splicing co-transcripcional mostra vincles amb l’organització de la cromatina. A la llum d’aquests resultats, es van supervisar els canvis de la cromatina en exons diferencialment inclosos en dos teixits. Hem descobert una varietat de marques de les histones, però no totes, mostrant un comportament significativament diferent en els exons més inclosos i més exclosos. Las marques més destacades que apareixen són H3K9ac i dos estats de metilació de lisina 4. / Splicing of RNA molecules is the process, by which intervening sequences (“introns”) in the primary transcript are excised, and the remaining sequences (“exons”) are concatenated to form the mature RNA. Recent evidence shows that almost all spliced genes are affected by alternative splicing. Here, we define the minimal length of RNA oligomers that can sensibly be called splicing factor binding sites. Then, we explore the capacity of these oligomers to predict complete exon-intron structures. We highlight those oligomers that are most informative for this and show, that equal accuracy as in previous approaches can be achieved with less RNA oligomers. The observation, that this approach falls short of accurately predicting the entire exon-intron structure, led us to investigate determinants linked to co-transcriptional splicing. We show that nucleosomes are preferentially positioned on exons and hypothesize that they play a role in splicing decisions. We then introduce the “completed splicing index” and conclude that co-transcriptional splicing is very wide-spread in humans. Furthermore co-transcriptional splicing exhibits links to chromatin organization. In the light of these results, we go on to monitor chromatin changes on differentially included exons in pair-wise tissue comparisons. We find a variety of histone marks, but not all, showing significantly different behavior on up- and downregulated exons. The most prominently appearing marks are H3K9ac and two lysine 4 methylation states. splicing splicing simulation ESS ESE chromatin nucleosome bioinformatics co-‐transcriptional splicing empalmament simulació de l´ empalmament cromatina nucleosoma bioinformàtica splicing co-‐transcripcional 576

Search results