Global ETD Search

11	Measuring deviation from a deeply conserved consensus in protein multiple sequence alignments Mokin, Sergey January 2008 (has links) Proteins across species show variable degrees of conservation. Different patterns of conservation in the columns of an alignment indicate different evolutionary pressures on sequences. Protein conservation analysis is useful for a wide variety of applications, including disease mutation assessment, pseudogene analysis and functional residue prediction. This study describes a novel measure of column conservation in protein multiple sequence alignments (‘MSA'), and the application of this measure to calculate statistical deviation from alignment consensus (‘SDAC'). We have assessed SDAC for two case studies of sequences: (a) putative pseudogenes in Mycobacteria, and (b) young lineage-specific retrotransposed sequences in the human and mouse genomes. In the procedure, we rank residue positions for deep conservation, and evaluate statistically significant violations from MSA consensus. Novel conservation measure clearly indicated a variable degree of physiochemical conservation for a given column entropy. That, in turn, enabled us to detect deviations from physiochemical consensus in a protein MSA, which are not found by entropy measures. / D'une espèce à l'autre, des variations peuvent survenir dans la composition des protéines. Les tendances suivies par les colonnes d'un alignement de séquences multiples reflètent les différentes pressions évolutionnaires imposes sur les séquences. Les analyses de conservation de protéines sont utiles à plusieurs fins, comme dans l'évaluation des mutations de maladies, l'analyse de pseudogenes ainsi que les prédictions fonctionnelles de résidus. Cette étude décrit une nouvelle mesure de conservation de colonnes pour les analyses d'alignement de séquences multiples. De plus, nous décrivons l'utilisation de cette nouvelle mesure pour calculer la déviation statistique avec un consensus d'alignement. Nous avons utilisé cette mesure pour deux études cas de séquence : (a) Celle de pseudogenes putatifs du Mycobactérie, et (b) Celle de jeunes séquences spécifiques a certains lignages rétrotransposés dans les génomes humains et souris. Ce faisant, nous avons classifié les positions de résidus hautement conservés et avons évalué les cas ou d'importantes variations existent avec les consensus des alignements de séquences multiples. Cette nouvelle échelle de conservation indique qu'il existe un degré variable de conservation physiochimique pour une entropie fixe des colonnes. En retour, ceci nous permet de détecter les variations physiochimiques des consensus d'une colonne qui ne serait autrement pas détecté par des mesures d'entropie. Biology - Bioinformatics
12	Bioinformatics for epigenomics Cingolani, Pablo January 2009 (has links) Epigenetics refers to reversible, heritable changes in gene regulation that occur without a change in DNA sequence. These changes are usually due to methylation of cytosine bases in DNA. In this work we review existing method- ologies and propose new ones for their use in epigenomics. High throughtput methods to estimate methylation levels were developed as well as methods to make a biological interpretation of the data based on gene sets enrichment. High correlation was obtained between our methylation estimations and ex- perimental data from MeDIP experiments. Our proposed methods for gene sets enrichment performed better than well-known methods. / L’ ́epigenetique d ́ecrit les changements re'versibles et he'ritables de la r ́egulation g ́enique qui arrivent sans changements dans la s ́equence d’ADN. Ces change- ments sont habituellement dus `a la m ́ethylation de cytosines dans l’ADN. Dans cette th`ese, nous r ́ecapitulons les m ́ethodes bioinformatiques existantes et nous proposons des nouvelles m ́ethodes pour des probl`emes reli ́es `a l’ ́epig ́en ́etique. Les m ́ethodes a haut d ́ebit pour l’estimation du niveau de m ́ethylation sont d ́evelopp ́ees, de mˆeme que des m ́ethodes pour l’interpr ́etation biologique des donn ́ees en se basant sur l’enrichissement d’ensemble de g`enes de la mˆeme fonction. De hauts niveaux de corr ́elation sont obtenus entre nos estim ́es et les donn ́ees exp ́erimentales provenant d’exp ́eriences de type MeDIP. Les m ́ethodes que nous proposons pour l’analyse d’enrichissement de fonction des g`enes performent mieux que les autres m ́ethodes existantes. Biology - Bioinformatics
13	Large scale identification of transcription factor binding sites in DNA sequences Sanchez Galan Frauca, Javier January 2010 (has links) To date, gene regulation is still one of the most studied processes in molecular biology. Among its main actors, proteins called transcription factors, play an essential role in controling the rate of expression of genes, by binding to specific sites on the DNA sequence. These sites are short in lenght (5 to 15 basepairs) and are called transcription factor binding sites (TFBSs). These interactions between proteins and DNA have a fundamental role at several stages of cell development and in response to stress conditions. Various computational methods that exploit specific characteristic of TFBS have been developed and tested for the purpose of the identification of TFBSs. Examples include, the identification of TFBSs via phylogenetic footprinting, via cis-regulatory modules and via statistical over-representation. / In this thesis we present a new approach that uses elements of the three identification methods to develop a large-scale approach that assesses the over-representation of TFBS in DNA sequences. Results of application of this new method are presented for five biological datasets: including a set of regions bound by estrogen receptor (ER). We also present new results, yet to be validated experimentally, from two interesting biological datasets. The first is a dataset containing coding regions under non-coding selection (called CRUNCS). The other is a set of genes regulated by proteins called angiopoietins. / Finally, a new public bioinformatic software, used to estimate the over-representation of TFBSs in DNA sequences, that we call the Genome-Wide Analysis of TFBS Over- Representation (GATOR), is introduced. / À ce jour, la régulation des gènes est encore l'un des processus les plus étudiés en biologie moléculaire. L'une de ses principales categories d'acteurs, des protéines appelées facteurs de transcription, joue un rôle essentiel dans le contrôle du taux d'expression des gènes, en se liant à des sites spécifiques sur la séquence d'ADN. Ces sites sont des séquences courtes (de 5 à 15 paires de bases) et sont communément appelés sites de liaison pour les facteurs de transcription (TFBSs, en anglais). Les interactions entre ces protéines et l'ADN jouent un rôle fondamental à plusieurs stades du développement cellulaire et de la réponse à divers types de stress. Diverses méthodes de calcul qui exploitent les caractéristiques spécifiques des TFBS ont été développées et testées dans le but de l'identifier de tels sites de liaison. Citons par ex- emple l'identification des TFBS à l'aide des empreintes phylogénétiques, des modules de régulation cis et de la sur-représentation statistique. / Dans cette thèse nous présentons une nouvelle approche qui utilise des éléments des trois méthodes d'identification susmentionnés pour développer une approche à grande échelle qui évalue la sur-représentation des TFBS, dans les séquences d'ADN. Les résultats de l'utilisation de cette nouvelle méthode sont présentés pour cinq ensembles de données biologiques. Parmi eux, un ensemble des régions de sites de liaison liées aux récepteurs d'oestrogène (ER), un ensemble de données qui contient des régions codantes sous sélection non codante (appelé CRUNCS) et finalment, un ensemble de génes régulés par des protéines appelées angiopoietines. / Finalement, nous présentons un nouveau logiciel bioinformatique public qui sert à estimer la sur-représentation des TFBSs dans les séquences d'ADN et que nous avos appelé le Genome-Wide Analysis of TFBS Over-Representation (GATOR). Biology - Bioinformatics
14	An evolutionary approach to long-range regulation Mongin, Emmanuel January 2010 (has links) Long-range regulatory regions play important functions in the regulation of transcription and are particularly involved in the precise spatio-temporal expression of target genes. Such regions have speciﬁc characteristics, among which is their ability to regulate many target genes that can be located up to 1Mb from the transcription start site. The prediction and functional characterization of such regions remains an open problem. Evolutionary approaches have been developed to detect regulatory regions that are under purifying selection. However, little has been done with regards to the impact of long-range regulation on genome evolution. / This thesis focuses on three different aspects of long-range regulation: i/ First we develop a method that predicts regions particularly prone to the ﬁxation of evolutionary breakpoints. We discuss the results obtained in the context of long-range regulation and show that this type of regulation is a major factor shaping vertebrate genomes in evolution. ii/ The second project aims at predicting functional interactions between regulatory regions and target genes based on the observation of evolutionary rearrangements in various vertebrate species. We show how this approach produces a biologically meaningful prediction dataset that will be useful to researchers working on regulation. iii/ Third, we focus on the in vivo characterization of regulatory regions. We present a powerful and reliable enhancer detection pipeline composed of an in silico approach to predict putative enhancers and an in vivo method to functionally characterize the expression speciﬁcity of predicted regions in the developing medaka ﬁsh. / The results presented in this thesis contribute to different areas of research such as a better understanding of evolutionary dynamics related to evolutionary rearrangements and to a better in silico and in vivo characterization of cis-regulatory regions. / La régulation longue distance a d'importantes fonctions dans la régulation de la transcription et est particulièrement impliquée dans la régulation spatiale et temporelle des gènes cibles. Ces régions ont des caractèristiques spéciﬁques telles que la capacité de contrôler different gènes à des distances jusqu'a 1Mb du site d'initiation de la transcription. La prédiction et la caractérisation fonctionelle de ces regions restent un problème d'actualité. Des approches évolutionaires ont été d´eveloppées pour détecter les régions sous pression de sélection. En revanche, peu a été fait en rapport avec l'impact de la régulation de longue distance sur l'évolution du génome. / Cette thèse se concentre sur trois differents aspects de la régulation longue distance: i/ Premièrement, nous developpons une méthode de prédiction des regions particulièrement sujettes à la ﬁxation des réarrangements de l'évolution. Nous étudions les résultats obtenus dans le contexte de la régulation longue distance et nous montrons que ce type de régulation est un composant majeur dans le façonnement du génome au cours de l'évolution. ii/ Le second projet à pour but de prédire les interactions fonctionnelles entre les régions de régulation et leur gènes cible à partir de l'observation de réarrangements de l'évolution dans differentes espèces. Nous montrons comment une telle approche produit des resultants biologiquement signiﬁcatifs qui seront particulièrement utiles aux chercheurs travaillant dans le domaine de la régulation. iii/ Troisièmement, nous nous concentrons sur la caractérisation fonctionnelle in vivo des regions régulatrices. Nous présentons une méthode ﬁable de détection des enhancers composée d'une approche informatique pour la prédiction de ces régions et d'une approche biologique pour caractériser fonctionnellement les spéciﬁcités d'expression de ces régions dans le poisson medaka. / Les résultats présentés dans cette thèse contribuent à une meilleure comprehension des dynamiques d'évolution en relation avec la régulation longue distance et une meilleure prédiction et caractérisation fonctionnelle de ces régions régulatrices. Biology - Bioinformatics
15	Computational modeling of osteopontin peptide binding to hydroxyapatite Mansouri, Ahmad January 2011 (has links) Osteopontin (OPN), a secreted, noncollagenous, acidic, and mineral-binding phosphoprotein, is composed of 314 amino acids (in humans), mostly composed of glutamate, aspartate and serine. It is prominently associated with biominerals and has a regulatory effect on hydroxyapatite (HAP) crystal growth, the mineral phase of bones and teeth. Recent studies have revealed that OPN contains an acidic, serine- and aspartate-rich motif (ASARM), which potently inhibits mineralization of osteoblast cultures in a phosphate-dependent manner. ASARM peptides accumulate in hypophosphatemia patients whose distinguishing clinical feature is soft bones (osteomalacia). To understand the mechanism of how OPN and the acidic and negatively charged peptides from OPN inhibit the mineralization process by adsorbing to HAP crystal surfaces, we modeled the binding by computational studies. Computational simulations allow for assessing the mechanism by which polyelectrolytes, such as OPN and its peptides, can inhibit mineralization. We used the RosettaSurface protocol to examine human OPN-ASARM peptide (DDSHQSDESHHSDESDEL) binding to flat surfaces of HAP mineral and determined binding affinities, specificities, and structure for ASARM-Sp0 (without phosphoserine) and two phosphorylated forms of ASARM (ASARM-Sp3 and ASARM-Sp5, with 3 and 5 phosphoserines, respectively). Our simulations show an increase in adsorption of ASARM to HAP when the peptide is phosphorylated. Moreover, ASARM and its phosphorylated counterparts show preferential adsorption to the (100) and (010) crystallographic orientations of HAP compared to the (001) orientation.Beside the "flat" surfaces of the HAP crystal, "active sites" such as steps, kinks, and vacancies play deterministic roles in adsorption of foreign molecules and ultimately affect the process of crystal growth. We examined phosphorylated ASARM (DDSpHQSDESHHSpDESpDEL / ASARM-Sp3) binding to HAP mineral with and without vacancies to determine the following: the changes in binding affinity attributable to the phosphate vacancies, the effect of vacancies' geometry in adsorption of the peptide, and the structural changes of ASARM-Sp3 upon adsorption to these surfaces. Our results suggest that the presence of phosphate vacancies on (100) surface increases the adsorption energies of ASARM-Sp3 more than two-fold, and the increase in adsorption energies is related to the number of vacancies available on the surface. The adsorption on the surfaces was mostly mediated through ASARM-Sp3 phosphate groups, which were oriented towards the phosphate vacancies of the crystal surface. In addition, different geometry of the phosphate vacancies was shown to have influence in changing the adsorption energies of ASARM-Sp3. These results indicate that "active sites" present on the surface of a growing crystal can influence the adsorption of biological molecules. More specifically, peptides such as ASARM-Sp3 have side chains (phosphate groups) that can fill the vacancies (phosphate vacancies), driving their adsorption. / L'ostéopontine (OPN), une phosphoprotéine acide secrétée non collagénique, est composée de 314 acides aminés (chez les humains). Elle est constituée principalement de glutamate, l'aspartate et de serine. L'ostéopontine est associée avec des biominéraux et a un effet régulateur sur la croissance de cristaux hydroxyapatite (HAP), la phase minérale des os et des dents. De récentes recherches ont révélé que l'OPN contient un motif acide, riche en sérine et en aspartate (ASARM), qui peut fortement inhiber la minéralisation des cultures d'ostéoblastes en dépendance de phosphates. Les peptides ASARM s'accumulent dans les patients souffrant d'hypophosphatémie, ayant comme symptôme des os souples (ostéomalacie). Afin de comprendre le mécanisme par lequel l'OPN et les peptides charges négativement de l'OPN inhibe le processus de minéralisation par l'adsorption aux surfaces cristallines HAP, nous avons modélisé les liaisons par une étude de simulations computationnelles. Ces simulations nous permettent de déterminer le mécanisme par lequel les poly électrolytes (OPN et ses peptides) inhibent le processus de minéralisation. Nous avons utilise le protocole RosettaSurface pour examiner la liaison du peptide OPN-ASARM (DDSHQSDESHHSDESDEL) aux surfaces planes d'un minéral HAP. Plus précisément, nous avons observe les affinités, les spécificités de liaison ainsi que la structure de ASARM-Sp0 (sans phosphosérine) et deux formes phosphorylées de ASARM (ASARM-SP3 et ASARM-SP5, possédant 3 et 5 phosphosérines respectivement). Nous simulations indiques une augmentation de l'adsorption d'ASARM pour le HAP lorsque le peptide est phosphorylé. De plus, ASARM et ses versionsivphosphorylées montres une adsorption préférentielle aux orientations cristallographiques de HAP (100) et (010) comparé à l'orientation (001). Mis à part la surface plane du cristal HAP, des « sites d'activité », tels que des paliers, des crevasses ainsi que des vides jouent un rôle critique dans l'adsorption de molécules étrangères, affectant le processus de croissance des cristaux. Nous avons examine la liaisons entre un ASARM phosphorylé (DDSpHQSDESHHSpDESpDEL / ASARM-Sp3) et un minéral HAP avec et sans vide. Nous en avons déterminé les changements dans l'affinité de liaison attribuables au manque de phosphate, les effets des vides dans la géométrie pour l'adsorption du peptide ainsi que les changements de structure de l'ASARM-Sp3 lors de l'adsorption à ces surfaces. Nos résultats suggèrent que la présence de vides sur la surface (100) augmente l'énergie d'adsorption d'ASARM-Sp3 par plus de deux fois, et l'augmentation de l'énergie d'adsorption est lie au nombre de vides disponibles sur la surface. L'adsorption sur ces surfaces est assurée a traves les groupes phosphate d'ASARM-Sp3, orientes vers les vides phosphates de la surface du cristal. De plus, différentes géométries des vides de phosphate semblent avoir une influence sur le changement de l'énergie d'adsorption de ASARM-Sp3. Ces résultats indiquent que les sites actifs présents sur la surface d'un cristal en croissance peut influencer l'adsorption de molécules biologiques. Plus précisément, des peptides tels que ASARM-Sp3 ont des chaines secondaires (groupes phosphates) qui peuvent combler les vides (vides phosphates), entrainant leur adsorption. Biology - Bioinformatics
16	Coevolution of transposable elements and plant genomes by DNA sequence exchanges Hoen, Douglas January 2012 (has links) Transposable elements (TEs) are self-replicating genetic elements that comprise a large portion of all characterized nuclear genomes. Self-replication, which is catalyzed by proteins encoded by autonomous TEs, permits TEs to persist without necessarily providing immediate adaptive benefit to the organism; therefore, TEs are sometimes characterized as selfish, parasitic, or junk DNA. Nevertheless, over the course of evolution, TEs have produced diverse and vital eukaryotic adaptations. One way in which TEs coevolve with ordinary genes is by direct sequence exchange: TEs can duplicate and mobilize ordinary genes; conversely, TE-derived sequences can become conserved as ordinary genes. In this thesis, I use genome-scale bioinformatic analyses to identify direct sequence exchanges from plant genomes to TEs, and vice versa, and to characterize their functional and evolutionary consequences. After reviewing the literature, I first examine Mutator-like elements (MULEs) in rice that have duplicated and mobilized thousands of ordinary coding gene fragments, a process we term transduplication. Contrary to a previous report, these sequences do not appear to produce functional proteins, although they may have regulatory functions. Second, I examine a gene family that appears to have originated through transduplication in Arabidopsis thaliana MULEs, which is conserved within TEs, called Kaonashi (KI). KI shows that transduplication does occasionally produce functional gene duplications; however, at least in this case, the result is a not a new ordinary gene, but a new TE gene. Finally, I examine ordinary genes in A. thaliana derived from TE genes, a process termed molecular domestication. In addition to 3 previously known A. thaliana domesticated transposable elements (DTEs) families, I identify 23 candidate novel families. Together, these results support the view that, despite persisting by self-replication, TEs are not molecular parasites but are integral components of eukaryotic genomes. / Les éléments transposables (ET) sont des séquences d'ADN capables de se déplacer et de s'autoreproduire dans un génome, un mécanisme appelé transposition. Ces éléments représentent l'une des composantes les plus importantes des génomes nucléaires eucaryotes. Cette capacité à s'autoreproduire, grâce aux protéines codées par les ET autonomes, a permis aux ET de persister et de peupler les génomes sans nécessairement apporter un avantage adaptatif immédiat à l'organisme hôte. À cet égard, les ET sont parfois considérés comme des éléments égoïstes ou parasites, ou de l'ADN « poubelle ». Néanmoins, les ET ont joué un rôle important au cours de l'évolution en générant diverses adaptations essentielles aux eucaryotes. Ainsi, les ET peuvent coévoluer avec les gènes du génome hôte par l'échange direct de séquence d'ADN. Les ET peuvent se dupliquer et mobiliser des gènes hôtes ; à l'inverse, des séquences d'ADN dérivées de ET peuvent avoir le même niveau de conservation que des gènes hôtes. Dans le cadre de ma thèse, j'ai utilisé des analyses bio-informatiques à l'échelle du génome afin d'identifier des échanges directs de brins de séquence d'ADN à partir de génomes de plantes vers les ET, et vice-versa, et de caractériser leurs fonctions et leurs effets évolutifs. Ma thèse débutera par une recension des diverses publications scientifiques dans le domaine. Je dresserai ensuite un portrait des éléments mobiles Mutator-like (MULE) dans le génome du riz qui ont entraîné la duplication et la mobilisation de milliers de fragments de gènes codants normaux, un procédé appelé transduplication. Contrairement à ce qui avait été rapporté dans des publications antérieures, ces séquences transdupliquées ne semblent pas produire des protéines fonctionnelles malgré le fait qu'elles puissent avoir des fonctions régulatrices. En second lieu, j'examinerai une famille de gènes, appelée Kaonashi (KI), qui proviendrait d'un événement de transduplication présent dans les MULE de l'Arabidopsis thaliana, mais également conservé dans les ET. La présence de la famille KI nous montre que le procédé de transduplication permet à l'occasion des duplications fonctionnelles de gènes. Cependant, du moins dans le cas de la KI, le procédé n'entraîne pas la création d'un nouveau gène normal, mais bien d'un nouvel élément transposable. En troisième lieu, j'examinerai les gènes hôtes présents dans le génome de la plante A. thaliana qui proviendrait de ET, un procédé appelé domestication moléculaire. En plus des trois cas de familles d'éléments transposables domestiquées (ETD) déjà connues dans l'espèce A. thaliana, j'ai identifié 23 nouvelles familles potentielles. L'ensemble de ces résultats tend à démontrer que, malgré le fait qu'ils persistent dans les génomes grâce à leur capacité d'autoreproduction, les ET ne sont pas des parasites moléculaires, mais bien des éléments clés faisant partie intégrale des génomes eucaryotes. Biology - Bioinformatics
17	Gene expression and bioinformatics analysis of the isoflavonoid pathway in soybean Livingstone, Julie January 2009 (has links) The phenylpropanoid pathway is highly researched due to t he putative nutraceutical benefits of its secondary metabolites. The enzymes of this pathway are member of gene families, but the exact number of gene homologues has to date been unknown. In this study, expressed sequence tags (ESTs) were used to identify all homologues in the isoflavonoid pathway of soybean (Glycine max L. Merr.). Gene expression of all homologues in whole tissues, and at a cellular level in the pod was also investigated using laser capture microdissection (LCM) and real time reverse-transcription polymerase chain reaction (qRT-PCR). Computational promoter analysis was undertaken to identify common regulatory motifs among the gene homologues. We have identified novel 2-hydroxyisoflavanone dehydratase and isoflavone-7-O-glucosyltransferase homologues. Differential expression of multiple gene homologues was discovered in numerous tissues. Our promoter analysis discovered five motifs which were previously identified within the promoter regions of the phenylpropanoid pathway in other plant species. / La plupart des gènes de la voie métabolique des phenylpropanoïdes chez le soya incluent plusieurs homologues, mais leur nombre exact pour chacun des gènes demeure inconnu. L'expression de tous les homologues fut observée dans plusieurs tissus et au niveau cellulaire dans la cosse utilisant les méthodes de « laser capture microdissection » et de « real-time reverse-transcription polymerase chain reaction ». Une analyse de promoteurs in silico a été réalisée afin d'identifier des motifs régulateur commun chez les homologues. Cette étude a identifié un gène 2-hydroxyisoflavanone dehydratase nouveau en plus de cinq gènes isoflavone-7-O-glucosyltransferase. En outre, l'expression différentielle de plusieurs des homologues fut observée surtout dans les racines, les cotylédons et dans la couche exocarpe de la cosse. L'analyse de promoteur a découvert cinq motifs, qui ont auparavant été identifiés aussi dans des promoteurs de la voie métabolique des phenylpropanoid de d'autres espèces de plantes. Biology - Bioinformatics
18	A space-filling structural network of PCA-derived protein complexes in Saccharomyces cerevisiae Tsay, Aaron January 2011 (has links) Proteins serve various functions in a cell such as structural support, enzymatic activity, signalling pathways, and transportation of cargo. Binary coupling of proteins often reports common biological functions between the two partners. However, protein-protein interactions in the context of multi-protein complexes report a more complete spectrum of functionality in time and space. Our goal is to understand how protein complexes are manifested under varying spatial and temporal states, how they respond to signalling inputs, and which proteins act as scaffolds or linchpin components.The development and refinement of the protein-fragment complementation assay (PCA) by Michnick et al. has enabled the understanding of dynamics of binary protein interactions in the context of living cells. PCA data based on murine dihydrofolate reductase (DHFR) is a survival-selection assay. Fragments of a reporter protein are tagged onto query proteins of interest. Reconstituted DHFR protein fragments in vivo results in a scoreble phenotype-resistance to methatrexate- which is the proxy for protein-protein interactions up to a resolution of 8nm. The resolution is determined by the fragment linker length. The activity of the DHFR reporter protein is reversible and thus indirectly embeds spatial and temporal information.We constructed a probabilistic model of protein complex dynamics using binary PCA dataset based on DHFR, which incorporates dynamic information, and model spheres that are representative of respective protein sizes. We set probabilistic constraints based on distances between centers of known interacting proteins. We define the distances as the sum of the radii of the corresponding spheres. The probabilities of distances are computed from a Gaussian function. We then generate an ensemble of protein complex structures using a Markov chain Monte Carlo method, based on the Metropolis-Hastings algorithm. The ensemble surveys the posterior distribution of protein complex structures in the structure space. From the output data, we compute contact frequencies between each protein pair within the ensemble. We calculate the surface accessibility of proteins, which consists of the area that is not shadowed by interacting partners. Using surface accessibility vectors of each structure, we hierarchically cluster the ensemble to retrieve representative meta-stable states of proteins complexes. We applied this method on an extended Arp2/3-based network, comprising highly evolutionarily conserved proteins, along with other binding partners (Tarassov et al., 2008). We were able to predict direct or indirect PCA interactions by changing the linker lengths and could identify false negatives within the PCA data. Furthermore, we can investigate the integrity of protein-protein interactions and simulate the effects of binding diffusive regulatory proteins, such as CDKs and cyclins, by altering nodes and edges in our network. Our data can also be correlated with protein sequences to make predictions about regulatory motifs. The potential of this in silico modeling method circumvents many limitations of traditional experimental methods such as yeast-two-hybrid and TAP-tagging, and serves as a new platform for investigating dynamics of protein complexes using real-space time-resolved approaches. / Les protéines ont des fonctions différentes dans une cellule comme un soutien structurel, une activité enzymatique, une voie de signalisation et un transport de fret. L'interaction binaire de protéines signale souvent des fonctions biologiques qui sont communes entre les deux partenaires. Toutefois, les interactions entre deux protéines dans le contexte de complexes multi-protéiques présentent une gamme plus complète de fonctionnalités dans le temps et l'espace. Notre objectif est de comprendre comment les complexes protéiques se manifestent dans différentes conditions spatiales et temporelles, comment ils réagissent aux entrées de signalisation, et quelles protéines agissent comme des échafaudages.Le développement et le raffinement de l'analyse de complémentation protéique-fragment (PCA) par Michnick et al. ont permis à la compréhension de la dynamique des interactions protéiques binaires dans le contexte de cellules vivantes. Les données de PCA, basées de la dihydrofolate réductase murine (DHFR), est un test de survie de sélection. Les fragments d'une protéine rapporteuse sont attachés sur des protéines d'intérêt. Les fragments reconstitués protéine de DHFR in vivo donnent un phénotype de résistance à methatrexate-ce qui signale les interactions protéine-protéine à une résolution de 8 nm. La résolution est déterminée par la longueur de liaison des fragments. L'activité de la protéine rapporteuse DHFR est réversible et donc intègre indirectement des informations spatiales et temporelles.Nous avons construit un modèle probabiliste du complexe dynamique de protéines en utilisant un ensemble de données binaires du PCA-DHFR, qui inclut des informations dynamiques, et les sphères de modèle qui sont représentatives des tailles respectives des protéines. Nous avons mis des contraintes probabilistes basées sur les distances entre les centres des protéines qui interagissent. Les distances sont équivaux à la somme des rayons des sphères correspondants. Les probabilités de distances sont calculées à partir d'une fonction gaussienne. Nous avons ensuite générer un ensemble de structures de complexes protéiques en utilisant une méthode Markov Chain Monte Carlo, basée sur l'algorithme de Metropolis-Hastings. L'ensemble représente la distribution a posteriori des structures des complexes protéiques dans l'espace. D'après les données, nous calculons les fréquences de contact entre chaque paire de protéines dans l'ensemble. Nous calculons l'accessibilité surface des protéines, qui se compose de la zone qui n'est pas éclipsée par l'interaction des partenaires. En utilisant des vecteurs d'accessibilité surface de chaque structure, nous faisons un cluster hiérarchique de l'ensemble pour récupérer des représentants des états méta-stables des complexes protéiques.Nous avons appliqué cette méthode sur un réseau étendu du complexe Arp2/3, comprenant des protéines hautement conservées dans l'évolution, avec d'autres partenaires de liaison (Tarassov et al., 2008). Nous avons été en mesure de prédire les interactions directes ou indirectes du PCA en modifiant les longueurs de liaison et d'identifier les faux négatifs dans les données du PCA. En outre, nous pouvons étudier l'intégrité des interactions protéine-protéine et de simuler les effets de l'incorporation des protéines régulatrices, tels que les cyclines et CDK, en modifiant les nœuds et les bords de notre réseau. Nos données peuvent aussi être en corrélation avec des séquences de protéines pour faire des prédictions au sujet des motifs de réglementation. Le potentiel de cette méthode de modélisation in silico de contourner de nombreuses limitations de méthodes expérimentales traditionnelles sert une nouvelle plateforme pour étudier la dynamique des complexes de protéines. Biology - Bioinformatics
19	Bioinformatic sequence and structural analysis for Amyloidogenicity in Prions and other proteins Gendoo, Deena January 2012 (has links) Detection of amyloidogenic peptides or domains in proteins is of paramount importance towards understanding their role in amyloidosis in conformational diseases. This thesis explores different methods towards detection and prediction of amyloidogenic peptides using a variety of bioinformatic analytical methods. Bioinformatic analysis of secondary structural changes is employed to determine whether classes of structurally ambivalent peptides, mainly discordant and chameleon sequences, are efficient predictors of amyloidogenic segments. This analysis elucidates statistical relationships between discordance, chameleonism, and amyloidogenicity across a database of protein domains (SCOP), a subset of amyloid-forming proteins, and the prion family. The presented results stress upon the limitations of these peptides as predictors of amyloidogenicity, and raise issues on the predictive power that can be reaped from secondary structure prediction methods. In another bioinformatic approach, detection of conformationally variable segments in tertiary structures of PrP globular domains has been performed using Principal Component Analysis. This technique succeeded in identifying five conformationally variable domains within PrP, and ranking these subdomains by their ability to differentiate PrPs based on non-local structural response to pathogenic mutation and prion disease susceptibility. The presented results are corroborated by previous observations from experimental methods and molecular dynamic simulations, suggesting that this approach serves as a fast and reliable method for detection of potential amyloidogenic segments in amyloid-forming proteins. Finally, a structural, functional, and evolutionary bioinformatic analysis is conducted to assess the prevalence of the first experimentally verified amyloid fibril fold in nature, and whether this fold can serve as a prototype for other amyloid-forming proteins. The results indicate a limited scope of this fold in amyloid-forming proteins and across the protein universe, and have implications on future identification of amyloid-forming proteins that share this fold. Collectively, the presented thesis compares these different methods and discusses their efficacy in detection of amyloidogenic segments. / La détection de peptides ou de domaines amyloïdogéniques dans les protéines est d'une importance primordiale dans la compréhension de leur rôle dans l'amylose dans les maladies conformationnelles. Cette thèse explore différentes méthodes en vue de la détection et la prédiction des peptides amyloïdogéniques utilisant une variété de méthodes d'analyse bio-informatique. L'analyse bio-informatique des changements structurels secondaires est employé afin de déterminer si les classes des peptides structurellement ambivalentes, principalement des séquences discordantes et caméléons, sont des prédicteurs efficaces de segments amyloïdogéniques. Cette analyse élucide des relations statistiques entre la discordance, la chameleonism et l'amyloïdogénicité à travers une base de données de domaines protéiques (SCOP), un sous-ensemble de protéines formées d'amyloïdes, et de la famille prion. Les résultats présentés soulignent les limites de ces peptides en tant que prédicteurs d'amyloïdogénicité, et soulèvent des questions sur le pouvoir prédictif qui peut être récolté de méthodes de prédiction de structure secondaire. Dans une autre approche bio-informatique, la détection de segments de conformation variables dans les structures tertiaires de domaines globulaires PrP a été effectuée utilisant « Principal Component Analysis ». Cette technique a réussi à identifier cinq domaines de conformation variables au sein de la protéine PrP, et à classer ces sous-domaines par leur capacité à différencier les PrP fondés sur des réponses structurelles non-locales à la mutation pathogène et la susceptibilité aux maladies prion. Les résultats présentés sont corroborés par des observations antérieures à partir de méthodes expérimentales et de simulations de dynamique moléculaire, ce qui suggère que cette approche sert comme une méthode rapide et fiable pour la détection de segments amyloïdogéniques potentiels dans les protéines formées d'amyloïdes. Finalement, une analyse structurelle, fonctionnelle et évolutive bio-informatique est menée afin d'évaluer la prévalence du premier pli de fibrille amyloïde dans la nature vérifié expérimentalement, et si ce pli peut servir de prototype pour d'autres protéines formées d'amyloïdes. Les résultats indiquent une portée limitée de ce pli dans les protéines formées d'amyloïdes et à travers l'univers des protéines, et ont des répercussions sur l'identification future de protéines formées d'amyloïdes qui partagent ce pli. Collectivement, la thèse présentée compare ces différentes méthodes et discute leur efficacité dans la détection de segments amyloïdogéniques. Biology - Bioinformatics
20	Intron loss and gain in Eukaryotes Coulombe-Huntington, Jasmin January 2008 (has links) Although introns were first discovered almost 30 years ago, their evolutionary origin and function remains elusive. In this thesis, I describe a referenced-based intron mapping method based on multi-species whole-genome alignments. We applied this method in two distinct studies. First we studied intron loss and gain dynamics in mammals and subsequently in Drosophila. We mapped known human introns onto the mouse, rat and dog genomes, mouse introns onto the human genome and Drosophila melanogaster introns onto 10 other fully sequenced Drosophila genomes. This genome-wide approach allowed us to assess the presence or absence of over 150,000 known human introns across four mammalian species and more than 35,000 D. melanogaster introns across 11 fruit fly species. We inferred 122 intron loss events in mammals and no intron gain events. In flies, we were able to identify 1754 intron loss events and 213 gain events. In both studies we found that lost introns tend to be extremely short and show higher than average similarity between their 5' splice-site sequence and the 3' partner splice-site sequence. We also demonstrate that losses in mammals occur preferentially in highly expressed house-keeping genes, while in Drosophila we show that lost and gained introns are flanked by longer than average exons, display quite distinct phase distributions and losses demonstrate significant clustering within genes. Across flies, it appears introns that have been lost evolve faster than other introns while they occur in slowly evolving genes. Our results in both studies strongly support the cDNA recombination mechanism of intron loss. The results in flies also suggest that selective pressures affect site-specific loss rates and show that intron gain has occurred within the Drosophila lineage, solidifying the “introns-middle” hypothesis and providing some hints about the gain mechanism and origin of introns. / Malgré le fait que les introns furent découverts il y a près de 30 ans, leur origine et leur fonction nous échappent encore. Au cours de cette thèse, je décrirais une méthode qui permet de projeter des introns d'une espèce de référence sur d'autres génomes, basée sur des alignements de génomes complets à plusieurs espèces. Nous avons appliqué cette méthode dans le cadre de deux études distinctes. Premièrement, nous avons étudié les pertes et les gains d'introns chez les mammifères et ensuite chez les Drosophiles. Nous avons projeté les introns humains sur le génome de la souris, du rat et du chien, les introns de la souris sur le génome humain et les introns de la Drosophile melanogaster sur les génomes de 10 autres espèces de Drosophiles complètement séquencées. Cette approche d'ordre génomique nous a permis de comparer la présence ou l'absence de plus de 150,000 introns humains dans quatre espèces de mammifères et plus de 35,000 introns de D. melanogaster dans 11 espèces de drosophiles. Nous avons détecté 122 pertes d'introns chez les mammifères mais aucun gain d'intron. Chez les mouches à fruits, nous avons identifié 1754 pertes d'introns et 213 gains d'introns. Dans les deux études, nous démontrons que les introns perdus sont extrêmement courts et démontrent une similarité relativement élevée entre le site d'épissage au début de l'intron et le site d'épissage à la fin de l'intron. Nous démontrons chez les mammifères les pertes d'introns se produisent de préférence dans des gènes hautement exprimés et de fonctions cruciales à la cellule. Chez les drosophiles nous démontrons que les introns perdus ou gagnés sont délimités par des exons plus longs que la moyenne, ont une distribution de phase plutôt distincte et les pertes démontrent une tendance à se retrouver en groupe à l'intérieur des gènes. Chez les mouches à fruits, il semble que les introns perdus évoluent plus rapidement que la moyenne Biology - Bioinformatics

Search results