Global ETD Search

271	Développement d’un outil bio-informatique pour l’annotation des associations entre gènes et métabolites basée sur les voies métaboliques Therrien-Laperrière, Sandra 11 1900 (has links) No description available. Métabolomique Génomique mGWAS Réseaux Metabolomic Genomic Metabolic network KEGG mGWAS Graph theory
272	Unfolding RNA 3D structures for secondary structure prediction benchmarking C-Parent, Gabriel 01 1900 (has links) Les acides ribonucléiques (ARN) forment des structures tri-dimensionnelles complexes stabilisées par la formation de la structure secondaire (2D), elle-même formée de paires de bases. Plusieurs méthodes computationnelles ont été créées dans les dernières années afin de prédire la structure 2D d’ARNs, en partant de la séquence. Afin de simplifier le calcul, ces méthodes appliquent généralement des restrictions sur le type de paire de bases et la topologie des structures 2D prédites. Ces restrictions font en sorte qu’il est parfois difficile de savoir à quel point la totalité des paires de bases peut être représentée par ces structures 2D restreintes. MC-Unfold fut créé afin de trouver les structures 2D restreintes qui pourraient être associées à une structure secondaire complète, en fonction des restrictions communément utilisées par les méthodes de prédiction de structure secondaire. Un ensemble de 321 monomères d’ARN totalisant plus de 4223 structures fut assemblé afin d’évaluer les méthodes de prédiction de structure 2D. La majorité de ces structures ont été déterminées par résonance magnétique nucléaire et crystallographie aux rayons X. Ces structures ont été dépliés par MC-Unfold et les structures résultantes ont été comparées à celles prédites par les méthodes de prédiction. La performance de MC-Unfold sur un ensemble de structures expérimentales est encourageante. En moins de 5 minutes, 96% des 227 structures ont été complètement dépliées, le reste des structures étant trop complexes pour être déplié rapidement. Pour ce qui est des méthodes de prédiction de structure 2D, les résultats indiquent qu’elles sont capable de prédire avec un certain succès les structures expérimentales, particulièrement les petites molécules. Toutefois, si on considère les structures larges ou contenant des pseudo-noeuds, les résultats sont généralement défavorables. Les résultats obtenus indiquent que les méthodes de prédiction de structure 2D devraient être utilisées avec prudence, particulièrement pour de larges molécules. / Ribonucleic acids (RNA) adopt complex three dimensional structures which are stabilized by the formation of base pairs, also known as the secondary (2D) structure. Predicting where and how many of these interactions occur has been the focus of many computational methods called 2D structure prediction algorithms. These methods disregard some interactions, which makes it difficult to know how well a 2D structure represents an RNA structure, especially when large amounts of base pairs are ignored. MC-Unfold was created to remove interactions violating the assumptions used by prediction methods. This process, named unfolding, extends previous planarization and pseudoknot removal methods. To evaluate how well computational methods can predict experimental structures, a set of 321 RNA monomers corresponding to more than 4223 experimental structures was acquired. These structures were mostly determined using nuclear magnetic resonance and X-ray crystallography. MC-Unfold was used to remove interactions the prediction algorithms were not expected to predict. These structures were then compared with the structured predicted. MC-Unfold performed very well on the test set it was given. In less than five minutes, 96% of the 227 structure could be exhaustively unfolded. The few remaining structures are very large and could not be unfolded in reasonable time. MC-Unfold is therefore a practical alternative to the current methods. As for the evaluation of prediction methods, MC-Unfold demonstrated that the computational methods do find experimental structures, especially for small molecules. However, when considering large or pseudoknotted molecules, the results are not so encouraging. As a consequence, 2D structure prediction methods should be used with caution, especially for large structures. Structure tertiaire Problème de satisfaction de contraintes Tertiary structure Constraint satisfaction problem
273	Adaptation de la levure à la suite des perturbations du mécanisme de contrôle de qualité de l'ARN Gendron, Louis 09 1900 (has links) The life-cycle of RNA is determined by several processing steps, which allow the cell to export and translate a coding transcript. The cell has developed an astonishingly complex mechanism to ensure the integrity of RNA processing steps. The quality control mechanism of RNA balances the biosynthesis and degradation of various transcripts, adding another layer of gene regulation to the complex system of gene expression. The exosome is a central piece of the RNA quality control mechanism as it degrades many of the aberrant or non-functional RNAs in the nucleus and the cytoplasm. This project characterizes and highlight a response to mutation of components from the RNA quality control mechanism in Saccharomyces cerevisiae. These perturbations include functional components of the exosome (Csl4 and Dis3), a cofactor of the nuclear exosome (Rrp6), an essential protein for pre-rRNA processing (Enp1) and a component of RNA export machinery (Srm1). Here, I present bioinformatics approaches to characterize the cellular response at a level of transcript expression and polyadenylation size. The stress response embedded in the gene expression profile is highly similar between the mutants. This work suggests a generic response to a failure in different components of the RNA quality control machinery. / Le cycle de vie des ARN est déterminé par différentes étapes permettant à la cellule d’exporter et de traduire un transcrit codant. La cellule a développé un mécanisme incroyablement complexe pour s’assurer de l’intégrité des étapes de maturation de l’ARN. Le mécanisme de contrôle de qualité balance la biosynthèse et la dégradation de différents transcrits, ce qui ajout un niveau de régulation au système de l’expression génique. L’exosome est une pièce centrale du mécanisme de contrôle de qualité de l’ARN alors qu’elle dégrade une grande partie des transcrits aberrants ou non-fonctionnels dans le noyau et le cytoplasme. Ce projet caractérise et souligne la réponse cellulaire à la suite de la mutation de composantes du mécanisme de contrôle de qualité de l’ARN chez Saccharomyces cerevisiae. Ces perturbations comportent des composantes fonctionnelles du complexe de l’exosome (Csl4 et Dis3), un cofacteur de l’exosome nucléaire (Rrp6), une protéine essentielle pour la maturation des pré-ARNr (Enp1) et une composante de la machinerie d’export de l’ARN (Srm1). Ici, je présente des approches bio-informatiques pour caractériser la réponse cellulaire au niveau de l’expression des transcrits et de la taille des segments polyadénylés. La réponse au stress cellulaire intégré dans le profil d’expression du génome est très similaire entre les mutants. Ce travail suggère une réponse générique à la suite de la perturbation de différentes composantes du mécanisme de contrôle de qualité de l’ARN. bio-informatique bioinformatic transcriptomique transcriptomic contrôle de qualité de l'ARN RNA quality control exosome polyadenylation
274	Classification moléculaire des Tumeurs de Wilms par analyse RNA-Seq Roux, Cedric 10 1900 (has links) La tumeur de Wilms (TW) est un cancer du rein retrouvé principalement chez les enfants âgés de 2 à 4 ans. Elle représente 90% des cancers pédiatriques du rein. Le taux de survie des TW est supérieur à 90%. Ce dernier est rendu possible grâce à une stratification des patients en fonction du risque de récidive. Les TW sont classées dans différents groupes de risque selon le stade, l’histologie, la taille de la tumeur et la perte d’hétérozygotie aux loci 1p et 16q. Deux régions sont importantes dans la génétique des TW, WT1 et WT2. WT1 est un gène qui code pour un facteur de transcription important dans différentes phases du développement rénal. Des anomalies de WT1 sont retrouvées dans certains syndromes humains tels que WAGR et Denys-Drash qui sont associés à l’émergence de TW. WT2 est un locus présent dans la région chromosomique 11p15 où une perte d'hétérozygotie conduit à une disomie uniparentale. Ceci entraîne un risque accru de TW dû à une surexpression de IGF2 qui est liée à la prolifération d’organes et de membres. Malgré ce portrait génétique, il n’existe pas de sous-groupes moléculaires qui permettent une classification des TW comme on observe chez d’autres cancers de l’enfant, notamment la leucémie. Nous proposons de déterminer une stratification de sous-groupes groupes moléculaire à l’aide d’une signature moléculaire basée sur des profils d’expression qui améliorait la classification des TW dans leurs groupes de risque adéquat. Pour vérifier cette hypothèse, nous avons analysé le transcriptome d’une cohorte de 130 patients atteint d’une TW. Grâce à un regroupement hiérarchique du profil d’expression des échantillons, nous avons identifié deux sous-groupes potentiels de TW. Un de ces sous-groupes est défini par une sous-expression de WT1 et une surexpression de gènes du début du développement musculaire chez les enfants et montrerait un risque plus fort de rechute. Ces résultats montrent que des outils de regroupement basés sur une signature moléculaire permettraient d’identifier des sous-groupes moléculaires chez les TW. / Wilms' tumor (TW) is a kidney cancer found mainly in children aged from 2 to 4 years old. It represents 90% of pediatric kidney cancers. The TW survival rate is over 90%. The latter is made possible by stratifying patients according to the risk of relapse. TW are classified into different risk groups according to stage, histology, tumor size and more recently the loss of heterozygosity at loci 1p and 16q. Two regions are important in the genetics of WT, WT1 and WT2. WT1 is a gene that encodes an important transcription factor in different phases of renal development. WT1 abnormalities are found in some human syndromes such as WAGR and Denys-Drash which are associated with the emergence of TW. WT2 is a locus present in the chromosomal region 11p15 where a loss of heterozygosity leads to a uniparental disomy. This leads to an increased risk of WT due to an overexpression of IGF2 which is linked to the proliferation of organs and members. Despite this genetic portrait, there are no molecular subgroups which allow classification of TW as observed in other childhood cancers, including leukemia. We propose to determine a stratification of WT using a molecular signature based on expression profiles in their proper risk group. To test this hypothesis, we analyzed the transcriptome of a cohort of 130 WT patients. The hierarchical clustering of the of the sample’s expressions profiles identified two potential WT subgroups. One of these subgroups can be described by a lower expression of WT1 and overexpression of genes for early muscle development in children and show a higher risk of relapse. These results show that clustering tools based on a molecular signature could allow treatment adjustment (i.e. precision medicine) and thus increase the survival rate. Tumeur de Wilms Cancer pédiatrique Rein Classification Wilm’s tumor Pediatric cancer Kidney Classification
275	La cartographie des sites de régulation génétique à partir de données de débalancement allélique Vello, Emilio D. 09 1900 (has links) En 1975, Wilson et King ont proposé que l'évolution opère non seulement via des changements affectant la structure des protéines, mais aussi via des mutations qui modifient la régulation génétique. L'étude des éléments régulateurs de l'expression génétique a un rôle important dans la compréhension de l'expression de différentes maladies et de la réponse thérapeutique. Nous avons développé un algorithme bio- informatique qui nous permet rapidement de trouver des sites de régulation génétique à travers tout le génome et pour une grande quantité de gènes. Notre approche consiste à trouver des sites polymorphes (SNPs) qui sont en déséquilibre de liaison avec le débalancement allélique (AI) afin de cartographier la région régulatrice et le site responsable. Notre méthode est avantageuse par rapport à d'autres méthodes, car elle n'a pas besoin des données « phasées». De plus, les données de débalancement allélique ne sont pas affectées par des facteurs externes étant donné qu'ils sont mesurés dans la même cellule. Nous avons démontré que notre approche est fiable et qu'elle peut détecter des sites loin du gène. De plus, il peut être appliqué à des données de génotypage sans avoir besoin de les « phaser » . / Wilson and King (1975) proposed that evolution frequently operates through mutations affecting genetic regulation. Likewise, it is expected that genetic variation responsible for inter-individual differences will be due to variation in regulatory sites. Identifying such sites is thus important in the genetic and medical research. We have developed a new bioinformatics algorithm to find genome-wide regulatory sites for a big number of genes. Individuals carrying different alleles at a regulatory site will exhibit allelic imbalance(AI) due to differential expression of the two copies the same locus. Our approach consists of searching polymorphic sites (SNPs) in linkage disequilibrium with AI in order to map regulatory regions. We have detected many SNPs associated to the regulation of different genes pointed in previous studies. We have also found regulatory regions far from the transcription start site (TSS). The major advantage of this method is that phased data is not needed. In addition, AI data has the benefit of not being affected by external factors since it is measured in the same cell. The results show that our approach is reliable and it can detect sites far from the gene. SNP Allelic imbalance LD Région régulatrice Déséquilibre de Liaison AI Linkage disequilibrium Regulatory Region eQTL Regulation
276	Performances de la puce exon et son application dans l’analyse de l’épissage alternatif associé à la métastase du cancer de sein Bemmo, Amandine 09 1900 (has links) Nous montrons l’utilisation de la puce exon d’Affymetrix pour l’analyse simultanée de l’expression des gènes et de la variation d’isoformes. Nous avons utilisé les échantillons d’ARN du cerveau et des tissus de référence qui ont été antérieurement utilisés dans l’étude du consortium MicroArray Quality Control (MAQC). Nous démontrons une forte concordance de la quantification de l’expression des gènes entre trois plateformes d’expression populaires à savoir la puce exon d’Affymetrix, la puce Illumina et la puce U133A d’Affymetrix. Plus intéressant nous montrons que la majorité des discordances entre les trois plateformes résulterait des positions différentes des sondes à travers les plateformes et que les variations d’isoforme exactes ne peuvent être identifiées que par la puce exon. Nous avons détecté avec succès, entre les tissus de référence et ceux du cerveau, une centaine de cas d’évènements d’épissage alternatif. La puce exon est requise dans l’analyse de l’épissage alternatif associé aux pathologies telles que les cancers et les troubles neurologiques. Comme application de cette technologie, nous avons analysé les variations d’épissage dans la métastase du cancer de sein développé dans le model de la souris. Nous avons utilisé une gamme bien définie de trois lignées de tumeur mammaire ayant différents potentiels métastatiques. Par des analyses statistiques, nous avons répertorié 2623 transcripts présentant des variations d’expression et d’isoformes entre les types de tumeur. Une analyse du réseau de gènes montre qu’environ la moitié d’entre eux est impliquée dans plusieurs activités cellulaires, ainsi que dans nombreux cancers et désordres génétiques. / We demonstrate how the Affymetrix Exon Array, can be used to simultaneously profile gene expression level, and detect variations at the isoform level. We use a well studied set of brain and reference RNA samples previously used by the MicroArray Quality Control (MAQC) consortium study. We demonstrate a high concordance of gene expression measurements among three popular expression platforms – Affymetrix Exon Array, Illumina, and Affymetrix 3’ targeted array (U133A). More interestingly, we show that in many cases of discordant results, the effect can be explained by differential probe placements across platforms, and that the exact isoform change can only be captured by the Exon Array. Finally, we are able to detect hundreds of cases of splicing, transcript initiation, and termination differences between the brain and reference tissue samples. We propose that the Exon Array is a highly effective tool for transcript isoform profiling, and that it should be used in a variety of systems where such changes are known to be associated with diseases, such as neurological disorders and cancer. As application, we used the Affymetrix Exon Array to identify metastatis-specific alternative splicing in mouse model of breast cancer at the whole genome level. We utilize a well characterized series of three mouse mammary tumor lines exhibiting varying levels of metastatic potential. We catalogued 2623 transcripts which exhibit splicing aberrations during the progression of cancer. A genetic pathway analysis shows the half of them implicated in several cell activities, cancers and genetic disorders. Puce exon Exon Array Épissage alternatif Alternative splicing Cancer de sein Breast cancer Réseau de gènes Gene pathway
277	Caractérisation du microDNome et sa modulation par le traitement anti-cancer Mehanna, Pamela 11 1900 (has links) Récemment, une nouvelle classe d'ADN circulaire extrachromosomique (eccDNA) appelée microADN a été identifiée dans des tissus humains et murins. Ces microADNs ont une longueur de 100 à 400 pb, sont dérivés de régions génomiques non répétitives uniques et présentent un enrichissement au niveau des régions géniques et riches en GC. Bien qu'il ait été proposé qu'ils puissent provenir du métabolisme de l'ARN ou des défauts de réplication, leurs mécanismes de production et leur éventuelle fonctionnalité restent à déterminer. Grâce à l'analyse des microADNs extraits d'une série de 10 lignées cellulaires lymphoblastoïdes humaines (LCL), nous avons confirmé la distribution nonaléatoire des microADNs vers les régions actives du génome. Les microADNs identifiés présentaient des loci d'origine redondants et une périodicité de taille de 190 pb pouvant correspondre à la fragmentation de l'ADN lors de l'apoptose caspase-dépendante. L'apoptose induite de ces LCLs par des drogues chimiothérapeutiques (méthotrexate ou L-asparaginase) a entrainé la modulation de la diversité et de la taille des microADNs, suggérant qu'une partie de ces entités pourrait être des produits résiduels de la mort cellulaire apoptotique. Ainsi, bien que compatible avec l'observation initiale suggérant que les microADNs proviennent d'un processus physiologique normal, ces résultats impliquent une source de production alternative ou complémentaire. / Recently, a new class of extrachromosomal circular DNA (eccDNA) called microDNA was identified in mouse and human tissues. These microDNAs are 100 to 400 bp long, derive from unique nonrepetitive genomic regions and show an enrichment in GC rich and genic sequences. While it has been proposed that they could arise from RNA metabolism or replication defects, their production mechanisms and eventual functionality remain unclear. Through the analysis of microDNAs extracted from a series of 10 human lymphoblastoid cell lines (LCLs), we confirmed the non-random distribution of microDNA towards active regions of the genome. Identified microDNAs showed redundant loci of origin and a size periodicity of 190 bp that matched caspase-dependant DNA fragmentation of apoptotic cells. Strikingly, the chemotherapeutic drug-induced apoptosis (using methotrexate or Lasparaginase) of these LCLs modulated both diversity and size of microDNAs further suggesting that a part of microDNAs could represent circularized by-products of the programmed cell death. Thus, while compatible with the original observation that microDNAs originated from a normal physiological process, these results imply an alternative or complementary source of production. MicroDNA MicroADN Extra-chromosomal circular DNA Méthotrexate Next-Generation Sequencing L-Asparaginase Apoptose Apoptosis Génomique Pharmacogénomique
278	Décodage de l'expression de gènes cryptiques Moreira, Sandrine 08 1900 (has links) Pour certaines espèces, les nouvelles technologies de séquençage à haut débit et les pipelines automatiques d'annotation permettent actuellement de passer du tube Eppendorf au fichier genbank en un clic de souris, ou presque. D'autres organismes, en revanche, résistent farouchement au bio-informaticien le plus acharné en leur opposant une complexité génomique confondante. Les diplonémides en font partie. Ma thèse est centrée sur la découverte de nouvelles stratégies d'encryptage de l'information génétique chez ces eucaryotes, et l'identification des processus moléculaires de décodage. Les diplonémides sont des protistes marins qui prospèrent à travers tous les océans de la planète. Ils se distinguent par une diversité d'espèces riche et inattendue. Mais la caractéristique la plus fascinante de ce groupe est leur génome mitochondrial en morceaux dont les gènes sont encryptés. Ils sont décodés au niveau ARN par trois processus: (i) l'épissage en trans, (ii) l'édition par polyuridylation à la jonction des fragments de gènes, et (iii) l'édition par substitution de A-vers-I et C-vers-T; une diversité de processus posttranscriptionnels exceptionnelle dans les mitochondries. Par des méthodes bio-informatiques, j'ai reconstitué complètement le transcriptome mitochondrial à partir de données de séquences ARN à haut débit. Nous avons ainsi découvert six nouveaux gènes dont l'un présente des isoformes par épissage alternatif en trans, 216 positions éditées par polyuridylation sur 14 gènes (jusqu'à 29 uridines par position) et 114 positions éditées par déamination de A-vers-I et C-vers-T sur sept gènes (nad4, nad7, rns, y1, y2, y3, y5). Afin d'identifier les composants de la machinerie réalisant la maturation des ARNs mitochondriaux, le génome nucléaire a été séquencé, puis je l'ai assemblé et annoté. Cette machinerie est probablement singulière et complexe car aucun signal en cis ni acteur en trans caractéristiques des machineries d'épissage connues n'a été trouvé. J'ai identifié plusieurs candidats prometteurs qui devront être validés expérimentalement: des ARN ligases, un nombre important de protéines de la famille des PPR impliquées dans l'édition des ARNs dans les organites de plantes, ainsi que plusieurs déaminases. Durant ma thèse, nous avons mis en évidence de nouveaux types de maturation posttranscriptionnelle des ARNs dans la mitochondrie des diplonémides et identifié des candidats prometteurs de la machinerie. Ces composants, capables de lier précisément des fragments d'ARN et de les éditer pourraient trouver des applications biotechnologique. Au niveau évolutif, la caractérisation de nouvelles excentricités moléculaires de ce type nous donne une idée des processus de recrutement de gènes, de leur adaptation à de nouvelles fonctions, et de la mise en place de machineries moléculaires complexes. / Thanks to new high throughput sequencing technologies and automatic annotation pipelines, proceeding from an eppendorf tube to a genbank file can be achieved in a single mouse click or so, for some species. Others, however, fiercely resist bioinformaticians with their confounding genomic complexity. Diplonemids are one of them. My thesis is centered on the discovery of new strategies for encrypting genetic information in eukaryotes, and the identification of molecular decoding processes. Diplonemids are a group of poorly studied marine protists. Unexpectedly, metagenomic studies have recently ranked this group as one of the most diverse in the oceans. Yet, their most distinctive feature is their multipartite mitochondrial genome with genes in pieces, and encryption by nucleotide deletions and substitutions. Genes are decrypted at the RNA level through three processes: (i) trans-splicing, (ii) polyuridylation at the junction of gene pieces and (iii) substitutions of A-to-I and C-to-T. Such a diverse arsenal of mitochondrial post-transcriptional processes is highly exceptional. Using a bioinformatics approach, I have reconstructed the mitochondrial transcriptome from RNA-seq libraries. We have identified six new genes including one that presents alternative trans-splicing isoforms. In total, there are 216 uridines added in 14 genes with up to 29 U insertions, and 114 positions edited by deamination (A-to-I or C-to-T) among seven genes (nad4, nad7, rns, y1, y2, y3, y5). In order to identify the machinery that processes mitochondrial RNAs, the nuclear genome has been sequenced. I have then assembled and annotated the genome. This machinery is probably unique and complex because no cis signal or trans actor typical for known splicing machineries have been found. I have identified promising protein candidates that are worth to be tested experimentally, notably RNA ligases, numerous members of the PPR family involved in plants RNA editing and deaminases. During my thesis, we have identified new types of post-transcriptional RNA processing in diplonemid mitochondria and identified new promising candidates for the machinery. A system capable of joining precisely or editing RNAs could find biotechnological applications. From an evolutionary perspective, the discovery of new molecular systems gives insight into the process of gene recruitment, adaptation to new functions and establishment of complex molecular machineries. Bio-informatique Génomique Édition d'ARN Épissage en trans Assemblage de génome Annotation Bioinformatics Genomics RNA editing Trans-splicing Genome assembly Genome annotation
279	Investigating the regulation and functioning of RNT-1 and BRO-1 in C. elegans Brabin, Charles Edward January 2012 (has links) The stem cell-like seam cells of the nematode, Caenorhabditis elegans, represent a tractable and powerful model for studying stem cell biology. rnt-1, the worm homologue of the mammalian RUNX family of transcription factors, together with the CBFβ homologue bro-1, is essential for the proliferation of the seam cells. RUNX genes and CBFβ are important regulators of stem cell development in mammals, and are associated with a variety of cancers. The worm seam cell model offers an opportunity to examine how these genes function in stem cell biology. The aim of this work was to shed light on the genetic network in which bro-1 and rnt-1 function, and to reveal the identity of regulators of these genes as well the downstream targets of the bro-1/rnt-1 pathway. Here, a number of genes that interact with bro-1 and rnt-1 have been identified. ELT-1, a GATA transcription factor, is shown to be a direct regulator of bro-1. Findings which show that the MEIS gene unc-62 acts upstream of bro-1/rnt-1 and regulates the symmetry of seam cell divisions are also presented. The seam cell marker, scm::gfp, is widely used in studies of the seam cells; here the results of an investigation into its identity and functional links are described. In addition, the mechanism underlying spatial regulation of rnt-1 was examined; this led to the discovery of distinct tissue-specific enhancer modules within an intron of this gene. Finally, interactions between pal-1 and bro-1/rnt-1 are reported and described. Together, these findings provide a framework for furthering our understanding of the mechanisms and genes associated with the functioning of bro-1 and rnt-1 in the worm. 616.02774
280	Protein loop structure prediction Choi, Yoonjoo January 2011 (has links) This dissertation concerns the study and prediction of loops in protein structures. Proteins perform crucial functions in living organisms. Despite their importance, we are currently unable to predict their three dimensional structure accurately. Loops are segments that connect regular secondary structures of proteins. They tend to be located on the surface of proteins and often interact with other biological agents. As loops are generally subject to more frequent mutations than the rest of the protein, their sequences and structural conformations can vary significantly even within the same protein family. Although homology modelling is the most accurate computational method for protein structure prediction, difficulties still arise in predicting protein loops. Protein loop structure prediction is therefore a bottleneck in solving the protein structure prediction problem. Reflecting on the success of homology modelling, I implement an improved version of a database search method, FREAD. I show how sequence similarity as quantified by environment specific substitution scores can be used to significantly improve loop prediction. FREAD performs appreciably better for an identifiable subset of loops (two thirds of shorter loops and half of the longer loops tested) than ab initio methods; FREAD's predictive ability is length independent. In general, it produces results within 2Å root mean square deviation (RMSD) from the native conformations, compared to an average of over 10Å for loop length 20 for any of the other tested ab initio methods. I then examine FREAD’s predictive ability on a specific type of loops called complementarity determining regions (CDRs) in antibodies. CDRs consist of six hypervariable loops and form the majority of the antigen binding site. I examine CDR loop structure prediction as a general case of loop structure prediction problem. FREAD achieves accuracy similar to specific CDR predictors. However, it fails to accurately predict CDR-H3, which is known to be the most challenging CDR. Various FREAD versions including FREAD with contact information (ConFREAD) are examined. The FREAD variants improve predictions for CDR-H3 on homology models and docked structures. Lastly, I focus on the local properties of protein loops and demonstrate that the protein loop structure prediction problem is a local protein folding problem. The end-to-end distance of loops (loop span) follows a distinctive frequency distribution, regardless of secondary structure elements connected or the number of residues in the loop. I show that the loop span distribution follows a Maxwell-Boltzmann distribution. Based on my research, I propose future directions in protein loop structure prediction including estimating experimentally undetermined local structures using FREAD, multiple loop structure prediction using contact information and a novel ab initio method which makes use of loop stretch. 572.6

Search results