Return to search

Measuring deviation from a deeply conserved consensus in protein multiple sequence alignments

Proteins across species show variable degrees of conservation. Different patterns of conservation in the columns of an alignment indicate different evolutionary pressures on sequences. Protein conservation analysis is useful for a wide variety of applications, including disease mutation assessment, pseudogene analysis and functional residue prediction. This study describes a novel measure of column conservation in protein multiple sequence alignments (‘MSA'), and the application of this measure to calculate statistical deviation from alignment consensus (‘SDAC'). We have assessed SDAC for two case studies of sequences: (a) putative pseudogenes in Mycobacteria, and (b) young lineage-specific retrotransposed sequences in the human and mouse genomes. In the procedure, we rank residue positions for deep conservation, and evaluate statistically significant violations from MSA consensus. Novel conservation measure clearly indicated a variable degree of physiochemical conservation for a given column entropy. That, in turn, enabled us to detect deviations from physiochemical consensus in a protein MSA, which are not found by entropy measures. / D'une espèce à l'autre, des variations peuvent survenir dans la composition des protéines. Les tendances suivies par les colonnes d'un alignement de séquences multiples reflètent les différentes pressions évolutionnaires imposes sur les séquences. Les analyses de conservation de protéines sont utiles à plusieurs fins, comme dans l'évaluation des mutations de maladies, l'analyse de pseudogenes ainsi que les prédictions fonctionnelles de résidus. Cette étude décrit une nouvelle mesure de conservation de colonnes pour les analyses d'alignement de séquences multiples. De plus, nous décrivons l'utilisation de cette nouvelle mesure pour calculer la déviation statistique avec un consensus d'alignement. Nous avons utilisé cette mesure pour deux études cas de séquence : (a) Celle de pseudogenes putatifs du Mycobactérie, et (b) Celle de jeunes séquences spécifiques a certains lignages rétrotransposés dans les génomes humains et souris. Ce faisant, nous avons classifié les positions de résidus hautement conservés et avons évalué les cas ou d'importantes variations existent avec les consensus des alignements de séquences multiples. Cette nouvelle échelle de conservation indique qu'il existe un degré variable de conservation physiochimique pour une entropie fixe des colonnes. En retour, ceci nous permet de détecter les variations physiochimiques des consensus d'une colonne qui ne serait autrement pas détecté par des mesures d'entropie.

Identiferoai:union.ndltd.org:LACETR/oai:collectionscanada.gc.ca:QMM.21956
Date January 2008
CreatorsMokin, Sergey
ContributorsPaul Harrison (Supervisor)
PublisherMcGill University
Source SetsLibrary and Archives Canada ETDs Repository / Centre d'archives des thèses électroniques de Bibliothèque et Archives Canada
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation
Formatapplication/pdf
CoverageMaster of Science (Department of Biology)
RightsAll items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.
RelationElectronically-submitted theses.

Page generated in 0.0021 seconds