Return to search

DÉVELOPPEMENTS THÉORIQUES ET MÉTHODES NUMÉRIQUES POUR LES ANALYSES COMPARATIVES DE GÉNOMES ET PROTÉOMES BIAISÉS. Application à la comparaison des génomes et protéomes de Plasmodium falciparum et d'Arabidopsis thaliana

Le paludisme, ou malaria, est une maladie infectieuse qui touche plus de 350 millions d'êtres humains et qui tue chaque année 2,5 millions de personnes à travers le monde. Les parasites responsables de la malaria sont des apicomplexes du genre Plasmodium, essentiellement P. falciparum. Le génome de P. falciparum, est séquencé depuis octobre 2002, et présente un des taux les plus faibles de gènes annotés, avec ~60 % de gènes sans fonction attribuée. Il est difficile, voire impossible, d'identifier dans le génome de P. falciparumi, certains gènes, responsables de fonctions mesurées biochimiquement chez le parasite, par similarité avec des séquences homologues caractérisées dans d'autres organismes. Cette difficulté rencontrée lors des recherches automatiques d'homologie est une limite à tout projet exploratoire du génome malarial fondé sur la phylogénie moléculaire. En particulier, l'inventaire des séquences héritées de l'algue ancestrale, qui a réalisé l'endosymbiose secondaire qui caractérise le phylum des Apicomplexa (sous génome d'origine algale dans lequel il est possible de rechercher des cibles pour des médicaments herbicides), peut être rendu incomplet. Les caractéristiques atypiques du génome et du protéome de Plasmodium, résumées sous le terme de biais compositionnel (en particulier un pourcentage en adénosine+thymidine supérieur à 80%), ont été soupçonnées d'être un cas limite pour les outils d'analyse de séquence existants. L'objet de cette thèse a donc été d'examiner l'influence possible de ce type de biais sur les méthodologies de comparaisons de séquences et de façon plus approfondie sur leurs statistiques.<br />Nous avons proposé des développements théoriques nouveaux, associés à la statistique de la Z-value introduite par Lipman et Pearson pour évaluer la significativité d'un score d'alignement de deux séquences protéiques: (1) le théorème TULIP permettant de déduire un majorant de la probabilité d'un score d'alignement de séquences (i.e. la P-value) par la valeur 1/Z-value2 et (2) la déduction des propriétés remarquables de la distribution des Z-values à partir de quelques hypothèses sur l'évolution des protéines dans le contexte de la théorie de la fiabilité des systèmes. Ces développements théoriques ont permis certaines avancées sur le plan pratique de l'identification de séquences homologues initialement non détectées par le théorème de Karlin-Altschul et d'étayer la relation entre les scores d'alignements et l'information mutuelle, au sens de la théorie de l'information.<br />En construisant un espace de configuration des protéines homologues, permettant une expression du théorème TULIP et ayant une cohérence avec la théorie synthétique de l'évolution, nous avons déduit une méthode de reconstruction de phylogénies de séquences protéiques à l'aide des Z-values. Les phylogénies moléculaires reconstruites par cette méthode sont concordantes avec celles obtenues à partir d'alignements multiples et permettent par ailleurs de résoudre certaines incohérences rapportées avec les méthodes de reconstruction phylogéniques classiques.<br />En prenant en compte le modèle statistique que nous avons élaboré, nous avons entrepris une première analyse de l'évolution du biais en acides aminés chez Plasmodium corrélativement à l'évolution du biais en acides nucléiques dans le génome malarial et en fonction de la divergence évolutive, établie en prenant le génome non biaisé d'Arabidopsis thaliana comme référence. Nous avons observé que le biais des séquences malariales était corrélé au pourcentage de divergence avec leurs homologues végétaux. Nos analyses suggèrent de plus que le biais est vraisemblablement la conséquence d'une évolution au niveau nucléique. Nous avons examiné la possibilité de construire une famille de matrices tenant compte de cette dissymétrie dans le cas de la comparaison de Plasmodium et d'Arabidopsis. Ces matrices appelées DirAtPf, possèdent (1) une sensibilité théorique et (2) une spécificité supérieure aux familles de matrices existantes.<br />Les perspectives des travaux présentés dans ce mémoire incluent une progression de l'annotation automatique de Plasmodium falciparum et la mise en place d'une procédure statistiquement robuste et phylogénétiquement consistante pour caractériser le sous-génome algal du parasite malarial.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00080245
Date21 April 2006
CreatorsBastien, Olivier
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0034 seconds