Nombre de programmes ont été développés pour identifier des sites de fixation de facteurs de transcription. La plupart ne sont pas capables d’inférer des motifs composés de deux mots en autorisant une variation de leur espacement, caractéristiques des sites de fixation des sous-unités s de l’ARN polymérase (SFFS). Cette thèse vise à l’élaboration d’un algorithme prenant en compte toutes les connaissances biologiques structurelles de ces sites en vue de leur prédiction fiable. Nous présentons une nouvelle approche, SIGffRid (pour SIGma Factor Finder using R’MES to select Input Data), pour l’identification des SFFS qui compare deux génomes bactériens phylogénétiquement apparentés. La méthode analyse des paires de régions promotrices de gènes orthologues. Elle utilise la sur-représentation statistiquement dans les génomes complets comme critère de sélection des boîtes -35 et -10 potentielles. Des motifs composites conservés sont alors groupés en utilisant des paires de courtes graines, en autorisant la variabilité de l’espacement qui les sépare. Les motifs sont ensuite étendus suivant des considérations statistiques. Les plus significatifs sont retenus. Cet algorithme a été applique´ avec succès à la paire de génomes bactériens apparentés de Streptomyces coelicolor A3(2) et Streptomyces avermitilis. Nous démontrons que notre approche, combinant des critères statistiques et biologiques, parvient à prédire des SFFS, et abordons les améliorations envisagées. / Many programs have been developed to identify transcription factor binding sites. Most of them are not able to infer two-word motifs with variable spacer lengths, characteristics of RNA polymerase Sigma (s) Factor Binding Sites (SFBSs). The aim of this thesis is to design an algorithm taking into account the biological structural observations about these sites, in order to their relevant prediction. We describe a new approach, SIGffRid (SIGma Factor binding sites Finder using R’MES to select Input Data), to identify SFBSs by comparing two related bacterial genomes. The method performs a simultaneous analysis of pairs of promoter regions of orthologous genes. SIGffRid uses a prior identification of over-represented patterns in whole genomes as selection criteria for potential -35 and -10 boxes. These patterns are then grouped using pairs of short seeds, allowing a variable-length spacer between them. This is followed by motif extension guided by statistical considerations. Finally, statitically feasible and relevant motifs are selected. We applied our method to the pair of related bacterial genomes of Streptomyces coelicolor A3(2) and Streptomyces avermitilis. We demonstrate that our approach combining statistical and biological criteria was successful to predict SFBSs, and envisage ameliorations.
Identifer | oai:union.ndltd.org:theses.fr/2007NAN10097 |
Date | 15 November 2007 |
Creators | Touzain, Fabrice |
Contributors | Nancy 1, Kucherov, Gregory, Leblond, Pierre |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0019 seconds