• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Recherche des sites de régulation de la transcription dans des génomes bactériens / Searching for transcriptional regulatory sites in bacterial genomes

Touzain, Fabrice 15 November 2007 (has links)
Nombre de programmes ont été développés pour identifier des sites de fixation de facteurs de transcription. La plupart ne sont pas capables d’inférer des motifs composés de deux mots en autorisant une variation de leur espacement, caractéristiques des sites de fixation des sous-unités s de l’ARN polymérase (SFFS). Cette thèse vise à l’élaboration d’un algorithme prenant en compte toutes les connaissances biologiques structurelles de ces sites en vue de leur prédiction fiable. Nous présentons une nouvelle approche, SIGffRid (pour SIGma Factor Finder using R’MES to select Input Data), pour l’identification des SFFS qui compare deux génomes bactériens phylogénétiquement apparentés. La méthode analyse des paires de régions promotrices de gènes orthologues. Elle utilise la sur-représentation statistiquement dans les génomes complets comme critère de sélection des boîtes -35 et -10 potentielles. Des motifs composites conservés sont alors groupés en utilisant des paires de courtes graines, en autorisant la variabilité de l’espacement qui les sépare. Les motifs sont ensuite étendus suivant des considérations statistiques. Les plus significatifs sont retenus. Cet algorithme a été applique´ avec succès à la paire de génomes bactériens apparentés de Streptomyces coelicolor A3(2) et Streptomyces avermitilis. Nous démontrons que notre approche, combinant des critères statistiques et biologiques, parvient à prédire des SFFS, et abordons les améliorations envisagées. / Many programs have been developed to identify transcription factor binding sites. Most of them are not able to infer two-word motifs with variable spacer lengths, characteristics of RNA polymerase Sigma (s) Factor Binding Sites (SFBSs). The aim of this thesis is to design an algorithm taking into account the biological structural observations about these sites, in order to their relevant prediction. We describe a new approach, SIGffRid (SIGma Factor binding sites Finder using R’MES to select Input Data), to identify SFBSs by comparing two related bacterial genomes. The method performs a simultaneous analysis of pairs of promoter regions of orthologous genes. SIGffRid uses a prior identification of over-represented patterns in whole genomes as selection criteria for potential -35 and -10 boxes. These patterns are then grouped using pairs of short seeds, allowing a variable-length spacer between them. This is followed by motif extension guided by statistical considerations. Finally, statitically feasible and relevant motifs are selected. We applied our method to the pair of related bacterial genomes of Streptomyces coelicolor A3(2) and Streptomyces avermitilis. We demonstrate that our approach combining statistical and biological criteria was successful to predict SFBSs, and envisage ameliorations.
2

Développement de méthodes de fouille de données basées sur les modèles de Markov cachés du second ordre pour l'identification d'hétérogénéités dans les génomes bactériens / Data Mining methods based on second-order Hidden Markov Models to identify heterogeneities into bacteria genomes

Eng, Catherine 15 June 2010 (has links)
Les modèles de Markov d’ordre 2 (HMM2) sont des modèles stochastiques qui ont démontré leur efficacité dans l’exploration de séquences génomiques. Cette thèse explore l’intérêt de modèles de différents types (M1M2, M2M2, M2M0) ainsi que leur couplage à des méthodes combinatoires pour segmenter les génomes bactériens sans connaissances a priori du contenu génétique. Ces approches ont été appliquées à deux modèles bactériens afin d’en valider la robustesse : Streptomyces coelicolor et Streptococcus thermophilus. Ces espèces bactériennes présentent des caractéristiques génomiques très distinctes (composition, taille du génome) en lien avec leur écosystème spécifique : le sol pour les S. coelicolor et le milieu lait pour S. thermophilus / Second-order Hidden Markov Models (HMM2) are stochastic processes with a high efficiency in exploring bacterial genome sequences. Different types of HMM2 (M1M2, M2M2, M2M0) combined to combinatorial methods were developed in a new approach to discriminate genomic regions without a priori knowledge on their genetic content. This approach was applied on two bacterial models in order to validate its achievements: Streptomyces coelicolor and Streptococcus thermophilus. These bacterial species exhibit distinct genomic traits (base composition, global genome size) in relation with their ecological niche: soil for S. coelicolor and dairy products for S. thermophilus. In S. coelicolor, a first HMM2 architecture allowed the detection of short discrete DNA heterogeneities (5-16 nucleotides in size), mostly localized in intergenic regions. The application of the method on a biologically known gene set, the SigR regulon (involved in oxidative stress response), proved the efficiency in identifying bacterial promoters. S. coelicolor shows a complex regulatory network (up to 12% of the genes may be involved in gene regulation) with more than 60 sigma factors, involved in initiation of transcription. A classification method coupled to a searching algorithm (i.e. R’MES) was developed to automatically extract the box1-spacer-box2 composite DNA motifs, structure corresponding to the typical bacterial promoter -35/-10 boxes. Among the 814 DNA motifs described for the whole S. coelicolor genome, those of sigma factors (B, WhiG) could be retrieved from the crude data. We could show that this method could be generalized by applying it successfully in a preliminary attempt to the genome of Bacillus subtilis

Page generated in 0.1018 seconds