Des séquences compatibles avec la formation de G4 sont présentes au niveau de certaines régions clés du génome telles que les extrémités des chromosomes, mais également les régions de commutation de classe des immunoglobulines, les promoteurs de certains gènes dont des oncogènes et des séquences transcrites. Plus de 370 000 cibles potentielles ont été prédites lors des analyses bioinformatiques du génome humain. Cependant, ces prédictions ne sont pas exhaustives étant limitées par la formulation des algorithmes de prédiction utilisés. En effet, les séquences recherchées suivent la formule consensus suivante G3+N(1−7)G3+N(1−7)G3+N(1−7)G3+. Ainsi, en apportant plus de souplesse dans la description du quadruplex nous pourrons identifier et localiser plus de cibles potentielles. C’est pourquoi, nous proposons un nouvel algorithme G4-Hunter qui permettra l’identification la plus exhaustive possible de séquences cibles en prenant en compte la totalité de la région et non plus uniquement la cible potentielle. Par ailleurs, une étude expérimentale à grande échelle (sur une centaine de séquences cibles) a été menée afin de valider et tester la robustesse de G4-Hunter. A l’aide de ce nouvel outil, nous avons pu identifier de nouvelles séquences cibles non identifiées par les approches déjà existantes au sein des génomes humain, HIV et Dictyostelium discoideum. / Biologically relevant G4 DNA structures are formed throughout the genome including immunoglobulin switch regions, promoter sequences and telomeric repeats. They can arise when single-stranded G-rich DNA or RNA sequences are exposed during replication, transcription or recombination. Computational analysis using predictive algorithms suggests that the human genome contains approximately 370 000 potential G4-forming sequences. These predictions are generally limited to the standard G3+N(1−7)G3+N(1−7)G3+N(1−7)G3+ description. However, many stable G4s defy this description and escape this consensus; this is the reason why broadening this description should allow the prediction of more G4 loci. We propose an objective score function, G4- hunter, which predicts G4 folding propensity from a linear nucleic acid sequence. The new method focus on guanines clusters and GC asymmetry, taking into account the whole genomic region rather than individual quadruplexes sequences. In parallel with this computational technique, a large scale in vitro experimental work has also been developed to validate the performance of our algorithm in silico on one hundred of different sequences. G4- hunter exhibits unprecedented accuracy and sensitivity and leads us to reevaluate significantly the number of G4-prone sequences in the human genome. G4-hunter also allowed us to predict potential G4 sequences in HIV and Dictyostelium discoideum, which could not be identified by previous computational methods.
Identifer | oai:union.ndltd.org:theses.fr/2015BORD0197 |
Date | 06 November 2015 |
Creators | Bedrat, Amina |
Contributors | Bordeaux, Mergny, Jean-Louis |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0025 seconds