Typage de la classe génotypique du gène PRDM9 à partir de données de séquençage de Nouvelle Génération

Les positions des évènements de recombinaison s’agrègent ensemble, formant des hotspots déterminés en partie par la protéine à évolution rapide PRDM9. En particulier, ces positions de hotspots sont déterminées par le domaine de doigts de zinc (ZnF) de PRDM9 qui reconnait certains motifs d’ADN. Les allèles de PRDM9 contenant le ZnF de type k ont été préalablement associés avec une cohorte de patients affectés par la leucémie aigüe lymphoblastique. Les allèles de PRDM9 sont difficiles à identifier à partir de données de séquençage de nouvelle génération (NGS), en raison de leur nature répétitive. Dans ce projet, nous proposons une méthode permettant la caractérisation d’allèles de PRDM9 à partir de données de NGS, qui identifie le nombre d’allèles contenant un type spécifique de ZnF. Cette méthode est basée sur la corrélation entre les profils représentant le nombre de séquences nucléotidiques uniques à chaque ZnF retrouvés chez les lectures de NGS simulées sans erreur d’une paire d’allèles et chez les lectures d’un échantillon. La validité des prédictions obtenues par notre méthode est confirmée grâce à analyse basée sur les simulations. Nous confirmons également que la méthode peut correctement identifier le génotype d’allèles de PRDM9 qui n’ont pas encore été identifiés. Nous conduisons une analyse préliminaire identifiant le génotype des allèles de PRDM9 contenant un certain type de ZnF dans une cohorte de patients atteints de glioblastomes multiforme pédiatrique, un cancer du cerveau caractérisé par les mutations récurrentes dans le gène codant pour l’histone H3, la cible de l’activité épigénétique de PRDM9. Cette méthode ouvre la possibilité d’identifier des associations entre certains allèles de PRDM9 et d’autres types de cancers pédiatriques, via l’utilisation de bases de données de NGS de cellules tumorales. / The positions of recombination events cluster tightly together in recombination hotspots, which are determined in part by the rapidly evolving protein PRDM9 via its tri- methyltransferase activity. The locations of hotspots are determined by the repetitive ZnF array of PRDM9, which binds to DNA. Alleles of PRDM9 containing the k-ZnF have previously been associated with patients affected with childhood acute lymphoblastic leukaemia. PRDM9 alleles are notoriously difficult to type due to the repetitive nature of the ZnF arrays. Here, we propose a method to characterize the alleles of PRDM9 from next- generation sequencing samples, by identifying the number of alleles containing a specific ZnF type. Our method is based on the correlation between profiles from the sample, representing the counts of nucleotide sequences unique to each ZnF, and from ideal sets of short reads representing an allele pair. We conduct a simulation analysis to examine the validity of the predictions obtained by our method with all pairs of known alleles. We confirm that the method can accurately genotype previously unobserved PRDM9 alleles. We also conducted a preliminary analysis to identify the PRDM9 k-ZnF genotype in a cohort of paediatric glioblastoma (pGBM), a childhood cancer characterized by the recurrent mutations in the coding sequence of the histone H3, the target of the enzymatic activity of PRDM9. Although no associations of k-ZnF containing PRDM9 alleles is found in our pGBM cohort, this method opens the possibility of identifying associations between certain PRDM9 alleles with other types of early onset childhood cancers, through a data-mining effort in public cancer databases.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/13401
Date07 1900
CreatorsAng Houle, Marie-Armande
ContributorsAwadalla, Philip
Source SetsUniversité de Montréal
LanguageFrench
Detected LanguageFrench
TypeThèse ou Mémoire numérique / Electronic Thesis or Dissertation

Page generated in 0.0022 seconds