Plusieurs insertions/délétions (indels) génétiques ont été identifiées en lien avec des troubles du
neurodéveloppement, notamment le trouble du spectre de l’autisme (TSA) et la déficience
intellectuelle (DI). Bien que ce soit le deuxième type de variant le plus courant, la détection et
l’identification des indels demeure difficile à ce jour, et on y retrouve un grand nombre de faux
positifs. Ce projet vise à trouver une méthode pour détecter des indels de haute qualité ayant une
forte probabilité d’être des vrais positifs.
Un « ensemble de vérité » a été construit à partir d’indels provenant de deux cohortes familiales
basé sur un diagnostic d’autisme. Ces indels ont été filtrés selon un ensemble de paramètres
prédéterminés et ils ont été appelés par plusieurs outils d’appel de variants. Cet ensemble a été
utilisé pour entraîner trois modèles d’apprentissage automatique pour identifier des indels de haute
qualité. Par la suite, nous avons utilisé ces modèles pour prédire des indels de haute qualité dans
une cohorte de population générale, ayant été appelé par une technologie d’appel de variant.
Les modèles ont pu identifier des indels de meilleure qualité qui ont une association avec le QI,
malgré que cet effet soit petit. De plus, les indels prédits par les modèles affectent un plus petit
nombre de gènes par individu que ceux ayant été filtrés par un seuil de rejet fixe. Les modèles ont
tendance à améliorer la qualité des indels, mais nécessiteront davantage de travail pour déterminer
si ce serait possible de prédire les indels qui ont un effet non-négligeable sur le QI. / Genetic insertions/deletions (indels) have been linked to many neurodevelopmental
disorders (NDDs) such as autism spectrum disorder (ASD) and intellectual disability (ID).
However, although they are the second most common type of genetic variant, they remain to this
day difficult to identify and verify, presenting a high number of false positives. We sought to find
a method that would appropriately identify high-quality indels that are likely to be true positives.
We built an indel “truth set” using indels from two diagnosis-based family cohorts that
were filtered according to a set of threshold values and called by several variant calling tools in
order to train three machine learning models to identify the highest quality indels. The two best
performing models were then used to identify high quality indels in a general population cohort
that was called using only one variant calling technology.
The machine learning models were able to identify higher quality indels that showed a
association with IQ, although the effect size was small. The indels predicted by the models also
affected a much smaller number of genes per individual than those predicted through using
minimum thresholds alone. The models tend to show an overall improvement in the quality of the
indels but would require further work to see if it could a noticeable and significant effect on IQ.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/27150 |
Date | 12 1900 |
Creators | Younis, Nadine |
Contributors | Jacquemont, Sébastien |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0031 seconds