La recombinaison méiotique joue un rôle essentiel dans la ségrégation des chromosomes pendant la méiose et dans la création de nouvelles combinaisons du matériel génétique des espèces. Ses effets cause une déviation du principe de l'assortiment indépendant de Mendel; cependant, les mécanismes moléculaires impliqués restent partiellement incompris jusqu'à aujourd'hui. Il s'agit d'un processus hautement régulé et de nombreuses protéines sont impliquées dans son contrôle, dirigeant la recombinaison méiotique dans des régions génomiques de 1 à 2 kilobases appelées « hotspots ». Au cours des dernières années, l'apprentissage profond a été appliqué avec succès à la classification des séquences génomiques. Dans ce travail, nous appliquons l'apprentissage profond aux séquences d'ADN humain afin de prédire si une région spécifique d'ADN est un hotspot de recombinaison méiotique ou non. Nous avons appliqué des réseaux de neurones convolutifs sur un ensemble de données décrivant les hotspots de quatre individus non-apparentés, atteignant une exactitude de plus de 88 % avec une précision et un rappel supérieur à 90 % pour les meilleurs modèles. Nous explorons l'impact de différentes tailles de séquences d'entrée, les stratégies de séparation des jeux d'entraînement/validation et l’utilité de montrer au modèle les coordonnées génomiques de la séquence d'entrée. Nous avons exploré différentes manières de construire les motifs appris par le réseau et comment ils peuvent être liés aux méthodes classiques de construction de matrices position-poids, et nous avons pu déduire des connaissances biologiques pertinentes découvertes par le réseau. Nous avons également développé un outil pour visualiser les différents modèles afin d'aider à interpréter les différents aspects du modèle. Dans l'ensemble, nos travaux montrent la capacité des méthodes d'apprentissage profond à étudier la recombinaison méiotique à partir de données génomiques. / Meiotic recombination plays a critical role in the proper segregation of chromosomes during
meiosis and in forming new combinations of genetic material within sexually-reproducing
species. For a long time, its side effects were observed as a deviation from the Mendel’s
principle of independent assortment; however, its molecular mechanisms remain only
partially understood until today. We know that it is a highly regulated process and that many
molecules are involved in this tight control, resulting in directing meiotic recombination into
1-2 kilobase genomic pairs regions called hotspots. During the past few years, deep learning
was successfully applied to the classification of genomic sequences. In this work, we apply
deep learning to DNA sequences in order to predict if a specific stretch of DNA is a meiotic
recombination hotspot or not. We applied convolution neural networks on a dataset
describing the hotspots of four unrelated male individuals, achieving an accuracy of over
88% with precision and recall above 90% for the best models. We explored the impact of
different input sequence lengths, train/validation split strategies and showing the model the
genomic coordinates of the input sequence. We explored different ways to construct the
learnt motifs by the network and how they can relate to the classical methods of constructing
position-weight-matrices, and we were able to infer relevant biological knowledge
uncovered by the network. We also developed a tool for visualizing the different models
output in order to help digest the different aspects of the model. Overall, our work shows the
ability for deep learning methods to study meiotic recombination from genomic data.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/27149 |
Date | 12 1900 |
Creators | Takla, Emad |
Contributors | Hussin, Julie |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.0017 seconds