Return to search

Caractérisation et exploitation de la variation structurale chez le soya

Titre de l'écran-titre (visionné le 15 mai 2023) / Les variations structurales (SV, de l'anglais structural variation) sont des variations génétiques impliquant une différence de 50 nucléotides ou plus entre deux séquences d'ADN homologues. Ces variations incluent les insertions, délétions, inversions, duplications, ainsi que d'autres types de réarrangements plus complexes. Étant donné leur grande taille, plusieurs SV ont un impact fonctionnel en affectant des séquences codantes ou régulatrices. Malgré leur importance fonctionnelle et évolutive, l'étude des SV est limitée par des obstacles technologiques et informatiques importants. Par conséquent, les SV sont souvent ignorés dans les études de description de la variation génétique et lors d'études d'association pangénomiques (GWAS, de l'anglais genome-wide association study). Dans cette thèse, j'ai développé et évalué des méthodes facilitant l'étude des SV en utilisant une espèce cultivée d'importance, le soya (Glycine max), comme modèle. Dans la première étude, nous avons développé une approche bio-informatique de découverte de variations du nombre de copies (ou CNV, de l'anglais copy number variation) chez une collection de lignées mutantes irradiées de soya en utilisant le génotypage par séquençage (GBS, de l'anglais genotyping-by-sequencing). Cette approche novatrice repose sur l'identification de régions génomiques présentant une profondeur de séquençage plus faible ou élevée que la moyenne ainsi que sur un algorithme de segmentation pour déterminer les limites de telles régions. Nous avons démontré l'utilité de l'approche GBS et avons évalué en profondeur les résultats obtenus en les comparant aux données d'une puce d'hybridation comparative génomique. Comparé aux approches utilisées précédemment, le GBS est moins coûteux et permet un plus haut débit d'analyse tout en détectant la majorité des CNV. Dans la deuxième étude, nous avons combiné les technologies de séquençage Illumina et Oxford Nanopore Technologies (ONT) pour décrire les SV observés à l'échelle du génome dans une population de 102 cultivars de soya canadiens. Nous avons démontré que les SV découverts par la technologie à reads longs ONT, beaucoup plus puissante, pouvaient être génotypés avec précision au moyen de la technologie à reads courts Illumina. Cela représente une avancée méthodologique importante puisque le séquençage de reads courts est beaucoup moins cher et plus facile à effectuer que le séquençage de reads longs. Nous avons démontré la qualité du jeu de données de SV ainsi génotypé en confirmant qu'il pouvait 1) décrire avec exactitude la structure de la population et 2) reproduire des résultats déjà documentés sur l'enrichissement en SV de certaines régions du génome. Nous avons aussi utilisé ce jeu de données pour réaliser des analyses originales sur les contraintes fonctionnelles à la formation de SV et la biologie des éléments transposables chez le soya. Dans la troisième et dernière étude, nous avons utilisé les génotypes de SV ainsi que la présence/absence de k-mers dans le cadre d'analyses GWAS sur une collection internationale de plus de 360 lignées de soya. Nous avons utilisé 13 caractères qualitatifs et quantitatifs qui ont été préalablement étudiés au moyen de polymorphismes d'un seul nucléotide et pour lesquels les gènes ou les variations déterminant ces caractères sont connus dans certains cas. D'un côté, nos résultats soulignent l'impressionnante capacité de la présence/absence de k-mers à identifier directement des variations causales ou des gènes candidats. D'un autre côté, bien que les SV puissent être utiles pour l'analyse de signaux significatifs, il ne vaut probablement pas la peine d'effectuer des analyses GWAS employant des SV génotypés à l'échelle du génome. Notre étude fournit également des nouvelles méthodes bio-informatiques pour l'analyse de k-mers significatifs tout en identifiant des lacunes méthodologiques qui doivent encore être comblées. En plus de contribuer à notre compréhension de la génétique et de la biologie du soya, nous croyons que les résultats et outils bio-informatiques rapportés dans cette thèse pourront orienter l'étude des SV chez le soya et d'autres plantes cultivées. La disponibilité accrue du séquençage de reads longs, les avancées bio-informatiques en théorie des graphes de variation, ainsi que le nombre croissant d'échantillons pour lesquels des données de reséquençage sont disponibles, représentent des développements palpitants pour l'étude des SV. Combinées avec ces avancées, nos méthodes fournissent de nouveaux outils pour mieux comprendre les SV et leur impact fonctionnel. / Structural variants (SVs) are genetic variants that imply a difference of 50 nucleotides or more between two homologous DNA sequences. These variants include insertions, deletions, inversions, duplications, as well as many other types of more complex rearrangements. Given their large size, SVs commonly impact genome function through the disruption of coding or regulatory sequences. Despite their functional importance and evolutionary relevance, the study of SVs is hindered by non-trivial technological and computational hurdles. As a consequence, SVs are often ignored in genome-wide assessments of genetic variation and in genome-wide association studies (GWAS). In this thesis, I have sought to develop and assess methods to ease the study of SVs by using a major crop, soybean (Glycine max ), as a model species. In the first study, we developed a computational method to enable the discovery of copy number variants (CNVs) in a collection of irradiated soybean mutant lines using genotyping-by-sequencing (GBS) data. This novel approach relies on the identification of genomic regions with higher or lower sequencing depth compared to average and on a segmentation algorithm to determine the boundaries of such regions. We demonstrated the usefulness of such a GBS approach and extensively benchmarked the results obtained by comparing them to array comparative genomic hybridization data. Compared to previously used methods, GBS provides lower cost and higher through put while still detecting the majority of CNVs. In the second study, we combined Illumina and Oxford Nanopore Technologies (ONT) sequencing data to provide a genome-wide assessment of SVs in a population of 102 Canadian soybean cultivars. We demonstrated that SVs discovered using the more powerful ONT long-read technology could be accurately genotyped at population scale using Illumina short-read data. This represents significant methodological progress because short-read data is comparatively much cheaper and easier to obtain. We demonstrated the quality of the SV dataset thus genotyped on the whole population by confirming that it could 1) accurately describe population structure and 2) replicate previously documented results regarding the enrichment of SVs in some genomic regions. We also used this dataset to gain novel insights into functional constraints to SV occurrence and transposable element biology in soybean. In the third and last study, we used SV genotypes and the presence/absence of k-mers to conduct GWAS on an international collection of over soybean 360 cultivars. We used 13 qualitative and quantitative traits that had been previously studied using single-nucleotide polymorphism (SNP) data and for which the genes and/or variants controlling the traits are known in some cases. On one hand, our results underline the impressive ability of k-mer presence/absence to pinpoint causal variants and candidate genes. On the other hand, while SVs may prove useful for assisting in the down stream analysis of significant signals, it might not be worth conducting GWAS using population-scale SV genotypes. Our study also provides novel computational tools for the downstream analysis of significant k-mers while identifying methodological gaps that have yet to be addressed. In addition to contributing to our understanding of soybean genetics and biology, we believe that the results and computational tools presented in this thesis will provide useful guidance for the study of SVs in soybean and other crop species. The increased availability of long-read sequencing, computational advances in variation graph theory, and the growing amount of samples for which resequencing data is available, represent exciting developments for the study of structural variation. Combined with these advances, our methods provide building blocks for enhancing our understanding of SVs and their functional impacts.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/117864
Date26 May 2023
CreatorsLemay, Marc-André
ContributorsBelzile, François, Bélanger, Richard R. (Richard Robert)
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xxv, 357 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.0026 seconds