L’émergence du génotypage à haut débit et le développement de méthodes statistiques reliant le génotype au phénotype ont donné lieu à des approches pangénomiques, c’est-à-dire à l’échelle du génome entier, exploitables en sélection des plantes. Ces approches ont d’abord permis d’examiner l'association entre génotype et phénotype via des analyses d'association pangénomique (GWAS en anglais) afin d’identifier des loci de caractères quantitatifs (« quantitative trait loci », QTL) utiles en sélection assistée par marqueurs (SAM). Plus récemment, ces approches ont été explorées pour la prédiction génomique, laquelle vise, d’une part, à identifier les croisements les plus prometteurs (la sélection des croisements), et d’autre part, à identifier les individus les plus prometteurs au sein d’une descendance (la sélection génomique). Dans les deux cas, ces prédictions reposent sur un modèle statistique reliant le génotype et le phénotype au sein d’une population de référence. Ces approches pangénomiques offrent un grand potentiel, mais sont encore émergentes et de nombreuses questions se posent encore chez l’orge. Notre étude s’intéresse à certaines de ces interrogations et elle est divisée en quatre volets de recherche. Les approches pangénomiques nécessitent un nombre important de marqueurs moléculaires de type SNP (« single nucleotide polymorphism »). Ainsi dans le premier volet nous avons optimisé le protocole de génotypage par séquençage. Ce volet détaille tout le processus, de la préparation des librairies de séquençage jusqu’à la production d’un catalogue de SNP de haute qualité. À titre d’illustration, nous avons généré un catalogue de 30 000 SNP ayant une distribution chromosomique intéressante et une grande exactitude des génotypes. Dans le deuxième volet, en utilisant les données phénotypiques et génotypiques d’une population d’amélioration, nous avons comparé l’efficacité de trois approches GWAS (Uni-SNP, Multi-SNP et Haplotypique) pour détecter des QTL pour des caractères agronomiques importants. Les approches Multi-SNP et Haplotypique ont identifié plus de QTL que l’approche Uni-SNP. Le chevauchement entre les approches était limité, chaque approche découvrant un sous-ensemble différent de QTL. / Dans le cadre du troisième volet, nous avons étudié l’impact de trois facteurs sur la justesse de la sélection génomique : (1) la performance de différents modèles statistiques (incluant ou non l’épistasie), (2) le nombre de marqueurs employés ainsi que (3) leur localisation (génique/nongénique). Le modèle qui intègre les effets additifs et épistatiques a montré les meilleures performances même si les différences entre les modèles étaient modestes. Jusqu’à 2K SNP, la justesse de la sélection génomique est restée comparable à celle basée sur le catalogue entier (35K), mais une diminution significative été observée à 500 SNP. Dans la plupart des cas, l’utilisation de SNP présents dans les régions géniques, voire codantes, n’a pas apporté une amélioration significative. Enfin, dans le quatrième volet, nous avons exploré la sélection génomique et la sélection des croisements. En premier lieu, nous avons constitué une population de référence pour bâtir un modèle de sélection génomique et prédire les performances de 350 descendants développés dans un programme d’amélioration. A partir des prédictions, 35 lignées ont été sélectionnées et testées au champ afin d’examiner la corrélation entre les performances prédites et observées. Les corrélations étaient satisfaisantes pour la résistance à la fusariose et le rendement. Ensuite, sur la base de ce modèle, nous avons prédit la moyenne (μ) ela variance génétique (Vg) de chacune des descendances simulées issues de tous les croisements possibles (30 000). La validation de ces prédictions a été réalisée rétrospectivement sur un sous-ensemble de croisements précédemment réalisés, en examinant leur persistance dans le processus de sélection. Tel qu’attendu les croisements les plus persistants (>F9) ont présenté des μ supérieures, mais des Vg modérées. Même si la résistance à la fusariose et le rendement sont corrélés défavorablement, nous avons pu identifier des croisements (650) où cette corrélation était rompue. Parmi ces croisements, certains (40) auraient un réel potentiel avec des performances égales ou supérieures à des lignées témoins performantes. Au terme de ce projet, nous avons démontré l'efficacité d'une procédure GWAS combinant des approches uni- et multi-locus à disséquer des caractères complexes et à détecter des QTL clés utilisables en SAM. Nous avons aussi démontré que la prédiction génomique peut être optimisée et efficacement intégrée en sélection génétique chez l’orge à six rangs pour identifier les meilleurs descendants, mais surtout pour identifier des croisements prometteurs. / Finally, in the fourth part, we explored genomic selection and genomic mating in a breeding program. First, we established a training population to build a genomic selection model and to predict the performance of 350 progeny developed in a breeding program. Based on these predictions, 35 lines were selected and tested in the field to examine the correlation between predicted and observed performances. The correlations were satisfactory for Fusarium head blight (FHB) resistance and yield. Then, based on this model, we predicted the mean (μ) and the genetic variance (VG) of each simulated progeny from all possible crosses (n = 30,000) between lines of the training population. The validation of these predictions was carried out retrospectively on a subset of previously performed crosses by examining their persistence in the selection process. As expected, the most persistent crosses (> F9) displayed high μ but moderate VG. Although resistance to FHB and yield are unfavorably correlated, we could identify crosses (650) where this correlation was weakened. Among these crosses, some (40) are predicted to offer equal or better performance than current checks. Through this project, we demonstrated the efficiency of a GWAS procedure combining single- and multi-locus approaches to dissect complex characters and to detect key QTLs that can be used in MAS. We also demonstrated that genomic prediction can be optimized and efficiently integrated in genetic improvement of six-row barley to identify the best progeny but also to identify promising crosses. / The emergence of high-throughput genotyping and the development of statistical methods linking genotype to phenotype have led to pangenomic approaches, performed on a genome-wide scale, exploitable in plant breeding. First, these approaches were used to examine the association between genotype and phenotype in genome-wide association studies (GWAS) in order to identify quantitative trait loci (QTLs) useful in marker-assisted selection (MAS). More recently, these approaches have been explored in genomic prediction which aims, on the one hand, to identify the most promising crosses (genomic mating), and on the other hand, to identify the most promising lines within a set of progeny (genomic selection). In both cases, these predictions are based on a statistical model linking genotype to phenotype in a training population. These genome-wide approaches offer great potential but are still emerging and many questions remain unanswered in barley. Our study focuses on some of these questions and is divided into four areas of research. Genome-wide approaches require a large number of single nucleotide polymorphism (SNP) markers. Thus, in the first part of this project, we optimized the protocol of genotyping by sequencing (GBS). This part details the entire process, from the preparation of GBS libraries until the production of a high-quality SNP catalog. As an illustration, we generated a catalog of 30,000 SNPs with a broad chromosome distribution and high genotype accuracy. In the second part, using phenotypic and genotypic data from a breeding population, we compared the effectiveness of three GWAS approaches (Single-SNP, Multi-SNP and Haplotype-based) to detect QTLs for important agronomic traits. The Multi-SNP and Haplotype-based approaches identified more QTLs than the Single-SNP approach. The overlap between the approaches was limited, as each approach uncovered a different subset of previously validated QTLs. In the third part we studied the impact of three factors on the accuracy of genomic selection: (1) the performance of different statistical models (including epistasis or not), (2) the number of SNP markers included in the model as well as (3) their localization (genic/non-genic regions). The model that incorporates both the additive and epistatic effects of SNPs showed the best performance even though the differences between the models were modest. With as few as 2K SNP, the accuracy of genomic selection remained comparable to that based on the entire catalog (35K), while a significant decrease in accuracy was observed at 500 SNPs. In most cases, the use of SNPs located in genic regions, even coding regions, did not provide a significant improvement.
Identifer | oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/37563 |
Date | 14 December 2019 |
Creators | Abed, Amina |
Contributors | Belzile, François |
Source Sets | Université Laval |
Language | French |
Detected Language | French |
Type | thèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat |
Format | 1 ressource en ligne (xvii, 161 pages), application/pdf |
Rights | http://purl.org/coar/access_right/c_abf2 |
Page generated in 0.0033 seconds