• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • 15
  • 4
  • Tagged with
  • 38
  • 38
  • 25
  • 24
  • 14
  • 13
  • 12
  • 11
  • 10
  • 10
  • 9
  • 9
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

La voie de signalisation type insuline dans la différenciation sexuelle chez les Crustacés isopodes - intégration de l'hormone androgène et de facteurs féminisants dans un nouveau contexte / The insulin signalling pathway in the sexual differentiation of Isopod Crustaceans - integration of the androgenic gland hormone and feminizing factors in a new context

Herran, Benjamin 10 December 2018 (has links)
La différenciation sexuelle des Isopodes dépend d'une hormone sexuelle protéique, l'hormone androgène (HA), caractéristique des Malacostracés. Cet Insulin-Like Peptide suffit à induire par sa présence la différenciation mâle de ces Crustacés. Nous avons identifié in silico le transporteur circulant de l'HA, l'IGFBP-rP1, chez de nombreuses espèces d'Isopodes ainsi qu'à l'échelle des Crustacés. De la même façon, nous avons identifié deux récepteurs transmembranaires, l'IR1 et l'IR2, issus d'une duplication de gène spécifique des Malacostracés. Les patrons d'expression de ces gènes ont été étudiés sur notre espèce modèle, Armadillidium vulgare. Av-IGFBP-rP1 et Av-IR1 sont exprimés de manière ubiquiste et tout au long du développement. Av-IR2 est aussi exprimé à chaque stade de la différenciation mais ce transcrit est quasi-spécifique des glandes androgènes et ovaires. Une approche par ARNi a confirmé l'implication de ces trois protéines dans la voie de signalisation de l'HA. En effet, l'inhibition de l'HA, Av-IGFBP-rP1 et Av-IR1 provoquent l'hypertrophie des glandes androgènes, suggérant leur implication dans une boucle de rétro-contrôle de l'HA. L'inhibition de Av-IR2 semble seulement provoquer la différenciation d'ouvertures génitales femelles. Ces phénotypes sont comparables à ceux des intersexués mâles induits par la bactérie féminisante endogène Wolbachia. Nous montrons cependant que la bactérie altère seulement l'expression de l'HA et pas celle des récepteurs. Enfin, nous avons testé l'effet du bisphénol A mais nous n'observons pas d'altération de la différenciation sexuelle des larves lors d'expositions à ce perturbateur endocrinien exogène. / Sexual differentiation in Isopods relies on a proteinaceous sex hormone called androgenic hormone (AH), specific to Malacostracans. This Insulin-Like Peptide induces male differentiation by its mere presence in these Crustaceans. We identified in silico the circulating carrier of the AH, called IGFBP-rP1, in many Isopod species, but also on the crustacean scale. Similarly, we identified two transmembrane receptors, IR1 and IR2, coming from a gene duplication specific to Malacostracans. The expression patterns of these genes were investigated in our model species, Armadillidium vulgare. Av-IGFBP-rP1 and Av-IR1 are broadly expressed in the animal and throughout development. Av-IR2 is also expressed at each developmental stage but this transcript is almost specific to androgenic glands and ovaries. An RNAi approach has confirmed the implication of these three proteins in the AH signalling pathway. Indeed, the inhibition of AH, Av-IGFBP-rP1 and Av-IR1 induces androgenic gland hypertrophy, suggesting their implication in an AH feedback loop. Av-IR2 inhibition seems to provoke the differentiation of female genital apertures only. These phenotypes are similar to those of male intersexes induced by the endogenous feminizing bacterium Wolbachia. Yet, we show that the bacterium alters the expression of the AH only and not the one of its receptors. Finally, we have tested the effect of bisphenol A but we observe no alteration of the sexual differentiation in larvae upon exposition to this exogenous endocrine disruptor.
32

Modélisation de l'évolution de la taille des génomes et de leur densité en gènes par mutations locales et grands réarrangements chromosomiques

Fischer, Stephan 02 December 2013 (has links) (PDF)
Bien que de nombreuses séquences génomiques soient maintenant connues, les mécanismes évolutifs qui déterminent la taille des génomes, et notamment leur part d'ADN non codant, sont encore débattus. Ainsi, alors que de nombreux mécanismes faisant grandir les génomes (prolifération d'éléments transposables, création de nouveaux gènes par duplication, ...) sont clairement identifiés, les mécanismes limitant la taille des génomes sont moins bien établis. La sélection darwinienne pourrait directement défavoriser les génomes les moins compacts, sous l'hypothèse qu'une grande quantité d'ADN à répliquer limite la vitesse de reproduction de l'organisme. Cette hypothèse étant cependant contredite par plusieurs jeux de données, d'autres mécanismes non sélectifs ont été proposés, comme la dérive génétique et/ou un biais mutationnel rendant les petites délétions d'ADN plus fréquentes que les petites insertions. Dans ce manuscrit, nous montrons à l'aide d'un modèle matriciel de population que la taille du génome peut aussi être limitée par la dynamique spontanée des duplications et des grandes délétions, qui tend à raccourcir les génomes même si les deux types de ré- arrangements se produisent à la même fréquence. En l'absence de sélection darwinienne, nous prouvons l'existence d'une distribution stationnaire pour la taille du génome même si les duplications sont deux fois plus fréquentes que les délétions. Pour tester si la sélection darwinienne peut contrecarrer cette dynamique spontanée, nous simulons numériquement le modèle en choisissant une fonction de fitness qui favorise directement les génomes conte- nant le plus de gènes, tout en conservant des duplications deux fois plus fréquentes que les délétions. Dans ce scénario où tout semblait pousser les génomes à grandir infiniment, la taille du génome reste pourtant bornée. Ainsi, notre étude révèle une nouvelle force susceptible de limiter la croissance des génomes. En mettant en évidence des comporte- ments contre-intuitifs dans un modèle pourtant minimaliste, cette étude souligne aussi les limites de la simple " expérience de pensée " pour penser l'évolution. Nous proposons un modèle mathématique de l'évolution structurelle des génomes en met- tant l'accent sur l'influence des différents mécanismes de mutation. Il s'agit d'un modèle matriciel de population, à temps discret, avec un nombre infini d'états génomiques pos- sibles. La taille de population est infinie, ce qui élimine le phénomène de dérive génétique. Les mutations prises en compte sont les mutations ponctuelles, les petites insertions et délétions, mais aussi les réarrangements chromosomiques induits par la recombinaison ectopique de l'ADN, comme les inversions, les translocations, les grandes délétions et les duplications. Nous supposons par commodité que la taille des segments réarrangés suit une loi uniforme, mais le principal résultat analytique est ensuite généralisé à d'autres dis- tributions. Les mutations étant susceptibles de changer le nombre de gènes et la quantité d'ADN intergénique, le génome est libre de varier en taille et en compacité, ce qui nous permet d'étudier l'influence des taux de mutation sur la structure génomique à l'équilibre. Dans la première partie de la thèse, nous proposons une analyse mathématique dans le cas où il n'y a pas de sélection, c'est-à-dire lorsque la probabilité de reproduction est identique quelle que soit la structure du génome. En utilisant le théorème de Doeblin, nous montrons qu'une distribution stationnaire existe pour la taille du génome si le taux de duplications par base et par génération n'excède pas 2.58 fois le taux de grandes délétions. En effet, sous les hypothèses du modèle, ces deux types de mutation déterminent la dynamique spontanée du génome, alors que les petites insertions et petites délétions n'ont que très peu d'impact. De plus, même si les tailles des duplications et des grandes délétions sont distribuées de façon parfaitement symétriques, leur effet conjoint n'est, lui, pas symétrique et les délétions l'emportent sur les duplications. Ainsi, si les tailles de délétions et de duplications sont distribuées uniformément, il faut, en moyenne, plus de 2.58 duplications pour compenser une grande délétion. Il faut donc que le taux de duplications soit quasiment trois fois supérieur au taux de délétions pour que la taille des génomes croisse à l'infini. L'impact des grandes délétions est tel que, sous les hypothèses du modèle, ce dernier résultat reste valide même en présence d'un mécanisme de sélection favorisant directement l'ajout de nouveaux gènes. Même si un tel mécanisme sélectif devrait intuitivement pousser les génomes à grandir infiniment, en réalité, l'influence des délétions va rapidement limiter leur accroissement. En résumé, l'étude analytique prédit que les grands réarrangements délimitent un ensemble de tailles stables dans lesquelles les génomes peuvent évoluer, la sélection influençant la taille précise à l'équilibre parmi cet ensemble de tailles stables. Dans la deuxième partie de la thèse, nous implémentons le modèle numériquement afin de pouvoir simuler l'évolution de la taille du génome en présence de sélection. En choisissant une fonction de fitness non bornée et strictement croissante avec le nombre de gènes dans le génome, nous testons le comportement du modèle dans des conditions extrêmes, poussant les génomes à croître indéfiniment. Pourtant, dans ces conditions, le modèle numérique confirme que la taille des génomes est essentiellement contrôlée par les taux de duplications et de grandes délétions. De plus, cette limite concerne la taille totale du génome et s'applique donc aussi bien au codant qu'au non codant. Nous retrouvons en particulier le seuil de 2.58 duplications pour une délétion en deçà duquel la taille des génomes reste finie, comme prévu analytiquement. Le modèle numérique montre même que, dans certaines conditions, la taille moyenne des génomes diminue lorsque le taux de duplications augmente, un phénomène surprenant lié à l'instabilité structurelle des grands génomes. De façon similaire, augmenter l'avantage sélectif des grands génomes peut paradoxalement faire rétrécir les génomes en moyenne. Enfin, nous montrons que si les petites insertions et délétions, les inversions et les translocations ont un effet limité sur la taille du génome, ils influencent très largement la proportion d'ADN non codant.
33

Statistical potentials for evolutionary studies

Kleinman, Claudia L. 06 1900 (has links)
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique. / Protein sequences are the net result of the interplay of mutation, natural selection and stochastic variation. Probabilistic models of molecular evolution accounting for these processes have been substantially improved over the last years. In particular, models that explicitly incorporate protein structure and site interdependencies have recently been developed, as well as statistical tools for assessing their performance. Despite major advances in this direction, only simple representations of protein structure have been used so far. In this context, the main theme of this dissertation has been the modeling of three-dimensional protein structure for evolutionary studies, taking into account the limitations imposed by computationally demanding phylogenetic methods. First, a general statistical framework for optimizing the parameters of a statistical potential (an energy-like scoring system for sequence-structure compatibility) is presented. The functional form of the potential is then refined, increasing the detail of structural description without inflating computational costs. Always at the residue-level, several structural elements are investigated: pairwise distance interactions, solvent accessibility, backbone conformation and flexibility of the residues. The potentials are then included into an evolutionary model and their performance is assessed in terms of model fit, compared to standard evolutionary models. Finally, this new structurally constrained phylogenetic model is used to better understand the selective forces behind the differences in conservation found in genes of very different expression levels.
34

Phylogénomique des Archées

Grenier, Jean-Christophe 07 1900 (has links)
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple. Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées. / Horizontal gene transfer (HGT) had been demonstrated to play an important role in the evolution of prokaryotes. Their impact on phylogeny was the subject of a heated debate, with some proposing that the concept of a species tree should be abandoned. The phylogeny of prokaryotes does contain a major part of the historical signal, because stable and functional horizontal transmissions appear to be by far rarer than vertical transmissions (tens versus billions). However, the cumulative effect of HGT is non-negligible and can potentially affect phylogenetic inference. Therefore, most researchers base their phylogenetic inference on a low number of rarely transferred genes such as ribosomal proteins, but they assume the selection of the model of evolution as less important, this despite the fact that it has been shown of prime importance for much less deep divergences, e.g. like animals. Here, we used a combination of simulations and of real data from Archaea to study the relative impact of HGT and of the inference methods on the phylogenetic accuracy. Our simulations prove that (1) HGTs have a limited impact on phylogeny, assuming a realistic rate and (2) the supermatrix is much more accurate than the supertree approach. We also observed that more complex models of evolution not only have a better fit to the data, but can also have a direct impact on different phylogenetic groups and on the robustness of the tree. Our results are in contradiction to a recent publication proposing that the Thaumarchaeota are at the base of the Archaeal tree.
35

La conversion génique biaisée : origine, dynamique et intensité de la quatrième force d'évolution des génomes eucaryotes

Lesecque, Yann 11 July 2014 (has links) (PDF)
En génomique comparative, on considère classiquement trois forces déterminant l'évolution des séquences : la mutation, la sélection et la dérive génétique. Récemment, lors de l'étude de l'origine évolutive des variations de la composition en base des génomes, un quatrième agent a été identifié : la conversion génique biaisée (BGC). Le BGC est intimement lié à la recombinaison méiotique et semble présent chez la plupart des eucaryotes. Ce phénomène introduit une surreprésentation de certains allèles dans les produits méiotiques aboutissant à une augmentation de la fréquence de ces variants dans la population. Ce processus est capable de mimer et d'interférer avec la sélection naturelle. Il est donc important de le caractériser afin de pouvoir le distinguer efficacement de la sélection dans l'étude de l'adaptation à l'échelle moléculaire. C'est ce que nous nous attachons à faire dans le cadre de ce travail. Pour cela nous utilisons deux espèces modèles. Premièrement la levure Saccharomyces cerevisiae pour laquelle une carte de recombinaison haute résolution permettant l'analyse du processus de conversion, est disponible. L'étude approfondie de cette carte nous a permis de lever le voile sur les mécanismes moléculaires qui sous-tendent le BGC. Deuxièmement, grâce à des découvertes récentes sur la détermination des patrons de recombinaison via la protéine PRDM9 chez les mammifères, nous avons quantifié la dynamique et l'intensité de ce processus dans l'histoire évolutive récente de l'homme. Ces résultats nous ont permis de confirmer la place du BGC comme quatrième force d'évolution moléculaire, mais aussi de discuter de l'origine évolutive de ce phénomène
36

Recherche automatisée de motifs dans les arbres phylogénétiques

Bigot, Thomas 05 June 2013 (has links) (PDF)
La phylogénie permet de reconstituer l'histoire évolutive de séquences ainsi que des espèces qui les portent. Les récents progrès des méthodes de séquençage ont permis une inflation du nombre de séquences disponibles et donc du nombre d'arbres de gènes qu'il est possible de construire. La question qui se pose est alors d'optimiser la recherche d'informations dans ces arbres. Cette recherche doit être à la fois exhaustive et efficace. Pour ce faire, mon travail de thèse a consisté en l'écriture puis en l'utilisation d'un ensemble de programmes capables de parcourir et d'annoter les arbres phylogénétiques. Cet ensemble de programmes porte le nom de TPMS (Tree Pattern Matching Suite). Le premier de ces programmes (tpms_query) permet d'effectuer l'interrogation de collections à l'aide d'un formalisme dédie. Les possibilités qu'il offre sont : La détection de transferts horizontaux : Si un arbre de gènes présente une espèce branchée dans un arbre au milieu d'un groupe monophylétique d'espèces avec lesquelles elle n'est pas apparentée, on peut supposer qu'il s'agit d'un transfert horizontal, si ces organismes sont des procaryotes ou des eucaryotes unicellulaires. La détection d'orthologie : Si une partie d'un arbre de gènes correspond exactement à l'arbre des espèces, on peut alors supposer que ces gènes sont un ensemble de gènes d'orthologues. La validation de phylogénies connues : Quand l'arbre des espèces donne lieu à des débats, il peut est possible d'interroger une large collection d'arbres de gènes pour voir combien de familles de gènes correspondent à chaque hypothèse. Un autre programme, tpms_computations, permet d'effectuer des opérations en parallèle sur tous les arbres, et propose notamment l'enracinement automatique des arbres via différents critères, ainsi que l'extraction de sous arbres d'orthologues (séquence unique par espèce). Il propose aussi une méthode de détection automatique d'incongruences. La thèse présente le contexte, les différents algorithmes à la base de ces programmes, ainsi que plusieurs utilisations qui en ont été faites
37

Les causes des variations du taux d’évolution moléculaire entre lignées / The causes of molecular evolutionary rate variations among lineages

Dos Santos Lourenço, João 08 December 2011 (has links)
Cette thèse porte sur le décryptage des causes des variations des taux de substitution moléculaires entre lignées. D'un point de vue théorique, différentes hypothèses sont souvent basées sur des distributions des valeurs sélectives des mutations assez simplistes. En utilisant le modèle géométrique de Fisher, nous avons pu dériver des expressions pour cette distribution, et mettre en évidence l'importance de la complexité phénotypique et de la pléiotropie des mutations. Les variations entre espèces de la proportion de changements d'amino-acides qui sont adaptatifs sont souvent interprétées comme une conséquence de différences de taille de population. Par des simulations, nous avons démontré que la taille efficace des populations n'a qu'une influence faible sur la variation de ces taux, et que les changements environnementaux et la complexité phénotypique peuvent avoir un effet plus important. En ce qui concerne les taux de substitution synonymes, une relation inverse avec la masse corporelle est souvent décrite chez les vertébrés endothermes. Pour déterminer si cette relation est aussi valable chez les vertébrés ectothermes, nous avons suivi une approche comparative portant sur les tortues. Nous avons estimé les taux de substitution synonymes chez 224 espèces, que nous avons ensuite comparé à la masse corporelle (et autres traits d'histoire de vie) et à une variable environnementale (la latitude). Nos résultats démontrent que les taux d'évolution moléculaires sont fortement corrélés aux conditions environnementales et non pas à des traits d'histoire de vie. / The main objective of the present thesis is to elucidate the causes of variations in rates of molecular evolution among lineages, and in particular, to understand how factors connected to mutation, selection and genetic drift can influence these variations.
38

Modélisation des biais mutationnels et rôle de la sélection sur l’usage des codons

Laurin-Lemay, Simon 10 1900 (has links)
L’acquisition de données génomiques ne cesse de croître, ainsi que l’appétit pour les interpréter. Mais déterminer les processus qui ont façonné l’évolution des séquences codantes (et leur importance relative) est un défi scientifique passant par le développement de modèles statistiques de l’évolution prenant en compte de plus en plus d’hétérogénéités au niveau des processus mutationnels et de sélection. Identifier la sélection est une tâche qui nécessite typiquement de détecter un écart entre deux modèles : un modèle nulle ne permettant pas de régime évolutif adaptatif et un modèle alternatif qui lui en permet. Lorsqu’un test entre ces deux modèles rejette le modèle nulle, on considère avoir détecter la présence d’évolution adaptative. La tâche est d’autant plus difficile que le signal est faible et confondu avec diverses hétérogénéités négligées par les modèles. La détection de la sélection sur l’usage des codons spécifiquement est controversée, particulièrement chez les Vertébrés. Plusieurs raisons peuvent expliquer cette controverse : (1) il y a un biais sociologique à voir la sélection comme moteur principal de l’évolution, à un tel point que les hétérogénéités relatives aux processus de mutation sont historiquement négligées ; (2) selon les principes de la génétique des populations, la petite taille efficace des populations des Vertébrés limite le pouvoir de la sélection sur les mutations synonymes conférant elles-mêmes un avantage minime ; (3) par contre, la sélection sur l’usage des codons pourrait être très localisée le long des séquences codantes, à des sites précis, relevant de contraintes de sélection relatives à des motifs utilisés par la machinerie d’épissage, par exemple. Les modèles phylogénétiques de type mutation-sélection sont les outils de prédilection pour aborder ces questions, puisqu’ils modélisent explicitement les processus mutationnels ainsi que les contraintes de sélection. Toutes les hétérogénéités négligées par les modèles mutation-sélection de Yang and Nielsen [2008] peuvent engendrer de faux positifs allant de 20% (préférence site-spécifique en acides aminés) à 100% (hypermutabilité des transitions en contexte CpG) [Laurin-Lemay et al., 2018b]. En particulier, l’hypermutabilité des transitions du contexte CpG peut à elle seule expliquer la sélection détectée par Yang and Nielsen [2008] sur l’usage des codons. Mais, modéliser des phénomènes qui prennent en compte des interdépendances dans les données (par exemple l’hypermutabilité du contexte CpG) augmente de beaucoup la complexité des fonctions de vraisemblance. D’autre part, aujourd’hui le niveau de sophistication des modèles fait en sorte que des vecteurs de paramètres de haute dimensionnalité sont nécessaires pour modéliser l’hétérogénéité des processus étudiés, dans notre cas de contraintes de sélection sur la protéine. Le calcul bayésien approché (Approximate Bayesian Computation ou ABC) permet de contourner le calcul de la vraisemblance. Cette approche diffère de l’échantillonnage par Monte Carlo par chaîne de Markov (MCMC) communément utilisé pour faire l’approximation de la distribution a posteriori. Nous avons exploré l’idée de combiner ces approches pour une problématique spécifique impliquant des paramètres de haute dimensionnalité et de nouveaux paramètres prenant en compte des dépendances entre sites. Dans certaines conditions, lorsque les paramètres de haute dimensionnalité sont faiblement corrélés aux nouveaux paramètres d’intérêt, il est possible d’inférer ces mêmes paramètres de haute dimensionnalité avec la méthode MCMC, et puis les paramètres d’intérêt au moyen de l’ABC. Cette nouvelle approche se nomme CABC [Laurin-Lemay et al., 2018a], pour calcul bayésien approché conditionnel (Conditional Approximate Bayesian Computation : CABC). Nous avons pu vérifier l’efficacité de la méthode CABC en étudiant un cas d’école, soit celui de l’hypermutabilité des transitions en contexte CpG chez les Eutheria [Laurin-Lemay et al., 2018a]. Nous trouvons que 100% des 137 gènes testés possèdent une hypermutabilité des transitions significative. Nous avons aussi montré que les modèles incorporant l’hypermutabilité des transitions en contexte CpG prédisent un usage des codons plus proche de celui des gènes étudiés. Ceci suggère qu’une partie importante de l’usage des codons peut être expliquée à elle seule par les processus mutationnels et non pas par la sélection. Finalement nous explorons plusieurs pistes de recherche suivant nos développements méthodologiques : l’application de la détection de l’hypermutabilité des transitions en contexte CpG à l’échelle des Vertébrés ; l’expansion du modèle pour reconnaître des contextes autres que seul le CpG (e.g., hypermutabilité des transitions et transversions en contexte CpG et TpA) ; ainsi que des perspectives méthodologiques d’amélioration de la performance du CABC. / The acquisition of genomic data continues to grow, as does the appetite to interpret them. But determining the processes that shaped the evolution of coding sequences (and their relative importance) is a scientific challenge that requires the development of statistical models of evolution that increasingly take into account heterogeneities in mutation and selection processes. Identifying selection is a task that typically requires comparing two models: a null model that does not allow for an adaptive evolutionary regime and an alternative model that allows it. When a test between these two models rejects the null, we consider to have detected the presence of adaptive evolution. The task is all the more difficult as the signal is weak and confounded with various heterogeneities neglected by the models. The detection of selection on codon usage is controversial, particularly in Vertebrates. There are several reasons for this controversy: (1) there is a sociological bias in seeing selection as the main driver of evolution, to such an extent that heterogeneities relating to mutation processes are historically neglected; (2) according to the principles of population genetics, the small effective size of vertebrate populations limits the power of selection over synonymous mutations conferring a minimal advantage; (3) On the other hand, selection on the use of codons could be very localized along the coding sequences, at specific sites, subject to selective constraints related to DNA patterns used by the splicing machinery, for example. Phylogenetic mutation-selection models are the preferred tools to address these issues, as they explicitly model mutation processes and selective constraints. All the heterogeneities neglected by the mutation-selection models of Yang and Nielsen [2008] can generate false positives, ranging from 20% (site-specific amino acid preference) to 100% (hypermutability of transitions in CpG context)[Laurin-Lemay et al., 2018b]. In particular, the hypermutability of transitions in the CpG context alone can explain the selection on codon usage detected by Yang and Nielsen [2008]. However, modelling phenomena that take into account data interdependencies (e.g., hypermutability of the CpG context) greatly increases the complexity of the likelihood function. On the other hand, today’s sophisticated models require high-dimensional parameter vectors to model the heterogeneity of the processes studied, in our case selective constraints on the protein. Approximate Bayesian Computation (ABC) is used to bypass the calculation of the likelihood function. This approach differs from the Markov Chain Monte Carlo (MCMC) sampling commonly used to approximate the posterior distribution. We explored the idea of combining these approaches for a specific problem involving high-dimensional parameters and new parameters taking into account dependencies between sites. Under certain conditions, when the high dimensionality parameters are weakly correlated to the new parameters of interest, it is possible to infer the high dimensionality parameters with the MCMC method, and then the parameters of interest using the ABC. This new approach is called Conditional Approximate Bayesian Computation (CABC) [Laurin-Lemay et al., 2018a]. We were able to verify the effectiveness of the CABC method in a case study, namely the hypermutability of transitions in the CpG context within Eutheria [Laurin-Lemay et al.,2018a]. We find that 100% of the 137 genes tested have significant hypermutability of transitions. We have also shown that models incorporating hypermutability of transitions in CpG contexts predict a codon usage closer to that of the genes studied. This suggests that a significant part of codon usage can be explained by mutational processes alone. Finally, we explore several avenues of research emanating from our methodological developments: the application of hypermutability detection of transitions in CpG contexts to the Vertebrate scale; the expansion of the model to recognize contexts other than only CpG (e.g., hypermutability of transitions and transversions in CpG and TpA context); and methodological perspectives to improve the performance of the CABC approach.

Page generated in 0.1039 seconds