Global ETD Search

1	Développement et application de méthodes bioinformatiques pour l'analyse des protéines contenant des répétitions en tandem / Development and application of bioinformatics methods for the identification and characterisation of tandem repeat in protein sequences Richard, François D. 21 October 2016 (has links) De nos jours, l’augmentation du volume des données de séquençage est bien plus forte que celle de notre capacité à analyser ces données. En lien avec ce déluge de données et le besoin urgent de nouveaux outils bioinformatiques pour les analyser, notre travail consiste à développer de nouveaux algorithmes pour mieux comprendre les relations entre séquence, structure, et fonction des protéines. Les protéines contiennent de larges portions de séquences périodiques, qui forment des motifs d’acides aminés répétés les uns à la suite des autres que l’on appelle des répétitions en tandem. Elles se retrouvent dans 14% des protéines. De nombreuses études ont montré leur importance fonctionnelle ainsi que leur implication dans de nombreuses maladies humaines, notamment le cancer. Ici, nous montrons l’importance d’adopter une approche incluant plusieurs outils de détection de répétition en tandem afin de s’assurer d’obtenir le jeu de données le plus complet. Nous avons ainsi réalisé un pipeline approprié, et développé deux outils spécifiques : un filtre, pour gagner en rapidité, et un score, pour sélectionner les répétitions les plus pertinentes dans les régions structurées des protéines. Enfin, nous avons utilisé ce pipeline sur une sélection de 94 protéomes. Cette analyse a permis de mettre à jour le précédent recensement des répétitions, montrant que 64% des protéines contenaient des répétitions en tandem. Elle a également permis de mieux comprendre les répétions en tandem dans leurs caractéristiques, leurs compositions et leurs implications dans les maladies humaines. / Today, the growth of protein sequencing data significantly exceeds the growth of capacities to analyze these data. In line with this data deluge and urgent needs in new bioinformatics tools our work deals with the development of new algorithms to better understand the sequence-structure-function relationship. Proteins contain a large portion of periodic sequences representing arrays of repeats that are directly adjacent to each other, so called tandem repeats (TRs). TRs occur at least in 14% of all proteins. Highly divergent, they range from a single amino acid repetition to domains of 100 or more repeated residues. Numerous studies demonstrated the fundamental functional importance of such TRs and their involvement in human diseases, especially cancers. Here we show the importance of integrating several TR detectors to get the most complete set of TRs in proteomes. We designed an appropriate pipeline and developed a filter to speed the process as well as a new scoring module to select relevant structured TRs. In addition, we undertook a large scale analysis of TRs in 94 proteomes. This large scale analysis allowed us to update previous census of TR showing that TRs occurs in 64% of all proteins and leads to a better understanding of TR in terms of their characteristics, composition and implication in human disease. Bioinformatique Répétitions en tandem Séquences Protéomes Bioinformatics Tandem repeats Sequences Proteomes
2	Analyse systématique des motifs répétés en tandem dans les séquences protéiques. / Systematic analysis of tandem repeats in protein sequences. Jorda, Julien 15 October 2010 (has links) Au cours des dernières décennies, les avancées techniques dans la biologie moléculaire telles que les projets de séquençage de génome ont eu pour conséquence un accroissement du volume des banques de données biologiques. Parmi ces données, des séquences présentent des motifs similaires entre eux, répétés de façon juxtaposée, appelés répétitions en tandem. L'objectif de cette thèse est de comprendre l'existence de ces répétitions dans les séquences protéiques via une analyse à grande échelle. / Over the last decades, technical advances in molecular biology such as the genome sequencing projects led to a huge increase of data in the biological databanks. Among them, there are particular motifs which are adjacently repeated and similar between them, called tandem repeats. The purpose of this thesis is to understand the existence of these repeats in protein sequences through a large-scale analysis. Répétitions en tandem Protéines Analyse de séquence Bioinformatique Instructuralité Tandem repeats Protein Sequence analysis Bioinformatics Disorder
3	An efficient algorithm for an optimal modular compression. Application to the analysis of genetic sequences. /Un algorithme rapide pour une compression modulaire optimale. Application à l'analyse de séquences génétiques. Delgrange, Olivier 05 June 1997 (has links) Abstract : A lossless compression algorithm often applies the same coding scheme on the whole sequence to be compressed. Therefore, some factors of the sequence are shortened while others are lengthened. In this work, we propose an optimization algorithm of compression methods which breaks off the coding where it is not profitable, so that some segments of the initial sequence are copied as they are instead of being coded. The achieved compression is said modular, meaning that the compressed sequence is a sequel of compressed segments and copied segments. Under specific hypotheses, our algorithm computes an optimal modular compression in time O(n log n) where n is the length of the sequence. We show that our optimization method can be advantageously used to analyze data, and particularly genetic sequences. The Kolmogorov complexity theory brings to light the usefulness of compression when analyzing sequences. The work consists of three parts. The first one introduces the classical concepts of compression and coding, as well as the new concept of ICL codes for the integers. The second one presents the compression optimization algorithm by liftings that uses ICL codes. Finally, the third part presents applications of the compression optimization by liftings, especially in the context of genetic sequence analysis. With the specific problem of the localization of approximate tandem repeats, we show how the compression optimization algorithm by liftings can be used to localize regular segments and irregular segments of a sequence in a precise and optimal way. This comeback to experimentation makes it possible to analyze sequences that contain several thousands of symbols within the space of a few seconds. /Résumé : Une méthode de compression sans perte d'informations applique souvent le même schéma de codage d'un bout à l'autre de la séquence à comprimer. Certains facteurs de la séquence sont ainsi raccourcis mais malheureusement d'autres sont rallongés. Dans ce travail, nous proposons un algorithme d'optimisation de compression qui rompt le codage là ou il n'est pas intéressant en recopiant des morceaux de la séquence initiale. La compression obtenue est dite modulaire : la séquence comprimée est une succession de morceaux comprimés et de morceaux recopiés tels quels. Sous certaines hypothèses, notre algorithme fournit une compression modulaire optimale en temps O(n log n) où n est la longueur de la séquence. Nous montrons que notre méthode de compression peut avantageusement être utilisée pour analyser des données et plus particulièrement des séquences génétiques. La théorie de la complexité de Kolmogorov éclaire l'idée d'analyse de séquences par compression. Le travail comporte trois parties. La première introduit les concepts classiques de compression et de codage, ainsi que le concept nouveau de codage ICL d'entiers. La seconde développe l'algorithme d'optimisation de compression par liftings qui utilise les codes ICL. La dernière partie présente des applications de l'optimisation de compression par liftings, plus particulièrement dans le domaine de l'analyse de séquences génétiques. Nous montrons, à l'aide du problème spécifique de localisation de répétitions en tandem approximatives, comment l'algorithme d'optimisation par liftings peut être utilisé pour localiser précisément et de manière optimale les segments réguliers et les segments non réguliers des séquences. Il s'agit d'un retour à l'expérience qui permet l'analyse de séquences de plusieurs centaines de milliers de bases en quelques secondes. algorithmique bioinformatique string-matching algorithms répétitions en tandem/ bioinformatics compression analyse de séquences tandem repeats
4	Développement et applications de méthodes bioinformatiques pour l'identification des répétitions en tandem dans les structures des protéines / Development and application of bioinformatics tools to identify tandem repeats in protein structure Do Viet, Phuong 17 March 2016 (has links) Les structures protéiques peuvent être divisées en répétitives et apériodiques, les structures apériodiques correspondant pour la plupart à des protéines globulaires. Les protéines répétitives (PRs) contiennent des unités de répétitions adjacentes, appelées séquences répétées en tandem (TRs). Les PRs sont abondantes et ont une importance fonctionnelle fondamentale. De plus de nombreuses études ont démontré l'implication des TRs dans les pathologies humaines. Ainsi, la découverte des PRs et la compréhension de leur relation séquence-structure-fonction, offrent des perspectives de recherche prometteuses.Le développement d’initiatives en génomique structurale, combiné à une meilleure adaptation des techniques de cristallographie et de RMN à l’étude des protéines non globulaires, a permis d’élucider la structure d’un nombre croissant de PRs, d’où la nécessité de mettre en place un système de classification. Les structures répétitives ont été réparties en cinq classes, principalement fondées sur la longueur des TRs: Classe I - agrégats cristallins; Classe II - structures fibreuses; Classe III - structures allongées, dont la stabilité dépend des interactions qui s’établissent entre les motifs répétés. Classe IV - structures répétitives fermées ; Classe V - structures en collier de perles. Les efforts de ces dernières années ont abouti au développement d’outils bioinformatiques utiles à la détection et l'analyse d'éléments répétitifs présents au sein des structures protéiques (3D TRs). En fonction des caractéristiques des répétitions, certaines méthodes fonctionnent mieux que d'autres, mais, jusqu’à présent, aucune ne permettait de couvrir toute la gamme des répétitions. Ce constat nous a incités à développer une nouvelle méthode, appelée détecteur de protéines en tandem (TAPO). TAPO exploite les périodicités des coordonnées atomiques ainsi que d'autres types de représentation structurale, comprenant les chaînes générées par un alphabet conformationnel, les cartes de contact entre résidus, et les arrangements en vecteurs d'éléments de structure secondaire. Actuellement, sept scores, issus des caractéristiques analysées par TAPO, sont combinés à l’aide d’une Machine à Vecteur Support pour produire un score final permettant de différencier les protéines renfermant ou non des 3D TRs. En atteignant 94% de sensibilité et 97% de spécificité pour la référence actuelle, TAPO présente des performances améliorées par rapport aux autres méthodes de pointe. Le développement de TAPO offre de nouvelles opportunités pour l’analyse à grande échelle des protéines renfermant des 3D TRs. Ainsi, notre analyse de la base de données PDB, à l’aide de TAPO, a montré que 19% des protéines contiennent des 3D TRs. L'analyse à grande échelle des structures 3D TRs dans PDB nous a également permis de découvrir plusieurs nouveaux types de structures répétitives, absents de la classification existante et dont certains sont décrits ici.Nous avons entrepris une analyse complète des 3D TRs constitutifs du Rossmann Fold (RF). Notre intérêt pour les RFs a été suscité par le fait que de nombreuses protéines RFs représentent un cas ambigüe vis à vis des structures répétitives et non répétitives. A priori, les unités hélice α - feuillet β des RFs devraient avoir une forte tendance à s’empiler et donc, à former des structures répétitives. Afin de déterminer la fréquence à laquelle les RFs forment de longues unités de répétition empilées, nous avons sélectionné, à l’aide de TAPO, des structures contenant des RFs et les avons classées. Notre analyse montre que les RFs typiques ne peuvent pas être clairement définis comme des structures répétitives mais plutôt comme des unités de structures globulaires, comptant au plus trois répétitions α-β. Des éléments de discussion seront proposés pour tenter d’expliquer cette observation surprenante. / In general, protein structures can be divided into: repetitive and aperiodic structures. Most of the aperiodic structures are globular proteins. The repetitive proteins contain arrays of repeats that are adjacent to each other, called Tandem Repeats (TRs). Proteins containing TRs are abundant and have fundamental functional importance. Numerous studies demonstrated the involvement of such TR-containing proteins in human diseases. Furthermore, genetic instability of these regions can lead to emerging infection threats. Additionally, TR-containing structures have generated significant interest with respect to protein design as they can make excellent scaffolds for specific recognition of target molecules. Therefore, the discovery of these domains, understanding of their sequence–structure–function relationship promises to be a fertile direction for research.The growth of structural genomics initiatives, in combination with improvements in crystallographic and NMR techniques aimed at non-globular proteins, has resulted in an increase in structurally elucidated TR proteins. This has necessitated the development of classification schemes. Structural repeats were broadly divided into five classes mainly based on repeat length; Class I – crystalline aggregates; Class II – fibrous structures such as collagen; Class III – elongated structures where the repetitive units require each other for structural stability such as solenoid proteins; Class IV – closed repetitive structures, such as TIM-barrels and Class V – bead on a string structures such as tandems of Ig-fold domains. Despite this progress, the majority of bioinformatics approaches have focused on non-repetitive globular proteins.In recent years, efforts have been made to develop bioinformatics tools for the detection and analysis of repetitive elements in protein structures (3D TRs). Depending on the size and character of the repeats, some methods perform better than others, but currently no best approach exists to cover the whole range of repeats. This served as a motivation for the development of our method called the TAndem PrOtein detector (TAPO). TAPO exploits, periodicities of atomic coordinates and other types of structural representation, including strings generated by conformational alphabets, residue contact maps, and arrangements of vectors of secondary structure elements. Currently, seven feature based scores produced by TAPO are combined using a Support Vector Machine, producing a score to enable the differentiation between proteins with and without 3D TRs. TAPO shows an improved performance over other cutting edge methods, achieving 94% sensitivity and 97% specificity on the current benchmark. The development of TAPO provided new opportunities for large scale analysis of proteins with 3D TRs. In accordance with our analysis of PDB using TAPO, 19% of proteins contain 3D TRs. The large scale analysis of the 3D TR structures in PDB also allows us to discover several new types of TR structures that were absent in the existing classification. Some of them are described in the thesis manuscript. This suggests that TAPO can be used to regularly update the collection and classification of existing repetitive structures. In particular, a comprehensive analysis of 3D TRs related to Rossmann Fold (RF) was undertaken. Our special interest in RFs was based on the observation that many proteins with RFs represent borderline cases between repetitive and non-repetitive structures. In principle, α-helix-β-strand units of RFs should have a strong potential to stack one over the other, forming repetitive structures. To probe the question of how frequently RFs form long arrays of stacked repeats, we selected by using TAPO known RF-containing structures and classified them. Our analysis shows that typical RFs cannot be clearly defined as repetitive, rather they are part of globular structures with up to 3 αβ-repeats. We provide some explanations for this surprising observation. Bioinformatique Répétitions en tandem Structures 3D Protéome Computer programming Algorithme Bioinformatics Tandem repeats 3D structures Proteome Computer programming Algorithms
5	Analyse des génomes à la recherche de répétitions en tandem polymorphes : outils d?épidémiologie bactérienne et locus hypermutables humains Denoeud, France 01 December 2003 (has links) (PDF) Les répétitions en tandem sont constituées de successions de motifs d'ADN. Ces structures sont présentes dans tous les organismes, procaryotes comme eucaryotes et, même si leur rôle biologique est encore peu compris, elles ont des applications dans de nombreux domaines. Tout d'abord, chez les bactéries, les répétitions en tandem polymorphes, dont le nombre d'unités varie, se révèlent un outil puissant pour l'identification de souches à des fins épidémiologiques. Par ailleurs, certaines répétitions en tandem humaines ont la propriété de muter à des fréquences élevées : les minisatellites hypermutables sont les éléments les plus instables du génome humain. Ils peuvent être utilisés comme biomarqueurs d'exposition à des agents potentiellement mutagènes tels que les radiations ionisantes. D'un point de vue plus fondamental, ils sont également un modèle d'étude des mécanismes d'instabilité des génomes. Dans cette thèse, nous mettons à profit les données issues du séquençage afin d'identifier des répétitions en tandem polymorphes. Nous avons tout d'abord élaboré une base de données des répétitions en tandem accessible sur le web (http://minisatellites.u-psud.fr), qui fournit un accès aux répétitions en tandem de génomes entiers. Ensuite, dans le but de sélectionner les répétitions en tandem polymorphes, plusieurs stratégies ont été mises en oeuvre. D'une part, chez les bactéries pour lesquelles les séquences de plusieurs souches étaient disponibles, nous avons créé un utilitaire de comparaison de souches, afin d'identifier des marqueurs polymorphes utilisables en épidémiologie. D'autre part, une étude menée sur les minisatellites humains a permis de définir des critères prédictifs du polymorphisme à partir de la séquence d'un seul allèle de minisatellite, et a en outre mis en évidence un nouveau minisatellite hypermutable situé dans une séquence codante putative. Les critères prédictifs ont également été appliqués à l'identification de minisatellites codants potentiellement polymorphes dans le génome humain. [SDV] Life Sciences génomique bioinformatique répétitions en tandem databases comparaison de génomes polymorphisme génome humain génomes DGA MRIS domaine biologie bactériens épidémiologie moléculaire
6	De l’usage du polymorphisme de répétitions en tandem pour l’étude des populations bactériennes : mise au point et validation d’un système de génotypage automatisé utilisant la technique de MLVA / The use of tandem repeats polymorphism for bacterial populations study : conception and validation of a MLVA-based automated genotyping system Sobral, Daniel 02 May 2012 (has links) Les espèces bactériennes exhibent plusieurs états de structure de populations pouvant varier de clonale à panmictique selon l'importance des transferts horizontaux et la nature de leur écosystème. Dans mon travail de thèse, je me suis intéressé à trois espèces bactériennes, Staphylococcus aureus, Legionella pneumophila et Pseudomonas aeruginosa qui reflètent trois situations différentes. Afin de pouvoir décrire de façon rapide de grandes collections de souches, j'ai utilisé comme marqueurs de diversité le polymorphisme de séquences répétées en tandem appelées VNTRs, pour Variable Number Tandem Repeat. La méthode MLVA, ou Multiple Loci VNTR Analysis, est une méthode de typage moléculaire qui s’appuie sur l’étude concomitante du polymorphisme de plusieurs loci VNTRs. Dans un premier temps, j'ai conçu des protocoles de typage automatisés pour les trois espèces considérées, puis j'ai appliqué ces outils pour traiter de questions d'épidémiologie. S. aureus, espèce à structure clonale, est un pathogène majeur responsable notamment de toxi-infections alimentaires collectives (TIAC). Les travaux réalisés ont permis de démontrer la spécificité d’hôte de certains complexes clonaux et l’origine humaine des cas de TIAC. L. pneumophila est un pathogène de l’environnement dont la structure de population est atypique : présumée panmictique dans la nature, la bactérie semble connaitre une évolution clonale lorsque son écosystème est restreint, dans un milieu anthropique par exemple. L’étude épidémiologique menée sur la population de L. pneumophila dans la ville de Rennes a mis en évidence la présence d’un écotype, non impliqué dans les cas cliniques épidémiques, particulièrement adapté aux réseaux d’eau. P. aeruginosa, modèle de bactérie panmictique, colonise les bronches de patients atteints de mucoviscidose. Le suivi longitudinal de patients indique que les souches installées sont persistantes et quasi-exclusive de la niche qu’elles occupent. L’exploration de cette diversité du monde bactérien est un préalable à l’investigation épidémiologique des maladies infectieuses. Avec un même outil moléculaire de première intention, cette thèse retrace l’épidémiologie et la structure de trois espèces bactériennes très différentes. L’adaptation à un nouvel environnement (hôte animal, niche écologique, organe) est l'occasion d'expansions clonales. / Bacterial species exhibit diversity in their population structure varying from clonal to panmictic according to the abundance of horizontal transfer and the nature of their ecosystem. During my PhD, I focused on three bacterial species, Staphylococcus aureus, Pseudomonas aeruginosa and Legionella pneumophila, which reflect three different situations. To perform the characterisation of large strain collections, I studied the polymorphism of molecular markers called VNTRs for Variable Number Tandem Repeat. MLVA (Multiple Loci VNTR Analysis) is a PCR based typing method that relies on the concomitant analysis of several VNTRs loci. Initially, I designed automated typing protocols for the three species, then I applied these tools to address issues of epidemiology. S. aureus, a clonal species, is a major cause of food poisoning. The present work confirmed the existence of host-specific clonal complexes and demonstrated the predominantly human origin of foodborne disease cases. L. pneumophila is an environmental pathogen whose population structure is atypical: it is presumed panmictic in the environment but the bacterium expands clonally when the ecosystem is restricted, in an anthropogenic habitat for instance. A long-term epidemiological monitoring of L. pneumophila populations in the city of Rennes highlighted the presence of an ecotype, not involved in epidemic cases, particularly adapted to hot water supply systems. P. aeruginosa, a well-described panmictic bacterium, colonizes CF patients’ airways. The longitudinal monitoring of patients provided evidence that the settled strains were persistent and exhibited strong exclusivity for the occupied niche. Exploring the bacterial world diversity is a prerequisite for epidemiological investigation of infectious diseases. Using a first-line molecular tool, these works trace the epidemiology and the population structure of three bacterial species. The adaptation to a new environment (animal host, ecological niche, organ) generally results in clonal expansions. MLVA VNTR Répétitions en tandem Génotypage Génomique Bactéries Pathogènes Épidémiologie moléculaire Structure de population Phylogénie Legionella pneumophila Pseudomonas aeruginosa Staphylococcus aureus CIFRE MLVA VNTR Tandem repeats Genotyping Genomic Bacteria Pathogens Molecular epidemiology Population structure Phylogeny Legionella pneumophila Pseudomonas aeruginosa Staphylococcus aureus CIFRE
7	De l'usage du polymorphisme de répétitions en tandem pour l'étude des populations bactériennes : mise au point et validation d'un système de génotypage automatisé utilisant la technique de MLVA Sobral, Daniel 02 May 2012 (has links) (PDF) Les espèces bactériennes exhibent plusieurs états de structure de populations pouvant varier de clonale à panmictique selon l'importance des transferts horizontaux et la nature de leur écosystème. Dans mon travail de thèse, je me suis intéressé à trois espèces bactériennes, Staphylococcus aureus, Legionella pneumophila et Pseudomonas aeruginosa qui reflètent trois situations différentes. Afin de pouvoir décrire de façon rapide de grandes collections de souches, j'ai utilisé comme marqueurs de diversité le polymorphisme de séquences répétées en tandem appelées VNTRs, pour Variable Number Tandem Repeat. La méthode MLVA, ou Multiple Loci VNTR Analysis, est une méthode de typage moléculaire qui s'appuie sur l'étude concomitante du polymorphisme de plusieurs loci VNTRs. Dans un premier temps, j'ai conçu des protocoles de typage automatisés pour les trois espèces considérées, puis j'ai appliqué ces outils pour traiter de questions d'épidémiologie. S. aureus, espèce à structure clonale, est un pathogène majeur responsable notamment de toxi-infections alimentaires collectives (TIAC). Les travaux réalisés ont permis de démontrer la spécificité d'hôte de certains complexes clonaux et l'origine humaine des cas de TIAC. L. pneumophila est un pathogène de l'environnement dont la structure de population est atypique : présumée panmictique dans la nature, la bactérie semble connaitre une évolution clonale lorsque son écosystème est restreint, dans un milieu anthropique par exemple. L'étude épidémiologique menée sur la population de L. pneumophila dans la ville de Rennes a mis en évidence la présence d'un écotype, non impliqué dans les cas cliniques épidémiques, particulièrement adapté aux réseaux d'eau. P. aeruginosa, modèle de bactérie panmictique, colonise les bronches de patients atteints de mucoviscidose. Le suivi longitudinal de patients indique que les souches installées sont persistantes et quasi-exclusive de la niche qu'elles occupent. L'exploration de cette diversité du monde bactérien est un préalable à l'investigation épidémiologique des maladies infectieuses. Avec un même outil moléculaire de première intention, cette thèse retrace l'épidémiologie et la structure de trois espèces bactériennes très différentes. L'adaptation à un nouvel environnement (hôte animal, niche écologique, organe) est l'occasion d'expansions clonales. MLVA VNTR Répétitions en tandem Génotypage Génomique Bactéries Pathogènes Épidémiologie moléculaire Structure de population Phylogénie Legionella pneumophila Pseudomonas aeruginosa Staphylococcus aureus CIFRE
8	Identification de facteurs génétiques et environnementaux impliqués dans le vieillissement à travers l’étude des variations naturelles de la levure / Natural variations in yeast aging reveal genetic and environmental factors Barré, Benjamin 18 December 2018 (has links) Le vieillissement est un processus complexe déterminé par des facteurs génétiques et environnementaux qui varie d’un individu à l’autre. Bien que le vieillissement soit la cause principale de nombreuses maladies, nos connaissances sur le sujet sont relativement limitées. Tout au long de ce travail, j’ai utilisé la levure bourgeonnante Saccharomyces cerevisiae pour identifier les facteurs génétiques et environnementaux influant sur le vieillissement et pour comprendre les interactions qu’ils entretiennent entre eux. Jusqu’à présent, les approches classiques de génétique ont permis de découvrir un certain nombre de gènes impliqués dans la régulation du vieillissement chronologique de la levure (CLS), basé sur la longévité de celle-ci en conditions non-prolifératives. Or, ces approches se sont essentiellement centrées sur des souches de laboratoire et n’ont que très peu exploité les richesses de la biodiversité. Dans une première partie, j’ai utilisé une large cohorte de levures composée de plus de 1000 souches naturelles de S. cerevisiae afin d’estimer la variabilité de longévité existant au sein de l’espèce. Leur longévité a été étudiée dans différentes conditions connues pour freiner le vieillissement : sous restriction calorique ou en présence d’un agoniste de la restriction calorique, la molécule rapamycine, qui inhibe directement la voie de signalisation TOR. Les microorganismes passent la majeure partie de leur vie dans des environnements défavorables, pauvres en ressources nutritives. Leur capacité à survivre à ces périodes de restriction (CLS) est donc primordiale. J’ai observé que les souches sauvages ont tendance à spontanément initier le programme de méiose aboutissant à la formation de spores lorsque les conditions environnementales deviennent restreintes. En revanche, les souches domestiques préfèrent entrer en quiescence, ce qui leur confère une viabilité et une résistance accrues. De plus, en ayant recours à une approche basée sur des gènes présélectionnés et à une étude d’association pangénomique, j’ai observé que la variabilité de longévité entre les différentes souches est déterminée par un large spectre de polymorphismes génétiques, tels que des mutations non-synonymes ou non-sens, et par l’absence ou la présence de certains gènes. Toutes ces composantes génétiques interagissent pleinement avec l’environnement. Dans une deuxième partie, j’ai réalisé une analyse de liaison génétique grâce à 1056 souches descendantes de deux souches parentales. La longévité (CLS) de ces 1056 souches a été mesurée dans le but d’identifier des locus de caractères quantitatifs (QTLs). Le vieillissement chronologique a été déterminé à la fois à partir d’un milieu riche, d’un milieu restreint en calories, ou en présence de rapamycine. J’ai identifié 30 QTLs distincts, certains d’entre eux sont communs et récurrents dans plusieurs environnements, tandis que d’autres sont plus spécifiques et occasionnels. Les deux QTLs principaux, associés aux gènes HPF1 et FLO11, codent tous deux des protéines du mur cellulaire, et sont jusqu’à présent non reconnus comme régulateurs du vieillissement. Etonnement, ces deux gènes contiennent des répétitions d’ADN en tandem qui s’avèrent être massivement amplifiées dans une des deux souches parentales d’origine. Alors que les allèles courts de HPF1 et FLO11 n’ont pas d’effet sur le vieillissement, les allèles longs sont relativement délétères, hormis en présence de rapamycine. Après investigation, il semble que la forme allongée de HPF1 provoque la flottaison des cellules de levure au cours de la phase de croissance, les exposants à des taux plus élevés d’oxygène. / Aging is a classical complex trait varying quantitatively among individuals and affected by both the genetic background and the environment. While aging is the highest risk factor for a large number of diseases, little is known about the underlying molecular mechanisms. Identifying the causal genetic variants underlying natural variation in longevity and understanding their interaction with the genetic background and the environment remains a major challenge. In this work, I used the budding yeast, Saccharomyces cerevisiae, to identify environmental and genetic factors contributing to aging. While extensive classical genetic studies discovered several genes involved in the regulation of chronological lifespan (CLS), which measures cell viability dynamic in non-dividing condition, using laboratory strains in standard conditions, there are only few studies exploiting variations in natural populations. In the first part, I used a large cohort of more than 1000 sequenced natural S. cerevisiae strains to provide a species-wide overview of CLS variability. Longevity was measured in different environments, including calorie restriction (CR), a natural intervention known to increase lifespan, and in the presence of rapamycin (RM), a drug that mimics CR by downregulating the TOR pathway. Unicellular microorganisms spend most of their lifetime in harsh restricted environments interrupted by short windows of growth, making CLS an important and likely adaptive trait. I found that wild strains subjected to CLS tend to trigger the meiotic developmental process leading to the formation of gametes wrapped into a very resistant cell wall. In contrast, domesticated strains tend to enter quiescence state when starved and display a tremendous variability in their survival capacity. Moreover, using both candidate gene approach and genome-wide association studies (GWAS), I demonstrated that variability in CLS is determined by a full spectrum of genetic variant that include gene presence/absence, copy number variation, non-synonymous SNPs and loss of function. All these genetic features were strongly regulated by the environment. In the second part, I performed linkage analysis using 1056 diploid segregants derived from a two parent advanced intercross. These 1056 diploid segregants were phenotyped for CLS to map quantitative trait loci (QTLs). The CLS was measured in complete media, CR and RM environments across multiple time points. I mapped 30 distinct QTLs, with some shared across different environments and time points, while others were unique to a specific condition. The two major effect size QTLs were linked with natural variation in the cell wall glycoproteins FLO11 and HPF1, previously unknown to regulate CLS. Interestingly, both genes presented massive intragenic tandem repeat expansions in one of the founder strain used in the crossing scheme. While the short versions of FLO11 and HPF1 alleles did not impact CLS, tandem repeat expansions within those genes were sufficient to confer a dominant detrimental effect that was partially buffered by rapamycin treatment. Further investigation revealed that the extended form of HPF1 makes cells floating during exponential phase, exposing them to higher oxygen rates, and leading to perturbation of redox homeostasis, activation of misfolded protein response, and alteration of multiple genes involved in methionine, ribosome and lipid biosynthesis, eventually contributing to CLS shortening. Taken together, my work provided an unprecedented overview of natural variation in CLS in a genetic model system and revealed multiple genetic and environmental factors that shape the species phenotypic variation. Caractères quantitatifs Variations naturelles S. cerevisiae Vieillissement chronologique Restriction calorique Rapamycine Répétitions en tandem Stress oxydatif Quantitative traits Natural variations Chronological lifespan Calorie restriction Rapamycin Intragenic tandem repeats Oxidative stress S. cerevisiae

Search results