Décrypter les données omiques : importance du contrôle qualité. Application au cancer de l’ovaire Au cours des dix dernières années, la taille et la complexité des données biologiques ont littéralement explosé, et une attention particulière doit être portée au contrôle qualité. En effet, certaines données omiques (données génomiques et post-génomiques obtenues à haut débit) sont très incomplètes et/ou contiennent de nombreux biais et erreurs qu’il est facile de confondre avec de l’information biologiquement intéressante. Dans cette thèse, nous montrons que les interactions protéine-protéine issues de curation de la littérature et les interactions identifiées à haut débit sont beaucoup plus corrélées que ce qui est communément admis. Nous examinons l’interactome de la levure d’un point de vue original, en prenant en compte le degré d’étude des protéines par la communauté scientifique et nos résultats indiquent que cette corrélation s’estompe lorsqu’on se restreint aux protéines très étudiées. Ces observations nous permettent de proposer une méthode simple et fiable pour estimer la taille d’un interactome. Notre méthode conduit à une estimation d’au moins 37 600 interactions physiques directes chez S. cerevisiae, et montre que les évaluations précédentes sont trop faibles. Par ailleurs, nous étudions des données de séquençage nouvelle génération de l’ADN. Par une analyse des biais existant entre les short-reads alignés sur un brin ou sur l’autre du génome, nous mettons en évidence de nombreuses erreurs systématiques. De plus, nous observons de multiples positions présentant entre 20 et 40% de short-reads portant l’allèle variant : celles-ci ne peuvent pas être génotypées correctement. Nous proposons une méthode fiable pour appeler les génotypes à partir des données NGS qui permet de s’affranchir de ses difficultés. Enfin, nous appliquons cette méthode sur des données massives de séquençage d’exome de cellules saines et tumorales de 520 patientes atteintes du cancer de l’ovaire, produites par le consortium TCGA. Nous détectons en moyenne 30 632 variants germinaux par patiente. Parmi ces variants, nous identifions ceux les plus enclins à conférer un risque accru de développer la maladie : nous nous restreignons notamment aux variants induisant une perte de fonction de la protéine encodée et significativement plus présents chez les patientes que dans la population générale. Cela conduit à 44 SNVs par patiente en moyenne, répartis sur 334 gènes dans l’ensemble de la cohorte. Parmi ces 334 gènes, 42 ont été reportés comme impliqués dans la cancerogénèse, confirmant que la liste de candidats identifiés est fortement enrichie en gènes de susceptibilité au cancer de l’ovaire. En particulier, nos travaux confirment le rôle de suppresseur de tumeur de la protéine MAP3K8, très récemment proposée comme jouant un rôle clé dans d’autres cancers. / Deciphering omics data : on the importance of quality control. Application to ovarian cancer. Over the past 10 years, the size and complexity of biological data have exploded, and quality control is critical to interpret them correctly. Indeed, omics data (high- hroughput genomic and post-genomic data) are often incomplete and contain bias and errors that can easily be misinterpreted as biologically interesting findings. In this work, we show that literature-curated and high-throughput protein-protein interaction data, usually considered independent, are in fact significantly correlated. We examine the yeast interactome from a new perspective by taking into account how thoroughly proteins have been studied, and our results show that this bias can be corrected for by focusing on well- studied proteins. We thus propose a simple and reliable method to estimate the size of an interactome, combining literature-curated data involving well-studied proteins with high- hroughput data. It yields an estimate of at least 37,600 direct physical protein-protein interactions in S.cerevisiae, a significant increase over previous estimates. We then focus on next-generation DNA sequencing data. An analysis of the bias existing between short- eads aligned on each strand of the genome allows us to highlight numerous systematic errors. Furthermore, we observe many positions that exhibit between 20 and 40% of reads carrying the variant allele : these cannot be genotyped correctly.We then propose a method to overcome these biases and reliably call genotypes from NGS data. Finally, we apply our method to exome-seq data produced by the TCGA for tumor and matched normal samples from 520 ovarian cancer patients. We detect on average 30,632 germline variants per patient. Though an integrative approach, we then identify those which are likely to increase cancer risk : in particular, we focused on variants inducing a loss of function of the encoded protein, and selected those that are significantly more present in the patients than in the general population. We find 44 SNVs per patient on average, impacting 334 genes overall in the cohort. Among these genes, 42 have been previously reported as involved in carcinogenesis, confirming that our list is highly enriched in ovarian cancer susceptibility genes. In particular, our results confirm the tumor suppressor role of the MAP3K8 protein, recently identified in other types of cancer.
Identifer | oai:union.ndltd.org:theses.fr/2013GRENS027 |
Date | 18 December 2013 |
Creators | Sambourg, Laure |
Contributors | Grenoble, Thierry-Mieg, Nicolas |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0094 seconds