La recherche dans le domaine de la génomique génère de données colossales dont la dimension ne cesse de s'accroître avec la technologie. Pour traiter cette masse d'information, la statistique est devenue un outil indispensable. Ce nouveau type de données représente un véritable challenge dans la mesure où ces données sont de très grande dimension, qu'elles sont très "bruitées" et qu'il n'existe généralement pas de "golden standard" permettant de valider les résultats. Au cours de cette thèse, nous nous sommes intéressés à l'analyse statistique de trois types de données : les puces à ADN, les ChIP-chip et les ChIP-Seq. Pour chacune d'entres elles, une nouvelle approche a été mise au point. Dans le cas des données de puces à ADN, la méthode GAGG permet de détecter les gènes différentiellement exprimés et de les grouper par type de profils. Pour ce faire, un Algorithme Génétique est utilisé de manière à optimiser deux critères liés à des méthodes voisines de l'ACP et des k-means. Pour les données de ChIP-chip, la méthode POTChIPS a été réalisée. Elle permet de repérer sur le génome, les sites de fixation d'une protéine d'intérêt (ex : un facteur de transcription). Dans cette méthode, une extraction des pics du signal est réalisée puis un seuil de significativité est déterminé à partir d'une modélisation POT. Enfin, pour ce qui est des données de ChIP-Seq, l'objectif est le même que pour les ChIP-chip, à savoir, repérer les sites de fixation d'une protéine sur l'ADN. La méthode POTSeq, mise au point au cours de cette thèse, est une adaptation de POTChIPS aux données de ChIP-Seq. / Research in Genomics produces very huge data which still increase with technology. Statistics is becoming essential to treat this amount of information. These new kind of data represent a great challenge in data analysis because of the great dimensions, the important background and the absence of "golden standard" which could allow to validate the obtained results. During this PhD thesis, we focused on statistical analysis for three kinds of data: DNA microarray, ChIP-chip and ChIP-Seq. For each one, a new approach have been proposed. For DNA microarrays, the GAGG method allows to detect differentially expressed genes and to cluster them by profile types. To do so, a Genetic Algorithm is used in order to optimize two criteria related to two nearby methods of PCA and $k$-means. In the case of ChIP-chip data, the POTChIPS method have been proposed. It allows to detect the binding sites of a protein of interest (a transcription factor e.g.) along the genome. In this method a peak extraction i realized then a significant threshold is obtained from a POT modelization. Finally, for ChIP-Seq data, the goal is the same that the one of chIP-chip, i.e., to find on DNA the binding sites of a protein of interest. The POTSeq method is an adaptation of POTChIPS for ChIP-Seq.La méthode POTSeq, mise au point au cours de cette thèse, est une adaptation de POTChIPS aux données de ChIP-Seq.
Identifer | oai:union.ndltd.org:theses.fr/2011MON20176 |
Date | 11 July 2011 |
Creators | Salipante, Florian |
Contributors | Montpellier 2, Journot, Laurent |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds