Cette thèse traite de questions statistiques soulevées par l'analyse de données génomiques de grande dimension, dans le cadre de la recherche contre le cancer. La première partie est consacrée à l'étude des propriétés asymptotiques de procédures de tests multiples visant à contrôler l'espérance (FDR) du taux de fausses découvertes (FDP) parmi les hypothèses rejetées. On introduit un formalisme flexible qui permet de calculer la loi asymptotique du FDP et les conditions de régularité associées pour une vaste famille de procédures de tests multiples, et de comparer la puissance de ces procédures. On s'intéresse ensuite aux liens en termes de contrôle du FDR entre les bornes intrinsèques à trois problèmes de tests multiples: la détection, l'estimation, et la sélection. On relie en particulier la vitesse de convergence dans le problème d'estimation à la régularité de la loi des probabilités critiques au voisinage de 1. La seconde partie est dédiée au développement de méthodes d'analyse des données de puces à ADN en cancérologie. On propose une méthode de pré-traitement des données de puces à ADN combinant une régression robuste et un modèle de mélange avec contrainte spatiale, qui permet d'éliminer les biais spatiaux en préservant le signal biologique. On développe ensuite une méthode d'inférence de régulations entre gènes à partir de données d'expression de gènes, qui repose sur des techniques d'apprentissage informatique et de tests multiples. Enfin, on construit un test génomique permettant de déterminer, pour une patiente traitée pour un cancer du sein, si un second cancer survenant sur le même sein est ou non une récidive du premier.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00433045 |
Date | 30 September 2009 |
Creators | Neuvial, Pierre |
Publisher | Université Paris-Diderot - Paris VII |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds