Global ETD Search

11	Identification de biomarqueurs prédictifs de la survie et de l'effet du traitement dans un contexte de données de grande dimension / Identification of biomarkers predicting the outcome and the treatment effect in presence of high-dimensional data Ternes, Nils 05 October 2016 (has links) Avec la révolution récente de la génomique et la médecine stratifiée, le développement de signatures moléculaires devient de plus en plus important pour prédire le pronostic (biomarqueurs pronostiques) ou l’effet d’un traitement (biomarqueurs prédictifs) de chaque patient. Cependant, la grande quantité d’information disponible rend la découverte de faux positifs de plus en plus fréquente dans la recherche biomédicale. La présence de données de grande dimension (nombre de biomarqueurs ≫ taille d’échantillon) soulève de nombreux défis statistiques tels que la non-identifiabilité des modèles, l’instabilité des biomarqueurs sélectionnés ou encore la multiplicité des tests.L’objectif de cette thèse a été de proposer et d’évaluer des méthodes statistiques pour l’identification de ces biomarqueurs et l’élaboration d’une prédiction individuelle des probabilités de survie pour des nouveaux patients à partir d’un modèle de régression de Cox. Pour l’identification de biomarqueurs en présence de données de grande dimension, la régression pénalisée lasso est très largement utilisée. Dans le cas de biomarqueurs pronostiques, une extension empirique de cette pénalisation a été proposée permettant d’être plus restrictif sur le choix du paramètre λ dans le but de sélectionner moins de faux positifs. Pour les biomarqueurs prédictifs, l’intérêt s’est porté sur les interactions entre le traitement et les biomarqueurs dans le contexte d’un essai clinique randomisé. Douze approches permettant de les identifier ont été évaluées telles que le lasso (standard, adaptatif, groupé ou encore ridge+lasso), le boosting, la réduction de dimension des effets propres et un modèle implémentant les effets pronostiques par bras. Enfin, à partir d’un modèle de prédiction pénalisé, différentes stratégies ont été évaluées pour obtenir une prédiction individuelle pour un nouveau patient accompagnée d’un intervalle de confiance, tout en évitant un éventuel surapprentissage du modèle. La performance des approches ont été évaluées au travers d’études de simulation proposant des scénarios nuls et alternatifs. Ces méthodes ont également été illustrées sur différents jeux de données, contenant des données d’expression de gènes dans le cancer du sein. / With the recent revolution in genomics and in stratified medicine, the development of molecular signatures is becoming more and more important for predicting the prognosis (prognostic biomarkers) and the treatment effect (predictive biomarkers) of each patient. However, the large quantity of information has rendered false positives more and more frequent in biomedical research. The high-dimensional space (i.e. number of biomarkers ≫ sample size) leads to several statistical challenges such as the identifiability of the models, the instability of the selected coefficients or the multiple testing issue.The aim of this thesis was to propose and evaluate statistical methods for the identification of these biomarkers and the individual predicted survival probability for new patients, in the context of the Cox regression model. For variable selection in a high-dimensional setting, the lasso penalty is commonly used. In the prognostic setting, an empirical extension of the lasso penalty has been proposed to be more stringent on the estimation of the tuning parameter λ in order to select less false positives. In the predictive setting, focus has been given to the biomarker-by-treatment interactions in the setting of a randomized clinical trial. Twelve approaches have been proposed for selecting these interactions such as lasso (standard, adaptive, grouped or ridge+lasso), boosting, dimension reduction of the main effects and a model incorporating arm-specific biomarker effects. Finally, several strategies were studied to obtain an individual survival prediction with a corresponding confidence interval for a future patient from a penalized regression model, while limiting the potential overfit.The performance of the approaches was evaluated through simulation studies combining null and alternative scenarios. The methods were also illustrated in several data sets containing gene expression data in breast cancer. Médecine stratifiée Données de grande dimension Régression pénalisée Biomarqueurs pronostiques Biomarqueurs prédictifs Prédiction individuelle Stratified medicine High-Dimensional data Penalized regression Prognostic biomarkers Predictive biomarkers Individual prediction
12	Détection statistique des changements climatiques Ribes, Aurélien 11 September 2009 (has links) (PDF) Selon le Groupe Intergouvernemental d'experts sur l'Evolution du Climat (GIEC), la détection est la démonstration statistique de ce qu'un changement observé ne peut pas être expliqué par la seule variabilité interne naturelle du climat. Cette thèse s'intéresse à la détection des changements climatiques à l'échelle régionale, et en particulier aux méthodes statistiques adaptées à ce type de problématique. Plusieurs procédures de tests statistiques sont ainsi présentées et étudiées. La première méthode développée consiste à rechercher, dans les observations, la présence d'un signal de changements climatiques dont la distribution spatiale est connue. Dans ce cas, une nouvelle adaptation de la méthode des empreintes digitales optimales a été proposée, basée sur l'utilisation d'un estimateur bien conditionné de la matrice de covariance de la variabilité interne du climat. Une seconde approche propose de rechercher un signal ayant une forme d'évolution temporelle particulière. La forme recherchée peut alors être évaluée à partir de scénarios climatiques en utilisant des fonctions de lissage "splines". Une troisième stratégie consiste à étudier la présence d'un changement non spécifié à l'avance, mais qui vérifie une propriété de séparabilité espace-temps, et qui présente une certaine régularité en temps. On utilise dans ce cas un formalisme de statistique fonctionnelle, pour construire un test de significativité de la première composante principale lisse, basé sur le rapport des vraisemblances pénalisées. L'application de ces différentes méthodes sur des données observées sur la France et le bassin Méditerranéen a permis de mettre en évidence de nouveaux résultats concernant les changements climatiques en cours sur ces deux domaines. Des changements significatifs sont notamment mis en évidence sur les températures annuelles et saisonnières, ainsi que sur les précipitations annuelles, dans le cas de la France. Ces changements ne sont pas uniformes en espace et modifient la distribution régionale de la variable étudiée. La comparaison des différentes méthodes de détection proposées a également permis de discuter de la capacité des modèles de climat à simuler correctement les caractéristiques spatiales et temporelles des changements climatiques. [MATH] Mathematics climat changement climatique détection attribution forçage anthropique variabilité France Méditerranée test d'hypothèse splines empreintes digitales optimales estimation de matrice de covariance vraisemblance pénalisée
13	Exponential weighted aggregation : oracle inequalities and algorithms / Agrégation à poids exponentiels : inégalités oracles et algorithmes Luu, Duy tung 23 November 2017 (has links) Dans plusieurs domaines des statistiques, y compris le traitement du signal et des images, l'estimation en grande dimension est une tâche importante pour recouvrer un objet d'intérêt. Toutefois, dans la grande majorité de situations, ce problème est mal-posé. Cependant, bien que la dimension ambiante de l'objet à restaurer (signal, image, vidéo) est très grande, sa ``complexité'' intrinsèque est généralement petite. La prise en compte de cette information a priori peut se faire au travers de deux approches: (i) la pénalisation (très populaire) et (ii) l'agrégation à poids exponentiels (EWA). L'approche penalisée vise à chercher un estimateur qui minimise une attache aux données pénalisée par un terme promouvant des objets de faible complexité (simples). L'EWA combine une famille des pré-estimateurs, chacun associé à un poids favorisant exponentiellement des pré-estimateurs, lesquels privilègent les mêmes objets de faible complexité.Ce manuscrit se divise en deux grandes parties: une partie théorique et une partie algorithmique. Dans la partie théorique, on propose l'EWA avec une nouvelle famille d'a priori favorisant les signaux parcimonieux à l'analyse par group dont la performance est garantie par des inégalités oracle. Ensuite, on analysera l'estimateur pénalisé et EWA, avec des a prioris généraux favorisant des objets simples, dans un cardre unifié pour établir des garanties théoriques. Deux types de garanties seront montrés: (i) inégalités oracle en prédiction, et (ii) bornes en estimation. On les déclinera ensuite pour des cas particuliers dont certains ont été étudiés dans littérature. Quant à la partie algorithmique, on y proposera une implémentation de ces estimateurs en alliant simulation Monte-Carlo (processus de diffusion de Langevin) et algorithmes d'éclatement proximaux, et montrera leurs garanties de convergence. Plusieurs expériences numériques seront décrites pour illustrer nos garanties théoriques et nos algorithmes. / In many areas of statistics, including signal and image processing, high-dimensional estimation is an important task to recover an object of interest. However, in the overwhelming majority of cases, the recovery problem is ill-posed. Fortunately, even if the ambient dimension of the object to be restored (signal, image, video) is very large, its intrinsic ``complexity'' is generally small. The introduction of this prior information can be done through two approaches: (i) penalization (very popular) and (ii) aggregation by exponential weighting (EWA). The penalized approach aims at finding an estimator that minimizes a data loss function penalized by a term promoting objects of low (simple) complexity. The EWA combines a family of pre-estimators, each associated with a weight exponentially promoting the same objects of low complexity.This manuscript consists of two parts: a theoretical part and an algorithmic part. In the theoretical part, we first propose the EWA with a new family of priors promoting analysis-group sparse signals whose performance is guaranteed by oracle inequalities. Next, we will analysis the penalized estimator and EWA, with a general prior promoting simple objects, in a unified framework for establishing some theoretical guarantees. Two types of guarantees will be established: (i) prediction oracle inequalities, and (ii) estimation bounds. We will exemplify them for particular cases some of which studied in the literature. In the algorithmic part, we will propose an implementation of these estimators by combining Monte-Carlo simulation (Langevin diffusion process) and proximal splitting algorithms, and show their guarantees of convergence. Several numerical experiments will be considered for illustrating our theoretical guarantees and our algorithms. Estimation en grande dimension A priori de faible complexité Agrégation à poids exponentiels Estimation pénalisée Inégalité d'oracle Diffusion de Langevin Algorithme explicite-implicite Consistence High-dimensional estimation Low-complexity prior Exponential weighted aggregation Penalized estimation Oracle inequality Langevin diffusion Forward-backward algorithm Consistency
14	Inférence de réseaux de régulation orientés pour les facteurs de transcription d'Arabidopsis thaliana et création de groupes de co-régulation / Inference of directed regulatory networks on the transcription factors of Arabidopsis thaliana and setting up of co-regulation groups Vasseur, Yann 08 December 2017 (has links) Dans cette thèse, nous cherchons à caractériser les facteurs de transcription de la plante Arabidopsis thaliana, gènes importants pour la régulation de l'expression du génome. À l'aide de données d'expression, notre objectif biologique est de classer ces facteurs de transcription en groupes de gènes co-régulateurs et en groupes de gènes co-régulés. Nous procédons en deux phases pour y parvenir. La première phase consiste à construire un réseau de régulation entre les facteurs de transcription. La seconde phase consiste en la classification des facteurs de transcription selon les liens de régulation établis par ce réseau. D'un point de vue statistique, les facteurs de transcription sont les variables et les données d'expression sont les observations. Nous représentons le réseau à inférer par un graphe orienté dont les nœuds sont les variables. L'estimation de ses arêtes est vue comme un problème de sélection de variables en grande dimension avec un faible nombre d'unités statistiques. Nous traitons ce problème à l'aide de régressions linéaires pénalisées de type LASSO. Une approche préliminaire qui consiste à sélectionner un ensemble de variables du chemin de régularisation par le biais de critères de vraisemblance pénalisée s'avère être instable et fournit trop de variables explicatives. Pour contrecarrer cela, nous proposons et mettons en compétition deux procédures de sélection, adaptées au problème de la haute dimension et mêlant régression linéaire pénalisée et rééchantillonnage. L'estimation des différents paramètres de ces procédures a été effectuée dans le but d'obtenir des ensembles de variables stables. Nous évaluons la stabilité des résultats à l'aide de jeux de données simulés selon notre modèle graphique. Nous faisons appel ensuite à une méthode de classification non supervisée sur chacun des graphes orientés obtenus pour former des groupes de nœuds vus comme contrôleurs et des groupes de nœuds vus comme contrôlés. Pour évaluer la proximité entre les classifications doubles des nœuds obtenus sur différents graphes, nous avons développé un indice de comparaison de couples de partition dont nous éprouvons et promouvons la pertinence. D'un point de vue pratique, nous proposons une méthode de simulation en cascade, exigée par la complexité de notre modèle et inspirée du bootstrap paramétrique, pour simuler des jeux de données en accord avec notre modèle. Nous avons validé notre modèle en évaluant la proximité des classifications obtenues par application de la procédure statistique sur les données réelles et sur ces données simulées. / This thesis deals with the characterisation of key genes in gene expression regulation, called transcription factors, in the plant Arabidopsis thaliana. Using expression data, our biological goal is to cluster transcription factors in groups of co-regulator transcription factors, and in groups of co-regulated transcription factors. To do so, we propose a two-step procedure. First, we infer the network of regulation between transcription factors. Second, we cluster transcription factors based on their connexion patterns to other transcriptions factors.From a statistical point of view, the transcription factors are the variables and the samples are the observations. The regulatory network between the transcription factors is modelled using a directed graph, where variables are nodes. The estimation of the nodes can be interpreted as a problem of variables selection. To infer the network, we perform LASSO type penalised linear regression. A preliminary approach selects a set of variable along the regularisation path using penalised likelihood criterion. However, this approach is unstable and leads to select too many variables. To overcome this difficulty, we propose to put in competition two selection procedures, designed to deal with high dimension data and mixing linear penalised regression and subsampling. Parameters estimation of the two procedures are designed to lead to select stable set of variables. Stability of results is evaluated on simulated data under a graphical model. Subsequently, we use an unsupervised clustering method on each inferred oriented graph to detect groups of co-regulators and groups of co-regulated. To evaluate the proximity between the two classifications, we have developed an index of comparaison of pairs of partitions whose relevance is tested and promoted. From a practical point of view, we propose a cascade simulation method required to respect the model complexity and inspired from parametric bootstrap, to simulate data under our model. We have validated our model by inspecting the proximity between the two classifications on simulated and real data. Grande dimension Réseaux de gènes Sélection de modèles Régression pénalisée Classification de graphes orientés High dimension Gene networks Model selection Penalized regression Directed graphs clustering Comparison index for pairs of partitions
15	Statistiques discrètes et Statistiques bayésiennes en grande dimension Bontemps, Dominique 02 December 2010 (has links) (PDF) Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible. [MATH] Mathematics Alphabet infini dénombrable A-priori bayésien le moins favorable Codage universel Compression adaptative Compression de données sans perte Redondance minimax Estimation adaptative Modèles exponentiels Normalité asymptotique a-posteriori Paramètre de la valeur moyenne Théorème de Bernstein-von Mises Biostatistiques Génotypes multilocus Heuristique de pente Mélange de multinomiales multivariées Modèles à classes latentes Sélection de modèle Sélection de variables Vraissemblance pénalisée
16	Contributions à la fusion de segmentations et à l’interprétation sémantique d’images Khelifi, Lazhar 08 1900 (has links) No description available. Ensemble de segmentation Fusion Erreur de la cohérence globale (GCE) Modèle de vraisemblance pénalisée Optimisation multi-objectif Prise de décision Segmentation sémantique d’image Segmentation ensemble Global consistency error (GCE) Penalized likelihood model Multi-objective optimization Decision making Semantic image segmentation
17	Quelques contributions à l'estimation des modèles définis par des équations estimantes conditionnelles / Some contributions to the statistical inference in models defined by conditional estimating equations Li, Weiyu 15 July 2015 (has links) Dans cette thèse, nous étudions des modèles définis par des équations de moments conditionnels. Une grande partie de modèles statistiques (régressions, régressions quantiles, modèles de transformations, modèles à variables instrumentales, etc.) peuvent se définir sous cette forme. Nous nous intéressons au cas des modèles avec un paramètre à estimer de dimension finie, ainsi qu’au cas des modèles semi paramétriques nécessitant l’estimation d’un paramètre de dimension finie et d’un paramètre de dimension infinie. Dans la classe des modèles semi paramétriques étudiés, nous nous concentrons sur les modèles à direction révélatrice unique qui réalisent un compromis entre une modélisation paramétrique simple et précise, mais trop rigide et donc exposée à une erreur de modèle, et l’estimation non paramétrique, très flexible mais souffrant du fléau de la dimension. En particulier, nous étudions ces modèles semi paramétriques en présence de censure aléatoire. Le fil conducteur de notre étude est un contraste sous la forme d’une U-statistique, qui permet d’estimer les paramètres inconnus dans des modèles généraux. / In this dissertation we study statistical models defined by condition estimating equations. Many statistical models could be stated under this form (mean regression, quantile regression, transformation models, instrumental variable models, etc.). We consider models with finite dimensional unknown parameter, as well as semiparametric models involving an additional infinite dimensional parameter. In the latter case, we focus on single-index models that realize an appealing compromise between parametric specifications, simple and leading to accurate estimates, but too restrictive and likely misspecified, and the nonparametric approaches, flexible but suffering from the curse of dimensionality. In particular, we study the single-index models in the presence of random censoring. The guiding line of our study is a U-statistics which allows to estimate the unknown parameters in a wide spectrum of models. Analyse de Survie Direction révélatrice unique Données censurées Equations de moments conditionnels Fonctionnelles de Kaplan-Meier Lissage par noyau Méthodes itératives Modèles de régression Réduction de la dimension Rééchantillonnage Régression pénalisée U-Statistiques Bootstrap Censoring Conditional moment equations Dimension reduction Iterative methods Kaplan-Meier functionals Kernel smoothing Penalized regression Regression models Single-Index assumptions Survival analysis U-Statistics
18	Réduction de dimension en statistique et application en imagerie hyper-spectrale Girard, Robin 26 June 2008 (has links) (PDF) Cette thèse est consacrée à l'analyse statistique de données en grande dimension. Nous nous intéressons à trois problèmes statistiques motivés par des applications médicales : la classification supervisée de courbes, la segmentation supervisée d'images hyperspectrales et la segmentation non-supervisée d'images hyperspectrales. Les procédures développées reposent pour la plupart sur la théorie des tests d'hypothèses (tests multiples, minimax, robustes et fonctionnels) et la théorie de l'apprentissage statistique. Ces théories sont introduites dans une première partie. Nous nous intéressons, dans la deuxième partie, à la classification supervisée de données gaussiennes en grande dimension. Nous proposons une procédure de classification qui repose sur une méthode de réduction de dimension et justifions cette procédure sur le plan pratique et théorique. Dans la troisième et dernière partie, nous étudions le problème de segmentation d'images hyper-spectrales. D'une part, nous proposons un algorithme de segmentation supervisée reposant à la fois sur une analyse multi-échelle, une estimation par maximum de vraisemblance pénalisée, et une procédure de réduction de dimension. Nous justifions cet algorithme par des résultats théoriques et des applications pratiques. D'autre part, nous proposons un algorithme de segmentation non supervisée impliquant une décomposition en ondelette des spectres observées en chaque pixel, un lissage spatial par croissance adaptative de régions et une extraction des frontières par une méthode de vote majoritaire. [MATH] Mathematics [MATH] Mathématiques segmentation traitement d'images images hyper-spectrales imagerie médicale détection<br />de contours transformées en ondelettes réduction de dimension données fonctionnelles maximum de vraisemblance pénalisée mixlet <br />Lissage adaptatif perturbation de règle de décision

Search results