Spelling suggestions: "subject:"sélection dess variables"" "subject:"sélection deus variables""
71 |
Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétiqueChekouo Tekougang, Thierry 08 1900 (has links)
Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien.
Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants.
À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche.
Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework.
We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results.
To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach.
It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java.
|
72 |
La détection des retournements du marché actions américain / Detecting the reversals of the American stock marketZeboulon, Arnaud 08 October 2015 (has links)
Le but de cette thèse est de construire un modèle de détection des changements de phase -passages de marché haussier à baissier et vice versa - du marché des actions américaines cotées, en utilisant un nombre relativement important de variables à la fois fondamentales (macroéconomiques et microéconomiques) et issues de l’analyse technique.Le modèle statistique retenu est la régression logistique statique, avec un retard pour les variables explicatives allant de zéro à trois mois. Les huit variables les plus significatives parmi vingt candidatesont été sélectionnées à partir des données mensuelles du S&P500 sur la période 1963-2003. Le modèle obtenu a été testé sur 2004-2013 et sa performance a été supérieure à celles de la stratégie Buy & Holdet d’un modèle univarié utilisant la variable ayant le plus fort pouvoir de détection - ce dernier modèle ayant fait l’objet d’une étude dans la littérature.Il a également été montré que des variables non encore considérées dans la littérature - la moyenne mobile sur les six derniers mois des créations nettes d’emplois non-agricoles, la base monétaire et le Composite Leading Indicator de l’OCDE - ont un pouvoir de détection significatif pour notre problématique. D'autre part, la variable binaire indiquant la position du S&P500 par rapport à sa moyenne mobile des dix derniers mois - variable de type analyse technique - a un pouvoir prédictif beaucoup plus élevé que les variables fondamentales étudiées. Enfin, les deux autres variables les plus statistiquement significatives sont macroéconomiques : l'écart entre les taux à dix ans des T-bonds et à trois mois des T-bills et la moyenne mobile des créations d’emplois non-agricoles. / The goal of this thesis is to build a model capable of detecting the reversals - shift from bull market to bear market or vice versa - of the American stock market, by using a relatively large number of explanatory variables, both of fundamental (macroeconomic and microeconomic) and of ‘technical analysis’ types.The statistical model used is static logistic regression, with lags for the independent variables ranging from zero to three months. Starting with twenty variables, the eight most significant ones have been selected on a training set consisting of monthly data of the S&P500 between 1963 and 2003. There sulting model has been tested over the 2004-2013 period and its performance was better than those of a buy & hold strategy and of a univariate model based on the variable with the highest predictive power – the latter model being the focus of a paper in the current literature. Another contribution of the thesis is that some variables not yet studied in the literature – the six month moving average of net non-farm job creations, the monetary base and the OECD Composite Leading Indicator – are statistically significant for our problem. Moreover, the predictive power of the binary variable indicating whether the S&P500 is above or below its ten-month moving average – a technical analysis variable – is much higher than that of the fundamental variables which have been considered. Finally, the two other most significant variables are macroeconomic ones: the spread between the ten-year T-bond and three-month T-bill rates and the moving average of non-farm jobs creations.
|
73 |
Apprentissage basé sur le Qini pour la prédiction de l’effet causal conditionnelBelbahri, Mouloud-Beallah 08 1900 (has links)
Les modèles uplift (levier en français) traitent de l'inférence de cause à effet pour un facteur spécifique, comme une intervention de marketing. En pratique, ces modèles sont construits sur des données individuelles issues d'expériences randomisées. Un groupe traitement comprend des individus qui font l'objet d'une action; un groupe témoin sert de comparaison. La modélisation uplift est utilisée pour ordonner les individus par rapport à la valeur d'un effet causal, par exemple, positif, neutre ou négatif.
Dans un premier temps, nous proposons une nouvelle façon d'effectuer la sélection de modèles pour la régression uplift. Notre méthodologie est basée sur la maximisation du coefficient Qini. Étant donné que la sélection du modèle correspond à la sélection des variables, la tâche est difficile si elle est effectuée de manière directe lorsque le nombre de variables à prendre en compte est grand. Pour rechercher de manière réaliste un bon modèle, nous avons conçu une méthode de recherche basée sur une exploration efficace de l'espace des coefficients de régression combinée à une pénalisation de type lasso de la log-vraisemblance. Il n'y a pas d'expression analytique explicite pour la surface Qini, donc la dévoiler n'est pas facile. Notre idée est de découvrir progressivement la surface Qini comparable à l'optimisation sans dérivée. Le but est de trouver un maximum local raisonnable du Qini en explorant la surface près des valeurs optimales des coefficients pénalisés. Nous partageons ouvertement nos codes à travers la librairie R tools4uplift. Bien qu'il existe des méthodes de calcul disponibles pour la modélisation uplift, la plupart d'entre elles excluent les modèles de régression statistique. Notre librairie entend combler cette lacune. Cette librairie comprend des outils pour: i) la discrétisation, ii) la visualisation, iii) la sélection de variables, iv) l'estimation des paramètres et v) la validation du modèle. Cette librairie permet aux praticiens d'utiliser nos méthodes avec aise et de se référer aux articles méthodologiques afin de lire les détails.
L'uplift est un cas particulier d'inférence causale. L'inférence causale essaie de répondre à des questions telle que « Quel serait le résultat si nous donnions à ce patient un traitement A au lieu du traitement B? ». La réponse à cette question est ensuite utilisée comme prédiction pour un nouveau patient. Dans la deuxième partie de la thèse, c’est sur la prédiction que nous avons davantage insisté. La plupart des approches existantes sont des adaptations de forêts aléatoires pour le cas de l'uplift. Plusieurs critères de segmentation ont été proposés dans la littérature, tous reposant sur la maximisation de l'hétérogénéité. Cependant, dans la pratique, ces approches sont sujettes au sur-ajustement. Nous apportons une nouvelle vision pour améliorer la prédiction de l'uplift. Nous proposons une nouvelle fonction de perte définie en tirant parti d'un lien avec l'interprétation bayésienne du risque relatif. Notre solution est développée pour une architecture de réseau de neurones jumeaux spécifique permettant d'optimiser conjointement les probabilités marginales de succès pour les individus traités et non-traités. Nous montrons que ce modèle est une généralisation du modèle d'interaction logistique de l'uplift. Nous modifions également l'algorithme de descente de gradient stochastique pour permettre des solutions parcimonieuses structurées. Cela aide dans une large mesure à ajuster nos modèles uplift. Nous partageons ouvertement nos codes Python pour les praticiens désireux d'utiliser nos algorithmes.
Nous avons eu la rare opportunité de collaborer avec l'industrie afin d'avoir accès à des données provenant de campagnes de marketing à grande échelle favorables à l'application de nos méthodes. Nous montrons empiriquement que nos méthodes sont compétitives avec l'état de l'art sur les données réelles ainsi qu'à travers plusieurs scénarios de simulations. / Uplift models deal with cause-and-effect inference for a specific factor, such as a marketing intervention. In practice, these models are built on individual data from randomized experiments. A targeted group contains individuals who are subject to an action; a control group serves for comparison. Uplift modeling is used to order the individuals with respect to the value of a causal effect, e.g., positive, neutral, or negative.
First, we propose a new way to perform model selection in uplift regression models. Our methodology is based on the maximization of the Qini coefficient. Because model selection corresponds to variable selection, the task is haunting and intractable if done in a straightforward manner when the number of variables to consider is large. To realistically search for a good model, we conceived a searching method based on an efficient exploration of the regression coefficients space combined with a lasso penalization of the log-likelihood. There is no explicit analytical expression for the Qini surface, so unveiling it is not easy. Our idea is to gradually uncover the Qini surface in a manner inspired by surface response designs. The goal is to find a reasonable local maximum of the Qini by exploring the surface near optimal values of the penalized coefficients. We openly share our codes through the R Package tools4uplift. Though there are some computational methods available for uplift modeling, most of them exclude statistical regression models. Our package intends to fill this gap. This package comprises tools for: i) quantization, ii) visualization, iii) variable selection, iv) parameters estimation and v) model validation. This library allows practitioners to use our methods with ease and to refer to methodological papers in order to read the details.
Uplift is a particular case of causal inference. Causal inference tries to answer questions such as ``What would be the result if we gave this patient treatment A instead of treatment B?" . The answer to this question is then used as a prediction for a new patient. In the second part of the thesis, it is on the prediction that we have placed more emphasis. Most existing approaches are adaptations of random forests for the uplift case. Several split criteria have been proposed in the literature, all relying on maximizing heterogeneity. However, in practice, these approaches are prone to overfitting. In this work, we bring a new vision to uplift modeling. We propose a new loss function defined by leveraging a connection with the Bayesian interpretation of the relative risk. Our solution is developed for a specific twin neural network architecture allowing to jointly optimize the marginal probabilities of success for treated and control individuals. We show that this model is a generalization of the uplift logistic interaction model. We modify the stochastic gradient descent algorithm to allow for structured sparse solutions. This helps fitting our uplift models to a great extent. We openly share our Python codes for practitioners wishing to use our algorithms.
We had the rare opportunity to collaborate with industry to get access to data from large-scale marketing campaigns favorable to the application of our methods. We show empirically that our methods are competitive with the state of the art on real data and through several simulation setting scenarios.
|
74 |
Estimation du risque de mort subite par arrêt cardiaque à l'aide de méthodes d'apprentissage artificielCappelaere, Charles-Henri 31 January 2014 (has links) (PDF)
On dénombre plus de 40 000 cas de morts subites en France, chaque année. Depuis le début des années 2000, le défibrillateur automatique implantable (DAI) est prescrit de manière prophylactique aux populations à risque. Nombre de ces implantations semblent prématurées : une étude récente a révélé que 81% des DAI implantés chez les patients étudiés n'ont jamais délivré de thérapie pendant les cinq années suivant l'implantation. Cette constatation soulève un problème en raison des complications post-opératoires encourues par les patients porteurs d'un défibrillateur implantable. Avec la rupture de sonde, les chocs électriques engendrés inutilement (c'est-à-dire lorsque la vie du patient n'est pas menacée) par le défibrillateur sont les complications les plus fréquentes : des études ont montré que 13% à 17% des patients porteurs d'un défibrillateur implanté ont subi au moins un choc inutile, susceptible de fragiliser le tissu cardiaque. Il apparaît donc important de mieux définir la population à risque de mort subite, afin d'optimiser la sélection des patients candidats. Le pouvoir prédictif de mort subite des différents descripteurs des enregistrements électrocardiographiques de longue durée (Holter) a fait l'objet de nombreuses études univariées, sans permettre d'amélioration des critères de sélection. Dans ce mémoire, nous présentons l'analyse multivariée des descripteurs de l'enregistrement Holter que nous avons menée. Nous avons extrait l'ensemble des descripteurs calculables sur la base étiquetée d'enregistrements Holter de patients, victimes ou non d'arythmies traitées par le DAI, dont nous disposons. En mettant à profit les connaissances physiologiques sur l'arythmogenèse, nous avons réalisé une sélection des descripteurs les plus pertinents. Puis, à l'aide d'une méthode originale de conception et d'évaluation de classifieur, nous avons construit un classifieur ad hoc, basé, lui aussi, sur les connaissances physiologiques de l'arythmogenèse ; ce classifieur discrimine les patients à risque (pour lesquels il recommande l'implantation), des patients pour lesquels l'implantation ne paraît pas opportune. À l'issue de notre étude, et au vu des performances atteintes, il semble possible d'améliorer la fiabilité des indications d'implantation prophylactique, à l'aide de méthodes d'apprentissage statistique. Pour valider cette conclusion, il paraît néanmoins nécessaire d'appliquer la méthode exposée dans la présente étude à une base de données de plus grande dimension, et de contenu mieux adapté à nos objectifs.
|
Page generated in 0.1227 seconds