Global ETD Search

31	Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique Chekouo Tekougang, Thierry 08 1900 (has links) Le regroupement des données est une méthode classique pour analyser les matrices d'expression génétiques. Lorsque le regroupement est appliqué sur les lignes (gènes), chaque colonne (conditions expérimentales) appartient à toutes les grappes obtenues. Cependant, il est souvent observé que des sous-groupes de gènes sont seulement co-régulés (i.e. avec les expressions similaires) sous un sous-groupe de conditions. Ainsi, les techniques de bi-regroupement ont été proposées pour révéler ces sous-matrices des gènes et conditions. Un bi-regroupement est donc un regroupement simultané des lignes et des colonnes d'une matrice de données. La plupart des algorithmes de bi-regroupement proposés dans la littérature n'ont pas de fondement statistique. Cependant, il est intéressant de porter une attention sur les modèles sous-jacents à ces algorithmes et de développer des modèles statistiques permettant d'obtenir des bi-grappes significatives. Dans cette thèse, nous faisons une revue de littérature sur les algorithmes qui semblent être les plus populaires. Nous groupons ces algorithmes en fonction du type d'homogénéité dans la bi-grappe et du type d'imbrication que l'on peut rencontrer. Nous mettons en lumière les modèles statistiques qui peuvent justifier ces algorithmes. Il s'avère que certaines techniques peuvent être justifiées dans un contexte bayésien. Nous développons une extension du modèle à carreaux (plaid) de bi-regroupement dans un cadre bayésien et nous proposons une mesure de la complexité du bi-regroupement. Le critère d'information de déviance (DIC) est utilisé pour choisir le nombre de bi-grappes. Les études sur les données d'expression génétiques et les données simulées ont produit des résultats satisfaisants. À notre connaissance, les algorithmes de bi-regroupement supposent que les gènes et les conditions expérimentales sont des entités indépendantes. Ces algorithmes n'incorporent pas de l'information biologique a priori que l'on peut avoir sur les gènes et les conditions. Nous introduisons un nouveau modèle bayésien à carreaux pour les données d'expression génétique qui intègre les connaissances biologiques et prend en compte l'interaction par paires entre les gènes et entre les conditions à travers un champ de Gibbs. La dépendance entre ces entités est faite à partir des graphes relationnels, l'un pour les gènes et l'autre pour les conditions. Le graphe des gènes et celui des conditions sont construits par les k-voisins les plus proches et permet de définir la distribution a priori des étiquettes comme des modèles auto-logistiques. Les similarités des gènes se calculent en utilisant l'ontologie des gènes (GO). L'estimation est faite par une procédure hybride qui mixe les MCMC avec une variante de l'algorithme de Wang-Landau. Les expériences sur les données simulées et réelles montrent la performance de notre approche. Il est à noter qu'il peut exister plusieurs variables de bruit dans les données à micro-puces, c'est-à-dire des variables qui ne sont pas capables de discriminer les groupes. Ces variables peuvent masquer la vraie structure du regroupement. Nous proposons un modèle inspiré de celui à carreaux qui, simultanément retrouve la vraie structure de regroupement et identifie les variables discriminantes. Ce problème est traité en utilisant un vecteur latent binaire, donc l'estimation est obtenue via l'algorithme EM de Monte Carlo. L'importance échantillonnale est utilisée pour réduire le coût computationnel de l'échantillonnage Monte Carlo à chaque étape de l'algorithme EM. Nous proposons un nouveau modèle pour résoudre le problème. Il suppose une superposition additive des grappes, c'est-à-dire qu'une observation peut être expliquée par plus d'une seule grappe. Les exemples numériques démontrent l'utilité de nos méthodes en terme de sélection de variables et de regroupement. / Clustering is a classical method to analyse gene expression data. When applied to the rows (e.g. genes), each column belongs to all clusters. However, it is often observed that the genes of a subset of genes are co-regulated and co-expressed in a subset of conditions, but behave almost independently under other conditions. For these reasons, biclustering techniques have been proposed to look for sub-matrices of a data matrix. Biclustering is a simultaneous clustering of rows and columns of a data matrix. Most of the biclustering algorithms proposed in the literature have no statistical foundation. It is interesting to pay attention to the underlying models of these algorithms and develop statistical models to obtain significant biclusters. In this thesis, we review some biclustering algorithms that seem to be most popular. We group these algorithms in accordance to the type of homogeneity in the bicluster and the type of overlapping that may be encountered. We shed light on statistical models that can justify these algorithms. It turns out that some techniques can be justified in a Bayesian framework. We develop an extension of the biclustering plaid model in a Bayesian framework and we propose a measure of complexity for biclustering. The deviance information criterion (DIC) is used to select the number of biclusters. Studies on gene expression data and simulated data give satisfactory results. To our knowledge, the biclustering algorithms assume that genes and experimental conditions are independent entities. These algorithms do not incorporate prior biological information that could be available on genes and conditions. We introduce a new Bayesian plaid model for gene expression data which integrates biological knowledge and takes into account the pairwise interactions between genes and between conditions via a Gibbs field. Dependence between these entities is made from relational graphs, one for genes and another for conditions. The graph of the genes and conditions is constructed by the k-nearest neighbors and allows to define a priori distribution of labels as auto-logistic models. The similarities of genes are calculated using gene ontology (GO). To estimate the parameters, we adopt a hybrid procedure that mixes MCMC with a variant of the Wang-Landau algorithm. Experiments on simulated and real data show the performance of our approach. It should be noted that there may be several variables of noise in microarray data. These variables may mask the true structure of the clustering. Inspired by the plaid model, we propose a model that simultaneously finds the true clustering structure and identifies discriminating variables. We propose a new model to solve the problem. It assumes that an observation can be explained by more than one cluster. This problem is addressed by using a binary latent vector, so the estimation is obtained via the Monte Carlo EM algorithm. Importance Sampling is used to reduce the computational cost of the Monte Carlo sampling at each step of the EM algorithm. Numerical examples demonstrate the usefulness of these methods in terms of variable selection and clustering. / Les simulations ont été implémentées avec le programme Java. Groupement Clustering Ontologie des gènes Gene Ontology Expression génétique gene expression Critère d’information de déviance Deviance information criterion Algorithme de Wang-Landau Wang-Landau algorithm modèle auto-logistique auto-logistic models Sélection des variables Variable selection modèle à carreaux plaid model Algorithme EM de Monte Carlo Monte Carlo EM algorithm Importance échantillonnale Importance Sampling
32	Réponses écophysiologiques et moléculaires des plantes aux stress xénobiotiques complexes de faible intensité : implications dans les capacités de protection environnementale des bandes enherbées / Ecophysiological and molecular responses of plants to complex xenobiotic stress of low intensity : implications in the environmental protection capacities of vegetative filter strips Serra, Anne-Antonella 05 March 2015 (has links) Les pollutions par les xénobiotiques, en particulier les pesticides, et les métaux lourds issus des activités agricoles présentent une grande complexité de composition chimique et de dynamique spatio-temporelle. La présence de bandes enherbées entre les parcelles cultivées et les cours d’eau permet une limitation de la diffusion de ces pollutions résiduelles vers les milieux naturels. Le compartiment végétal de ces bandes enherbées peut jouer de multiples rôles dans ce contexte de protection environnementale. L’étude comparative réalisée in situ et en conditions contrôlées de laboratoire a permis de mettre en évidence le rôle biologique du compartiment végétal avec son implication directe dans les processus in planta d’absorption, de stockage et/ou de dégradation au moins partielle. Un tel rôle phytoremédiateur est dépendant de la capacité des plantes à se maintenir sur ces milieux pollués, qui diffère selon l’espèce considérée et structure ainsi les communautés végétales des bandes enherbées. L’étude intégrative en conditions contrôlées des réponses des plantes aux interactions avec les xénobiotiques à faibles doses, à différentes échelles de complexité du fonctionnement végétal, a permis de montrer les effets de ces stress chimiques chez l’espèce modèle Arabidopsis thaliana et chez l’espèce prairiale Lolium perenne. Les xénobiotiques et les métaux lourds à des doses subtoxiques ont induit d’importants bouleversements métabolomiques et moléculaires chez ces espèces, avec des effets cryptiques de ces polluants et de leurs produits de dégradation. L’analyse en conditions de multi-pollution, qui reflètent de manière réaliste les pollutions péri-agricoles, a montré la complexité et la difficulté de prédiction des interactions entre les effets des contaminants en mélange. Ces mécanismes de réponses diffèrent selon l’espèce et le polluant et laissent supposer des divergences en termes de perception et/ou de transport des polluants, ou de coordination des réponses moléculaires et métaboliques. Arabidopsis a ainsi présenté une coordination de ses réponses orientée vers une augmentation des métabolites de stress, et une diminution des métabolites carbonés (sucres solubles), en parallèle de modifications de l’expression de gènes impliqués dans les défenses antioxydantes, les défenses contre les stress xénobiotiques, ou dans la dynamique des phytohormones. Le stress chimique a entraîné chez Lolium des modifications majeures du métabolisme azoté, ainsi qu’un remaniement des processus de photorespiration. L’analyse transcriptomique de cette espèce a de plus montré que la majorité des gènes identifiés sont impliqués dans des voies de transduction de signal, montrant ainsi la complexité des mécanismes de réponse et les couplages qui existent entre les signaux métaboliques, en particulier liés aux sucres, les voies de signalisation associées aux phytohormones, les signaux de stress et la photosynthèse. / Environmental pollutions by xenobiotics, especially by pesticides and heavy metals derived from agricultural activities, show an important complexity of chemical composition and of spatiotemporal dynamic. Vegetative filter strips between cultivated fields and streams limit the diffusion of these residual pollutions to natural environments. However, the exact biological role of plant in these buffer strips is poorly understood in this context of environmental and ecological protection. A comparative study carried out in situ and in controlled conditions highlighted the role of plant compartment in the processes of absorption, storage and/or partial degradation of pollutants in planta. Such capability of phytoremediation depends on the maintenance of a vegetal cover in area subjected to recurring flow of pesticides, it varies according to species and leads to the structuration of vegetative filter strip communities. An integrative study in controlled conditions of plant responses to low doses of pollutants allowed to analyze at different levels of complexity the impacts of chemical stresses on the model species Arabidopsis thaliana and the grassland species Lolium perenne. Low and sublethal doses of xenobiotics, associated degradation products and heavy metals induced cryptic perturbations at metabolic and molecular levels. Multi-pollution analyses, which reflect realistic conditions of environmental exposure, highlighted complex interactive effects between pollutants in mixture and the difficulty to predict them. The mechanisms of response to these chemical stresses differ according to the species and the pollutant, and suggest differences in term of perception and/or transport of pollutants, or of coordination of molecular and metabolic responses. Arabidopsis presented a coordination of its responses toward an increase of stress metabolites, a decrease of carbon metabolites (soluble carbohydrates), in parallel with modifications of gene expressions implicated on antioxidant defences, defence against xenobiotic stresses, or phytohormone dynamic. Chemical stress leads to major modifications of nitrogen metabolism in Lolium, and perturbations of processes of photorespiration. De novo transcriptomic analysis of Lolium therefore showed that a majority of identified genes are related to signal transduction pathways, highlighting the complexity of response mechanisms and the links between metabolic signals, especially linked to carbohydrate, hormonal signaling pathways, stress signals and photosynthesis. Subtoxic chemical stress induced cryptic re-engineering of plant processes that may explain the development of tolerance for some species and their persistence in area affected by residual pollution. Arabidopsis thaliana Bandes enherbées Expression génétique Lolium perenne Pesticides Pollutions résiduelles Profil métabolomique Protection environnementale Réponses aux stress Séquençage transcriptomique Voies de signalisation Xénobiotiques Arabidopsis thaliana Vegetative filter strips Genetic expression Lolium perenne Pesticides Residual pollutions Metabolomic profiles Environmental protection Stress responses De novo transcriptomic sequencing Signalisation pathway Xenobiotics

Search results

Modélisation des bi-grappes et sélection des variables pour des données de grande dimension : application aux données d’expression génétique