Global ETD Search

1	Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit Guillemot, Vincent 29 March 2010 (has links) (PDF) Les méthodes d'apprentissage supervisé sont appliquées depuis récemment à des jeux de données de puces à ADN, afin d'une part d'extraire des gènes impliqués dans les différences entre les classes d'individus étudiés et d'autre part de construire une fonction de classification permettant de prédire la classe d'un nouvel individu. Ces données de puces à ADN peuvent être accompagnées d'une information précieuse décrivant les interactions entre les variables (les gènes). Cette information est regroupée sous la forme de réseaux de régulations génétiques (RRG). L'objectif de la thèse est de réaliser l'intégration de l'information contenue dans ces RRGs dans une méthode de classification supervisée binaire. Nous proposons une nouvelle méthode, graph Constrained Discriminant Analysis (gCDA), basée sur l'analyse discriminante de Fisher. Les méthodes de la littérature se proposent d'implémenter la contrainte suivante : les gènes qui sont voisins dans le RRG doivent avoir des poids proches, voire identiques, dans la fonction de classification. À contrepoint de ces méthodes, gCDA est basée sur l'estimation régularisée des matrices de variance covariance qui sont utilisées dans l'analyse discriminante de Fisher. Les estimateurs utilisés dans gCDA prennent en compte l'information contenue dans les RRGs disponibles a priori grâce aux propriétés des modèles graphiques gaussiens. gCDA est comparée aux méthodes de la littérature sur des données simulées, données pour lesquelles le graphe sous-jacent est parfaitement connu. Dans le cas de données réelles, le graphe sous-jacent décrivant les interactions entre variables n'est pas connu. Nous nous sommes donc également intéressés à des méthodes permettant d'inférer de tels graphes à partir de données transcriptomiques. Enfin, des résultats sont obtenus sur trois jeux de données réelles. Les RRG ont été inférés soit sur des jeux de données de même nature mais indépendants (c'est-à-dire concernant des individus qui ne sont pas utilisés pour en classification), soit sur une partie indépendante du jeu de données étudié. Nous montrons une amélioration notable des performances de classification sur ces jeux de données lorsque gCDA est utilisée par rapport à l'utilisation des méthodes de la littérature décrites dans la deuxième partie. [SDV] Life Sciences apprentissage supervisé analyse discriminante réseau de régulations génétiques modèles graphiques gaussiens
2	Probabilistic and constraint based modelling to determine regulation events from heterogeneous biological data / Modélisation probabiliste ou à base de contraintes pour déterminer des régulations à partir de données biologiques hétérogènes Aravena Duarte, Andrés Octavio 13 December 2013 (has links) Cette thèse propose une méthode pour construire des réseaux de régulations causales réalistes, qui a un taux de faux positifs inférieur aux méthodes traditionnelles. Cette approche consiste à intégrer des informations hétérogènes à partir de deux types de prédictions de réseau pour déterminer une explication causale des gènes co-exprimés. Ce processus d'intégration se modélise par un problème d'optimisation combinatoire, de complexité NP-difficile. Nous proposons une approche heuristique pour déterminer une solution approchée en un temps d'exécution raisonnable. Nos expérimentations montrent que, pour l'espèce modèle E. coli, le réseau de régulation résultant de l'application de cette méthode a une précision supérieure à celle construite avec des outils traditionnels. La bactérie Acidithiobacillus ferrooxidans présente des défis importants pour la détermination expérimentale de son réseau de régulation. En utilisant les outils que nous avons développés, nous proposons un réseau de régulation putatif et analysons la pertinence de ses régulateurs centraux. Dans une deuxième partie de cette thèse, nous explorons la façon dont ces relations de régulation se manifestent, en développant une méthode pour compléter un réseau de régulation lié à la maladie d'Alzheimer. Enfin, nous abordons le problème mathématique de la conception de la sonde de puces à ADN. Nous concluons que, pour prévoir pleinement les dynamiques d'hybridation, nous avons besoin d'une fonction d'énergie modifiée pour les structures secondaires des molécules d'ADN attachées en surface et proposons un schéma pour la détermination de cette fonction. / This thesis proposes a method to build realistic causal regulatory networks hat has lower false positive rate than traditional methods. The first contribution of this thesis is to integrate heterogeneous information from two types of network predictions to determine a causal explanation of the observed gene co-expression. The second contribution is to model this integration as a combinatorial optimization problem. We demonstrate that this problem belongs to the NP-hard complexity class. The third contribution is the proposition of a heuristic approach to have an approximate solution in a practical execution time. Our evaluation shows that the E.coli regulatory network resulting from the application of this method has a higher accuracy than the putative one built with traditional tools. The bacterium Acidithiobacillus ferrooxidans is particularly challenging for the experimental determination of its regulatory network. Using the tools we developed, we propose a putative regulatory network and analyze it to rank the relevance of central regulators. In a second part of this thesis we explore how these regulatory relationships are manifested in a case linked to human health, developing a method to complete a linked to Alzheimer 's disease network. As an addendum we address the mathematical problem of microarray probe design. We conclude that, to fully predict the hybridization dynamics, we need a modified energy function for secondary structures of surface-attached DNA molecules and propose a scheme for determining such function. Bioinformatique Biologie des systèmes Réseau de régulations génétiques Modélisation Reconstruction de réseau Bioinformatics Systems biology Gene regulation network Modelling Network reconstruction

Search results

Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit

Probabilistic and constraint based modelling to determine regulation events from heterogeneous biological data / Modélisation probabiliste ou à base de contraintes pour déterminer des régulations à partir de données biologiques hétérogènes