L’algorithme développé durant ma thèse utilise la théorie de l’information pour l’apprentissage d’une grande variété de classes de modèles graphiques à partir de données issues uniquement de l’observation d’un système. Il permet également de prendre en compte les effets de variables dites « latentes » c’est-à-dire non observées durant l’expérimentation, un problème majeur de ce domaine de recherche. Notre méthode, baptisée Miic (Multivariate Information-based Inductive Causation), part d’un réseau entièrement connecté, et supprime de façon itérative les liens non essentiels à l’explication des données. La seconde partie de mon travail de thèse a été d’analyser les réseaux reconstruits sur deux types de données biologiques. Des données génomiques d’une part : Miic a été utilisé pour reconstituer les réseaux d’interactions transcriptomiques entre les facteurs de transcriptions responsables de la différentiation des premières cellules hématopoïétiques de l’embryon. Des données cliniques d’autre part : Miic a également été utilisé sur deux jeux de données issus de deux cohortes distinctes, obtenues grâce à des collaborations avec la Pitié-Salpétrière (données de neurologie) et avec l’Institut Curie (données sur le cancer du sein). Nous démontrons l’apport de la reconstruction de modèles graphiques sur l’analyse et la compréhension de ces données. Les tests réalisés durant le développement ainsi que les résultats obtenus via l’analyse des résultats des différentes applications présentées dans ce manuscrit démontrent l’efficacité de Miic non seulement pour la détection de relations précédemment inconnues, mais également pour le contrôle de la qualité de données de ce type. / During my PhD, I worked on the development of an information theory based algorithm allowing the reconstruction of a wide variety of graphical model classes from observationnal datas. This method also allows to tackle the effect of latent (unobserved) latent variables ; which is essential given the difficultyto observe a biological/clinical system as a whole. Our method, called Miic (for Multivariate Information-based Inductive Causation), starts from a complete network (all nodes are connected to each other), and iteratively removes non essential edges from it. The second part of my thesis was to analyze and interpret the networks reconstructed from two kinds of biological datasets : Genomic dataset on one hand : Miic was used to learn networks of transcriptomic interactions driving the differentiation of the first hematopoietic cells of the embryo. Clinical datasets on the other hand : Miic was also used on two datasets extracted from two distinct cohort, obtained thanks to two collaborations, with la Pitié-Salpétrière (neurology dataset) and with Institut Curie Hospital (breast cancer dataset). The testing during Miic development, along with the results obtained when we analyzed the different applications presented in this manuscript show Miic’s efficiency at both confirming already known interactions, and getting previously unknown associations.
Identifer | oai:union.ndltd.org:theses.fr/2017PA066545 |
Date | 04 December 2017 |
Creators | Verny, Louis |
Contributors | Paris 6, Isambert, Hervé |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French, English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds