Les réseaux sont très largement utilisés dans de nombreux domaines scientifiques afin de représenter les interactions entre objets d'intérêt. Ainsi, en Biologie, les réseaux de régulation s'appliquent à décrire les mécanismes de régulation des gènes, à partir de facteurs de transcription, tandis que les réseaux métaboliques permettent de représenter des voies de réactions biochimiques. En sciences sociales, ils sont couramment utilisés pour représenter les interactions entre individus. Dans le cadre de cette thèse, nous nous intéressons à des méthodes d'apprentissage non supervisé dont l'objectif est de classer les noeuds d'un réseau en fonction de leurs connexions. Il existe une vaste littérature se référant à ce sujet et un nombre important d'algorithmes ont été proposés depuis les premiers travaux de Moreno en 1934. Notre point de départ est le modèle à blocs stochastiques, Stochastic Block Model (SBM) (Nowicki et Snijders, 2001) en anglais, qui permet la recherche de classes topologiques hétérogènes. Nous considérons un contexte Bayésien et proposons un algorithme de type variational Bayes pour approcher la loi a posteriori des paramètres. Cette approche permet d'obtenir un nouveau critère de sélection de modèles afin d'estimer le nombre de composantes dans un réseau. Par ailleurs, il apparaît que SBM ainsi que la plupart des modèles existants de classification sont limités puisqu'ils partitionnent les noeuds dans des classes disjointes. Or, de nombreux objets d'étude dans le cadre d'applications réelles sont connus pour appartenir à plusieurs groupes en même temps. Par exemple, en Biologie, des protéines appelées moonlighting proteins en anglais ont plusieurs fonctions dans les cellules. Nous introduisons donc un nouveau modèle de graphe aléatoire que nous appelons modèle à blocs stochastiques chevauchants, Overlapping Stochastic Block Model (OSBM) en anglais. Il autorise les noeuds d'un réseau à appartenir à plusieurs groupes simultanément et peut prendre en compte des topologies de connexion très différentes. Deux algorithmes d'estimation sont proposés ainsi qu'un critère de sélection de modèles.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00623088 |
Date | 03 December 2010 |
Creators | Latouche, Pierre |
Publisher | Université d'Evry-Val d'Essonne |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0015 seconds