1 |
Estimation et sélection de modèle pour le modèle des blocs latents / Estimation and model selection for the latent block modelBrault, Vincent 30 September 2014 (has links)
Le but de la classification est de partager des ensembles de données en sous-ensembles les plus homogènes possibles, c'est-à-dire que les membres d'une classe doivent plus se ressembler entre eux qu'aux membres des autres classes. Le problème se complique lorsque le statisticien souhaite définir des groupes à la fois sur les individus et sur les variables. Le modèle des blocs latents définit une loi pour chaque croisement de classe d'objets et de classe de variables, et les observations sont supposées indépendantes conditionnellement au choix de ces classes. Toutefois, il est impossible de factoriser la loi jointe des labels empêchant le calcul de la logvraisemblance et l'utilisation de l'algorithme EM. Plusieurs méthodes et critères existent pour retrouver ces partitions, certains fréquentistes, d'autres bayésiens, certains stochastiques, d'autres non. Dans cette thèse, nous avons d'abord proposé des conditions suffisantes pour obtenir l'identifiabilité. Dans un second temps, nous avons étudié deux algorithmes proposés pour contourner le problème de l'algorithme EM : VEM de Govaert et Nadif (2008) et SEM-Gibbs de Keribin, Celeux et Govaert (2010). En particulier, nous avons analysé la combinaison des deux et mis en évidence des raisons pour lesquelles les algorithmes dégénèrent (terme utilisé pour dire qu'ils renvoient des classes vides). En choisissant des lois a priori judicieuses, nous avons ensuite proposé une adaptation bayésienne permettant de limiter ce phénomène. Nous avons notamment utilisé un échantillonneur de Gibbs dont nous proposons un critère d'arrêt basé sur la statistique de Brooks-Gelman (1998). Nous avons également proposé une adaptation de l'algorithme Largest Gaps (Channarond et al. (2012)). En reprenant leurs démonstrations, nous avons démontré que les estimateurs des labels et des paramètres obtenus sont consistants lorsque le nombre de lignes et de colonnes tendent vers l'infini. De plus, nous avons proposé une méthode pour sélectionner le nombre de classes en ligne et en colonne dont l'estimation est également consistante à condition que le nombre de ligne et de colonne soit très grand. Pour estimer le nombre de classes, nous avons étudié le critère ICL (Integrated Completed Likelihood) dont nous avons proposé une forme exacte. Après avoir étudié l'approximation asymptotique, nous avons proposé un critère BIC (Bayesian Information Criterion) puis nous conjecturons que les deux critères sélectionnent les mêmes résultats et que ces estimations seraient consistantes ; conjecture appuyée par des résultats théoriques et empiriques. Enfin, nous avons comparé les différentes combinaisons et proposé une méthodologie pour faire une analyse croisée de données. / Classification aims at sharing data sets in homogeneous subsets; the observations in a class are more similar than the observations of other classes. The problem is compounded when the statistician wants to obtain a cross classification on the individuals and the variables. The latent block model uses a law for each crossing object class and class variables, and observations are assumed to be independent conditionally on the choice of these classes. However, factorizing the joint distribution of the labels is impossible, obstructing the calculation of the log-likelihood and the using of the EM algorithm. Several methods and criteria exist to find these partitions, some frequentist ones, some bayesian ones, some stochastic ones... In this thesis, we first proposed sufficient conditions to obtain the identifiability of the model. In a second step, we studied two proposed algorithms to counteract the problem of the EM algorithm: the VEM algorithm (Govaert and Nadif (2008)) and the SEM-Gibbs algorithm (Keribin, Celeux and Govaert (2010)). In particular, we analyzed the combination of both and highlighted why the algorithms degenerate (term used to say that it returns empty classes). By choosing priors wise, we then proposed a Bayesian adaptation to limit this phenomenon. In particular, we used a Gibbs sampler and we proposed a stopping criterion based on the statistics of Brooks-Gelman (1998). We also proposed an adaptation of the Largest Gaps algorithm (Channarond et al. (2012)). By taking their demonstrations, we have shown that the labels and parameters estimators obtained are consistent when the number of rows and columns tend to infinity. Furthermore, we proposed a method to select the number of classes in row and column, the estimation provided is also consistent when the number of row and column is very large. To estimate the number of classes, we studied the ICL criterion (Integrated Completed Likelihood) whose we proposed an exact shape. After studying the asymptotic approximation, we proposed a BIC criterion (Bayesian Information Criterion) and we conjecture that the two criteria select the same results and these estimates are consistent; conjecture supported by theoretical and empirical results. Finally, we compared the different combinations and proposed a methodology for co-clustering.
|
2 |
Modèles et inférence pour des systèmes stochastiques structurésForbes, Florence 07 December 2010 (has links) (PDF)
Le contexte de mon travail est la mise au point d'outils statistiques pour le dévelopement et l'analyse de modèles stochastiques structurés. L'idée sous-jacente à la notion de structure est qu'il est souvent possible à l'aide d'hypothèses locales simples combinées de manière cohérente de rendre compte de phénomènes globaux potentiellement complexes. Cette idée de construction du local vers le global guide ainsi la modélisation, l'estimation et l'interprétation. Cette approche se révèle utile dans des domaines variés tels que le traitement du signal et de l'image, les neurosciences, la génomique, l'épidémiologie, etc. Inversement les besoins de ces domaines ont pu susciter en retour des développements théoriques importants. Par ailleurs, beaucoup de techniques statistiques sont encore limitées par des d'hypothèses restrictives pouvant conduire à des analyses imprécises voire erronées. Différentes sources de complexité peuvent mettre en défaut les approches classiques. Souvent les données exhibent une structure de dépendance non triviale, due par exemple à des répétitions, des groupements, des méthodes d'échantillonnage particulières, des associations dans l'espace ou le temps. Une seconde source de complexité est liée au processus de mesure qui peut impliquer l'utilisation d'instruments physiquement très différents, qui produisent des données hétérogènes, en grandes dimensions et potentiellement de manière défaillante de sorte qu'une partie des données peut être manquante. La plupart de mes objectifs de recherche sont centrés sur la mise au point de modèles et d'outils d'inférence pouvant faire face à ce genre de complications fréquentes dans les données modernes et contribuer ainsi au développement de nouvelles méthodes statistiques. En ce qui concerne la notion de dépendance et de localité, un concept central est celui d'indépendance conditionnelle. Les propriétés de Markov et les modèles markoviens permettent d'énoncer de telles indépendances conditionnelles et ce thème est central dans ma recherche. Pour ce qui est des données manquantes ou incomplètes, les modèles de mélanges sont une approche classique. Ces modèles conduisent plus généralement à la notion de modèles à structure manquantes. Ces derniers sont également utiles pour rendre compte d'hétérogénéités dans les données. Ils trouvent de nombreux échos en statistique: modèles de mélanges finis, modèles de Markov cachés, modèles à effet aléatoire, etc. La présence de données incomplètes induit cependant généralement des difficultés pour ce qui est de l'estimation des paramètres et de l'évaluation des performances. Modèles markoviens et modèles de mélanges sont mes deux principaux thèmes de recherche avec cette idée unificatrice de structure dans les modèles mais aussi dans les données. J'ai pu montrer que ces deux thèmes pouvaient être reliés utilement en traitant des problèmes difficiles dans diverses applications. Plus précisément, j'ai developpé des modèles à structure cachée essentiellement dans le but de résoudre des problèmes de classifications inhérents à certaines questions. J'ai souvent abordé le problème de l'estimation de ces modèles à partir de l'algorithme EM et développé des variantes permettant d'apporter des solutions satisfaisantes lorsque les outils classiques faisaient défaut. J'ai tenté également d'apporter des résultats sur les propriétés théoriques, e.g. convergence et vitesse, de ces algorithmes. Enfin, j'ai abordé la question de la sélection de modèles essentiellement en cherchant à proposer des critères de sélection dans les cas où les critères classiques n'étaient pas calculables.
|
Page generated in 0.1778 seconds