Global ETD Search

31	Modèle d'évolution avec dépendance au contexte et Corrections de statistiques d'adéquation en présence de zéros aléatoires Finkler, Audrey 16 June 2010 (has links) (PDF) Dans ce travail nous étudions sous deux aspects la dépendance au contexte pour l'évolution par substitution des séquences nucléotidiques. Dans une première partie nous définissons un modèle évolutif simple intégrant la distinction entre transitions et transversions d'une part, et une dépendance des nucléotides à leur voisin de gauche modélisant l'effet CpG d'autre part. Nous montrons que ce modèle peut s'écrire sous la forme d'une chaîne de Markov cachée et estimons ses paramètres par la mise en oeuvre de l'algorithme de Baum-Welch. Nous appliquons enfin le modèle à l'estimation de taux de substitution mis en jeu dans l'évolution de séquences réelles. Dans une deuxième partie nous développons des corrections pour les statistiques classiques du test d'adéquation d'un échantillon à une loi multinomiale en présence de zéros aléatoires. En effet, les tests d'indépendance de l'évolution de triplets de nucléotides voisins impliquent des tables de contingence possédant de nombreuses cases nulles et se ramènent à des tests d'adéquation sur des vecteurs creux. Les statistiques de Pearson et de Kullback ne peuvent alors être employées. A partir de celles-ci, nous considérons des statistiques corrigées qui conservent le même comportement asymptotique. Nous les utilisons pour réaliser des tests d'indépendance, non seulement dans le cadre des données génomiques de la première partie, mais également pour des données écologiques et épidémiologiques. [MATH] Mathematics [SDV] Life Sciences processus de Markov chaînes de Markov cachées algorithme EM tests d'hypothèses tests d'adéquation tables de contingence creuses statistique du khi-deux statistique de Kullback
32	Modèles markoviens graphiques pour la fusion de données individuelles et d'interactions : application à la classification de gènes Vignes, Matthieu 30 October 2007 (has links) (PDF) Les recherches que nous présentons dans ce mémoire s'inscrivent dans le cadre de l'intégration statistique de données post-génomiques hétérogènes. La classification non supervisée de gènes vise à regrouper en ensembles significatifs les gènes d'un organisme, vu comme un système complexe, conformément aux données expérimentales afin de dégager des actions concertées de ces gènes dans les mécanismes biologiques mis en jeu. <br /><br />Nous basons notre approche sur des modèles probabilistes graphiques. Plus spécifiquement, nous utilisons l'outil de champs de Markov cachés qui permet la prise en compte simultanée de données propres à chacun des gènes grâce a des distributions de probabilités et de données traduisant un réseau d'interaction au sein de l'organisme à l'aide d'un graphe non-orienté entre les gènes. <br /><br />Apres avoir présenté la problématique et le contexte biologique, nous décrivons le modèle utilisé ainsi que les stratégies algorithmiques d'estimation des paramètres (i.e. approximations de type champ moyen). Puis nous nous intéresserons à deux particularités des données auxquelles nous avons été confrontés et qui amènent des développements du modèle utilisé, notamment la prise en compte de l'absence de certaines observations et la haute dimensionnalité de celles-ci. Enfin nous présenterons des expériences sur données simulées ainsi que sur données réelles sur la levure qui évaluent le gain apporté par notre travail. Notamment, nous avons voulu mettre l'accent sur des interprétations biologiques plausibles des résultats obtenus. [MATH] Mathematics [SDV] Life Sciences bio-statistiques modèles probabilistes graphiques champs de Markov cachés algorithme EM approximations de type champ moyen observations manquantes classification de gènes
33	Modèles markoviens et extensions pour la classification de données complexes Blanchet, Juliette 10 October 2007 (has links) (PDF) Nous abordons le problème de la classification d'individus à partir d'observations dites " complexes " en ce sens qu'elles ne vérifient pas certaines des hypothèses simplificatrices classiquement adoptées. Dans ce travail, les individus à classer sont supposés dépendants les uns des autres. L'approche adoptée est une approche probabiliste fondée sur une modélisation markovienne. Trois problèmes de classification sont abordés.<br />Le premier concerne la classification de données lorsque celles-ci sont de grande dimension. Pour un tel problème, nous adoptons un modèle markovien gaussien non diagonal tirant partie du fait que la plupart des observations de grande dimension vivent en réalité dans des sous-espaces propres à chacune des classes et dont les dimensions intrinsèques sont faibles. De ce fait, le nombre de paramètres libres du modèle reste raisonnable.<br />Le deuxième point abordé s'attache à relâcher l'hypothèse simplificatrice de bruit indépendant unimodal, et en particulier gaussien. Nous considérons pour cela le modèle récent de champ de Markov triplet et proposons une nouvelle famille de Markov triplet adaptée au cadre d'une classification supervisée. Nous illustrons la flexibilité et les performances de nos modèles sur une application à la reconnaissance d'images réelles de textures.<br />Enfin, nous nous intéressons au problème de la classification d'observations dites incomplètes, c'est-à-dire pour lesquelles certaines valeurs sont manquantes. Nous développons pour cela une méthode markovienne ne nécessitant pas le remplacement préalable des observations manquantes. Nous présentons une application de cette méthodologie à un problème réel de classification de gènes. [MATH] Mathematics [MATH] Mathématiques classification champ de Markov caché indépendance conditionnelle champ<br />de Markov triplet données de grande dimension observations manquantes algorithme EM approximation de type champ moyen
34	Modèles stochastiques des processus de rayonnement solaire / Stochastic models of solar radiation processes Tran, Van Ly 12 December 2013 (has links) Les caractéristiques des rayonnements solaires dépendent fortement de certains événements météorologiques non observés comme fréquence, taille et type des nuages et leurs propriétés optiques (aérosols atmosphériques, al- bédo du sol, vapeur d’eau, poussière et turbidité atmosphérique) tandis qu’une séquence du rayonnement solaire peut être observée et mesurée à une station donnée. Ceci nous a suggéré de modéliser les processus de rayonnement solaire (ou d’indice de clarté) en utilisant un modèle Markovien caché (HMM), paire corrélée de processus stochastiques. Notre modèle principal est un HMM à temps continu (Xt, yt)t_0 est tel que (yt), le processus observé de rayonnement, soit une solution de l’équation différentielle stochastique (EDS) : dyt = [g(Xt)It − yt]dt + _(Xt)ytdWt, où It est le rayonnement extraterrestre à l’instant t, (Wt) est un mouvement Brownien standard et g(Xt), _(Xt) sont des fonctions de la chaîne de Markov non observée (Xt) modélisant la dynamique des régimes environnementaux. Pour ajuster nos modèles aux données réelles observées, les procédures d’estimation utilisent l’algorithme EM et la méthode du changement de mesures par le théorème de Girsanov. Des équations de filtrage sont établies et les équations à temps continu sont approchées par des versions robustes. Les modèles ajustés sont appliqués à des fins de comparaison et classification de distributions et de prédiction. / Characteristics of solar radiation highly depend on some unobserved meteorological events such as frequency, height and type of the clouds and their optical properties (atmospheric aerosols, ground albedo, water vapor, dust and atmospheric turbidity) while a sequence of solar radiation can be observed and measured at a given station. This has suggested us to model solar radiation (or clearness index) processes using a hidden Markov model (HMM), a pair of correlated stochastic processes. Our main model is a continuous-time HMM (Xt, yt)t_0 is such that the solar radiation process (yt)t_0 is a solution of the stochastic differential equation (SDE) : dyt = [g(Xt)It − yt]dt + _(Xt)ytdWt, where It is the extraterrestrial radiation received at time t, (Wt) is a standard Brownian motion and g(Xt), _(Xt) are functions of the unobserved Markov chain (Xt) modelling environmental regimes. To fit our models to observed real data, the estimation procedures combine the Expectation Maximization (EM) algorithm and the measure change method due to Girsanov theorem. Filtering equations are derived and continuous-time equations are approximated by robust versions. The models are applied to pdf comparison and classification and prediction purposes. Rayonnement solaire Indice de clarté HMM EDS Algorithme EM Théorème de Girsanov Filtrage Solar radiation Clearness index HMM SDE EM algorithm Girsanov theorem Filtration
35	Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire / Curve clustering and variable selection in mixed effects functional models. Applications to molecular biology Giacofci, Joyce 22 October 2013 (has links) Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous traitons, dans une première partie, de la classification non-supervisée dans les modèles mixtes fonctionnels. Nous présentons dans ce cadre une nouvelle procédure utilisant une décomposition en ondelettes des effets fixes et des effets aléatoires. Notre approche se décompose en deux étapes : une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes et une étape de classification où l'algorithme EM est utilisé pour l'estimation des paramètres par maximum de vraisemblance. Nous présentons des résultats de simulations et nous illustrons notre méthode sur des jeux de données issus de la biologie moléculaire (données omiques). Cette procédure est implémentée dans le package R "curvclust" disponible sur le site du CRAN. Dans une deuxième partie, nous nous intéressons aux questions d'estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous développons en ce sens deux approches. La première approche se place dans un objectif d'estimation dans un contexte non-paramétrique et nous montrons dans ce cadre, que l'estimateur de l'effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Notre deuxième approche s'intéresse à la problématique de sélection des effets fixes et aléatoires et nous proposons une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée et utilisant deux pénalités SCAD sur les effets fixes et les variances des effets aléatoires. Nous montrons dans ce cadre que le critère considéré conduit à des estimateurs possédant des propriétés oraculaires dans un cadre où le nombre d'individus et la taille des signaux divergent. Une étude de simulation visant à appréhender les comportements des deux approches développées est réalisée dans ce contexte. / More and more scientific studies yield to the collection of a large amount of data that consist of sets of curves recorded on individuals. These data can be seen as an extension of longitudinal data in high dimension and are often modeled as functional data in a mixed-effects framework. In a first part we focus on performing unsupervised clustering of these curves in the presence of inter-individual variability. To this end, we develop a new procedure based on a wavelet representation of the model, for both fixed and random effects. Our approach follows two steps : a dimension reduction step, based on wavelet thresholding techniques, is first performed. Then a clustering step is applied on the selected coefficients. An EM-algorithm is used for maximum likelihood estimation of parameters. The properties of the overall procedure are validated by an extensive simulation study. We also illustrate our method on high throughput molecular data (omics data) like microarray CGH or mass spectrometry data. Our procedure is available through the R package "curvclust", available on the CRAN website. In a second part, we concentrate on estimation and dimension reduction issues in the mixed-effects functional framework. Two distinct approaches are developed according to these issues. The first approach deals with parameters estimation in a non parametrical setting. We demonstrate that the functional fixed effects estimator based on wavelet thresholding techniques achieves the expected rate of convergence toward the true function. The second approach is dedicated to the selection of both fixed and random effects. We propose a method based on a penalized likelihood criterion with SCAD penalties for the estimation and the selection of both fixed effects and random effects variances. In the context of variable selection we prove that the penalized estimators enjoy the oracle property when the signal size diverges with the sample size. A simulation study is carried out to assess the behaviour of the two proposed approaches. Ondelettes Réduction de dimension Modèles mixtes Algorithme EM Classification non supervisée Sélection de variables Wavelets Dimension reduction Mixed models EM algorithm Clustering Variable selection 510
36	Apprentissage supervisé à partir des multiples annotateurs incertains / Supervised Learning from Multiple Uncertain Annotators Wolley, Chirine 01 December 2014 (has links) En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature. / In supervised learning tasks, obtaining the ground truth label for each instance of the training dataset can be difficult, time-consuming and/or expensive. With the advent of infrastructures such as the Internet, an increasing number of web services propose crowdsourcing as a way to collect a large enough set of labels from internet users. The use of these services provides an exceptional facility to collect labels from anonymous annotators, and thus, it considerably simplifies the process of building labels datasets. Nonetheless, the main drawback of crowdsourcing services is their lack of control over the annotators and their inability to verify and control the accuracy of the labels and the level of expertise for each labeler. Hence, managing the annotators' uncertainty is a clue for learning from imperfect annotations. This thesis provides three algorithms when learning from multiple uncertain annotators. IGNORE generates a classifier that predict the label of a new instance and evaluate the performance of each annotator according to their level of uncertainty. X-Ignore, considers that the performance of the annotators both depends on their uncertainty and on the quality of the initial dataset to be annotated. Finally, ExpertS deals with the problem of annotators' selection when generating the classifier. It identifies experts annotators, and learn the classifier based only on their labels. We conducted in this thesis a large set of experiments in order to evaluate our models, both using experimental and real world medical data. The results prove the performance and accuracy of our models compared to previous state of the art solutions in this context. Apprentissage supervisé Incertitude Multiple annotateurs Expertise Qualité des données Analyse bayésienne Algorithme EM Supervised learning Uncertainty Multiple annotators Properties of labelers Data quality Bayesian analysis EM algorithm 004
37	Approche EM pour modèles multi-blocs à facteurs à une équation structurelle / EM estimation of a structural equation model Tami, Myriam 12 July 2016 (has links) Les modèles d'équations structurelles à variables latentes permettent de modéliser des relations entre des variables observables et non observables. Les deux paradigmes actuels d'estimation de ces modèles sont les méthodes de moindres carrés partiels sur composantes et l'analyse de la structure de covariance. Dans ce travail, après avoir décrit les deux principales méthodes d'estimation que sont PLS et LISREL, nous proposons une approche d'estimation fondée sur la maximisation par algorithme EM de la vraisemblance globale d'un modèle à facteurs latents et à une équation structurelle. Nous en étudions les performances sur des données simulées et nous montrons, via une application sur des données réelles environnementales, comment construire pratiquement un modèle et en évaluer la qualité. Enfin, nous appliquons l'approche développée dans le contexte d'un essai clinique en cancérologie pour l'étude de données longitudinales de qualité de vie. Nous montrons que par la réduction efficace de la dimension des données, l'approche EM simplifie l'analyse longitudinale de la qualité de vie en évitant les tests multiples. Ainsi, elle contribue à faciliter l'évaluation du bénéfice clinique d'un traitement. / Structural equation models enable the modeling of interactions between observed variables and latent ones. The two leading estimation methods are partial least squares on components and covariance-structure analysis. In this work, we first describe the PLS and LISREL methods and, then, we propose an estimation method using the EM algorithm in order to maximize the likelihood of a structural equation model with latent factors. Through a simulation study, we investigate how fast and accurate the method is, and thanks to an application to real environmental data, we show how one can handly construct a model or evaluate its quality. Finally, in the context of oncology, we apply the EM approach on health-related quality-of-life data. We show that it simplifies the longitudinal analysis of quality-of-life and helps evaluating the clinical benefit of a treatment. Modèles à équations structurelles Modèles à facteurs Variables latentes Algorithme EM Méthodes d'estimation Analyse de données Structural Equation Models Factors models Latent variables EM algorithm Estimation methods Data analysis
38	Analyse longitudinale multivariée par modèles mixtes et application à l'épidémie de la malaria / Multivariate longitudinal analysis using mixed effects models and application to malaria epidemic Adjakossa, Eric Houngla 03 April 2017 (has links) Dans cette thèse, nous nous sommes focalisés sur le modèle statistique linéaire à effets mixtes. Nous nous sommes d'abord intéressés à l'estimation consistante des paramètres du modèle dans sa version multidimensionnelle, puis à de la sélection d'effets fixes en dimension un. En ce qui concerne l'estimation des paramètres du modèle linéaire à effets mixtes multidimensionnel, nous avons proposé des estimateurs du maximum de vraisemblance par utilisation de l'algorithme EM, mais avec des expressions plus générales que celles de la littérature classique, permettant d'analyser non seulement des données longitudinales multivariées mais aussi des données multidimensionnelles multi-niveaux. Ici, en s'appuyant sur ces EM-estimateurs, nous avons introduit un test de rapport de vraisemblance permettant de tester la significativité globale des corrélations entre les effets aléatoires de deux dimensions du modèle. Ce qui permettrait de construire un modèle multidimensionnel plus parcimonieux en terme de paramètres de variance des effets aléatoires, par une procédure de selection pas-à-pas ascendante. Cette démarche a été suscitée par le fait que la dimension du vecteur de tous les effets aléatoires du modèle peut très rapidement croitre avec le nombre de variables à analyser, entrainant facilement des problèmes numériques dans l'optimisation du critère choisi (ML ou REML). Nous avons ensuite proposé une procédure d'estimation consistante des paramètres du modèle qui passe par la résolution d'un problème de moindres carrés pénalisés pour fournir une expression explicite de la déviance à minimiser. La procédure de sélection d'effets fixes proposée ici est de type adaptive ridge itérative et permet d'approximer les performances de sélection d'une pénalité de type L0 de la vraisemblance des paramètres du modèle. Nos résultats ont été appuyés par des études de simulation à plusieurs niveaux, mais aussi par l'analyse de plusieurs jeux de données réelles. / This thesis focuses on the statistical linear mixed-effects model, where we have been interested in its multivariate version's parameters estimation but also in the unidimensional selection of fixed effects. Concerning the parameters estimation of the multivariate linear mixed-effects model, we have first introduced more general expressions of the EM algorithm-based estimators which fit the multivariate longitudinal data analysis framework but also the framework of the multivariate multilevel data analysis. Since the dimensionality of the total vector of random effects in the multivariate model can grow with the number of the outcome variables leading often to computational problems in the likelihood optimization, we introduced a likelihood ratio test for testing the global effect of the correlations between the random effects of two dimensions of the model. This bivariate correlation test is intended to help in constructing a more parsimonious model regarding the variance components of the random effects, using a stepwise procedure. Secondly, we have introduced another estimation procedure that yields to consistent estimates for all the model parameters. This procedure is based on the Cholesky factorization of the random effects covariance matrix and the resolution of a preliminary penalized means square problem, and leads to an explicite expression of the profiled deviance of the model. For selecting fixed effects in the one dimensional mixed-effects model, we introduce an iterative adaptive ridge procedure for approximating sL0 penalty selection performances. All the results in this manuscript have been accompanied by extensive simulation studies along with real data analysis examples. Données multi-Niveaux Modèles linéaires à effets mixtes Sélection d'effets fixes Factorisation de Cholesky Algorithme EM Paludisme Multivariate mixed-effects models Fixed-effects selection Malaria 510
39	Contributions statistiques aux prévisions hydrométéorologiques par méthodes d’ensemble / Statistical contributions to hydrometeorological forecasting from ensemble methods Courbariaux, Marie 27 January 2017 (has links) Dans cette thèse, nous nous intéressons à la représentation et à la prise en compte des incertitudes dans les systèmes de prévision hydrologique probabilistes à moyen-terme. Ces incertitudes proviennent principalement de deux sources : (1) de l’imperfection des prévisions météorologiques (utilisées en intrant de ces systèmes) et (2) de l’imperfection de la représentation du processus hydrologique par le simulateur pluie-débit (SPQ) (au coeur de ces systèmes).La performance d’un système de prévision probabiliste s’évalue par la précision de ses prévisions conditionnellement à sa fiabilité. L’approche statistique que nous suivons procure une garantie de fiabilité à condition que les hypothèses qu’elle implique soient réalistes. Nous cherchons de plus à gagner en précision en incorporant des informations auxiliaires.Nous proposons, pour chacune des sources d’incertitudes, une méthode permettant cette incorporation : (1) un post-traitement des prévisions météorologiques s’appuyant sur la propriété statistique d’échangeabilité et permettant la prise en compte de plusieurs sources de prévisions, ensemblistes ou déterministes ; (2) un post-traitement hydrologique utilisant les variables d’état des SPQ par le biais d’un modèle Probit arbitrant entre deux régimes hydrologiques interprétables et permettant ainsi de représenter une incertitude à variance hétérogène.Ces deux méthodes montrent de bonnes capacités d’adaptation aux cas d’application variés fournis par EDF et Hydro-Québec, partenaires et financeurs du projet. Elles présentent de plus un gain en simplicité et en formalisme par rapport aux méthodes opérationnelles tout en montrant des performances similaires. / In this thesis, we are interested in representing and taking into account uncertainties in medium term probabilistic hydrological prediction systems.These uncertainties mainly come from two sources: (1) from the imperfection of meteorological forecasts (used as inputs to these systems) and (2) from the imperfection of the representation of the hydrological process by the rainfall-runoff simulator (RRS) (at the heart of these systems).The performance of a probabilistic forecasting system is assessed by the sharpness of its predictions conditional on its reliability. The statistical approach we follow provides a guarantee of reliability if the assumptions it implies are complied with. We are also seeking to incorporate auxilary information to get sharper.We propose, for each source of uncertainty, a method enabling this incorporation: (1) a meteorological post-processor based on the statistical property of exchangeability and enabling to take into account several (ensemble or determistic) forecasts; (2) a hydrological post-processor using the RRS state variables through a Probit model arbitrating between two interpretable hydrological regimes and thus representing an uncertainty with heterogeneous variance.These two methods demonstrate adaptability on the various application cases provided by EDF and Hydro-Québec, which are partners and funders of the project. Those methods are moreover simpler and more formal than the operational methods while demonstrating similar performances. Prévisions d'ensemble Hydrométéorologie Post-Traitement statistique Algorithme EM Prévisions probabilistes Ensemble forecasts Hydrometeorology Statistical post-processing EM algorithm Probabilistic forecasts 551.57
40	Efficacité de l’algorithme EM en ligne pour des modèles statistiques complexes dans le contexte des données massives Martel, Yannick 11 1900 (has links) L’algorithme EM (Dempster et al., 1977) permet de construire une séquence d’estimateurs qui converge vers l’estimateur de vraisemblance maximale pour des modèles à données manquantes pour lesquels l’estimateur du maximum de vraisemblance n’est pas calculable. Cet algorithme est remarquable compte tenu de ses nombreuses applications en apprentissage statistique. Toutefois, il peut avoir un lourd coût computationnel. Les auteurs Cappé et Moulines (2009) ont proposé une version en ligne de cet algorithme pour les modèles appartenant à la famille exponentielle qui permet de faire des gains d’efficacité computationnelle importants en présence de grands jeux de données. Cependant, le calcul de l’espérance a posteriori de la statistique exhaustive, qui est nécessaire dans la version de Cappé et Moulines (2009), est rarement possible pour des modèles complexes et/ou lorsque la dimension des données manquantes est grande. On doit alors la remplacer par un estimateur. Plusieurs questions se présentent naturellement : les résultats de convergence de l’algorithme initial restent-ils valides lorsqu’on remplace l’espérance par un estimateur ? En particulier, que dire de la normalité asymptotique de la séquence des estimateurs ainsi créés, de la variance asymptotique et de la vitesse de convergence ? Comment la variance de l’estimateur de l’espérance se reflète-t-elle sur la variance asymptotique de l’estimateur EM? Peut-on travailler avec des estimateurs de type Monte-Carlo ou MCMC? Peut-on emprunter des outils populaires de réduction de variance comme les variables de contrôle ? Ces questions seront étudiées à l’aide d’exemples de modèles à variables latentes. Les contributions principales de ce mémoire sont une présentation unifiée des algorithmes EM d’approximation stochastique, une illustration de l’impact au niveau de la variance lorsque l’espérance a posteriori est estimée dans les algorithmes EM en ligne et l’introduction d’algorithmes EM en ligne permettant de réduire la variance supplémentaire occasionnée par l’estimation de l’espérance a posteriori. / The EM algorithm Dempster et al. (1977) yields a sequence of estimators that converges to the maximum likelihood estimator for missing data models whose maximum likelihood estimator is not directly tractable. The EM algorithm is remarkable given its numerous applications in statistical learning. However, it may suffer from its computational cost. Cappé and Moulines (2009) proposed an online version of the algorithm in models whose likelihood belongs to the exponential family that provides an upgrade in computational efficiency in large data sets. However, the conditional expected value of the sufficient statistic is often intractable for complex models and/or when the missing data is of a high dimension. In those cases, it is replaced by an estimator. Many questions then arise naturally: do the convergence results pertaining to the initial estimator hold when the expected value is substituted by an estimator? In particular, does the asymptotic normality property remain in this case? How does the variance of the estimator of the expected value affect the asymptotic variance of the EM estimator? Are Monte-Carlo and MCMC estimators suitable in this situation? Could variance reduction tools such as control variates provide variance relief? These questions will be tackled by the means of examples containing latent data models. This master’s thesis’ main contributions are the presentation of a unified framework for stochastic approximation EM algorithms, an illustration of the impact that the estimation of the conditional expected value has on the variance and the introduction of online EM algorithms which reduce the additional variance stemming from the estimation of the conditional expected value. Algorithme EM Approximation stochastique Réduction de variance Statistique computationnelle Algorithme en ligne EM algorithm Stochastic approximation Variance reduction Computational statistics Online algorithm

Search results