Spelling suggestions: "subject:"approximation stochastique"" "subject:"approximation stochastiques""
11 |
Approximation particulaire et méthode de Laplace pour le filtrage bayésien / Particle approximation and the Laplace method for Bayesian filteringBui Quang, Paul 01 July 2013 (has links)
La thèse porte sur l'apport de la méthode de Laplace pour l'approximation du filtre bayésien dans des modèles de Markov cachés généraux, c'est-à-dire dans un cadre séquentiel, avec comme domaine d'application privilégié la poursuite de cibles mobiles. A la base, la méthode de Laplace est une méthode asymptotique pour le calcul d'intégrales, c'est-à-dire dans un cadre statique, valide en théorie dès que la fonction à intégrer présente un maximum de plus en plus significatif, lequel apporte la contribution essentielle au résultat. En pratique, cette méthode donne des résultats souvent très précis même en dehors de ce cadre de validité théorique. Les deux contributions principales de la thèse sont les suivantes. Premièrement, nous avons utilisé la méthode de Laplace en complément du filtrage particulaire : on sait en effet que les méthodes de Monte Carlo séquentielles basées sur l'échantillonnage pondéré sont mises en difficulté quand la fonction de pondération (ici la fonction de vraisemblance) est trop localisée, par exemple quand la variance du bruit d'observation est trop faible, or c'est précisément là le domaine où la méthode de Laplace est efficace et justifiée théoriquement, d'où l'idée naturelle de combiner les deux points de vue. Nous proposons ainsi un algorithme associant la méthode de Laplace et le filtrage particulaire, appelé le Laplace particle filter. Deuxièmement, nous avons analysé l'approximation du filtre bayésien grâce à la méthode de Laplace seulement (c'est-à-dire sans génération d'échantillons aléatoires) : il s'agit ici de contrôler la propagation de l'erreur d'approximation d'un pas de temps au pas de temps suivant, dans un cadre asymptotique approprié, par exemple quand le bruit d'observation tend vers zéro, ou quand le bruit d'état et le bruit d'observation tendent conjointement (et à la même vitesse) vers zéro, ou plus généralement quand l'information contenue dans le système tend vers l'infini, avec une interprétation en terme d'identifiabilité. / The thesis deals with the contribution of the Laplace method to the approximation of the Bayesian filter in hidden Markov models with continuous state--space, i.e. in a sequential framework, with target tracking as the main application domain. Originally, the Laplace method is an asymptotic method used to compute integrals, i.e. in a static framework, valid in theory as soon as the function to be integrated exhibits an increasingly dominating maximum point, which brings the essential contribution to the integral. The two main contributions of the thesis are the following. Firstly, we have combined the Laplace method and particle filters: indeed, it is well-known that sequential Monte Carlo methods based on importance sampling are inefficient when the weighting function (here, the likelihood function) is too much spatially localized, e.g. when the variance of the observation noise is too small, whereas this is precisely the situation where the Laplace method is efficient and theoretically justified, hence the natural idea of combining the two approaches. We thus propose an algorithm associating the Laplace method and particle filtering, called the Laplace particle filter. Secondly, we have analyzed the approximation of the Bayesian filter based on the Laplace method only (i.e. without any generation of random samples): the objective has been to control the propagation of the approximation error from one time step to the next time step, in an appropriate asymptotic framework, e.g. when the variance of the observation noise goes to zero, or when the variances of the model noise and of the observation noise jointly go (with the same rate) to zero, or more generally when the information contained in the system goes to infinity, with an interpretation in terms of identifiability.
|
12 |
Compétition sur la visibilité et la popularité dans les réseaux sociaux en ligne / Competition over popularity and visibility on online social networksReiffers-Masson, Alexandre 12 January 2016 (has links)
Cette thèse utilise la théorie des jeux pour comprendre le comportement des usagers dans les réseaux sociaux. Trois problématiques y sont abordées: "Comment maximiser la popularité des contenus postés dans les réseaux sociaux?";" Comment modéliser la répartition des messages par sujets?";"Comment minimiser la propagation d’une rumeur et maximiser la diversité des contenus postés?". Après un état de l’art concernant ces questions développé dans le chapitre 1, ce travail traite, dans le chapitre 2, de la manière d’aborder l’environnement compétitif pour accroître la visibilité. Dans le chapitre 3, c’est le comportement des usagers qui est modélisé, en terme de nombre de messages postés, en utilisant la théorie des approximations stochastiques. Dans le chapitre 4, c’est une compétition pour être populaire qui est étudiée. Le chapitre 5 propose de formuler deux problèmes d’optimisation convexes dans le contexte des réseaux sociaux en ligne. Finalement, le chapitre 6 conclue ce manuscrit. / This Ph.D. is dedicated to the application of the game theory for the understanding of users behaviour in Online Social Networks. The three main questions of this Ph.D. are: " How to maximize contents popularity ? "; " How to model the distribution of messages across sources and topics in OSNs ? "; " How to minimize gossip propagation and how to maximize contents diversity? ". After a survey concerning the research made about the previous problematics in chapter 1, we propose to study a competition over visibility in chapter 2. In chapter 3, we model and provide insight concerning the posting behaviour of publishers in OSNs by using the stochastic approximation framework. In chapter 4, it is a popularity competition which is described by using a differential game formulation. The chapter 5 is dedicated to the formulation of two convex optimization problems in the context of Online Social Networks. Finally conclusions and perspectives are given in chapter 6.
|
13 |
Estimation par maximum de vraisemblance dans des problèmes inverses non linéairesKUHN, Estelle 12 December 2003 (has links) (PDF)
Cette thèse est consacrée à l'estimation par maximum de vraisemblance dans des problèmes inverses. Nous considérons des modèles statistiques à données manquantes, dans un cadre paramétrique au cours des trois premiers chapitres. Le Chapitre 1 présente une variante de l'algorithme EM (Expectation Maximization) qui combine une approximation stochastique à une méthode de Monte Carlo par chaînes de Markov : les données manquantes sont simulées selon une probabilité de transition bien choisie. Nous prouvons la convergence presque sûre de la suite générée par l'algorithme vers un maximum local de la vraisemblance des observations. Nous présentons des applications en déconvolution et en détection de ruptures. Dans le Chapitre 2, nous appliquons cet algorithme aux modèles non linéaires à effets mixtes et effectuons outre l'estimation des paramètres du modèle, des estimations de la vraisemblance du modèle et de l'information de Fisher. Les performances de l'algorithme sont illustrées via des comparaisons avec d'autres méthodes sur des exemples de pharmacocinétique et de pharmacodynamique. Le Chapitre 3 présente une application de l'algorithme en géophysique. Nous effectuons une inversion jointe, entre les temps de parcours des ondes sismiques et leurs vitesses et entre des mesures gravimétriques de surface et les densités du sous-sol, en estimant les paramètres du modèle, qui étaient en général fixés arbitrairement. De plus, nous prenons en compte une relation linéaire entre les densités et les vitesses des ondes. Le Chapitre 4 est consacré à l'estimation non paramétrique de la densité des données manquantes. Nous exhibons un estimateur logspline de cette densité qui maximise la vraisemblance des observations dans un modèle logspline et appliquons notre algorithme à ce modèle paramétrique. Nous étudions la convergence de cet estimateur vers la vraie densité lorsque la dimension du modèle logspline et le nombre d'observations tendent vers l'infini. Nous présentons quelques applications.
|
14 |
Analyse d'Algorithmes Stochastiques Appliqués à la FinanceLaruelle, Sophie 12 December 2011 (has links) (PDF)
Cette thèse porte sur l'analyse d'algorithmes stochastiques et leur application en Finance notamment et est composée de deux parties. Dans la première partie, nous présentons un résultat de convergence pour des algorithmes stochastiques où les innovations vérifient une hypothèse de moyennisation avec une certaine vitesse. Nous l'appliquons ensuite à différents types d'innovations (suites i.i.d., suites à discrépance faible, chaînes de Markov homogènes, fonctionnelles de processus \alpha-mélangeant) et nous l'illustrons à l'aide d'exemples motivés principalement par la Finance. Nous établissons ensuite un résultat de vitesse ''universelle'' de convergence dans le cadre d'innovations équiréparties dans [0,1]^q et nous confrontons nos résultats à ceux obtenus dans le cadre i.i.d.. La seconde partie est consacrée aux applications. Nous présentons d'abord un problème d'allocation optimale appliqué au cas d'un nouveau type de place de trading: les {\em dark pools}. Ces places proposent un prix d'achat (ou de vente) certain, mais n'assurent pas le volume délivré. Le but est alors d'exécuter le maximum de la quantité souhaitée sur ces places. Ceci mène à la construction d'un algorithme stochastique sous contraintes à l'aide du Lagrangien que nous étudions dans les cadres d'innovations i.i.d. et moyennisantes. Le chapitre suivant présente un algorithme d'optimisation pour trouver la meilleure distance de placement d'ordres limites: il s'agit de minimiser le coût d'exécution d'une quantité donnée. Ceci mène à la construction d'un algorithme stochastique sous contraintes avec projection. Pour assurer l'existence et l'unicité de l'équilibre, des critères suffisants sur certains paramètres du modèle sont obtenus à l'aide d'un principe de monotonie opposée pour les diffusions unidimensionnelles. Le chapitre suivant porte sur l'implicitation et la calibration de paramètres dans des modèles financiers. La première technique mène à un algorithme de recherche de zéro et la seconde à une méthode de gradient stochastique. Nous illustrons ces deux techniques par des exemples d'applications sur 3 modèles: le modèle de Black-Scholes, le modèle de Merton et le modèle pseudo-CEV. Enfin le dernier chapitre porte sur l'application des algorithmes stochastiques dans le cadre de modèles d'urnes aléatoires utilisés en essais cliniques. A l'aide des méthodes de l'EDO et de l'EDS, nous retrouvons les résultats de consistance (convergence p.s.) et de normalité asymptotique (TCL) de Bai et Hu mais sous des hypothèses plus faibles sur les matrices génératrices. Nous étudions aussi un modèle ''multi-bras'' pour lequel nous retrouvons le résultat de convergence p.s. et nous montrons un nouveau résultat de normalité asymptotique par simple application du TCL pour les algorithmes stochastiques.
|
15 |
Contribution à la modélisation et à la gestion dynamique du risque des marchés de l'énergieFrikha, Noufel 01 December 2010 (has links) (PDF)
Cette thèse est consacrée à des problématiques numériques probabilistes liées à la modélisation, au contrôle et à la gestion du risque et motivées par des applications dans les marchés de l'énergie. Le principal outil utilisé est la théorie des algorithmes stochastiques et des méthodes de simulation. Cette thèse se compose de trois parties. La première est dévouée à l'estimation de deux mesures de risque de la distribution L des pertes d'un portefeuille: la Value-at-Risk (VaR) et la Conditional Value-at-Risk (CVaR). Cette estimation est effectuée à l'aide d'un algorithme stochastique combiné avec une méthode de réduction de variance adaptative. La première partie de ce chapitre traite du cas de la dimension finie, la deuxième étend la première au cas d'une fonction de la trajectoire d'un processus et la dernière traite du cas des suites à discrépance faible. Le deuxième chapitre est dédié à des méthodes de couverture du risque en CVaR dans un marché incomplet opérant à temps discret à l'aide d'algorithmes stochastiques et de quantification vectorielle optimale. Des résultats théoriques sur la couverture en CVaR sont présentés puis les aspects numériques sont abordés dans un cadre markovien. La dernière partie est consacrée à la modélisation conjointe des prix des contrats spot Gaz et l'Electricité. Le modèle multi-facteur présenté repose sur des processus d'Ornstein stationnaires à coefficient de diffusion paramétrique.
|
16 |
Optimisation stochastique à grande échelleTauvel, Claire 09 December 2008 (has links) (PDF)
L'objet de cette thèse est l'étude d'algorithmes itératifs permettant de résoudre des problèmes d'optimisation convexe avec ou sans contraintes fonctionnelles, des problèmes de résolutions d'inégalités variationnelles à opérateur monotone et des problèmes de recherche de point selle. Ces problèmes sont envisagés lorsque la dimension de l'espace de recherche est grande et lorsque les valeurs des différentes fonctions étudiées et leur sous/sur-gradients ne sont pas connues exactement et ne sont accessibles qu'au travers d'un oracle stochastique. Les algorithmes que nous étudions sont des adaptations au cas stochastique de deux algorithmes : le premier inspiré de la méthode de descente en miroir de Nemirovski et Yudin et le second, de l'algorithme d'extrapolation duale de Nesterov. Pour chacun de ces deux algorithmes, nous donnons des bornes pour l'espérance et pour les déviations modérées de l'erreur d'approximation sous différentes hypothèses de régularité pour tous les problèmes sans contraintes fonctionnelles envisagées et nous donnons des versions adaptatives de ces algorithmes qui permettent de s'affranchir de connaître certains paramètres de ces problèmes non accessibles en pratique. Enfin nous montrons comment, à l'aide d'un algorithme auxiliaire inspiré de la méthode de Newton et des résultats obtenus lors de la résolution des problèmes de recherche de point selle, il est possible de résoudre des problèmes d'optimisation sous contraintes fonctionnelles.
|
17 |
Approches statistiques en apprentissage : boosting et rankingVayatis, Nicolas 09 December 2006 (has links) (PDF)
Depuis une dizaine d'années, la théorie statistique de l'apprentissage a connu une forte expansion. L'avènement d'algorithmes hautement performants pour la classification de données en grande dimension, tels que le boosting ou les machines à noyaux (SVM) a engendré de nombreuses questions statistiques que la théorie de Vapnik-Chervonenkis (VC) ne permettait pas de résoudre. En effet, le principe de Minimisation du Risque Empirique ne rend pas compte des méthodes d'apprentissage concrètes et le concept de complexité combinatoire de VC dimension ne permet pas d'expliquer les capacités de généralisation d'algorithmes<br />sélectionnant un estimateur au sein d'une classe massive telle que l'enveloppe convexe d'une classe de VC. Dans le premier volet du mémoire, on rappelle les interprétations des algorithmes de boosting comme des implémentations de principes de minimisation<br />de risques convexes et on étudie leurs propriétés sous cet angle. En particulier, on montre l'importance de la<br />régularisation pour obtenir des stratégies consistantes. On développe également une nouvelle classe d'algorithmes de type gradient stochastique appelés algorithmes de descente miroir avec moyennisation et on évalue leur comportement à travers des simulations informatiques. Après avoir présenté les principes fondamentaux du boosting, on s'attache dans le<br />deuxième volet à des questions plus avancées telles que<br />l'élaboration d'inégalités d'oracle. Ainsi, on étudie la<br />calibration précise des pénalités en fonction des critères<br />de coût utilisés. On présente des résultats<br />non-asymptotiques sur la performance des estimateurs du boosting pénalisés, notamment les vitesses rapides sous les conditions de marge de type Mammen-Tsybakov et on décrit les capacités d'approximation du boosting utilisant les "rampes" (stumps) de décision. Le troisième volet du mémoire explore le problème du ranking. Un enjeu important dans des applications<br />telles que la fouille de documents ou le "credit scoring" est d'ordonner les instances plutôt que de les catégoriser. On propose une formulation simple de ce problème qui permet d'interpréter le ranking comme une classification sur des paires d'observations. La différence dans ce cas vient du fait que les<br />critères empiriques sont des U-statistiques et on développe donc la théorie de la classification adaptée à ce contexte. On explore également la question de la généralisation de l'erreur de ranking afin de pouvoir inclure des a priori sur l'ordre des instances, comme dans le cas où on ne s'intéresse qu'aux "meilleures" instances.
|
18 |
Stochastic approximation in Hilbert spaces / Approximation stochastique dans les espaces de HilbertDieuleveut, Aymeric 28 September 2017 (has links)
Le but de l’apprentissage supervisé est d’inférer des relations entre un phénomène que l’on souhaite prédire et des variables « explicatives ». À cette fin, on dispose d’observations de multiples réalisations du phénomène, à partir desquelles on propose une règle de prédiction. L’émergence récente de sources de données à très grande échelle, tant par le nombre d’observations effectuées (en analyse d’image, par exemple) que par le grand nombre de variables explicatives (en génétique), a fait émerger deux difficultés : d’une part, il devient difficile d’éviter l’écueil du sur-apprentissage lorsque le nombre de variables explicatives est très supérieur au nombre d’observations; d’autre part, l’aspect algorithmique devient déterminant, car la seule résolution d’un système linéaire dans les espaces en jeupeut devenir une difficulté majeure. Des algorithmes issus des méthodes d’approximation stochastique proposent uneréponse simultanée à ces deux difficultés : l’utilisation d’une méthode stochastique réduit drastiquement le coût algorithmique, sans dégrader la qualité de la règle de prédiction proposée, en évitant naturellement le sur-apprentissage. En particulier, le cœur de cette thèse portera sur les méthodes de gradient stochastique. Les très populaires méthodes paramétriques proposent comme prédictions des fonctions linéaires d’un ensemble choisi de variables explicatives. Cependant, ces méthodes aboutissent souvent à une approximation imprécise de la structure statistique sous-jacente. Dans le cadre non-paramétrique, qui est un des thèmes centraux de cette thèse, la restriction aux prédicteurs linéaires est levée. La classe de fonctions dans laquelle le prédicteur est construit dépend elle-même des observations. En pratique, les méthodes non-paramétriques sont cruciales pour diverses applications, en particulier pour l’analyse de données non vectorielles, qui peuvent être associées à un vecteur dans un espace fonctionnel via l’utilisation d’un noyau défini positif. Cela autorise l’utilisation d’algorithmes associés à des données vectorielles, mais exige une compréhension de ces algorithmes dans l’espace non-paramétrique associé : l’espace à noyau reproduisant. Par ailleurs, l’analyse de l’estimation non-paramétrique fournit également un éclairage révélateur sur le cadre paramétrique, lorsque le nombre de prédicteurs surpasse largement le nombre d’observations. La première contribution de cette thèse consiste en une analyse détaillée de l’approximation stochastique dans le cadre non-paramétrique, en particulier dans le cadre des espaces à noyaux reproduisants. Cette analyse permet d’obtenir des taux de convergence optimaux pour l’algorithme de descente de gradient stochastique moyennée. L’analyse proposée s’applique à de nombreux cadres, et une attention particulière est portée à l’utilisation d’hypothèses minimales, ainsi qu’à l’étude des cadres où le nombre d’observations est connu à l’avance, ou peut évoluer. La seconde contribution est de proposer un algorithme, basé sur un principe d’accélération, qui converge à une vitesse optimale, tant du point de vue de l’optimisation que du point de vue statistique. Cela permet, dans le cadre non-paramétrique, d’améliorer la convergence jusqu’au taux optimal, dans certains régimes pour lesquels le premier algorithme analysé restait sous-optimal. Enfin, la troisième contribution de la thèse consiste en l’extension du cadre étudié au delà de la perte des moindres carrés : l’algorithme de descente de gradient stochastiqueest analysé comme une chaine de Markov. Cette approche résulte en une interprétation intuitive, et souligne les différences entre le cadre quadratique et le cadre général. Une méthode simple permettant d’améliorer substantiellement la convergence est également proposée. / The goal of supervised machine learning is to infer relationships between a phenomenon one seeks to predict and “explanatory” variables. To that end, multiple occurrences of the phenomenon are observed, from which a prediction rule is constructed. The last two decades have witnessed the apparition of very large data-sets, both in terms of the number of observations (e.g., in image analysis) and in terms of the number of explanatory variables (e.g., in genetics). This has raised two challenges: first, avoiding the pitfall of over-fitting, especially when the number of explanatory variables is much higher than the number of observations; and second, dealing with the computational constraints, such as when the mere resolution of a linear system becomes a difficulty of its own. Algorithms that take their roots in stochastic approximation methods tackle both of these difficulties simultaneously: these stochastic methods dramatically reduce the computational cost, without degrading the quality of the proposed prediction rule, and they can naturally avoid over-fitting. As a consequence, the core of this thesis will be the study of stochastic gradient methods. The popular parametric methods give predictors which are linear functions of a set ofexplanatory variables. However, they often result in an imprecise approximation of the underlying statistical structure. In the non-parametric setting, which is paramount in this thesis, this restriction is lifted. The class of functions from which the predictor is proposed depends on the observations. In practice, these methods have multiple purposes, and are essential for learning with non-vectorial data, which can be mapped onto a vector in a functional space using a positive definite kernel. This allows to use algorithms designed for vectorial data, but requires the analysis to be made in the non-parametric associated space: the reproducing kernel Hilbert space. Moreover, the analysis of non-parametric regression also sheds some light on the parametric setting when the number of predictors is much larger than the number of observations. The first contribution of this thesis is to provide a detailed analysis of stochastic approximation in the non-parametric setting, precisely in reproducing kernel Hilbert spaces. This analysis proves optimal convergence rates for the averaged stochastic gradient descent algorithm. As we take special care in using minimal assumptions, it applies to numerous situations, and covers both the settings in which the number of observations is known a priori, and situations in which the learning algorithm works in an on-line fashion. The second contribution is an algorithm based on acceleration, which converges at optimal speed, both from the optimization point of view and from the statistical one. In the non-parametric setting, this can improve the convergence rate up to optimality, even inparticular regimes for which the first algorithm remains sub-optimal. Finally, the third contribution of the thesis consists in an extension of the framework beyond the least-square loss. The stochastic gradient descent algorithm is analyzed as a Markov chain. This point of view leads to an intuitive and insightful interpretation, that outlines the differences between the quadratic setting and the more general setting. A simple method resulting in provable improvements in the convergence is then proposed.
|
19 |
Efficacité de l’algorithme EM en ligne pour des modèles statistiques complexes dans le contexte des données massivesMartel, Yannick 11 1900 (has links)
L’algorithme EM (Dempster et al., 1977) permet de construire une séquence d’estimateurs qui converge vers l’estimateur de vraisemblance maximale pour des modèles à données manquantes pour lesquels l’estimateur du maximum de vraisemblance n’est pas calculable. Cet algorithme est remarquable compte tenu de ses nombreuses applications en apprentissage statistique. Toutefois, il peut avoir un lourd coût computationnel. Les auteurs Cappé et Moulines (2009) ont proposé une version en ligne de cet algorithme pour les modèles appartenant à la famille exponentielle qui permet de faire des gains d’efficacité computationnelle importants en présence de grands jeux de données. Cependant, le calcul de l’espérance a posteriori de la statistique exhaustive, qui est nécessaire dans la version de Cappé et Moulines (2009), est rarement possible pour des modèles complexes et/ou lorsque la dimension des données manquantes est grande. On doit alors la remplacer par un estimateur. Plusieurs questions se présentent naturellement : les résultats de convergence de l’algorithme initial restent-ils valides lorsqu’on remplace l’espérance par un estimateur ? En particulier, que dire de la normalité asymptotique de la séquence des estimateurs ainsi créés, de la variance asymptotique et de la vitesse de convergence ? Comment la variance de l’estimateur de l’espérance se reflète-t-elle sur la variance asymptotique de l’estimateur EM? Peut-on travailler avec des estimateurs de type Monte-Carlo ou MCMC? Peut-on emprunter des outils populaires de réduction de variance comme les variables de contrôle ? Ces questions seront étudiées à l’aide d’exemples de modèles à variables latentes. Les contributions principales de ce mémoire sont une présentation unifiée des algorithmes EM d’approximation stochastique, une illustration de l’impact au niveau de la variance lorsque l’espérance a posteriori est estimée dans les algorithmes EM en ligne et l’introduction d’algorithmes EM en ligne permettant de réduire la variance supplémentaire occasionnée par l’estimation de l’espérance a posteriori. / The EM algorithm Dempster et al. (1977) yields a sequence of estimators that converges to the maximum likelihood estimator for missing data models whose maximum likelihood estimator is not directly tractable. The EM algorithm is remarkable given its numerous applications in statistical learning. However, it may suffer from its computational cost. Cappé and Moulines (2009) proposed an online version of the algorithm in models whose likelihood belongs to the exponential family that provides an upgrade in computational efficiency in large data sets. However, the conditional expected value of the sufficient statistic is often intractable for complex models and/or when the missing data is of a high dimension. In those cases, it is replaced by an estimator. Many questions then arise naturally: do the convergence results pertaining to the initial estimator hold when the expected value is substituted by an estimator? In particular, does the asymptotic normality property remain in this case? How does the variance of the estimator of the expected value affect the asymptotic variance of the EM estimator? Are Monte-Carlo and MCMC estimators suitable in this situation? Could variance reduction tools such as control variates provide variance relief? These questions will be tackled by the means of examples containing latent data models. This master’s thesis’ main contributions are the presentation of a unified framework for stochastic approximation EM algorithms, an illustration of the impact that the estimation of the conditional expected value has on the variance and the introduction of online EM algorithms which reduce the additional variance stemming from the estimation of the conditional expected value.
|
20 |
Non-Convex Optimization for Latent Data Models : Algorithms, Analysis and Applications / Optimisation Non Convexe pour Modèles à Données Latentes : Algorithmes, Analyse et ApplicationsKarimi, Belhal 19 September 2019 (has links)
De nombreux problèmes en Apprentissage Statistique consistent à minimiser une fonction non convexe et non lisse définie sur un espace euclidien. Par exemple, les problèmes de maximisation de la vraisemblance et la minimisation du risque empirique en font partie.Les algorithmes d'optimisation utilisés pour résoudre ce genre de problèmes ont été largement étudié pour des fonctions convexes et grandement utilisés en pratique.Cependant, l'accrudescence du nombre d'observation dans l'évaluation de ce risque empirique ajoutée à l'utilisation de fonctions de perte de plus en plus sophistiquées représentent des obstacles.Ces obstacles requièrent d'améliorer les algorithmes existants avec des mis à jour moins coûteuses, idéalement indépendantes du nombre d'observations, et d'en garantir le comportement théorique sous des hypothèses moins restrictives, telles que la non convexité de la fonction à optimiser.Dans ce manuscrit de thèse, nous nous intéressons à la minimisation de fonctions objectives pour des modèles à données latentes, ie, lorsque les données sont partiellement observées ce qui inclut le sens conventionnel des données manquantes mais est un terme plus général que cela.Dans une première partie, nous considérons la minimisation d'une fonction (possiblement) non convexe et non lisse en utilisant des mises à jour incrémentales et en ligne. Nous proposons et analysons plusieurs algorithmes à travers quelques applications.Dans une seconde partie, nous nous concentrons sur le problème de maximisation de vraisemblance non convexe en ayant recourt à l'algorithme EM et ses variantes stochastiques. Nous en analysons plusieurs versions rapides et moins coûteuses et nous proposons deux nouveaux algorithmes du type EM dans le but d'accélérer la convergence des paramètres estimés. / Many problems in machine learning pertain to tackling the minimization of a possibly non-convex and non-smooth function defined on a Many problems in machine learning pertain to tackling the minimization of a possibly non-convex and non-smooth function defined on a Euclidean space.Examples include topic models, neural networks or sparse logistic regression.Optimization methods, used to solve those problems, have been widely studied in the literature for convex objective functions and are extensively used in practice.However, recent breakthroughs in statistical modeling, such as deep learning, coupled with an explosion of data samples, require improvements of non-convex optimization procedure for large datasets.This thesis is an attempt to address those two challenges by developing algorithms with cheaper updates, ideally independent of the number of samples, and improving the theoretical understanding of non-convex optimization that remains rather limited.In this manuscript, we are interested in the minimization of such objective functions for latent data models, ie, when the data is partially observed which includes the conventional sense of missing data but is much broader than that.In the first part, we consider the minimization of a (possibly) non-convex and non-smooth objective function using incremental and online updates.To that end, we propose several algorithms exploiting the latent structure to efficiently optimize the objective and illustrate our findings with numerous applications.In the second part, we focus on the maximization of non-convex likelihood using the EM algorithm and its stochastic variants.We analyze several faster and cheaper algorithms and propose two new variants aiming at speeding the convergence of the estimated parameters.
|
Page generated in 0.1117 seconds