Global ETD Search

1	Méthodes de géométrie de l'information pour les modèles de mélange Schwander, Olivier 15 October 2013 (has links) (PDF) Cette thèse présente de nouvelles méthodes pour l'apprentissage de modèles de mélanges basées sur la géométrie de l'information. Les modèles de mélanges considérés ici sont des mélanges de familles exponentielles, permettant ainsi d'englober une large part des modèles de mélanges utilisés en pratique. Grâce à la géométrie de l'information, les problèmes statistiques peuvent être traités avec des outils géométriques. Ce cadre offre de nouvelles perspectives permettant de mettre au point des algorithmes à la fois rapides et génériques. Deux contributions principales sont proposées ici. La première est une méthode de simplification d'estimateurs par noyaux. Cette simplification est effectuée à l'aide un algorithme de partitionnement, d'abord avec la divergence de Bregman puis, pour des raisons de rapidité, avec la distance de Fisher-Rao et des barycentres modèles. La seconde contribution est une généralisation de l'algorithme k-MLE permettant de traiter des mélanges où toutes les composantes ne font pas partie de la même famille: cette méthode est appliquée au cas des mélanges de Gaussiennes généralisées et des mélanges de lois Gamma et est plus rapide que les méthodes existantes. La description de ces deux méthodes est accompagnée d'une implémentation logicielle complète et leur efficacité est évaluée grâce à des applications en bio-informatique et en classification de textures. géométrie de l'information modèles de mélange famille exponentielle loi Gamma Gaussienne généralisée
2	Nouvelles paramétrisations de réseaux Bayésiens et leur estimation implicite - Famille exponentielle naturelle et mélange infini de Gaussiennes Jarraya Siala, Aida 26 October 2013 (has links) (PDF) L'apprentissage d'un réseau Bayésien consiste à estimer le graphe (la structure) et les paramètres des distributions de probabilités conditionnelles associées à ce graphe. Les algorithmes d'apprentissage de réseaux Bayésiens utilisent en pratique une approche Bayésienne classique d'estimation a posteriori dont les paramètres sont souvent déterminés par un expert ou définis de manière uniforme Le coeur de cette thèse concerne l'application aux réseaux Bayésiens de plusieurs avancées dans le domaine des Statistiques comme l'estimation implicite, les familles exponentielles naturelles ou les mélanges infinis de lois Gaussiennes dans le but de (1) proposer de nouvelles formes paramétriques, (2) estimer des paramètres de tels modèles et (3) apprendre leur structure. [STAT:ML] Statistics/Machine Learning [STAT:ML] Statistiques/Machine Learning Réseau bayésien Estimation implicite Famille exponentielle Mélange infini de gausiennes
3	On multivariate dispersion analysis / Sur l’analyse de dispersion multivariée Nisa, Khoirin 13 December 2016 (has links) Cette thèse examine la dispersion multivariée des modelés normales stables Tweedie. Trois estimateurs de fonction variance généralisée sont discutés. Ensuite dans le cadre de la famille exponentielle naturelle deux caractérisations du modèle normal-Poisson, qui est un cas particulier de modèles normales stables Tweedie avec composante discrète, sont indiquées : d'abord par fonction variance et ensuite par fonction variance généralisée. Le dernier fournit la solution à un problème particulier d'équation de Monge-Ampère. Enfin, pour illustrer l'application de la variance généralisée des modèles Tweedie stables normales, des exemples à partir des données réelles sont fournis. / This thesis examines the multivariate dispersion of normal stable Tweedie (NST) models. Three generalize variance estimators of some NST models are discussed. Then within the framework of natural exponential family, two characterizations of normal Poisson model, which is a special case of NST models with discrete component, are shown : first by variance function and then by generalized variance function. The latter provides a solution to a particular Monge-Ampere equation problem. Finally, to illustrate the application of generalized variance of normal stable Tweedie models, examples from real data are provided. Famille exponentielle Modèles de dispersion exponentielle Fonction de variance généralisée Caractérisation Maximum de vraisemblance Variance uniforme minimum sans biais Exponential family Generalized variance Variance function Characterization 519
4	Sur les modèles Tweedie multivariés / On multi variate tweedie models Cuenin, Johann 06 December 2016 (has links) Après avoir fait un rappel sur les généralités concernant les familles exponentielles naturelles et les lois Tweedie univariées qui en sont un exemple particulier, nous montrerons comment étendre ces lois au cas multivarié. Une première construction permettra de définir des vecteurs aléatoires Tweedie paramétrés pas un vecteur de moyenne et une matrice de dispersion. Nous montrerons que les corrélations entre les lois marginales peuvent être contrôlées et varient entre -1 et 1. Nous verrons aussi que ces vecteurs ont quelques propriétés communes avec les vecteurs gaussiens. Nous en donnerons une représentation matricielle qui permettra d'en simuler des observations. La seconde construction permettra d'introduire les modèles Tweedie multiples constitués d'une variable Tweedie dont l'observation sera la dispersion des autres marges, toutes de lois Tweedie elles aussi. Nous donnerons la variance généralisée de ces lois et montrerons que cette dernière peut-être estimée efficacement. Enfin, nous verrons que, modulo certaines restrictions, nous pourrons donner une caractérisation par la fonction de variance généralisée des familles exponentielles naturelles générées par ces lois. / After a reminder of the natural exponential families framework and the univariate Tweedie distributions, we build two multivariate extension of the latter. A first construction, called Tweedie random vector, gives a multivariate Tweedie distribution parametrized by a mean vector and a dispersion matrix. We show that the correlations between the margins can be controlled and vary between -1 and 1. Some properties shared with the well-known Gaussian vector are given. By giving a matrix representation, we can simulate observations of Tweedie random vectors. The second construction establishes the multiple stable Tweedie models. They are vectors of which the first component is Tweedie and the others are independant Tweedie, given the first one, and with dispersion parameter given by an observation of the first component. We give the generalized variance and show that it is a product of powered component of the mean and give an efficient estimator of this parameter. Finally, we can show, with some restrictions, that the generalized variance is a tool which can be used for characterizing the natural exponential families generated by multiple stable Tweedie models. Famille exponentielle naturelle Mesure de Lévy modifiée Caractérisation Fonction variance généralisée Simulation Natural exponential families Modified Levy measure Simulations Characterization Generalized variance function 519
5	Low-rank methods for heterogeneous and multi-source data / Méthodes de rang faible pour les données hétérogènes et multi-source Robin, Geneviève 11 June 2019 (has links) Dans les applications modernes des statistiques et de l'apprentissage, il est courant que les données récoltées présentent un certain nombre d'imperfections. En particulier, les données sont souvent hétérogènes, c'est-à-dires qu'elles contiennent à la fois des informations quantitatives et qualitatives, incomplètes, lorsque certaines informations sont inaccessibles ou corrompues, et multi-sources, c'est-à-dire qu'elles résultent de l'agrégation de plusieurs jeux de données indépendant. Dans cette thèse, nous développons plusieurs méthodes pour l'analyse de données hétérogènes, incomplètes et multi-source. Nous nous attachons à étudier tous les aspects de ces méthodes, en fournissant des études théoriques précises, ainsi que des implémentations disponibles au public, et des évaluations empiriques. En particulier, nous considérons en détail deux applications issues de l'écologie pour la première et de la médecine pour la seconde. / In modern applications of statistics and machine learning, one often encounters many data imperfections. In particular, data are often heterogeneous, i.e. combine quantitative and qualitative information, incomplete, with missing values caused by machine failure or nonresponse phenomenons, and multi-source, when the data result from the compounding of diverse sources. In this dissertation, we develop several methods for the analysis of multi-source, heterogeneous and incomplete data. We provide a complete framework, and study all the aspects of the different methods, with thorough theoretical studies, open source implementations, and empirical evaluations. We study in details two particular applications from ecology and medical sciences. Abondance d’espèces Complétion de matrices Données hétérogènes Famille exponentielle Modèles de rang faible Exponential family models Low-rank models Matrix completion Species abundance data 519.5
6	Caractérisations des familles exponentielles naturelles cubiques : étude des lois Beta généralisées et de certaines lois de Kummer / Characterizations of the cubic natural exponential families : Study of generalized beta distributions and some Kummer’s distributions Hamza, Marwa 18 May 2015 (has links) Cette thèse contient deux parties différentes. Dans la première partie, nous nous sommes intéressés aux familles exponentielles naturelles cubiques dont la fonction variance est un polynôme de degré inférieur ou égal à 3. Nous donnons trois caractérisations de ces familles en se basant sur une approche Bayesienne. L’une de ces caractérisations repose sur le fait que la fonction cumulante vérifie une équation différentielle. La deuxième partie de notre travail est consacrée aux conséquences de la propriété d’indépendance de type « Matsumoto-Yor » qui a été développée par Koudou et Vallois. Cette propriété fait intervenir la famille de lois de Kummer de type 2 et les lois Beta généralisées. En se basant sur la méthode de conditionnement et sur la méthode de rejet, nous donnons des réalisations presque sûre de ces distributions de probabilités. D’autre part, nous caractérisons la famille de lois de Kummer de type 2 (resp. les lois Beta généralisées) par une équation algébrique impliquant des lois gamma (resp. les lois Beta) / This thesis has two different parts. In the first part we are interested in the real cubic natural exponential families such that their variance function is a polynomial of degree less than or equal to 3. We give three characterizations of such families using a Bayesian approach. One of these characterizations is based on a differential equation verified by the cumulant function. In a second part we study in depth the independence property of the type “Matsumoto-Yor” that was developed by Koudou and Vallois. This property involves the Kummer distribution of type 2 and the generalized beta ones. Using the conditioning and the rejection method, we give almost sure realization of these distributions. We characterize the family of Kummer distribution of type 2 with an algebraic equation involving the gamma ones. We proceed similarly with the generalized beta distributions Famille exponentielle naturelle Fonction variance Théorie Bayesienne Loi gamma Loi bêta Natural exponential families Variance function Bayesian theory Gamma distributions Kummer distribution of type 2 Generalized beta distributions 519.542
7	Caractérisations des modèles multivariés de stables-Tweedie multiples / Characterizations of multivariates of stables-Tweedie multiples Moypemna sembona, Cyrille clovis 17 June 2016 (has links) Ce travail de thèse porte sur différentes caractérisations des modèles multivariés de stables-Tweedie multiples dans le cadre des familles exponentielles naturelles sous la propriété de "steepness". Ces modèles parus en 2014 dans la littérature ont été d’abord introduits et décrits sous une forme restreinte des stables-Tweedie normaux avant les extensions aux cas multiples. Ils sont composés d’un mélange d’une loi unidimensionnelle stable-Tweedie de variable réelle positive fixée, et des lois stables-Tweedie de variables réelles indépendantes conditionnées par la première fixée, de même variance égale à la valeur de la variable fixée. Les modèles stables-Tweedie normaux correspondants sont ceux du mélange d’une loi unidimensionnelle stable-Tweedie positive fixé et les autres toutes gaussiennes indépendantes. A travers des cas particuliers tels que normal, Poisson, gamma, inverse gaussienne, les modèles stables-Tweedie multiples sont très fréquents dans les études de statistique et probabilités appliquées. D’abord, nous avons caractérisé les modèles stables-Tweedie normaux à travers leurs fonctions variances ou matrices de covariance exprimées en fonction de leurs vecteurs moyens. La nature des polynômes associés à ces modèles est déduite selon les valeurs de la puissance variance à l’aide des propriétés de quasi orthogonalité, des systèmes de Lévy-Sheffer, et des relations de récurrence polynomiale. Ensuite, ces premiers résultats nous ont permis de caractériser à l’aide de la fonction variance la plus grande classe des stables-Tweedie multiples. Ce qui a conduit à une nouvelle classification laquelle rend la famille beaucoup plus compréhensible. Enfin, une extension de caractérisation des stables-Tweedie normaux par fonction variance généralisée ou déterminant de la fonction variance a été établie via leur propriété d’indéfinie divisibilité et en passant par les équations de Monge-Ampère correspondantes. Exprimées sous la forme de produit des composantes du vecteur moyen aux puissances multiples, la caractérisationde tous les modèles multivariés stables-Tweedie multiples par fonction variance généralisée reste un problème ouvert. / In the framework of natural exponential families, this thesis proposes differents characterizations of multivariate multiple stables-Tweedie under "steepness" property. These models appeared in 2014 in the literature were first introduced and described in a restricted form of the normal stables-Tweedie models before extensions to multiple cases. They are composed by a fixed univariate stable-Tweedie variable having a positive domain, and the remaining random variables given the fixed one are reals independent stables-Tweedie variables, possibly different, with the same dispersion parameter equal to the fixed component. The corresponding normal stables-Tweedie models have a fixed univariate stable-Tweedie and all the others are reals Gaussian variables. Through special cases such that normal, Poisson, gamma, inverse Gaussian, multiple stables-Tweedie models are very common in applied probability and statistical studies. We first characterized the normal stable-Tweedie through their variances function or covariance matrices expressed in terms of their means vector. According to the power variance parameter values, the nature of polynomials associated with these models is deduced with the properties of the quasi orthogonal, Levy-Sheffer systems, and polynomial recurrence relations. Then, these results allowed us to characterize by function variance the largest class of multiple stables-Tweedie. Which led to a new classification, which makes more understandable the family. Finally, a extension characterization of normal stable-Tweedie by generalized variance function or determinant of variance function have been established via their infinite divisibility property and through the corresponding Monge-Ampere equations. Expressed as product of the components of the mean vector with multiple powers parameters reals, the characterization of all multivariate multiple stable- Tweedie models by generalized variance function remains an open problem. Famille exponentielle naturelle Steepness Fonction variance Variance généralisée Équation de Monge-Ampère Polynôme Quasi orthogonalité Système de Lévy-Sheffer Indéfinie divisibilité Natural exponential family Steepness Variance function Generalized variance function Monge-Ampere equation Polynomial Quasi orthogonality polynomials Levy-Sheffer system Infinite divisibility 518
8	Optimization tools for non-asymptotic statistics in exponential families Le Priol, Rémi 04 1900 (has links) Les familles exponentielles sont une classe de modèles omniprésente en statistique. D'une part, elle peut modéliser n'importe quel type de données. En fait la plupart des distributions communes en font partie : Gaussiennes, variables catégoriques, Poisson, Gamma, Wishart, Dirichlet. D'autre part elle est à la base des modèles linéaires généralisés (GLM), une classe de modèles fondamentale en apprentissage automatique. Enfin les mathématiques qui les sous-tendent sont souvent magnifiques, grâce à leur lien avec la dualité convexe et la transformée de Laplace. L'auteur de cette thèse a fréquemment été motivé par cette beauté. Dans cette thèse, nous faisons trois contributions à l'intersection de l'optimisation et des statistiques, qui tournent toutes autour de la famille exponentielle. La première contribution adapte et améliore un algorithme d'optimisation à variance réduite appelé ascension des coordonnées duales stochastique (SDCA), pour entraîner une classe particulière de GLM appelée champ aléatoire conditionnel (CRF). Les CRF sont un des piliers de la prédiction structurée. Les CRF étaient connus pour être difficiles à entraîner jusqu'à la découverte des technique d'optimisation à variance réduite. Notre version améliorée de SDCA obtient des performances favorables comparées à l'état de l'art antérieur et actuel. La deuxième contribution s'intéresse à la découverte causale. Les familles exponentielles sont fréquemment utilisées dans les modèles graphiques, et en particulier dans les modèles graphique causaux. Cette contribution mène l'enquête sur une conjecture spécifique qui a attiré l'attention dans de précédents travaux : les modèles causaux s'adaptent plus rapidement aux perturbations de l'environnement. Nos résultats, obtenus à partir de théorèmes d'optimisation, soutiennent cette hypothèse sous certaines conditions. Mais sous d'autre conditions, nos résultats contredisent cette hypothèse. Cela appelle à une précision de cette hypothèse, ou à une sophistication de notre notion de modèle causal. La troisième contribution s'intéresse à une propriété fondamentale des familles exponentielles. L'une des propriétés les plus séduisantes des familles exponentielles est la forme close de l'estimateur du maximum de vraisemblance (MLE), ou maximum a posteriori (MAP) pour un choix naturel de prior conjugué. Ces deux estimateurs sont utilisés presque partout, souvent sans même y penser. (Combien de fois calcule-t-on une moyenne et une variance pour des données en cloche sans penser au modèle Gaussien sous-jacent ?) Pourtant la littérature actuelle manque de résultats sur la convergence de ces modèles pour des tailles d'échantillons finis, lorsque l'on mesure la qualité de ces modèles avec la divergence de Kullback-Leibler (KL). Pourtant cette divergence est la mesure de différence standard en théorie de l'information. En établissant un parallèle avec l'optimisation, nous faisons quelques pas vers un tel résultat, et nous relevons quelques directions pouvant mener à des progrès, tant en statistiques qu'en optimisation. Ces trois contributions mettent des outil d'optimisation au service des statistiques dans les familles exponentielles : améliorer la vitesse d'apprentissage de GLM de prédiction structurée, caractériser la vitesse d'adaptation de modèles causaux, estimer la vitesse d'apprentissage de modèles omniprésents. En traçant des ponts entre statistiques et optimisation, cette thèse fait progresser notre maîtrise de méthodes fondamentales d'apprentissage automatique. / Exponential families are a ubiquitous class of models in statistics. On the one hand, they can model any data type. Actually, the most common distributions are exponential families: Gaussians, categorical, Poisson, Gamma, Wishart, or Dirichlet. On the other hand, they sit at the core of generalized linear models (GLM), a foundational class of models in machine learning. They are also supported by beautiful mathematics thanks to their connection with convex duality and the Laplace transform. This beauty is definitely responsible for the existence of this thesis. In this manuscript, we make three contributions at the intersection of optimization and statistics, all revolving around exponential families. The first contribution adapts and improves a variance reduction optimization algorithm called stochastic dual coordinate ascent (SDCA) to train a particular class of GLM called conditional random fields (CRF). CRF are one of the cornerstones of structured prediction. CRF were notoriously hard to train until the advent of variance reduction techniques, and our improved version of SDCA performs favorably compared to the previous state-of-the-art. The second contribution focuses on causal discovery. Exponential families are widely used in graphical models, and in particular in causal graphical models. This contribution investigates a specific conjecture that gained some traction in previous work: causal models adapt faster to perturbations of the environment. Using results from optimization, we find strong support for this assumption when the perturbation is coming from an intervention on a cause, and support against this assumption when perturbation is coming from an intervention on an effect. These pieces of evidence are calling for a refinement of the conjecture. The third contribution addresses a fundamental property of exponential families. One of the most appealing properties of exponential families is its closed-form maximum likelihood estimate (MLE) and maximum a posteriori (MAP) for a natural choice of conjugate prior. These two estimators are used almost everywhere, often unknowingly -- how often are mean and variance computed for bell-shaped data without thinking about the Gaussian model they underly? Nevertheless, literature to date lacks results on the finite sample convergence property of the information (Kulback-Leibler) divergence between these estimators and the true distribution. Drawing on a parallel with optimization, we take some steps towards such a result, and we highlight directions for progress both in statistics and optimization. These three contributions are all using tools from optimization at the service of statistics in exponential families: improving upon an algorithm to learn GLM, characterizing the adaptation speed of causal models, and estimating the learning speed of ubiquitous models. By tying together optimization and statistics, this thesis is taking a step towards a better understanding of the fundamentals of machine learning. Apprentissage automatique famille exponentielle divergence de Bregman statistiques non-asymptotiques taux de convergence dualité convexe optimisation stochastique réduction de variance prédiction structurée causalité Machine learning exponential families Bregman divergence non-asymptotic statistics sample complexity, convex duality stochastic optimization variance reduction structured prediction causality

Search results