Global ETD Search

11	Le statisticien neuronal : comment la perspective bayésienne peut enrichir les neurosciences / The neuronal statistician : how the Bayesian perspective can enrich neuroscience Dehaene, Guillaume 09 September 2016 (has links) L'inférence bayésienne répond aux questions clés de la perception, comme par exemple : "Que faut-il que je crois étant donné ce que j'ai perçu ?". Elle est donc par conséquent une riche source de modèles pour les sciences cognitives et les neurosciences (Knill et Richards, 1996). Cette thèse de doctorat explore deux modèles bayésiens. Dans le premier, nous explorons un problème de codage efficace, et répondons à la question de comment représenter au mieux une information probabiliste dans des neurones pas parfaitement fiables. Nous innovons par rapport à l'état de l'art en modélisant une information d'entrée finie dans notre modèle. Nous explorons ensuite un nouveau modèle d'observateur optimal pour la localisation d'une source sonore grâce à l’écart temporel interaural, alors que les modèles actuels sont purement phénoménologiques. Enfin, nous explorons les propriétés de l'algorithme d'inférence approximée "Expectation Propagation", qui est très prometteur à la fois pour des applications en apprentissage automatique et pour la modélisation de populations neuronales, mais qui est aussi actuellement très mal compris. / Bayesian inference answers key questions of perception such as: "What should I believe given what I have perceived ?". As such, it is a rich source of models for cognitive science and neuroscience (Knill and Richards, 1996). This PhD manuscript explores two such models. We first investigate an efficient coding problem, asking the question of how to best represent probabilistic information in unrealiable neurons. We innovate compared to older such models by introducing limited input information in our own. We then explore a brand new ideal observer model of localization of sounds using the Interaural Time Difference cue, when current models are purely descriptive models of the electrophysiology. Finally, we explore the properties of the Expectation Propagation approximate-inference algorithm, which offers great potential for both practical machine-learning applications and neuronal population models, but is currently very poorly understood. Neurosciences computationelles Statistiques bayésiennes Codage efficace Information de Fisher Inférence approximée Expectation propagation Computational neuroscience Bayesian statistics Efficient coding Fisher information Approximate inference Expectation propagation Large-data limit 519.542
12	Around the Langevin Monte Carlo algorithm : extensions and applications / Autour de l'algorithme du Langevin : extensions et applications Brosse, Nicolas 12 June 2019 (has links) Cette thèse porte sur le problème de l'échantillonnage en grande dimension et est basée sur l'algorithme de Langevin non ajusté (ULA).Dans une première partie, nous proposons deux extensions d'ULA et fournissons des garanties de convergence précises pour ces algorithmes. ULA n'est pas applicable lorsque la distribution cible est à support compact; grâce à une régularisation de Moreau Yosida, il est néanmoins possible d'échantillonner à partir d'une distribution suffisamment proche de la distribution cible. ULA diverge lorsque les queues de la distribution cible sont trop fines; en renormalisant correctement le gradient, cette difficulté peut être surmontée.Dans une deuxième partie, nous donnons deux applications d'ULA. Nous fournissons un algorithme pour estimer les constantes de normalisation de densités log concaves à partir d'une suite de distributions dont la variance augmente graduellement. En comparant ULA avec la diffusion de Langevin, nous développons une nouvelle méthode de variables de contrôle basée sur la variance asymptotique de la diffusion de Langevin.Dans une troisième partie, nous analysons Stochastic Gradient Langevin Dynamics (SGLD), qui diffère de ULA seulement dans l'estimation stochastique du gradient. Nous montrons que SGLD, appliqué avec des paramètres habituels, peut être très éloigné de la distribution cible. Cependant, avec une technique appropriée de réduction de variance, son coût calcul peut être bien inférieur à celui d'ULA pour une précision similaire. / This thesis focuses on the problem of sampling in high dimension and is based on the unadjusted Langevin algorithm (ULA).In a first part, we suggest two extensions of ULA and provide precise convergence guarantees for these algorithms. ULA is not feasible when the target distribution is compactly supported; thanks to a Moreau Yosida regularization, it is nevertheless possible to sample from a probability distribution close enough to the distribution of interest. ULA diverges when the tails of the target distribution are too thin; by taming appropriately the gradient, this difficulty can be overcome.In a second part, we give two applications of ULA. We provide an algorithm to estimate normalizing constants of log concave densities based on a sequence of distributions with increasing variance. By comparison of ULA with the Langevin diffusion, we develop a new control variates methodology based on the asymptotic variance of the Langevin diffusion.In a third part, we analyze Stochastic Gradient Langevin Dynamics (SGLD), which differs from ULA only in the stochastic estimation of the gradient. We show that SGLD, applied with usual parameters, may be very far from the target distribution. However, with an appropriate variance reduction technique, its computational cost can be much lower than ULA for the same accuracy. Algorithme du Langevin Simulation Statistiques bayésiennes Markov Chain Monte Carlo Langevin algorithm Simulation Bayesian statistics 530.159 233
13	Robust gamma generalized linear models with applications in actuarial science Wang, Yuxi 09 1900 (has links) Les modèles linéaires généralisés (GLMs) constituent l’une des classes de modèles les plus populaires en statistique. Cette classe contient une grande variété de modèles de régression fréquemment utilisés, tels que la régression linéaire normale, la régression logistique et les gamma GLMs. Dans les GLMs, la distribution de la variable de réponse définit une famille exponentielle. Un désavantage de ces modèles est qu’ils ne sont pas robustes par rapport aux valeurs aberrantes. Pour les modèles comme la régression linéaire normale et les gamma GLMs, la non-robustesse est une conséquence des ailes exponentielles des densités. La différence entre les tendances de l’ensemble des données et celles des valeurs aberrantes donne lieu à des inférences et des prédictions biaisées. A notre connaissance, il n’existe pas d’approche bayésienne robuste spécifique pour les GLMs. La méthode la plus populaire est fréquentiste ; c’est celle de Cantoni and Ronchetti (2001). Leur approche consiste à adapter les M-estimateurs robustes pour la régression linéaire au contexte des GLMs. Cependant, leur estimateur est dérivé d’une modification de la dérivée de la log-vraisemblance, au lieu d’une modification de la vraisemblance (comme avec les M-estimateurs robustes pour la régression linéaire). Par conséquent, il n’est pas possible d’établir une correspondance claire entre la fonction modifiée à optimiser et un modèle. Le fait de proposer un modèle robuste présente deux avantages. Premièrement, il permet de comprendre et d’interpréter la modélisation. Deuxièmement, il permet l’analyse fréquentiste et bayésienne. La méthode que nous proposons s’inspire des idées de la régression linéaire robuste bayésienne. Nous adaptons l’approche proposée par Gagnon et al. (2020), qui consiste à utiliser une distribution normale modifiée avec des ailes plus relevées pour le terme d’erreur. Dans notre contexte, la distribution de la variable de réponse est une version modifiée où la partie centrale de la densité est conservée telle quelle, tandis que les extrémités sont remplacées par des ailes log-Pareto, se comportant comme (1/\|x\|)(1/ log \|x\|)λ. Ce mémoire se concentre sur les gamma GLMs. La performance est mesurée à la fois théoriquement et empiriquement, avec une analyse des données sur les coûts hospitaliers. / Generalized linear models (GLMs) form one of the most popular classes of models in statistics. This class contains a large variety of commonly used regression models, such as normal linear regression, logistic regression and gamma GLMs. In GLMs, the response variable distribution defines an exponential family. A drawback of these models is that they are non-robust against outliers. For models like the normal linear regression and gamma GLMs, the non-robustness is a consequence of the exponential tails of the densities. The difference in trends in the bulk of the data and the outliers yields skewed inference and prediction. To our knowledge, there is no Bayesian robust approach specifically for GLMs. The most popular method is frequentist; it is that of Cantoni and Ronchetti (2001). Their approach is to adapt the robust M-estimators for linear regression to the context of GLMs. However, their estimator is derived from a modification of the derivative of the log-likelihood, instead of from a modification of the likelihood (as with robust M-estimators for linear regression). As a consequence, it is not possible to establish a clear correspondence between the modified function to optimize and a model. Having a robust model has two advantages. First, it allows for an understanding and an interpretation of the modelling. Second, it allows for both frequentist and Bayesian analysis. The method we propose is based on ideas from Bayesian robust linear regression. We adapt the approach proposed by Gagnon et al. (2020), which consists of using a modified normal distribution with heavier tails for the error term. In our context, the distribution of the response variable is a modified version where the central part of the density is kept as is, while the extremities are replaced by log-Pareto tails, behaving like (1/\|x\|)(1/ log \|x\|)λ. The focus of this thesis is on gamma GLMs. The performance is measured both theoretically and empirically, with an analysis of hospital costs data. Bayesian statistics heavy-tailed distributions outlier detection outliers Pearson residuals statistiques bayésiennes distributions à ailes relevées détection des valeurs aberrantes valeurs aberrantes résidus de Pearson Statistics / Statistiques (UMI : 0463)
14	Statistiques discrètes et Statistiques bayésiennes en grande dimension Bontemps, Dominique 02 December 2010 (has links) (PDF) Dans cette thèse de doctorat, nous présentons les travaux que nous avons effectués dans trois directions reliées : la compression de données en alphabet infini, les statistiques bayésiennes en dimension infinie, et les mélanges de distributions discrètes multivariées. Dans le cadre de la compression de données sans perte, nous nous sommes intéressé à des classes de sources stationnaires sans mémoire sur un alphabet infini, définies par une condition d'enveloppe à décroissance exponentielle sur les distributions marginales. Un équivalent de la redondance minimax de ces classes a été obtenue. Un algorithme approximativement minimax ainsi que des a-priori approximativement les moins favorables, basés sur l'a-priori de Jeffreys en alphabet fini, ont en outre été proposés. Le deuxième type de travaux porte sur la normalité asymptotique des distributions a-posteriori (théorèmes de Bernstein-von Mises) dans différents cadres non-paramétriques et semi-paramétriques. Tout d'abord, dans un cadre de régression gaussienne lorsque le nombre de régresseurs augmente avec la taille de l'échantillon. Les théorèmes non-paramétriques portent sur les coefficients de régression, tandis que les théorèmes semi-paramétriques portent sur des fonctionnelles de la fonction de régression. Dans nos applications au modèle de suites gaussiennes et à la régression de fonctions appartenant à des classe de Sobolev ou de régularité hölderiennes, nous obtenons simultanément le théorème de Bernstein-von Mises et la vitesse d'estimation fréquentiste minimax. L'adaptativité est atteinte pour l'estimation de fonctionnelles dans ces applications. Par ailleurs nous présentons également un théorème de Bernstein-von Mises non-paramétrique pour des modèles exponentiels de dimension croissante. Enfin, le dernier volet de ce travail porte sur l'estimation du nombre de composantes et des variables pertinentes dans des modèles de mélange de lois multinomiales multivariées, dans une optique de classification non supervisée. Ce type de modèles est utilisé par exemple pour traiter des données génotypiques. Un critère du maximum de vraisemblance pénalisé est proposé, et une inégalité oracle non-asymptotique est obtenue. Le critère retenu en pratique comporte une calibration grâce à l'heuristique de pente. Ses performances sont meilleurs que celles des critères classiques BIC et AIC sur des données simulées. L'ensemble des procédures est implémenté dans un logiciel librement accessible. [MATH] Mathematics Alphabet infini dénombrable A-priori bayésien le moins favorable Codage universel Compression adaptative Compression de données sans perte Redondance minimax Estimation adaptative Modèles exponentiels Normalité asymptotique a-posteriori Paramètre de la valeur moyenne Théorème de Bernstein-von Mises Biostatistiques Génotypes multilocus Heuristique de pente Mélange de multinomiales multivariées Modèles à classes latentes Sélection de modèle Sélection de variables Vraissemblance pénalisée
15	Reconstruction de profils protéiques pour la recherche de biomarqueurs Szacherski, Pascal 21 December 2012 (has links) (PDF) Cette thèse préparée au CEA Léti, Minatec Campus, Grenoble, et à l'IMS, Bordeaux, s'inscrit dans le thème du traitement de l'information pour des données protéomiques. Nous cherchons à reconstruire des profils protéiques à partir des données issues de chaînes d'analyse complexes associant chromatographie liquide et spectrométrie de masse. Or, les signaux cibles sont des mesures de traces peptidiques qui sont de faible niveau dans un environnement très complexe et perturbé. Ceci nous a conduits à étudier des outils statistiques adaptés. Ces perturbations peuvent provenir des instruments de mesure (variabilité technique) ou des individus (variabilité biologique). Le modèle hiérarchique de l'acquisition des données permet d'inclure ces variabilités explicitement dans la modélisation probabiliste directe. La mise en place d'une méthodologie problèmes inverses permet ensuite d'estimer les grandeurs d'intérêt. Dans cette thèse, nous avons étudié trois types de problèmes inverses associés aux opérations suivantes: 1) la quantification de protéines cibles, vue comme l'estimation de la concentration protéique, 2) l'apprentissage supervisé à partir d'une cohorte multi-classe, vu comme l'estimation des paramètres des classes, et 3) la classification à partir des connaissances sur les classes, vue comme l'estimation de la classe à laquelle appartient un nouvel échantillon. La résolution des problèmes inverses se fait dans le cadre des méthodes statistiques bayésiennes, en ayant recours pour les calculs numériques aux méthodes d'échantillonnage stochastique (Monte Carlo Chaîne de Markov). problème inverse modèles hiérarchiques méthodes statistiques bayésiennes MCMC Gibbs classification apprentissage quantification protéomique protéines peptides fragments transitions spectrométrie de masse Full-MS Selected Reaction Monitoring chromatographie
16	Modèles à facteurs latents pour les études d'association écologique en génétique des populations / Latent factor models for ecological association studies in population genetics Frichot, Eric 26 September 2014 (has links) Nous introduisons un ensemble de modèles à facteurs latents dédié à la génomique du paysage et aux tests d'associations écologiques. Cela comprend des méthodes statistiques pour corriger des effets d'autocorrélation spatiale sur les cartes de composantes principales en génétique des populations (spFA), des méthodes pour estimer rapidement et efficacement les coefficients de métissage individuel à partir de matrices de génotypes de grande taille et évaluer le nombre de populations ancestrales (sNMF) et des méthodes pour identifier les polymorphismes génétiques qui montrent de fortes corrélations avec des gradients environnementaux ou avec des variables utilisées comme des indicateurs pour des pressions écologiques (LFMM). Nous avons aussi développé un ensemble de logiciels libres associés à ces méthodes, basés sur des programmes optimisés en C qui peuvent passer à l'échelle avec la dimension de très grand jeu de données, afin d'effectuer des analyses de structures de population et des cribles génomiques pour l'adaptation locale. / We introduce a set of latent factor models dedicated to landscape genomics and ecological association tests. It includes statistical methods for correcting principal component maps for effects of spatial autocorrelation (spFA); methods for estimating ancestry coefficients from large genotypic matrices and evaluating the number of ancestral populations (sNMF); and methods for identifying genetic polymorphisms that exhibit high correlation with some environmental gradient or with the variables used as proxies for ecological pressures (LFMM). We also developed a set of open source softwares associated with the methods, based on optimized C programs that can scale with the dimension of very large data sets, to run analyses of population structure and genome scans for local adaptation. Modèles à facteurs latents Adaptation locale Structure génétique des populations Séquencage haut-debit Statistiques bayésiennes Apprentissage Latent factor models Local adaptation Population genetic structure Next generation Sequencing Bayesian statistics Machine learning 610 510
17	Estimation de la loi du milieu d'une marche aléatoire en milieu aléatoire / Estimation of the environment distribution of a random walk in random environment Havet, Antoine 19 August 2019 (has links) Introduit dans les années 1960, le modèle de la marche aléatoire en milieu aléatoire i.i.d. sur les entiers relatifs (ou MAMA) a récemment été l'objet d'un regain d'intérêt dans la communauté statistique.Divers travaux se sont en particulier intéressés à la question de l'estimation de la loi du milieu à partir de l'observation d'une unique trajectoire de la MAMA.Cette thèse s'inscrit dans cette dynamique.Dans un premier temps, nous considérons le problème d'estimation d'un point de vue fréquentiste. Lorsque la MAMA est transiente à droite ou récurrente, nous construisons le premier estimateur non paramétrique de la densité de la loi du milieu et obtenons une majoration du risque associé mesuré en norme infinie.Dans un deuxième temps, nous envisageons le problème d'estimation sous un angle Bayésien. Lorsque la MAMA est transiente à droite, nous démontrons la consistance à posteriori de l'estimateur Bayésien de la loi du milieu.La principale difficulté mathématique de la thèse a été l'élaboration des outils nécessaires à la preuve du résultat de consistance bayésienne.Nous démontrons pour cela une version quantitative de l'inégalité de concentration de type Mac Diarmid pour chaînes de Markov.Nous étudions également le temps de retour en 0 d'un processus de branchement en milieu aléatoire avec immigration. Nous montrons l'existence d'un moment exponentiel fini uniformément valable sur une classe de processus de branchement en milieu aléatoire. Le processus de branchement en milieu aléatoire constituant une chaîne de Markov, ce résultat permet alors d'expliciter la dépendance des constantes de l'inégalité de concentration en fonction des caractéristiques de ce processus. / Introduced in the 1960s, the model of random walk in i.i.d. environment on integers (or RWRE) raised only recently interest in the statistical community. Various works have in particular focused on the estimation of the environment distribution from a single trajectory of the RWRE.This thesis extends the advances made in those works and offers new approaches to the problem.First, we consider the estimation problem from a frequentist point of view. When the RWRE is transient to the right or recurrent, we build the first non-parametric estimator of the density of the environment distribution and obtain an upper-bound of the associated risk in infinite norm.Then, we consider the estimation problem from a Bayesian perspective. When the RWRE is transient to the right, we prove the posterior consistency of the Bayesian estimator of the environment distribution.The main difficulty of the thesis was to develop the tools necessary to the proof of Bayesian consistency.For this purpose, we demonstrate a quantitative version of a Mac Diarmid's type concentration inequality for Markov chains.We also study the return time to 0 of a branching process with immigration in random environment (or BPIRE). We show the existence of a finite exponential moment uniformly valid on a class of BPIRE. The BPIRE being a Markov chain, this result enables then to make explicit the dependence of the constants of the concentration inequality with respect to the characteristics of the BPIRE. Milieu aléatoire Chaînes de Markov Statistiques bayésiennes Estimation non-Paramétrique de loi Problème inverse non-Linéaire Random environment Markov chains Bayesian statistics Non-Parametric estimation Concentration for Markov chains Non-Linear inverse problems 519.5
18	Reconstruction de profils protéiques pour la recherche de biomarqueurs / Reconstruction of proteomic profiles for biomarker discovery Szacherski, Pascal 21 December 2012 (has links) Cette thèse préparée au CEA Leti, Minatec Campus, Grenoble, et à l’IMS, Bordeaux, s’inscrit dans le thème du traitement de l’information pour des données protéomiques. Nous cherchons à reconstruire des profils protéiques à partir des données issues de chaînes d’analyse complexes associant chromatographie liquide et spectrométrie de masse. Or, les signaux cibles sont des mesures de traces peptidiques qui sont de faible niveau dans un environnement très complexe et perturbé. Ceci nous a conduits à étudier des outils statistiques adaptés. Ces perturbations peuvent provenir des instruments de mesure (variabilité technique) ou des individus (variabilité biologique). Le modèle hiérarchique de l’acquisition des données permet d’inclure ces variabilités explicitement dans la modélisation probabiliste directe. La mise en place d’une méthodologie problèmes inverses permet ensuite d’estimer les grandeurs d’intérêt. Dans cette thèse, nous avons étudié trois types de problèmes inverses associés aux opérations suivantes: 1. la quantification de protéines cibles, vue comme l’estimation de la concentration protéique, 2. l’apprentissage supervisé à partir d’une cohorte multi-classe, vu comme l’estimation des paramètres des classes, et 3. la classification à partir des connaissances sur les classes, vue comme l’estimation de la classe à laquelle appartient un nouvel échantillon.La résolution des problèmes inverses se fait dans le cadre des méthodes statistiques bayésiennes, en ayant recours pour les calculs numériques aux méthodes d’échantillonnage stochastique (Monte Carlo Chaîne de Markov). / This thesis has been prepared at the CEA Leti, Minatec Campus, (Grenoble, France) and the IMS (Bordeaux, France) in the context of information and signal processing of proteomic data. The aim is to reconstruct the proteomic profile from the data provided by complex analytical workflow combining a spectrometer and a chromatograph. The signals are measurements of peptide traces which have low amplitude within a complex and noisy background. Therefore, adapted statistical signal processing methods are required. The uncertainty can be of technical nature (instruments, measurements) or of biological nature (individuals, “patients”). A hierarchical model, describing the forward problem of data acquisition, allows for includingexplicitly those variability sources within the probabilistic model. The use of the inverse problem methodology, finally, leads us to the estimation of the parameters of interest. In this thesis, we have studied three types of inverse problems for the following applications:1. quantification of targeted proteins, seen as estimation of the protein concentration,2. supervised training from a labelled cohort, seen as estimation of distribution parameters for each class,3. classification given the knowledge about the classes, seen as estimation of the class a biological sample belongs to.We solve these inverse problems within a Bayesian framework, resorting to stochastic sampling methods (Monte Carlo Markov Chain) for computation. Problème inverse Modèles hiérarchiques Méthodes statistiques bayésiennes Mcmc Gibbs Classification Apprentissage Quantification Protéomique Protéines Peptides Fragments Transitions Spectrométrie de masse Full-MS Selected Reaction Monitoring Chromatographie Inverse problem Hierarchical models Bayesian statistical methods Mcmc Gibbs Classification Statistical learning Quantification Proteomics Proteins Peptides Fragments Transitions Mass-spectrometry Full-MS Selected Reaction Monitoring Chromatography
19	Approximation de lois impropres et applications / Approximation of improper priors and applications Bioche, Christèle 27 November 2015 (has links) Le but de cette thèse est d’étudier l’approximation d’a priori impropres par des suites d’a priori propres. Nous définissons un mode de convergence sur les mesures de Radon strictement positives pour lequel une suite de mesures de probabilité peut admettre une mesure impropre pour limite. Ce mode de convergence, que nous appelons convergence q-vague, est indépendant du modèle statistique. Il permet de comprendre l’origine du paradoxe de Jeffreys-Lindley. Ensuite, nous nous intéressons à l’estimation de la taille d’une population. Nous considérons le modèle du removal sampling. Nous établissons des conditions nécessaires et suffisantes sur un certain type d’a priori pour obtenir des estimateurs a posteriori bien définis. Enfin, nous montrons à l’aide de la convergence q-vague, que l’utilisation d’a priori vagues n’est pas adaptée car les estimateurs obtenus montrent une grande dépendance aux hyperparamètres. / The purpose of this thesis is to study the approximation of improper priors by proper priors. We define a convergence mode on the positive Radon measures for which a sequence of probability measures could converge to an improper limiting measure. This convergence mode, called q-vague convergence, is independant from the statistical model. It explains the origin of the Jeffreys-Lindley paradox. Then, we focus on the estimation of the size of a population. We consider the removal sampling model. We give necessary and sufficient conditions on the hyperparameters in order to have proper posterior distributions and well define estimate of abundance. In the light of the q-vague convergence, we show that the use of vague priors is not appropriate in removal sampling since the estimates obtained depend crucially on hyperparameters. A priori conjugués A priori de référence A priori impropres A priori non-informatifs A priori vagues Convergence d’a priori Convergence logarithmique Paradoxe de Jeffreys-Lindley Removal sampling Statistiques bayésiennes Bayesian statistic Conjugate prior Convergence of priors Improper prior Jeffreys-Lindley paradox Logarithmic convergence Noninformative prior Reference prior Removal sampling Vague prior

Search results