Global ETD Search

11	Estimation par sélection de modèle en régression hétéroscédastique Gendre, Xavier 15 June 2009 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-asymptotique et de la théorie statistique de la sélection de modèle. Son objet est la construction de procédures d'estimation de paramètres en régression hétéroscédastique. Ce cadre reçoit un intérêt croissant depuis plusieurs années dans de nombreux champs d'application. Les résultats présentés reposent principalement sur des inégalités de concentration et sont illustrés par des applications à des données simulées.<br /><br />La première partie de cette thèse consiste dans l'étude du problème d'estimation de la moyenne et de la variance d'un vecteur gaussien à coordonnées indépendantes. Nous proposons une méthode de choix de modèle basée sur un critère de vraisemblance pénalisé. Nous validons théoriquement cette approche du point de vue non-asymptotique en prouvant des majorations de type oracle du risque de Kullback de nos estimateurs et des vitesses de convergence uniforme sur les boules de Hölder.<br /><br />Un second problème que nous abordons est l'estimation de la fonction de régression dans un cadre hétéroscédastique à dépendances connues. Nous développons des procédures de sélection de modèle tant sous des hypothèses gaussiennes que sous des conditions de moment. Des inégalités oracles non-asymptotiques sont données pour nos estimateurs ainsi que des propriétés d'adaptativité. Nous appliquons en particulier ces résultats à l'estimation d'une composante dans un modèle de régression additif. [MATH] Mathematics statistique non-asymptotique sélection de modèle pénalisation inégalité oracle régression non-paramétrique hétéroscédastique modèle additif adaptativité vitesse minimax risque de Kullback
12	Modèles linéaires généralisés à effets aléatoires : contributions au choix de modèle et au modèle de mélange Martinez, Marie-José 29 September 2006 (has links) (PDF) Ce travail est consacré à l'étude des modèles linéaires généralisés à effets aléatoires (GL2M). Dans ces modèles, sous une hypothèse de distribution normale des effets aléatoires, la vraisemblance basée sur la distribution marginale du vecteur à expliquer n'est pas, en général, calculable de façon formelle. Dans la première partie de notre travail, nous revisitons différentes méthodes d'estimation non exactes par le biais d'approximations réalisées à différents niveaux selon les raisonnements. La deuxième partie est consacrée à la mise en place de critères de sélection de modèles au sein des GL2M. Nous revenons sur deux méthodes d'estimation nécessitant la construction de modèles linéarisés et nous proposons des critères basés sur la vraisemblance marginale calculée dans le modèle linéarisé obtenu à la convergence de la procédure d'estimation. La troisième et dernière partie s'inscrit dans le cadre des modèles de mélanges de GL2M. Les composants du mélange sont définis par des GL2M et traduisent différents états possibles des individus. Dans le cadre de la loi exponentielle, nous proposons une méthode d'estimation des paramètres du mélange basée sur une linéarisation spécifique à cette loi. Nous proposons ensuite une méthode plus générale puisque s'appliquant à un mélange de GL2M quelconques. Cette méthode s'appuie sur une étape de Metropolis-Hastings pour construire un algorithme de type MCEM. Les différentes méthodes développées sont testées par simulations. [MATH] Mathematics Modèles linéaires généralisés Effets aléatoires Estimation Sélection de modèle Modèle de mélange Algorithme EM Algorithme de Metropolis-Hastings
13	Approches statistiques en segmentation : application à la ré-annotation de génome Cleynen, Alice 15 November 2013 (has links) (PDF) Nous proposons de modéliser les données issues des technologies de séquençage du transcriptome (RNA-Seq) à l'aide de la loi binomiale négative, et nous construisons des modèles de segmentation adaptés à leur étude à différentes échelles biologiques, dans le contexte où ces technologies sont devenues un outil précieux pour l'annotation de génome, l'analyse de l'expression des gènes, et la détection de nouveaux transcrits. Nous développons un algorithme de segmentation rapide pour analyser des séries à l'échelle du chromosome, et nous proposons deux méthodes pour l'estimation du nombre de segments, directement lié au nombre de gènes exprimés dans la cellule, qu'ils soient précédemment annotés ou détectés à cette même occasion. L'objectif d'annotation précise des gènes, et plus particulièrement de comparaison des sites de début et fin de transcription entre individus, nous amène naturellement à nous intéresser à la comparaison des localisations de ruptures dans des séries indépendantes. Nous construisons ainsi dans un cadre de segmentation bayésienne des outils de réponse à nos questions pour lesquels nous sommes capable de fournir des mesures d'incertitude. Nous illustrons nos modèles, tous implémentés dans des packages R, sur des données RNA-Seq provenant d'expériences sur la levure, et montrons par exemple que les frontières des introns sont conservées entre conditions tandis que les débuts et fin de transcriptions sont soumis à l'épissage différentiel. Segmentation Binomiale négative Algorithmes Intervalles de crédibilité Sélection de modèle RNA-Seq
14	Approches statistiques en segmentation : application à la ré-annotation de génome / Statistical Approaches for Segmentation : Application to Genome Annotation Cleynen, Alice 15 November 2013 (has links) Nous proposons de modéliser les données issues des technologies de séquençage du transcriptome (RNA-Seq) à l'aide de la loi binomiale négative, et nous construisons des modèles de segmentation adaptés à leur étude à différentes échelles biologiques, dans le contexte où ces technologies sont devenues un outil précieux pour l'annotation de génome, l'analyse de l'expression des gènes, et la détection de nouveaux transcrits. Nous développons un algorithme de segmentation rapide pour analyser des séries à l'échelle du chromosome, et nous proposons deux méthodes pour l'estimation du nombre de segments, directement lié au nombre de gènes exprimés dans la cellule, qu'ils soient précédemment annotés ou détectés à cette même occasion. L'objectif d'annotation précise des gènes, et plus particulièrement de comparaison des sites de début et fin de transcription entre individus, nous amène naturellement à nous intéresser à la comparaison des localisations de ruptures dans des séries indépendantes. Nous construisons ainsi dans un cadre de segmentation bayésienne des outils de réponse à nos questions pour lesquels nous sommes capable de fournir des mesures d'incertitude. Nous illustrons nos modèles, tous implémentés dans des packages R, sur des données RNA-Seq provenant d'expériences sur la levure, et montrons par exemple que les frontières des introns sont conservées entre conditions tandis que les débuts et fin de transcriptions sont soumis à l'épissage différentiel. / We propose to model the output of transcriptome sequencing technologies (RNA-Seq) using the negative binomial distribution, as well as build segmentation models suited to their study at different biological scales, in the context of these technologies becoming a valuable tool for genome annotation, gene expression analysis, and new-transcript discovery. We develop a fast segmentation algorithm to analyze whole chromosomes series, and we propose two methods for estimating the number of segments, a key feature related to the number of genes expressed in the cell, should they be identified from previous experiments or discovered at this occasion. Research on precise gene annotation, and in particular comparison of transcription boundaries for individuals, naturally leads us to the statistical comparison of change-points in independent series. To address our questions, we build tools, in a Bayesian segmentation framework, for which we are able to provide uncertainty measures. We illustrate our models, all implemented in R packages, on an RNA-Seq dataset from a study on yeast, and show for instance that the intron boundaries are conserved across conditions while the beginning and end of transcripts are subject to differential splicing. Segmentation Binomiale négative Algorithmes Intervalles de crédibilité Sélection de modèle RNA-Seq Segmentation Negative binomial Algorithm Credibility intervals Model selection RNA-Seq
15	Estimation adaptative pour les modèles de Markov cachés non paramétriques / Adaptative estimation for nonparametric hidden Markov models Lehéricy, Luc 14 December 2018 (has links) Dans cette thèse, j'étudie les propriétés théoriques des modèles de Markov cachés non paramétriques. Le choix de modèles non paramétriques permet d'éviter les pertes de performance liées à un mauvais choix de paramétrisation, d'où un récent intérêt dans les applications. Dans une première partie, je m'intéresse à l'estimation du nombre d'états cachés. J'y introduis deux estimateurs consistants : le premier fondé sur un critère des moindres carrés pénalisés, le second sur une méthode spectrale. Une fois l'ordre connu, il est possible d'estimer les autres paramètres. Dans une deuxième partie, je considère deux estimateurs adaptatifs des lois d'émission, c'est-à-dire capables de s'adapter à leur régularité. Contrairement aux méthodes existantes, ces estimateurs s'adaptent à la régularité de chaque loi au lieu de s'adapter seulement à la pire régularité. Dans une troisième partie, je me place dans le cadre mal spécifié, c'est-à-dire lorsque les observations sont générées par une loi qui peut ne pas être un modèle de Markov caché. J'établis un contrôle de l'erreur de prédiction de l'estimateur du maximum de vraisemblance sous des conditions générales d'oubli et de mélange de la vraie loi. Enfin, j'introduis une variante non homogène des modèles de Markov cachés : les modèles de Markov cachés avec tendances, et montre la consistance de l'estimateur du maximum de vraisemblance. / During my PhD, I have been interested in theoretical properties of nonparametric hidden Markov models. Nonparametric models avoid the loss of performance coming from an inappropriate choice of parametrization, hence a recent interest in applications. In a first part, I have been interested in estimating the number of hidden states. I introduce two consistent estimators: the first one is based on a penalized least squares criterion, and the second one on a spectral method. Once the order is known, it is possible to estimate the other parameters. In a second part, I consider two adaptive estimators of the emission distributions. Adaptivity means that their rate of convergence adapts to the regularity of the target distribution. Contrary to existing methods, these estimators adapt to the regularity of each distribution instead of only the worst regularity. The third part is focussed on the misspecified setting, that is when the observations may not come from a hidden Markov model. I control of the prediction error of the maximum likelihood estimator when the true distribution satisfies general forgetting and mixing assumptions. Finally, I introduce a nonhomogeneous variant of hidden Markov models : hidden Markov models with trends, and show that the maximum likelihood estimators of such models is consistent. Adaptativité minimax Statistiques non paramétriques Modèles de Markov cachés Sélection de modèle Minimax adaptative estimation Nonparametric statistics Hidden Markov models Model selection
16	Fondations, méthode et applications de l'apprentissage bayésien. Dangauthier, Pierre-Charles 18 December 2007 (has links) (PDF) Le domaine de l'apprentissage automatique a pour but la création d'agents synthétiques améliorant leurs performances avec l'expérience. Pour pouvoir se perfectionner, ces agents extraient des régularités statistiques de données incertaines et mettent à jour leur modèle du monde. Les probabilités bayésiennes sont un outil rationnel pour répondre à la problématique de l'apprentissage. Cependant, comme ce problème est souvent difficile, des solutions proposant un compromis entre précision et rapidité doivent être mises en oeuvre. Ce travail présente la méthode d'apprentissage bayésien, ses fondations philosophiques et plusieurs applications innovantes. Nous nous intéressons d'abord à des questions d'apprentissage de paramètres. Dans ce cadre nous étudions deux problèmes d'analyse de données à variables cachées. Nous proposons d'abord une méthode bayésienne pour classer les joueurs d'échecs qui améliore sensiblement le système Elo. Le classement produit permet de répondre à des questions intéressantes comme celle de savoir qui fut le meilleur joueur d'échecs de tous les temps. Nous étudions aussi un système de filtrage collaboratif dont le but est de prévoir les goûts cinématographiques d'utilisateurs en fonction de leurs préférences passées. La deuxième partie de notre travail concerne l'apprentissage de modèles. D'abord nous nous intéressons à la sélection de variables pertinentes dans le cadre d'une application robotique. D'un point de vue cognitif, cette sélection permet au robot de transférer ses connaissances d'un domaine sensorimoteur vers un autre. Finalement, nous proposons une méthode permettant de découvrir automatiquement une nouvelle variable cachée afin de mieux modéliser l'environnement d'un robot. [MATH] Mathematics apprentissage bayésien probabilités subjectives modèle génératif classement<br />historique échecs filtrage collaboratif sélection de variables sélection de modèle robotique
17	Distributions d'auto-amorçage exactes ponctuelles des courbes ROC et des courbes de coûts Gadoury, David January 2009 (has links) Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal. Fonction d'efficacité de l'observateur Auto-amorçage Probabilité de couverture Sélection de modèle Courbe de coûts Receiver operating characterictics Bootstrap Coverage probabilites Model selection Cost curves
18	Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptatives / Statistical modeling for functional data : non-asymptotic approaches and adaptive methods Roche, Angelina 07 July 2014 (has links) L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire. / The main purpose of this thesis is to develop adaptive estimators for functional data.In the first part, we focus on the functional linear model and we propose a dimension selection device for projection estimators defined on both fixed and data-driven bases. The prediction error of the resulting estimators satisfies an oracle-type inequality and reaches the minimax rate of convergence. For the estimator defined on a data-driven approximation space, tools of perturbation theory are used to solve the problems related to the random nature of the collection of models. From a numerical point of view, this method of dimension selection is faster and more stable than the usual methods of cross validation.In a second part, we consider the problem of bandwidth selection for kernel estimators of the conditional cumulative distribution function when the covariate is functional. The method is inspired by the work of Goldenshluger and Lepski. The risk of the estimator is non-asymptotically upper-bounded. We also prove lower-bounds and establish that our estimator reaches the minimax convergence rate, up to an extra logarithmic term.In the last part, we propose an extension to a functional context of the response surface methodology, widely used in the industry. This work is motivated by an application to nuclear safety. Données fonctionnelles Estimateurs adaptatifs Régression Sélection de modèle Méthode de Goldenshluger-Lepski Méthode des surfaces de réponse Functional data analysis Adaptive estimators Regression Model selection Goldenshluger and Lepski's method Response surface methodology
19	Inégalités d'oracle et mélanges / Oracle inequalities and mixtures Montuelle, Lucie 04 December 2014 (has links) Ce manuscrit se concentre sur deux problèmes d'estimation de fonction. Pour chacun, une garantie non asymptotique des performances de l'estimateur proposé est fournie par une inégalité d'oracle. Pour l'estimation de densité conditionnelle, des mélanges de régressions gaussiennes à poids exponentiels dépendant de la covariable sont utilisés. Le principe de sélection de modèle par maximum de vraisemblance pénalisé est appliqué et une condition sur la pénalité est établie. Celle-ci est satisfaite pour une pénalité proportionnelle à la dimension du modèle. Cette procédure s'accompagne d'un algorithme mêlant EM et algorithme de Newton, éprouvé sur données synthétiques et réelles. Dans le cadre de la régression à bruit sous-gaussien, l'agrégation à poids exponentiels d'estimateurs linéaires permet d'obtenir une inégalité d'oracle en déviation, au moyen de techniques PAC-bayésiennes. Le principal avantage de l'estimateur proposé est d'être aisément calculable. De plus, la prise en compte de la norme infinie de la fonction de régression permet d'établir un continuum entre inégalité exacte et inexacte. / This manuscript focuses on two functional estimation problems. A non asymptotic guarantee of the proposed estimator’s performances is provided for each problem through an oracle inequality.In the conditional density estimation setting, mixtures of Gaussian regressions with exponential weights depending on the covariate are used. Model selection principle through penalized maximum likelihood estimation is applied and a condition on the penalty is derived. If the chosen penalty is proportional to the model dimension, then the condition is satisfied. This procedure is accompanied by an algorithm mixing EM and Newton algorithm, tested on synthetic and real data sets. In the regression with sub-Gaussian noise framework, aggregating linear estimators using exponential weights allows to obtain an oracle inequality in deviation,thanks to pac-bayesian technics. The main advantage of the proposed estimator is to be easily calculable. Furthermore, taking the infinity norm of the regression function into account allows to establish a continuum between sharp and weak oracle inequalities. Inégalité d'oracle Sélection de modèle Pénalisation Poids exponentiels Apprentissage Agrégation Modèles de mélange Maximum de vraisemblance Oracle inequality Model selection Penalization Exponential weight Learning Aggregation Mixture model Maximum likelihood
20	Estimation adaptative par sélection de partitions en rectangles dyadiques Akakpo, Nathalie 07 December 2009 (has links) (PDF) Dans cette thèse, nous étudions divers problèmes d'estimation par sélection d'estimateurs constants ou polynomiaux par morceaux sur des partitions en intervalles ou rectangles dyadiques, en utilisant un critère de type moindres carrés pénalisé adéquat. Nos travaux portent sur trois sujets différents. Nous nous intéressons tout d'abord à l'estimation d'une loi de probabilité discrète, ainsi qu'à une application à la détection de ruptures multiples. Puis, nous proposons un cadre unifié pour l'estimation fonctionnelle basée sur des données éventuellement censurées. Enfin, nous étudions simultanément l'estimation de densité multivariée et de densité conditionnelle pour des données dépendantes. Le choix de la collection de partitions en intervalles ou rectangles dyadiques s'avère intéressant aussi bien en théorie qu'en pratique. En effet, notre estimateur pénalisé vérifie dans chacun des cadres une inégalité de type oracle non-asymptotique, pour une pénalité bien choisie. Il atteint également la vitesse minimax à constante près sur de nombreuses classes de fonctions, dont la régularité est éventuellement à la fois non homogène et non isotrope. Cette propriété, qui à notre connaissance n'a été démontrée pour aucun autre estimateur, repose sur des résultats d'approximation dont les preuves sont inspirées d'un article de DeVore et Yu. Par ailleurs, le calcul de notre estimateur dans un cadre univarié est basé sur un algorithme de plus court chemin dont la complexité est seulement linéaire en la taille de l'échantillon. [MATH] Mathematics sélection de modèle histogramme inégalité d'oracle adaptation au sens minimax approximation non-linéaire régularité non homogène espace de Besov fonctions à α-variations bornées détection de ruptures données censurées données dépendantes

Search results