Global ETD Search

21	Modèles additifs parcimonieux Avalos, Marta 21 December 2004 (has links) (PDF) De nombreux algorithmes d'estimation fonctionnelle existent pour l'apprentissage statistique supervisé. Cependant, ils ont pour la plupart été développés dans le but de fournir des estimateurs précis, sans considérer l'interprétabilité de la solution. Les modèles additifs permettent d'expliquer les prédictions simplement, en ne faisant intervenir qu'une variable explicative à la fois, mais ils sont difficiles à mettre en ouvre. Cette thèse est consacrée au développement d'un algorithme d'estimation des modèles additifs. D'une part, leur utilisation y est simplifiée, car le réglage de la complexité est en grande partie intégré dans la phase d'estimation des paramètres. D'autre part, l'interprétabilité est favorisée par une tendance à éliminer automatiquement les variables les moins pertinentes. Des stratégies d'accélération des calculs sont également proposées. Une approximation du nombre effectif de paramètres permet l'utilisation de critères analytiques de sélection de modèle. Sa validité est testée par des simulations et sur des données réelles. [INFO:INFO_OH] Computer Science/Other Apprentissage statistique supervisé sélection de modèles régression non paramétrique lasso réglage automatique de la complexité modèles interprétables sélection de variables modélisation flexible
22	Sélection de modèles semi-paramétriques Liquet, benoit 11 December 2002 (has links) (PDF) Cette thèse développe des méthodes de sélection de modèles pour des applications en Biostatistique et plus particulièrement dans le domaine médical. Dans la première partie, nous proposons une méthode et un programme de correction du niveau de signification d'un test lorsque plusieurs codages d'une variable explicative sont essayés. Ce travail est réalisé dans le cadre d'une régression logistique et appliqué à des données sur la relation entre cholestérol et démence. La deuxième partie de la thèse est consacrée au développement d'un critère d'information général permettant de sélectionner un estimateur parmi une famille d'estimateurs semi-paramétriques. Le critère que nous proposons est basé sur l'estimation par bootstrap de l'information de Kullback-Leibler. Nous appliquons ensuite ce critère à la modélisation de l'effet de l'amiante sur le risque de mésothéliome et nous comparons cette approche à la méthode de sélection de Birgé-Massart. Enfin, la troisième partie présente un critère de sélection en présence des données incomplètes. Le critère proposé est une extension du critère developpé dans la deuxième partie. Ce critère, construit sur l'espérance de la log-vraisemblance observée, permet en particulier de sélectionner le paramètre de lissage dans l'estimation lisse de la fonction de risque et de choisir entre des modèles stratifiés et des modèles à risques proportionnels. Nous avons notamment appliqué cette méthode à la modélisation de l'effet du sexe et du niveau d'éducation sur le risque de démence. [MATH] Mathematics bootstrap épidémiologie information de Kullback-Leibler lissage modèles de survie multiplicité p-value régression logistique semi-paramétrique test du score validation croisée sélection de modèles
23	Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures Celisse, Alain 09 December 2008 (has links) (PDF) L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement parmi eux, du leave-p-out. Très utilisés en pratique, ces algorithmes sont encore mal compris d'un point de vue théorique, notamment sur un plan non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal $p$ de l'ensemble test dont elle dépend. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-$p$-out n'est habituellement pas applicable en pratique, à cause d'une trop grande complexité algorithmique. Pourtant, nous parvenons à obtenir des formules closes (parfaitement calculables) de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs très employés. Nous envisageons le problème de la sélection de modèle par validation-croisée sous deux aspects. L'un repose sur l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de $p$ entièrement fondé sur les données. Une application naturelle au problème des tests multiples est envisagée. L'autre aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité de la procédure leave-$p$-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité dans le cadre de l'estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Sur cette base, nous proposons une procédure entièrement tournée vers le rééchantillonnage, permettant de traiter le cas difficile de données hétéroscédastiques avec une complexité algorithmique raisonnable. [MATH] Mathematics Rééchantillonnage Validation-croisée Leave-$p$-out Statistique non-paramétrique Sélection de modèles Inégalité oracle Adaptativité Estimation de densité Détection de ruptures Tests multiples FDR
24	Inférence statistique dans les modèles mixtes à dynamique Markovienne Delattre, Maud 04 July 2012 (has links) (PDF) La première partie de cette thèse est consacrée à l'estimation par maximum de vraisemblance dans les modèles mixtes à dynamique markovienne. Nous considérons plus précisément des modèles de Markov cachés à effets mixtes et des modèles de diffusion à effets mixtes. Dans le Chapitre 2, nous combinons l'algorithme de Baum-Welch à l'algorithme SAEM pour estimer les paramètres de population dans les modèles de Markov cachés à effets mixtes. Nous proposons également des procédures spécifiques pour estimer les paramètres individuels et les séquences d' états cachées. Nous étudions les propriétés de cette nouvelle méthodologie sur des données simulées et l'appliquons sur des données réelles de nombres de crises d' épilepsie. Dans le Chapitre 3, nous proposons d'abord des modèles de diffusion à effets mixtes pour la pharmacocin étique de population. Nous en estimons les paramètres en combinant l'algorithme SAEM a un filtre de Kalman étendu. Nous étudions ensuite les propriétés asymptotiques de l'estimateur du maximum de vraisemblance dans des modèles de diffusion observés sans bruit de mesure continûment sur un intervalle de temps fixe lorsque le nombre de sujets tend vers l'infini. Le Chapitre 4 est consacré a la s élection de covariables dans des modèles mixtes généraux. Nous proposons une version du BIC adaptée au contexte de double asymptotique où le nombre de sujets et le nombre d'observations par sujet tendent vers l'infini. Nous présentons quelques simulations pour illustrer cette procédure. [STAT:AP] Statistics/Applications [STAT:ME] Statistics/Methodology maximum de vraisemblance modèles à effets mixtes modèles de Markov cachés algorithme SAEM sélection de modèles pharmacologie
25	Estimation de fonctions géométriques et déconvolution Dossal, Charles 05 December 2005 (has links) (PDF) Le travail présenté se divise en trois partie. Dans un premier temps, nous montrons que le formalisme de la sélection de modèles permet d'établir la vitesse de décroissance de l'erreur d'estimation d'un estimateur par seuillage dans une base orthogonale de bandlettes d'une image bruitée par un bruit additif gaussien pour un modèle d'images géométriquement régulières. Cette vitesse étant optimale à un facteur logarithmique près pour les fonctions de régularité C_alpha en dehors de courbes C_alpha. Dans un second temps, nous montrons qu'une approche similaire permet également d'atteindre un estimateur optimal pour l'inversion de l'opérateur de tomographie sur la même classe de fonctions. Dans une troisième partie nous analysons la déconvolution sparse spike 1D par minimisation l_1 et montrons qu'une distance minimum entre les spikes, dépendant du filtre assure la reconstruction exacte de la déconvolution par minimisation l_1 [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory Ondelettes débruitage transformée de radon minimisation l_1 parcimonie optimisation modèle géométrique Sélection de modèles
26	Evaluation des risques de crise, appliquée à la détection des conflits armés intra-étatiques Delavallade, Thomas 06 December 2007 (has links) (PDF) Dans de nombreux domaines, l'analyse rationnelle des risques fait partie intégrante du processus de décision. Il s'agit d'un outil méthodologique essentiel pour les acteurs politiques et économiques qui leur permet d'anticiper le déclenchement de crises potentielles. Dans certains secteurs d'activité les conséquences de telles crises sont parfois telles que le recours à l'analyse de risque correspond à une contrainte réglementaire imposée par le législateur. L'objectif d'une telle analyse est de parvenir à identifier les situations à risque ainsi que les principaux facteurs de risque de manière à pouvoir mettre en place les politiques de prévention adéquates.<br />Si de nombreuses cellules de veille ont été mises en place, tant au niveau de l'entreprise, qu'au niveau des institutions nationales et internationales, la quantité d'information potentiellement pertinente pour un sujet donné est parfois telle que la mise à disposition d'outils automatisant tout ou partie du traitement de cette information répond à un besoin réel, sinon à une nécessité.<br />Dans cette optique, dans cette thèse, nous proposons un système générique d'aide à l'anticipation de crises. Notre objectif est de fournir une synthèse d'une situation donnée, d'un point de vue structurel et non événementiel, via l'identification des crises potentielles ainsi que des principaux facteurs de risque associés. Le système que nous proposons repose sur l'apprentissage supervisé de règles de décision floues.<br />La qualité des données d'apprentissage étant problématique dans de nombreuses applications, nous proposons, dans nos travaux, une étude approfondie sur la chaîne de prétraitement, et en particulier sur le traitement des valeurs manquantes et sur la sélection d'attributs. Nous avons également mis l'accent sur l'évaluation et la sélection de modèles afin de pouvoir adapter les modèles de détection au problème à traiter, ainsi qu'aux besoins de l'utilisateur final.<br />La synthèse des résultats fournis par notre système étant destiné à des utilisateurs en charge de la veille stratégique, des outils d'aide au raisonnement et à la compréhension de cette synthèse sont également proposés.<br />Pour juger de l'intérêt de notre méthodologie nous détaillons son application à un problème concret : la détection des conflits armés intra-étatiques. [INFO:INFO_OH] Computer Science/Other évaluation des risques détection de crise aide à la décision arbres de décision flous substitution des valeurs manquantes sélection d'attributs sélection de modèles conflits armés intra-étatiques
27	Rééchantillonnage et Sélection de modèles Arlot, Sylvain 13 December 2007 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau. [MATH] Mathematics statistique non-paramétrique apprentissage statistique rééchantillonnage non-asymptotique validation croisée V-fold bootstrap sélection de modèles pénalisation régression non-paramétrique adaptation hétéroscédastique régions de confiance tests multiples
28	Estimation par tests Sart, Mathieu 25 November 2013 (has links) (PDF) Cette thèse porte sur l'estimation de fonctions à l'aide de tests dans trois cadres statistiques différents. Nous commençons par étudier le problème de l'estimation des intensités de processus de Poisson avec covariables. Nous démontrons un théorème général de sélection de modèles et en déduisons des bornes de risque non-asymptotiques sous des hypothèses variées sur la fonction à estimer. Nous estimons ensuite la densité de transition d'une chaîne de Markov homogène et proposons pour cela deux procédures. La première, basée sur la sélection d'estimateurs constants par morceaux, permet d'établir une inégalité de type oracle sous des hypothèses minimales sur la chaîne de Markov. Nous en déduisons des vitesses de convergence uniformes sur des boules d'espaces de Besov inhomogènes et montrons que l'estimateur est adaptatif par rapport à la régularité de la densité de transition. La performance de l'estimateur est aussi évalué en pratique grâce à des simulations numériques. La seconde procédure peut difficilement être implémenté en pratique mais permet d'obtenir un résultat général de sélection de modèles et d'en déduire des vitesses de convergence sous des hypothèses plus générales sur la densité de transition. Finalement, nous proposons un nouvel estimateur paramétrique d'une densité. Son risque est contrôlé sous des hypothèses pour lesquelles la méthode du maximum de vraisemblance peut ne pas fonctionner. Les simulations montrent que ces deux estimateurs sont très proches lorsque le modèle est vrai et suffisamment régulier. Il est cependant robuste, contrairement à l'estimateur du maximum de vraisemblance. Estimation paramétrique Chaîne de Markov Sélection de modèles Statistiques non-asymptotiques Processus de Poisson Robustesse Sélection d'estimateurs T-estimateur
29	Etude de la pertinence des paramètres stochastiques sur des modèles de Markov cachés Robles, Bernard 18 December 2013 (has links) (PDF) Le point de départ de ce travail est la thèse réalisée par Pascal Vrignat sur la modélisation de niveaux de dégradation d'un système dynamique à l'aide de Modèles de Markov Cachés (MMC), pour une application en maintenance industrielle. Quatre niveaux ont été définis : S1 pour un arrêt de production et S2 à S4 pour des dégradations graduelles. Recueillant un certain nombre d'observations sur le terrain dans divers entreprises de la région, nous avons réalisé un modèle de synthèse à base de MMC afin de simuler les différents niveaux de dégradation d'un système réel. Dans un premier temps, nous identifions la pertinence des différentes observations ou symboles utilisés dans la modélisation d'un processus industriel. Nous introduisons ainsi le filtre entropique. Ensuite, dans un but d'amélioration du modèle, nous essayons de répondre aux questions : Quel est l'échantillonnage le plus pertinent et combien de symboles sont ils nécessaires pour évaluer au mieux le modèle ? Nous étudions ensuite les caractéristiques de plusieurs modélisations possibles d'un processus industriel afin d'en déduire la meilleure architecture. Nous utilisons des critères de test comme les critères de l'entropie de Shannon, d'Akaike ainsi que des tests statistiques. Enfin, nous confrontons les résultats issus du modèle de synthèse avec ceux issus d'applications industrielles. Nous proposons un réajustement du modèle pour être plus proche de la réalité de terrain. [SPI:OTHER] Engineering Sciences/Other Modèles de Markov cachés Sélection de modèles Test statistique Entropie de Shannon Incertitudes de modélisation Maintenance prédictive
30	Estimation par tests / Estimation via testing Sart, Mathieu 25 November 2013 (has links) Cette thèse porte sur l'estimation de fonctions à l'aide de tests dans trois cadres statistiques différents. Nous commençons par étudier le problème de l'estimation des intensités de processus de Poisson avec covariables. Nous démontrons un théorème général de sélection de modèles et en déduisons des bornes de risque non-asymptotiques sous des hypothèses variées sur la fonction à estimer. Nous estimons ensuite la densité de transition d'une chaîne de Markov homogène et proposons pour cela deux procédures. La première, basée sur la sélection d'estimateurs constants par morceaux, permet d'établir une inégalité de type oracle sous des hypothèses minimales sur la chaîne de Markov. Nous en déduisons des vitesses de convergence uniformes sur des boules d'espaces de Besov inhomogènes et montrons que l'estimateur est adaptatif par rapport à la régularité de la densité de transition. La performance de l'estimateur est aussi évalué en pratique grâce à des simulations numériques. La seconde procédure peut difficilement être implémenté en pratique mais permet d'obtenir un résultat général de sélection de modèles et d'en déduire des vitesses de convergence sous des hypothèses plus générales sur la densité de transition. Finalement, nous proposons un nouvel estimateur paramétrique d'une densité. Son risque est contrôlé sous des hypothèses pour lesquelles la méthode du maximum de vraisemblance peut ne pas fonctionner. Les simulations montrent que ces deux estimateurs sont très proches lorsque le modèle est vrai et suffisamment régulier. Il est cependant robuste, contrairement à l'estimateur du maximum de vraisemblance. / This thesis deals with the estimation of functions from tests in three statistical settings. We begin by studying the problem of estimating the intensities of Poisson processes with covariates. We prove a general model selection theorem from which we derive non-asymptotic risk bounds under various assumptions on the target function. We then propose two procedures to estimate the transition density of an homogeneous Markov chain. The first one selects an estimator among a collection of piecewise constant estimators. The selected estimator is shown to satisfy an oracle-type inequality under minimal assumptions on the Markov chain which allows us to deduce uniform rates of convergence over balls of inhomogeneous Besov spaces. Besides, the estimator is adaptive with respect to the smoothness of the transition density. We also evaluate the performance of the estimator in practice by carrying out numerical simulations. The second procedure is only of theoretical interest but yields a general model selection theorem from which we derive rates of convergence under more general assumptions on the transition density. Finally, we propose a new parametric estimator of a density. We upper-bound its risk under assumptions for which the maximum likelihood method may not work. The simulations show that these two estimators are very close when the model is true and regular enough. However, contrary to the maximum likelihood estimator, this estimator is robust. Estimation paramétrique Chaîne de Markov Sélection de modèles Statistiques non-asymptotiques Processus de Poisson Robustesse Sélection d'estimateurs T-estimateur Estimator selection Markov chain Model selection Non-asymptotic statistics Poisson processes T-estimator

Search results