Spelling suggestions: "subject:"statistique nonparamétrique"" "subject:"statistique nonparamétriques""
11 |
Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de rupturesCelisse, Alain 09 December 2008 (has links) (PDF)
L'objet de cette thèse est l'étude d'un certain type d'algorithmes de rééchantillonnage regroupés sous le nom de validation-croisée, et plus particulièrement parmi eux, du leave-p-out. Très utilisés en pratique, ces algorithmes sont encore mal compris d'un point de vue théorique, notamment sur un plan non-asymptotique. Notre analyse du leave-p-out s'effectue dans les cadres de l'estimation de densité et de la régression. Son objectif est de mieux comprendre la validation-croisée en fonction du cardinal $p$ de l'ensemble test dont elle dépend. D'un point de vue général, la validation-croisée est destinée à estimer le risque d'un estimateur. Dans notre cas, le leave-$p$-out n'est habituellement pas applicable en pratique, à cause d'une trop grande complexité algorithmique. Pourtant, nous parvenons à obtenir des formules closes (parfaitement calculables) de l'estimateur leave-p-out du risque, pour une large gamme d'estimateurs très employés. Nous envisageons le problème de la sélection de modèle par validation-croisée sous deux aspects. L'un repose sur l'estimation optimale du risque en termes d'un compromis biais-variance, ce qui donne lieu à une procédure d'estimation de densité basée sur un choix de $p$ entièrement fondé sur les données. Une application naturelle au problème des tests multiples est envisagée. L'autre aspect est lié à l'interprétation de l'estimateur validation-croisée comme critère pénalisé. Sur le plan théorique, la qualité de la procédure leave-$p$-out est garantie par des inégalités oracle ainsi qu'un résultat d'adaptativité dans le cadre de l'estimation de densité. Le problème de la détection de ruptures est également abordé au travers d'une vaste étude de simulations, basée sur des considérations théoriques. Sur cette base, nous proposons une procédure entièrement tournée vers le rééchantillonnage, permettant de traiter le cas difficile de données hétéroscédastiques avec une complexité algorithmique raisonnable.
|
12 |
Rééchantillonnage et Sélection de modèlesArlot, Sylvain 13 December 2007 (has links) (PDF)
Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.
|
13 |
Contributions à l'estimation de quantiles extrêmes. Applications à des données environnementalesEl Methni, Jonathan 07 October 2013 (has links) (PDF)
Cette thèse s'inscrit dans le contexte de la statistique des valeurs extrêmes. Elle y apporte deux contributions principales. Dans la littérature récente en statistique des valeurs extrêmes, un modèle de queues de distributions a été introduit afin d'englober aussi bien les lois de type Pareto que les lois à queue de type Weibull. Les deux principaux types de décroissance de la fonction de survie sont ainsi modélisés. Un estimateur des quantiles extrêmes a été déduit de ce modèle mais il dépend de deux paramètres inconnus, le rendant inutile dans des situations pratiques. La première contribution de cette thèse est de proposer des estimateurs de ces paramètres. Insérer nos estimateurs dans l'estimateur des quantiles extrêmes précédent permet alors d'estimer des quantiles extrêmes pour des lois de type Pareto aussi bien que pour des lois à queue de type Weibull d'une façon unifiée. Les lois asymptotiques de nos trois nouveaux estimateurs sont établies et leur efficacité est illustrée sur des données simulées et sur un jeu de données réelles de débits de la rivière Nidd se situant dans le Yorkshire en Angleterre. La seconde contribution de cette thèse consiste à introduire et estimer une nouvelle mesure de risque appelé Conditional Tail Moment. Elle est définie comme le moment d'ordre a>0 de la loi des pertes au-delà du quantile d'ordre p appartenant à ]0,1[ de la fonction de survie. Estimer le Conditional Tail Moment permet d'estimer toutes les mesures de risque basées sur les moments conditionnels telles que la Value-at-Risk, la Conditional Tail Expectation, la Conditional Value-at-Risk, la Conditional Tail Variance ou la Conditional Tail Skewness. Ici, on s'intéresse à l'estimation de ces mesures de risque dans le cas de pertes extrêmes c'est-à-dire lorsque p tend vers 0 lorsque la taille de l'échantillon augmente. On suppose également que la loi des pertes est à queue lourde et qu'elle dépend d'une covariable. Les estimateurs proposés combinent des méthodes d'estimation non-paramétrique à noyau avec des méthodes issues de la statistique des valeurs extrêmes. Le comportement asymptotique de nos estimateurs est établi et illustré aussi bien sur des données simulées que sur des données réelles de pluviométrie provenant de la région Cévennes-Vivarais.
|
14 |
Contributions to robust methods in nonparametric frontier modelsBruffaerts, Christopher 10 September 2014 (has links)
Les modèles de frontières sont actuellement très utilisés par beaucoup d’économistes, gestionnaires ou toute personne dite « decision-maker ». Dans ces modèles de frontières, le but du chercheur consiste à attribuer à des unités de production (des firmes, des hôpitaux ou des universités par exemple) une mesure de leur efficacité en terme de production. Ces unités (dénotées DMU-Decision-Making Units) utilisent-elles à bon escient leurs « inputs » et « outputs »? Font-elles usage de tout leur potentiel dans le processus de production? <p>L’ensemble de production est l’ensemble contenant toutes les combinaisons d’inputs et d’outputs qui sont physiquement réalisables dans une économie. De cet ensemble contenant p inputs et q outputs, la notion d’efficacité d ‘une unité de production peut être définie. Celle-ci se définie comme une distance séparant le DMU de la frontière de l’ensemble de production. A partir d’un échantillon de DMUs, le but est de reconstruire cette frontière de production afin de pouvoir y évaluer l’efficacité des DMUs. A cette fin, le chercheur utilise très souvent des méthodes dites « classiques » telles que le « Data Envelopment Analysis » (DEA).<p><p>De nos jours, le statisticien bénéficie de plus en plus de données, ce qui veut également dire qu’il n’a pas l’opportunité de faire attention aux données qui font partie de sa base de données. Il se peut en effet que certaines valeurs aberrantes s’immiscent dans les jeux de données sans que nous y fassions particulièrement attention. En particulier, les modèles de frontières sont extrêmement sensibles aux valeurs aberrantes et peuvent fortement influencer l’inférence qui s’en suit. Pour éviter que certaines données n’entravent une analyse correcte, des méthodes robustes sont utilisées.<p><p>Allier le côté robuste au problème d’évaluation d’efficacité est l’objectif général de cette thèse. Le premier chapitre plante le décor en présentant la littérature existante dans ce domaine. Les quatre chapitres suivants sont organisés sous forme d’articles scientifiques. <p>Le chapitre 2 étudie les propriétés de robustesse d’un estimateur d’efficacité particulier. Cet estimateur mesure la distance entre le DMU analysé et la frontière de production le long d’un chemin hyperbolique passant par l’unité. Ce type de distance très spécifique s’avère très utile pour définir l’efficacité de type directionnel. <p>Le chapitre 3 est l’extension du premier article au cas de l’efficacité directionnelle. Ce type de distance généralise toutes les distances de type linéaires pour évaluer l’efficacité d’un DMU. En plus d’étudier les propriétés de robustesse de l’estimateur d’efficacité de type directionnel, une méthode de détection de valeurs aberrantes est présentée. Celle-ci s’avère très utile afin d’identifier les unités de production influençantes dans cet espace multidimensionnel (dimension p+q). <p>Le chapitre 4 présente les méthodes d’inférence pour les efficacités dans les modèles nonparamétriques de frontière. En particulier, les méthodes de rééchantillonnage comme le bootstrap ou le subsampling s’avère être très utiles. Dans un premier temps, cet article montre comment améliorer l’inférence sur les efficacités grâce au subsampling et prouve qu’il n’est pas suffisant d’utiliser un estimateur d’efficacité robuste dans les méthodes de rééchantillonnage pour avoir une inférence qui soit fiable. C’est pourquoi, dans un second temps, cet article propose une méthode robuste de rééchantillonnage qui est adaptée au problème d’évaluation d’efficacité. <p>Finalement, le dernier chapitre est une application empirique. Plus précisément, cette analyse s’intéresse à l ‘efficacité des universités américaines publiques et privées au niveau de leur recherche. Des méthodes classiques et robustes sont utilisées afin de montrer comment tous les outils étudiés précédemment peuvent s’appliquer en pratique. En particulier, cette étude permet d’étudier l’impact sur l’efficacité des institutions américaines de certaines variables telles que l’enseignement, l’internationalisation ou la collaboration avec le monde de l’industrie.<p> / Doctorat en sciences, Orientation statistique / info:eu-repo/semantics/nonPublished
|
15 |
Utilisation des Divergences entre Mesures en Statistique InférentielleKeziou, Amor 17 November 2003 (has links) (PDF)
Dans cette thèse, nous proposons de nouvelles méthodes d'estimation et de test par optimisation des Divergences entre mesures pour des modèles paramétriques discrets ou continus, pour des modèles à rapport de densités semi-paramétriques et pour des modèles non paramétriques restreints par des contraintes linéaires. Les méthodes proposées sont basées sur une nouvelle représentation des Divergences entre mesures. Nous montrons que les méthodes du maximum de vraisemblance paramétrique et du maximum de vraisemblance empirique sont des cas particuliers correspondant au choix de la Divergence de Kullback-Leibler modifiée, et que le choix d'autres types de Divergences mène à des estimateurs ayant des propriétés similaires voire meilleurs dans certains cas. De nombreuses perspectives concernant le problème du choix de la Divergence sont notées.
|
16 |
Apprentissage statistique multi-tâchesSolnon, Matthieu 25 November 2013 (has links) (PDF)
Cette thèse a pour objet la construction, la calibration et l'étude d'estimateurs multi-tâches, dans un cadre fréquentiste non paramétrique et non asymptotique. Nous nous plaçons dans le cadre de la régression ridge à noyau et y étendons les méthodes existantes de régression multi-tâches. La question clef est la calibration d'un paramètre de régularisation matriciel, qui encode la similarité entre les tâches. Nous proposons une méthode de calibration de ce paramètre, fondée sur l'estimation de la matrice de covariance du bruit entre les tâches. Nous donnons ensuite pour l'estimateur obtenu des garanties d'optimalité, via une inégalité oracle, puis vérifions son comportement sur des exemples simulés. Nous obtenons par ailleurs un encadrement précis des risques des estimateurs oracles multi-tâches et mono-tâche dans certains cas. Cela nous permet de dégager plusieurs situations intéressantes, où l'oracle multi-tâches est plus efficace que l'oracle mono-tâche, ou vice versa. Cela nous permet aussi de nous assurer que l'inégalité oracle force l'estimateur multi-tâches à avoir un risque inférieur à l'estimateur mono-tâche dans les cas étudiés. Le comportement des oracles multi-tâches et mono-tâche est vérifié sur des exemples simulés.
|
17 |
Contributions à l'estimation de quantiles extrêmes. Applications à des données environnementales / Some contributions to the estimation of extreme quantiles. Applications to environmental data.Methni, Jonathan El 07 October 2013 (has links)
Cette thèse s'inscrit dans le contexte de la statistique des valeurs extrêmes. Elle y apporte deux contributions principales. Dans la littérature récente en statistique des valeurs extrêmes, un modèle de queues de distributions a été introduit afin d'englober aussi bien les lois de type Pareto que les lois à queue de type Weibull. Les deux principaux types de décroissance de la fonction de survie sont ainsi modélisés. Un estimateur des quantiles extrêmes a été déduit de ce modèle mais il dépend de deux paramètres inconnus, le rendant inutile dans des situations pratiques. La première contribution de cette thèse est de proposer des estimateurs de ces paramètres. Insérer nos estimateurs dans l'estimateur des quantiles extrêmes précédent permet alors d'estimer des quantiles extrêmes pour des lois de type Pareto aussi bien que pour des lois à queue de type Weibull d'une façon unifiée. Les lois asymptotiques de nos trois nouveaux estimateurs sont établies et leur efficacité est illustrée sur des données simulées et sur un jeu de données réelles de débits de la rivière Nidd se situant dans le Yorkshire en Angleterre. La seconde contribution de cette thèse consiste à introduire et estimer une nouvelle mesure de risque appelé Conditional Tail Moment. Elle est définie comme le moment d'ordre a>0 de la loi des pertes au-delà du quantile d'ordre p appartenant à ]0,1[ de la fonction de survie. Estimer le Conditional Tail Moment permet d'estimer toutes les mesures de risque basées sur les moments conditionnels telles que la Value-at-Risk, la Conditional Tail Expectation, la Conditional Value-at-Risk, la Conditional Tail Variance ou la Conditional Tail Skewness. Ici, on s'intéresse à l'estimation de ces mesures de risque dans le cas de pertes extrêmes c'est-à-dire lorsque p tend vers 0 lorsque la taille de l'échantillon augmente. On suppose également que la loi des pertes est à queue lourde et qu'elle dépend d'une covariable. Les estimateurs proposés combinent des méthodes d'estimation non-paramétrique à noyau avec des méthodes issues de la statistique des valeurs extrêmes. Le comportement asymptotique de nos estimateurs est établi et illustré aussi bien sur des données simulées que sur des données réelles de pluviométrie provenant de la région Cévennes-Vivarais. / This thesis can be viewed within the context of extreme value statistics. It provides two main contributions to this subject area. In the recent literature on extreme value statistics, a model on tail distributions which encompasses Pareto-type distributions as well as Weibull tail-distributions has been introduced. The two main types of decreasing of the survival function are thus modeled. An estimator of extreme quantiles has been deduced from this model, but it depends on two unknown parameters, making it useless in practical situations. The first contribution of this thesis is to propose estimators of these parameters. Plugging our estimators in the previous extreme quantiles estimator allows us to estimate extreme quantiles from Pareto-type and Weibull tail-distributions in an unified way. The asymptotic distributions of our three new estimators are established and their efficiency is illustrated on a simulation study and on a real data set of exceedances of the Nidd river in the Yorkshire (England). The second contribution of this thesis is the introduction and the estimation of a new risk measure, the so-called Conditional Tail Moment. It is defined as the moment of order a>0 of the loss distribution above the quantile of order p in (0,1) of the survival function. Estimating the Conditional Tail Moment permits to estimate all risk measures based on conditional moments such as the Value-at-Risk, the Conditional Tail Expectation, the Conditional Value-at-Risk, the Conditional Tail Variance or the Conditional Tail Skewness. Here, we focus on the estimation of these risk measures in case of extreme losses i.e. when p converges to 0 when the size of the sample increases. It is moreover assumed that the loss distribution is heavy-tailed and depends on a covariate. The estimation method thus combines nonparametric kernel methods with extreme-value statistics. The asymptotic distribution of the estimators is established and their finite sample behavior is illustrated both on simulated data and on a real data set of daily rainfalls in the Cévennes-Vivarais region (France).
|
18 |
Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieurCissé, Ismaëlh Ahmed 20 April 2018 (has links)
Le dynamisme du secteur aérien canadien amène Transports Canada à réviser régulièrement ses techniques de modélisation du trafic de passagers afin d’améliorer la performance prédictive de ses modèles. Ce travail explore différentes versions d’un modèle PODM (Passanger Origin-Destination Model) que Transports Canada utilise pour prévoir le trafic de passagers entre une origine et une destination à l’intérieur du Canada avec des données de panel (i.e. longitudinales et transversales). Deux formes paramétriques (log-linéaire et Box-Cox) sont estimées dans leurs versions empilées, avec des effets fixes/aléatoires et avec des coefficients individuels variables (fixes/aléatoires). Nous proposons également des estimations non paramétriques à noyaux pour explorer les non-linéarités qui caractérisent la relation entre le nombre de passagers par couple origine-destination et le prix du billet, le PIB des zones d’origine et de destination, la durée en voiture du trajet et la fréquence des vols. L’hypothèse d’empilement des données et les formes fonctionnelles postulées se révèlent statistiquement inadéquates. La prise en compte de l’hétérogénéité des trajets et des effets temporels par l’inclusion d’effets fixes/aléatoires dans les modèles paramétriques est également rejetée par nos tests. Les modèles à coefficients variables individuels et les estimations non paramétriques se révèlent les méthodes les plus pertinentes pour capturer l’hétérogénéité entre trajets, les chocs temporels ou les non-linéarités présentes dans les relations d’intérêt. Mots clés : Box-Cox, transport aérien, trafic de passagers, origine-destination, Transports Canada, non paramétrique, panels.
|
19 |
Analyse statistique des modèles de croissance-fragmentation / Statistical analysis of growth-fragmentation modelsOlivier, Adelaïde 27 November 2015 (has links)
Cette étude théorique est pensée en lien étroit avec un champ d'application : il s'agit de modéliser la croissance d'une population de cellules qui se divisent selon un taux de division inconnu, fonction d’une variable dite structurante – l’âge et la taille des cellules étant les deux exemples paradigmatiques étudiés. Le champ mathématique afférent se situe à l'interface de la statistique des processus, de l’estimation non-paramétrique et de l’analyse des équations aux dérivées partielles. Les trois objectifs de ce travail sont les suivants : reconstruire le taux de division (fonction de l’âge ou de la taille) pour différents schémas d’observation (en temps généalogique ou en temps continu) ; étudier la transmission d'un trait biologique général d'une cellule à une autre et étudier le trait d’une cellule typique ; comparer la croissance de différentes populations de cellules à travers le paramètre de Malthus (après introduction de variabilité dans le taux de croissance par exemple). / This work is concerned with growth-fragmentation models, implemented for investigating the growth of a population of cells which divide according to an unknown splitting rate, depending on a structuring variable – age and size being the two paradigmatic examples. The mathematical framework includes statistics of processes, nonparametric estimations and analysis of partial differential equations. The three objectives of this work are the following : get a nonparametric estimate of the division rate (as a function of age or size) for different observation schemes (genealogical or continuous) ; to study the transmission of a biological feature from one cell to an other and study the feature of one typical cell ; to compare different populations of cells through their Malthus parameter, which governs the global growth (when introducing variability in the growth rate among cells for instance).
|
20 |
Contribution à la statistique spatiale et l'analyse de données fonctionnelles / Contribution to spatial statistics and functional data analysisAhmed, Mohamed Salem 12 December 2017 (has links)
Ce mémoire de thèse porte sur la statistique inférentielle des données spatiales et/ou fonctionnelles. En effet, nous nous sommes intéressés à l’estimation de paramètres inconnus de certains modèles à partir d’échantillons obtenus par un processus d’échantillonnage aléatoire ou non (stratifié), composés de variables indépendantes ou spatialement dépendantes.La spécificité des méthodes proposées réside dans le fait qu’elles tiennent compte de la nature de l’échantillon étudié (échantillon stratifié ou composé de données spatiales dépendantes).Tout d’abord, nous étudions des données à valeurs dans un espace de dimension infinie ou dites ”données fonctionnelles”. Dans un premier temps, nous étudions les modèles de choix binaires fonctionnels dans un contexte d’échantillonnage par stratification endogène (échantillonnage Cas-Témoin ou échantillonnage basé sur le choix). La spécificité de cette étude réside sur le fait que la méthode proposée prend en considération le schéma d’échantillonnage. Nous décrivons une fonction de vraisemblance conditionnelle sous l’échantillonnage considérée et une stratégie de réduction de dimension afin d’introduire une estimation du modèle par vraisemblance conditionnelle. Nous étudions les propriétés asymptotiques des estimateurs proposées ainsi que leurs applications à des données simulées et réelles. Nous nous sommes ensuite intéressés à un modèle linéaire fonctionnel spatial auto-régressif. La particularité du modèle réside dans la nature fonctionnelle de la variable explicative et la structure de la dépendance spatiale des variables de l’échantillon considéré. La procédure d’estimation que nous proposons consiste à réduire la dimension infinie de la variable explicative fonctionnelle et à maximiser une quasi-vraisemblance associée au modèle. Nous établissons la consistance, la normalité asymptotique et les performances numériques des estimateurs proposés.Dans la deuxième partie du mémoire, nous abordons des problèmes de régression et prédiction de variables dépendantes à valeurs réelles. Nous commençons par généraliser la méthode de k-plus proches voisins (k-nearest neighbors; k-NN) afin de prédire un processus spatial en des sites non-observés, en présence de co-variables spatiaux. La spécificité du prédicteur proposé est qu’il tient compte d’une hétérogénéité au niveau de la co-variable utilisée. Nous établissons la convergence presque complète avec vitesse du prédicteur et donnons des résultats numériques à l’aide de données simulées et environnementales.Nous généralisons ensuite le modèle probit partiellement linéaire pour données indépendantes à des données spatiales. Nous utilisons un processus spatial linéaire pour modéliser les perturbations du processus considéré, permettant ainsi plus de flexibilité et d’englober plusieurs types de dépendances spatiales. Nous proposons une approche d’estimation semi paramétrique basée sur une vraisemblance pondérée et la méthode des moments généralisées et en étudions les propriétés asymptotiques et performances numériques. Une étude sur la détection des facteurs de risque de cancer VADS (voies aéro-digestives supérieures)dans la région Nord de France à l’aide de modèles spatiaux à choix binaire termine notre contribution. / This thesis is about statistical inference for spatial and/or functional data. Indeed, weare interested in estimation of unknown parameters of some models from random or nonrandom(stratified) samples composed of independent or spatially dependent variables.The specificity of the proposed methods lies in the fact that they take into considerationthe considered sample nature (stratified or spatial sample).We begin by studying data valued in a space of infinite dimension or so-called ”functionaldata”. First, we study a functional binary choice model explored in a case-controlor choice-based sample design context. The specificity of this study is that the proposedmethod takes into account the sampling scheme. We describe a conditional likelihoodfunction under the sampling distribution and a reduction of dimension strategy to definea feasible conditional maximum likelihood estimator of the model. Asymptotic propertiesof the proposed estimates as well as their application to simulated and real data are given.Secondly, we explore a functional linear autoregressive spatial model whose particularityis on the functional nature of the explanatory variable and the structure of the spatialdependence. The estimation procedure consists of reducing the infinite dimension of thefunctional variable and maximizing a quasi-likelihood function. We establish the consistencyand asymptotic normality of the estimator. The usefulness of the methodology isillustrated via simulations and an application to some real data.In the second part of the thesis, we address some estimation and prediction problemsof real random spatial variables. We start by generalizing the k-nearest neighbors method,namely k-NN, to predict a spatial process at non-observed locations using some covariates.The specificity of the proposed k-NN predictor lies in the fact that it is flexible and allowsa number of heterogeneity in the covariate. We establish the almost complete convergencewith rates of the spatial predictor whose performance is ensured by an application oversimulated and environmental data. In addition, we generalize the partially linear probitmodel of independent data to the spatial case. We use a linear process for disturbancesallowing various spatial dependencies and propose a semiparametric estimation approachbased on weighted likelihood and generalized method of moments methods. We establishthe consistency and asymptotic distribution of the proposed estimators and investigate thefinite sample performance of the estimators on simulated data. We end by an applicationof spatial binary choice models to identify UADT (Upper aerodigestive tract) cancer riskfactors in the north region of France which displays the highest rates of such cancerincidence and mortality of the country.
|
Page generated in 0.1216 seconds