Global ETD Search

11	Approche non-paramétrique par noyaux associés discrets des données de dénombrement Senga Kiessé, Tristan 15 October 2008 (has links) (PDF) Nous introduisons une nouvelle approche non-paramétrique, par noyaux associés discrets, pour les données de dénombrement. Pour cela, nous définissons la notion de noyaux associés discrets à partir d'une loi de probabilité discrète donnée et nous étudions leurs propriétés. De là, nous construisons l'estimateur à noyau discret lequel est l'analogue de certains estimateurs à noyau continu de cette dernière décennie. Nous examinons ses propriétés fondamentales ; en particulier, nous montrons la convergence ponctuelle en moyenne quadratique de l'estimateur. Le choix de fenêtre du lissage discret s'effectue essentiellement par validation croisée et excès de zéros. Nous étudions également le comportement des lois classiques de dénombrement comme noyau associé, par exemple, Poisson, binomiale et binomiale négative. Ainsi, il s'est révélé nécessaire de construire une nouvelle famille de lois discrètes dites triangulaires pour servir de noyaux associés symétriques. Cette méthode des noyaux associés discrets est utilisée dans l'estimation semi-paramétrique des distributions de données de dénombrement, ainsi que pour la régression non-paramétrique sur une variable explicative de dénombrement. Tout au long de ce travail, nous illustrons les résultats à travers des simulations et des jeux de données réelles. Dans le cas d'échantillons de tailles petites et modérées, l'importance et les très bonnes performances des noyaux associés discrets sont mises en évidence, en comparaison avec le noyau du type Dirac et parfois les noyaux continus. [MATH] Mathematics Biais de bordure différence finie estimation non-paramétrique noyau variable loi discrète loi triangulaire discrète noyau asymétrique proportion de zéros régression non-paramétrique risque quadratique intégré validation croisée
12	Contributions à la prévision statistique Faugeras, Olivier P. 28 November 2008 (has links) (PDF) Dans une première partie, on s'intéresse à la prévision d'une valeur future, non observée, d'un processus stochastique dont la loi est indexée par un paramètre inconnu, à partir des données passées de sa trajectoire. Plus précisément, on montre sur un modèle additif de régression comment on peut découpler, par un dispositif de séparation temporelle, le problème d'estimation du paramètre inconnu de celui du calcul du prédicteur probabiliste, pour obtenir un prédicteur statistique dont on étudie les propriétés de convergence asymptotiques.<br>Dans une seconde partie, on cherche à prédire, au sens d'expliquer, une variable Y par une variable X. Pour cela, on s'intéresse à l'estimation de la densité conditionnelle de Y sachant X = x, à partir d'un n-échantillon de couples de variables (X_i; Y_i). On propose un nouvel estimateur de forme produit, basé sur la transformation de quantile et la fonction de copule, dont on étudie les propriétés de convergence et de normalité asymptotiques. On compare l'estimateur proposé aux estimateurs concurrents de forme quotient et on en propose des modifications et des extensions. Enfin, on étudie les propriétés des prédicteurs associés à cet estimateur, à savoir le mode, la moyenne et les ensembles de niveau conditionnels. Des applications, liens et perspectives sont aussi esquissées. [MATH] Mathematics Prévision Statistique Processus Mélangeants Estimation non-paramétrique <br />Densité conditionnelle Copules Transformation de quantile Régression non-paramétrique Mode conditionnel Ensemble de niveaux conditionnels
13	Régression non-paramétrique et information spatialement inhomogène Gaiffas, Stéphane 08 December 2005 (has links) (PDF) Nous étudions l'estimation non-paramétrique d'un signal à partir de<br />données bruitées spatialement inhomogènes (données dont la quantité<br />varie sur le domaine d'estimation). Le prototype d'étude est le modèle<br />de régression avec design aléatoire. Notre objectif est de comprendre<br />les conséquences du caractère inhomogène des données sur le problème<br />d'estimation dans le cadre d'étude minimax. Nous adoptons deux points<br />de vue : local et global. Du point de vue local, nous nous intéressons<br />à l'estimation de la régression en un point avec peu ou beaucoup de<br />données. En traduisant cette propriété par différentes hypothèses sur<br />le comportement local de la densité du design, nous obtenons toute une<br />gamme de nouvelles vitesses minimax ponctuelles, comprenant des<br />vitesses très lentes et des vitesses très rapides. Puis, nous<br />construisons une procédure adaptative en la régularité de la<br />régression, et nous montrons qu'elle converge avec la vitesse minimax<br />à laquelle s'ajoute un coût minimal pour l'adaptation locale. Du point<br />de vue global, nous nous intéressons à l'estimation de la régression<br />en perte uniforme. Nous proposons des estimateurs qui convergent avec<br />des vitesses dépendantes de l'espace, lesquelles rendent compte du<br />caractère inhomogène de l'information dans le modèle. Nous montrons<br />l'optimalité spatiale de ces vitesses, qui consiste en un renforcement<br />de la borne inférieure minimax classique pour la perte uniforme. Nous<br />construisons notamment un estimateur asymptotiquement exact sur une<br />boule de Hölder de régularité quelconque, ainsi qu'une bande de<br />confiance dont la largeur s'adapte à la quantité locale de données. [MATH] Mathematics Régression non-paramétrique Design aléatoire Design dégénéré Risque minimax Estimation adaptative Estimation asymptotiquement exacte Méthode de Lepski Estimation à noyaux Polynômes locaux Optimal recovery
14	Modèles additifs parcimonieux Avalos, Marta 21 December 2004 (has links) (PDF) De nombreux algorithmes d'estimation fonctionnelle existent pour l'apprentissage statistique supervisé. Cependant, ils ont pour la plupart été développés dans le but de fournir des estimateurs précis, sans considérer l'interprétabilité de la solution. Les modèles additifs permettent d'expliquer les prédictions simplement, en ne faisant intervenir qu'une variable explicative à la fois, mais ils sont difficiles à mettre en ouvre. Cette thèse est consacrée au développement d'un algorithme d'estimation des modèles additifs. D'une part, leur utilisation y est simplifiée, car le réglage de la complexité est en grande partie intégré dans la phase d'estimation des paramètres. D'autre part, l'interprétabilité est favorisée par une tendance à éliminer automatiquement les variables les moins pertinentes. Des stratégies d'accélération des calculs sont également proposées. Une approximation du nombre effectif de paramètres permet l'utilisation de critères analytiques de sélection de modèle. Sa validité est testée par des simulations et sur des données réelles. [INFO:INFO_OH] Computer Science/Other Apprentissage statistique supervisé sélection de modèles régression non paramétrique lasso réglage automatique de la complexité modèles interprétables sélection de variables modélisation flexible
15	Estimation non paramétrique pour les processus markoviens déterministes par morceaux Azaïs, Romain 01 July 2013 (has links) (PDF) M.H.A. Davis a introduit les processus markoviens déterministes par morceaux (PDMP) comme une classe générale de modèles stochastiques non diffusifs, donnant lieu à des trajectoires déterministes ponctuées, à des instants aléatoires, par des sauts aléatoires. Dans cette thèse, nous présentons et analysons des estimateurs non paramétriques des lois conditionnelles des deux aléas intervenant dans la dynamique de tels processus. Plus précisément, dans le cadre d'une observation en temps long de la trajectoire d'un PDMP, nous présentons des estimateurs de la densité conditionnelle des temps inter-sauts et du noyau de Markov qui gouverne la loi des sauts. Nous établissons des résultats de convergence pour nos estimateurs. Des simulations numériques pour différentes applications illustrent nos résultats. Nous proposons également un estimateur du taux de saut pour des processus de renouvellement, ainsi qu'une méthode d'approximation numérique pour un modèle de régression semi-paramétrique. Chaînes de Markov ergodiques Estimation non paramétrique Estimation de taux de saut Estimation de noyau de transition Régression semi-paramétrique
16	Rééchantillonnage et Sélection de modèles Arlot, Sylvain 13 December 2007 (has links) (PDF) Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique. <br /><br />La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.<br /><br />Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau. [MATH] Mathematics statistique non-paramétrique apprentissage statistique rééchantillonnage non-asymptotique validation croisée V-fold bootstrap sélection de modèles pénalisation régression non-paramétrique adaptation hétéroscédastique régions de confiance tests multiples
17	Quelques contributions à la sélection de variables et aux tests non-paramétriques Comminges, Laëtitia, Comminges, Laëtitia 12 December 2012 (has links) (PDF) Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ \|Q[f]\|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime " régulier " et un régime " irrégulier ". On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités Sélection de variables Régression non paramétrique Tests d'hypothèses non paramétriques Asymptotiques exactes Taux de séparation Approche minimax
18	Analyse de données fonctionnelles en télédétection hyperspectrale : application à l'étude des paysages agri-forestiers / Functional data analysis in hyperspectral remote sensing : application to the study of agri-forest landscape Zullo, Anthony 19 September 2016 (has links) En imagerie hyperspectrale, chaque pixel est associé à un spectre provenant de la réflectance observée en d points de mesure (i.e., longueurs d'onde). On se retrouve souvent dans une situation où la taille d'échantillon n est relativement faible devant le nombre d de variables. Ce phénomène appelé "fléau de la dimension" est bien connu en statistique multivariée. Plus d augmente devant n, plus les performances des méthodologies statistiques standard se dégradent. Les spectres de réflectance intègrent dans leur dimension spectrale un continuum qui leur confère une nature fonctionnelle. Un hyperspectre peut être modélisé par une fonction univariée de la longueur d'onde, sa représentation produisant une courbe. L'utilisation de méthodes fonctionnelles sur de telles données permet de prendre en compte des aspects fonctionnels tels que la continuité, l'ordre des bandes spectrales, et de s'affranchir des fortes corrélations liées à la finesse de la grille de discrétisation. L'objectif principal de cette thèse est d'évaluer la pertinence de l'approche fonctionnelle dans le domaine de la télédétection hyperspectrale lors de l'analyse statistique. Nous nous sommes focalisés sur le modèle non-paramétrique de régression fonctionnelle, couvrant la classification supervisée. Dans un premier temps, l'approche fonctionnelle a été comparée avec des méthodes multivariées usuellement employées en télédétection. L'approche fonctionnelle surpasse les méthodes multivariées dans des situations délicates où l'on dispose d'une petite taille d'échantillon d'apprentissage combinée à des classes relativement homogènes (c'est-à-dire difficiles à discriminer). Dans un second temps, une alternative à l'approche fonctionnelle pour s'affranchir du fléau de la dimension a été développée à l'aide d'un modèle parcimonieux. Ce dernier permet, à travers la sélection d'un petit nombre de points de mesure, de réduire la dimensionnalité du problème tout en augmentant l'interprétabilité des résultats. Dans un troisième temps, nous nous sommes intéressés à la situation pratique quasi-systématique où l'on dispose de données fonctionnelles contaminées. Nous avons démontré que pour une taille d'échantillon fixée, plus la discrétisation est fine, meilleure sera la prédiction. Autrement dit, plus d est grand devant n, plus la méthode statistique fonctionnelle développée est performante. / In hyperspectral imaging, each pixel is associated with a spectrum derived from observed reflectance in d measurement points (i.e., wavelengths). We are often facing a situation where the sample size n is relatively low compared to the number d of variables. This phenomenon called "curse of dimensionality" is well known in multivariate statistics. The mored increases with respect to n, the more standard statistical methodologies performances are degraded. Reflectance spectra incorporate in their spectral dimension a continuum that gives them a functional nature. A hyperspectrum can be modelised by an univariate function of wavelength and his representation produces a curve. The use of functional methods allows to take into account functional aspects such as continuity, spectral bands order, and to overcome strong correlations coming from the discretization grid fineness. The main aim of this thesis is to assess the relevance of the functional approach in the field of hyperspectral remote sensing for statistical analysis. We focused on the nonparametric fonctional regression model, including supervised classification. Firstly, the functional approach has been compared with multivariate methods usually involved in remote sensing. The functional approach outperforms multivariate methods in critical situations where one has a small training sample size combined with relatively homogeneous classes (that is to say, hard to discriminate). Secondly, an alternative to the functional approach to overcome the curse of dimensionality has been proposed using parsimonious models. This latter allows, through the selection of few measurement points, to reduce problem dimensionality while increasing results interpretability. Finally, we were interested in the almost systematic situation where one has contaminated functional data. We proved that for a fixed sample size, the finer the discretization, the better the prediction. In other words, the larger dis compared to n, the more effective the functional statistical methodis. Télédétection hyperspectrale Données fonctionnelles Régression non-paramétrique Classification supervisée Signal bruité Méthodes parcimonieuses Hyperspectral remote sensing Functional data Nonparametric regression Supervised classification Noised signal Parsimonious methods
19	Utilisation de copules paramétriques en présence de données observationnelles : cadre théorique et modélisations. / Use of parametric copulas with observational data : theoretical framework and modelizations. Fontaine, Charles 19 September 2016 (has links) Les études observationnelles (non-randomisées) sont principalement constituées de données ayant des particularités qui sont en fait contraignantes dans un cadre statistique classique. En effet, dans ce type d'études, les données sont rarement continues, complètes et indépendantes du bras thérapeutique dans lequel les observations se situent. Cette thèse aborde l'utilisation d'un outil statistique paramétrique fondé sur la dépendance entre les données à travers plusieurs scénarios liés aux études observationnelles. En effet, grâce au théorème de Sklar (1959), les copules paramétriques sont devenues un sujet d'actualité en biostatistique. Pour commencer, nous présentons les concepts de base relatifs aux copules et aux principales mesures d'association basées sur la concordance retrouvées dans la littérature. Ensuite, nous donnons trois exemples d'application des modèles de copules paramétriques pour autant de cas de données particulières retrouvées dans des études observationnelles. Nous proposons d’abord une stratégie de modélisation de l'analyse coût-efficacité basée uniquement sur une réécriture des fonctions de distribution jointes et évitant les modèles de régression linéaire. Nous étudions ensuite, les contraintes relatives aux données discrètes, particulièrement dans un contexte de non-unicité de la fonction copule, nous réécrivons le score de propension grâce à une approche novatrice basée sur l'extension d'une sous-copule. Enfin, nous évoquons un type particulier de données manquantes : les données censurées à droite, dans un contexte de régression, grâce à l'utilisation de copules semi-paramétriques. / Observational studies (non-randomized) consist primarily of data with features that are in fact constraining within a classical statistical framework. Indeed, in this type of study, data are rarely continuous, complete, and independent of the therapeutic arm the observations are belonging to. This thesis deals with the use of a parametric statistical tool based on the dependence between the data, using several scenarios related to observational studies. Indeed, thanks to the theorem of Sklar (1959), parametric copulas have become a topic of interest in biostatistics. To begin with, we present the basic concepts of copulas, as well as the main measures of association based on the concordance founded on an analysis of the literature. Then, we give three examples of application of models of parametric copulas for as many cases of specific data found in observational studies. We first propose a strategy of modeling cost-effectiveness analysis based essentially on rewriting the joint distribution functions, while discarding the use of linear regression models. We then study the constraints relative to discrete data, particularly in a context of non-unicity of the copula function. We rewrite the propensity score, thanks to an innovative approach based on the extension of a sub-copula. Finally, we introduce a particular type of missing data: right censored data, in a regression context, through the use of semi-parametric copulas. Copules paramétriques Analyse coût-Efficacité Score de propension Régression semi-Paramétrique Données non-Randomisées Parametric copulas Cost-Effectiveness analysis Propensity score Semi-Parametric regression Not-Randomized data
20	Quelques contributions à la sélection de variables et aux tests non-paramétriques / A few contributions to variable selection and nonparametric tests Comminges, Laëtitia 12 December 2012 (has links) Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée $Q$, l'hypothèse nulle correspond au fait que la fonction $f$ satisfait la contrainte $Q[f] = 0$, tandis que l'alternative correspond aux fonctions pour lesquelles $ \|Q[f]\|$ est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime « régulier » et un régime « irrégulier ». On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités / Real-world data are often extremely high-dimensional, severely under constrained and interspersed with a large number of irrelevant or redundant features. Relevant variable selection is a compelling approach for addressing statistical issues in the scenario of high-dimensional and noisy data with small sample size. First, we address the issue of variable selection in the regression model when the number of variables is very large. The main focus is on the situation where the number of relevant variables is much smaller than the ambient dimension. Without assuming any parametric form of the underlying regression function, we get tight conditions making it possible to consistently estimate the set of relevant variables. Secondly, we consider the problem of testing a particular type of composite null hypothesis under a nonparametric multivariate regression model. For a given quadratic functional $Q$, the null hypothesis states that the regression function $f$ satisfies the constraint $Q[f] = 0$, while the alternative corresponds to the functions for which $Q[f]$ is bounded away from zero. We provide minimax rates of testing and the exact separation constants, along with a sharp-optimal testing procedure, for diagonal and nonnegative quadratic functionals. We can apply this to testing the relevance of a variable. Studying minimax rates for quadratic functionals which are neither positive nor negative, makes appear two different regimes: “regular” and “irregular”. We apply this to the issue of testing the equality of norms of two functions observed in noisy environments Sélection de variables Régression non paramétrique Tests d'hypothèses non paramétriques Asymptotiques exactes Taux de séparation Approche minimax Sparsity pattern Nonparametric hypotheses testing Sharp asymptotics Separation rates Minimax approach High-dimensional regression

Search results