Spelling suggestions: "subject:"régression nonparamétrique"" "subject:"régression nonparamétriques""
1 |
Estimation non paramétrique pour des modèles de diffusion et de régressionBrua, Jean-Yves 17 November 2008 (has links) (PDF)
Nous considérons le problème de l'estimation d'une fonction inconnue en un point fixe à l'aide de données régies par des modèles de régression ou de diffusion. Pour définir le risque associé à l'emploi d'un estimateur et ainsi mesurer la qualité de celui-ci, nous utilisons la fonction de perte liée à l'erreur absolue. Le travail de cette thèse suit l'approche minimax dont l'objectif est de trouver une borne inférieure asymptotique du risque minimax puis de construire un estimateur, dit asymptotiquement efficace, dont le risque maximal atteint asymptotiquement cette borne.<br />Pour un modèle de régression non paramétrique et hétéroscédastique, où l'écart-type du bruit dépend à la fois du régresseur et de la fonction de régression supposée appartenir à une classe höldérienne faible de régularité connue, nous montrons qu'un estimateur à noyau est asymptotiquement efficace. Lorsque la régularité de la fonction de régression est inconnue, nous obtenons la vitesse de convergence minimax adaptative des estimateurs sur une famille de classes höldériennes. Enfin, pour un modèle de diffusion où la dérive appartient à un voisinage höldérien faible centré en une fonction lipschitzienne, nous présentons la construction d'un estimateur à noyau asymptotiquement efficace.
|
2 |
Analyse statistique des données issues des biopuces à ADNPeyre, Julie 20 September 2005 (has links) (PDF)
Cette thèse est consacrée à l'analyse statistique des données issues des biopuces à ADN. Nous nous intéressons ici à trois problématiques liées aux données du transcriptôme.<br /><br /> Dans un premier chapitre, nous étudions le problème de la normalisation des données dont l'objectif est d'éliminer les variations parasites entre les échantillons des populations pour ne conserver que les variations expliquées par les phénomènes biologiques. Nous présentons plusieurs méthodes existantes pour lesquelles nous proposons des améliorations. Pour guider le choix d'une méthode de normalisation, une méthode de simulation de données de biopuces est mise au point.<br /><br /> Dans un deuxième chapitre, nous abordons le problème de la détection de gènes différentiellement exprimés entre deux séries d'expériences. On se ramène ici à un problème de test d'hypothèses multiples. Plusieurs approches sont envisagées : sélection de modèles et pénalisation, méthode FDR basée sur une décomposition en ondelettes des statistiques de test ou encore seuillage bayésien.<br /> <br /> Dans le dernier chapitre, nous considérons les problèmes de classification supervisée pour les données de biopuces. Pour remédier au problème du "fléau de la dimension", nous avons développé une méthode semi-paramétrique de réduction de dimension, basée sur la maximisation d'un critère de vraisemblance locale dans les modèles linéaires généralisés en indice simple. L'étape de réduction de dimension est alors suivie d'une étape de régression par polynômes locaux pour effectuer la classification supervisée des individus considérés.
|
3 |
Etude du processus empirique composéMaumy, Myriam 02 December 2002 (has links) (PDF)
On établit d'abord une approximation forte du processus empirique composé par une combinaison linéaire d'un pont brownien et d'un processus de Wiener.Ensuite le module d'oscillation du processus empirique composé est étudié et en particulier on établit une loi limite sur le comportement des oscillations de ce processus.Une loi fonctionnelle est démontrée pour le processus empirique composé indexé par des intervalles. Enfin on établit une nouvelle démonstration de la loi du logarithme itéré pour l'estimateur non paramétrique de la régression par la méthode des noyaux.
|
4 |
Forêts aléatoires : aspects théoriques, sélection de variables et applicationsGenuer, Robin 24 November 2010 (has links) (PDF)
Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui s'avère être très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent également un bon comportement sur des données de très grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de distinguer les variables pertinentes des variables inutiles. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en très grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques qui constituent un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent tous deux la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.
|
5 |
Contribution à l'étude de la régression non paramétrique et à l'estimation de la moyenne d'un processus à temps continuDegras, David 07 December 2007 (has links) (PDF)
Cette thèse porte sur l'étude de la régression non paramétrique en présence de mesures répétées. D'abord, nous étendons aux estimateurs splines de lissage les vitesses de convergence présentées dans la littérature pour d'autres estimateurs usuels sous différentes hypothèses classiques de dépendance des données. Ensuite, dans le cadre de l'estimation de la moyenne d'un processus aléatoire à temps continu, nous généralisons les résultats existants sur la convergence en moyenne quadratique et nous établissons de nouveaux résultats de normalité asymptotique pour les distributions finies-dimensionnelles. Enfin, dans le cadre d'un échantillon fini et corrélé, nous comparons les performances d'estimateurs construits par moindres carrés ordinaires ou généralisés, nous proposons une méthode efficace de sélection du paramètre de lissage tenant compte de la structure de covariance des données, et à travers des simulations, nous mettons en évidence l'apport du lissage local par rapport au lissage global.
|
6 |
Estimation par sélection de modèle en régression hétéroscédastiqueGendre, Xavier 15 June 2009 (has links) (PDF)
Cette thèse s'inscrit dans les domaines de la statistique non-asymptotique et de la théorie statistique de la sélection de modèle. Son objet est la construction de procédures d'estimation de paramètres en régression hétéroscédastique. Ce cadre reçoit un intérêt croissant depuis plusieurs années dans de nombreux champs d'application. Les résultats présentés reposent principalement sur des inégalités de concentration et sont illustrés par des applications à des données simulées.<br /><br />La première partie de cette thèse consiste dans l'étude du problème d'estimation de la moyenne et de la variance d'un vecteur gaussien à coordonnées indépendantes. Nous proposons une méthode de choix de modèle basée sur un critère de vraisemblance pénalisé. Nous validons théoriquement cette approche du point de vue non-asymptotique en prouvant des majorations de type oracle du risque de Kullback de nos estimateurs et des vitesses de convergence uniforme sur les boules de Hölder.<br /><br />Un second problème que nous abordons est l'estimation de la fonction de régression dans un cadre hétéroscédastique à dépendances connues. Nous développons des procédures de sélection de modèle tant sous des hypothèses gaussiennes que sous des conditions de moment. Des inégalités oracles non-asymptotiques sont données pour nos estimateurs ainsi que des propriétés d'adaptativité. Nous appliquons en particulier ces résultats à l'estimation d'une composante dans un modèle de régression additif.
|
7 |
Modélisation fonctionnelle de profils de vitesse en lien avec l'infrastructure et méthodologie de construction d'un profil agrégéAndrieu, Cindie 24 September 2013 (has links) (PDF)
La connaissance des vitesses pratiquées est une caractéristique essentielle du comportement des conducteurs et de leur usage du réseau routier. Cette information est rendue disponible grâce à la généralisation des véhicules connectés, mais aussi des smartphones, qui permettent d'accroître le nombre de "traceurs" susceptibles de renvoyer leur position et leur vitesse en temps réel. Dans cette thèse, nous proposons d'utiliser ces traces numériques et de développer une méthodologie, fondée sur une approche fonctionnelle, permettant d'extraire divers profils de vitesse caractéristiques. Dans une première partie, nous proposons une modélisation fonctionnelle des profils spatiaux de vitesse (i.e. vitesse vs distance parcourue) et nous étudions leurs propriétés (continuité, dérivabilité). Dans une seconde partie, nous proposons une méthodologie permettant de construire un estimateur d'un profil spatial de vitesse à partir de mesures bruitées de position et de vitesse, fondée sur les splines de lissage et la théorie des espaces de Hilbert à noyau reproduisant (RKHS). Enfin, la troisième partie est consacrée à la construction de divers profils agrégés (moyen, médian). Nous proposons notamment un alignement des profils par landmarks au niveau des arrêts, puis nous proposons la construction d'enveloppes de vitesse reflétant la dispersion des vitesses pratiquées.
|
8 |
Rare events simulation by shaking transformations : Non-intrusive resampler for dynamic programming / Simulation des événements rares par transformations de shaking : Rééchantillonneur non-intrusif pour la programmation dynamiqueLiu, Gang 23 November 2016 (has links)
Cette thèse contient deux parties: la simulation des événements rares et le rééchantillonnage non-intrusif stratifié pour la programmation dynamique. La première partie consiste à quantifier des statistiques liées aux événements très improbables mais dont les conséquences sont sévères. Nous proposons des transformations markoviennes sur l'espace des trajectoires et nous les combinons avec les systèmes de particules en interaction et l'ergodicité de chaîne de Markov, pour proposer des méthodes performantes et applicables en grande généralité. La deuxième partie consiste à résoudre numériquement le problème de programmation dynamique dans un contexte où nous avons à disposition seulement des données historiques en faible nombre et nous ne connaissons pas les valeurs des paramètres du modèle. Nous développons et analysons un nouveau schéma composé de stratification et rééchantillonnage / This thesis contains two parts: rare events simulation and non-intrusive stratified resampler for dynamic programming. The first part consists of quantifying statistics related to events which are unlikely to happen but which have serious consequences. We propose Markovian transformation on path spaces and combine them with the theories of interacting particle system and of Markov chain ergodicity to propose methods which apply very generally and have good performance. The second part consists of resolving dynamic programming problem numerically in a context where we only have historical observations of small size and we do not know the values of model parameters. We propose and analyze a new scheme with stratification and resampling techniques.
|
9 |
Contribution à la statistique des diffusions. Estimation semiparamétrique et efficacité au second ordre.<br />Agrégation et réduction de dimension pour le modèle de régression.Dalalyan, Arnak 22 November 2007 (has links) (PDF)
Ce texte constitue une synthèse de mes travaux de recherche menés depuis 2000 en statistique mathématique. Ces travaux s'articulent autour de 4 thèmes: la statistique non paramétrique pour les processus de diffusion, efficacité au second ordre pour l'estimation semiparamétrique, agrégation par des poids exponentiels et réduction de dimension pour la régression non paramétrique. <br />Le premier chapitre contient une description générale des résultats obtenus en les replaçant dans un contexte historique et en présentant les motivations qui nous ont animées pour étudier ces problèmes. J'y décris également de façon informelle les idées clés des démonstrations. <br /><br />Au second chapitre, je présente les définitions principales nécessaires pour énoncer de façon rigoureuse les résultats les plus importants. Ce chapitre contient également une discussion plus formelle permettant de mettre en lumière certains aspects théoriques et pratiques de nos résultats.
|
10 |
Développement de modèles non paramétriques et robustes : application à l’analyse du comportement de bivalves et à l’analyse de liaison génétiqueSow, Mohamedou 20 May 2011 (has links)
Le développement des approches robustes et non paramétriques pour l’analyse et le traitement statistique de gros volumes de données présentant une forte variabilité,comme dans les domaines de l’environnement et de la génétique, est fondamental.Nous modélisons ici des données complexes de biologie appliquées à l’étude du comportement de bivalves et à l’analyse de liaison génétique. L’application des mathématiques à l’analyse du comportement de mollusques bivalves nous a permis d’aller vers une quantification et une traduction mathématique de comportements d’animaux in-situ, en milieu proche ou lointain. Nous avons proposé un modèle de régression non paramétrique et comparé 3 estimateurs non paramétriques, récursifs ou non,de la fonction de régression pour optimiser le meilleur estimateur. Nous avons ensuite caractérisé des rythmes biologiques, formalisé l’évolution d’états d’ouvertures,proposé des méthodes de discrimination de comportements, utilisé la méthode des shot-noises pour caractériser différents états d’ouverture-fermetures transitoires et développé une méthode originale de mesure de croissance en ligne.En génétique, nous avons abordé un cadre plus général de statistiques robustes pour l’analyse de liaison génétique. Nous avons développé des estimateurs robustes aux hypothèses de normalités et à la présence de valeurs aberrantes, nous avons aussi utilisé une approche statistique, où nous avons abordé la dépendance entre variables aléatoires via la théorie des copules. Nos principaux résultats ont montré l’intérêt pratique de ces estimateurs sur des données réelles de QTL et eQTL. / The development of robust and nonparametric approaches for the analysis and statistical treatment of high-dimensional data sets exhibiting high variability, as seen in the environmental and genetic fields, is instrumental. Here, we model complex biological data with application to the analysis of bivalves’ behavior and to linkage analysis. The application of mathematics to the analysis of mollusk bivalves’behavior gave us the possibility to quantify and translate mathematically the animals’behavior in situ, in close or far field. We proposed a nonparametric regression model and compared three nonparametric estimators (recursive or not) of the regressionfunction to optimize the best estimator. We then characterized the biological rhythms, formalized the states of opening, proposed methods able to discriminate the behaviors, used shot-noise analysis to characterize various opening/closing transitory states and developed an original approach for measuring online growth.In genetics, we proposed a more general framework of robust statistics for linkage analysis. We developed estimators robust to distribution assumptions and the presence of outlier observations. We also used a statistical approach where the dependence between random variables is specified through copula theory. Our main results showed the practical interest of these estimators on real data for QTL and eQTL analysis.
|
Page generated in 0.0943 seconds