Spelling suggestions: "subject:"[STAT:TH] statistiques/théorie"" "subject:"[STAT:TH] statistiques/héorie""
11 |
Estimation non-paramétrique dans les problèmes inverses à opérateur bruitéVareschi, Thomas 06 December 2013 (has links) (PDF)
Cette thèse étudie l'effet de l'imprécision sur un opérateur intervenant dans la résolution d'un problème inverse. La problématique habituelle des problèmes inverses est l'approximation d'un signal d'entrée à partir de son image par un opérateur régularisant. A l'incertitude habituelle contaminant l'observation du signal de sortie, on ajoute cette erreur commise sur l'opérateur que l'on modélise par un processus Gaussien d'une certaine amplitude, potentiellement différente de la précédente. Nous nous intéressons plus particulièrement au cas où l'opérateur en question est un opérateur à noyau, lorsque ce dernier est lui même bruité. Ce modèle recouvre par exemple les cas de la convolution de Fourier périodique, de Laplace/Volterra, ou bien la convolution sphérique. \\Nous développons des procédures statistiques d'estimation dans chacun de ces cas, en traitant de manière adéquate la nouvelle erreur commise sur le noyau selon la forme de la matrice associée à un schéma de Galerkin. Plus précisément, nous étudions le risque quadratique dans le cas où cette dernière est diagonale, diagonale par blocs ou bien triangulaire inférieure et de Toeplitz. Dans chacun de ces cas, nous mettons en évidence de nouvelles vitesses de convergence faisant intervenir de manière explicite les deux paramètres d'incertitude (sur le signal de sortie et sur le noyau) et dont nous prouvons l'optimalité au sens minimax. Enfin, nous étudions spécifiquement le cas de la déconvolution sphérique en mettant à profit les needlets sphériques, sorte d'équivalent d'ondelettes sur la sphère, dans la construction d'une procédure qui traite ce même problème pour un risque en norme Lp.
|
12 |
Lois limites des écarts extrêmes associés aux histogrammes et à diverses statistiques d'ordre dans l'estimation d'une densité de probabilitéBéra, Michel 13 June 1977 (has links) (PDF)
L'étude est associée aux problèmes de lois limites associées à un échantillon (X1,..,Xn). Le chapitre 1 est consacré à certains aspects de la loi multinomiale, et dégage une loi limite sur les valeurs extrêmes de problèmes d'occupation. Il améliore significativement les résultats de P.Revesz (1971-72), et conduit à des lois limites sur l'estimation de la densité dans Rs, par deux méthodes dites d'estimation par histogramme aléatoire. Le chapitre 2 est consacré à la loi conjointe des écarts inter-quantiles, et donne une nouvelle loi limite des extrêmes de ces écarts, généralisant les travaux de G.Tusnady (1974). Le chapitre 3 prolonge les travaux de ce dernier sur l'estimation de la densité par histogramme aléatoire. Le caractère asymptotiquement poissonnien de la loi multinomiale et de la loi de Dirichlet est mis en évidence dans des conditions très générales.
|
13 |
Modèles d'encodage parcimonieux de l'activité cérébrale mesurée par IRM fonctionnelleBakhous, Christine 10 December 2013 (has links) (PDF)
L'imagerie par résonance magnétique fonctionnelle (IRMf) est une technique non invasive permettant l'étude de l'activité cérébrale au travers des changements hémodynamiques associés. Récemment, une technique de détection-estimation conjointe (DEC) a été développée permettant d'alterner (1) la détection de l'activité cérébrale induite par une stimulation ainsi que (2) l'estimation de la fonction de réponse hémodynamique caractérisant la dynamique vasculaire; deux problèmes qui sont généralement traités indépendamment. Cette approche considère une parcellisation a priori du cerveau en zones fonctionnellement homogènes et alterne (1) et (2) sur chacune d'entre elles séparément. De manière standard, l'analyse DEC suppose que le cerveau entier peut être activé par tous les types de stimuli (visuel, auditif, etc.). Cependant la spécialisation fonctionnelle des régions cérébrales montre que l'activité d'une région n'est due qu'à certains types de stimuli. La prise en compte de stimuli non pertinents dans l'analyse, peut dégrader les résultats. La sous-famille des types de stimuli pertinents n'étant pas la même à travers le cerveau une procédure de sélection de modèles serait très coûteuse en temps de calcul. De plus, une telle sélection a priori n'est pas toujours possible surtout dans les cas pathologiques. Ce travail de thèse propose une extension de l'approche DEC permettant la sélection automatique des conditions (types de stimuli) pertinentes selon l'activité cérébrale qu'elles suscitent, cela simultanément à l'analyse et adaptativement à travers les régions cérébrales. Des exemples d'analyses sur des jeux de données simulés et réels, illustrent la capacité de l'approche DEC parcimonieuse proposée à sélectionner les conditions pertinentes ainsi que son intérêt par rapport à l'approche DEC standard.
|
14 |
Valeurs extrêmes : covariables et cadre bivariéSchorgen, Antoine 21 September 2012 (has links) (PDF)
Cette thèse aborde deux sujets peu traités dans la littérature concernant le théorie des valeurs extrêmes : celui des observations en présence de covariables et celui des mesures de dépendance pour des paires d'observations. Dans la première partie de cette thèse, nous avons considéré le cas où la variable d'intérêt est observée simultanément avec une covariable, pouvant être fixe ou aléatoire. Dans ce contexte, l'indice de queue dépend de la covariable et nous avons proposé des estimateurs de ce paramètre dont nous avons étudié les propriétés asymptotiques. Leurs comportements à distance finie ont été validés par simulations. Puis, dans la deuxième partie, nous nous sommes intéressés aux extrêmes multivariés et plus particulièrement à mesurer la dépendance entre les extrêmes. Dans une situation proche de l'indépendance asymptotique, il est très difficile de mesurer cette dépendance et de nouveaux modèles doivent être introduits. Dans ce contexte, nous avons adapté un outil de géostatistique, le madogramme, et nous avons étudié ses propriétés asymptotiques. Ses performances sur simulations et données réelles ont également été exhibées. Cette thèse offre de nombreuses perspectives, tant sur le plan pratique que théorique dont une liste non exhaustive est présentée en conclusion de la thèse.
|
15 |
Modélisation statistique pour données fonctionnelles : approches non-asymptotiques et méthodes adaptativesRoche, Angelina 07 July 2014 (has links) (PDF)
L'objet principal de cette thèse est de développer des estimateurs adaptatifs en statistique pour données fonctionnelles. Dans une première partie, nous nous intéressons au modèle linéaire fonctionnel et nous définissons un critère de sélection de la dimension pour des estimateurs par projection définis sur des bases fixe ou aléatoire. Les estimateurs obtenus vérifient une inégalité de type oracle et atteignent la vitesse de convergence minimax pour le risque lié à l'erreur de prédiction. Pour les estimateurs définis sur une collection de modèles aléatoires, des outils de théorie de la perturbation ont été utilisés pour contrôler les projecteurs aléatoires de manière non-asymptotique. D'un point de vue numérique, cette méthode de sélection de la dimension est plus rapide et plus stable que les méthodes usuelles de validation croisée. Dans une seconde partie, nous proposons un critère de sélection de fenêtre inspiré des travaux de Goldenshluger et Lepski, pour des estimateurs à noyau de la fonction de répartition conditionnelle lorsque la covariable est fonctionnelle. Le risque de l'estimateur obtenu est majoré de manière non-asymptotique. Des bornes inférieures sont prouvées ce qui nous permet d'établir que notre estimateur atteint la vitesse de convergence minimax, à une perte logarithmique près. Dans une dernière partie, nous proposons une extension au cadre fonctionnel de la méthodologie des surfaces de réponse, très utilisée dans l'industrie. Ce travail est motivé par une application à la sûreté nucléaire.
|
16 |
Agrégation d'estimateurs et de classificateurs : théorie et méthodesGuedj, Benjamin 04 December 2013 (has links) (PDF)
Ce manuscrit de thèse est consacré à l'étude des propriétés théoriques et méthodologiques de différentes procédures d'agrégation d'estimateurs. Un premier ensemble de résultats vise à étendre la théorie PAC-bayésienne au contexte de la grande dimension, dans les modèles de régression additive et logistique. Nous prouvons dans ce contexte l'optimalité, au sens minimax et à un terme logarithmique près, de nos estimateurs. La mise en \oe uvre pratique de cette stratégie, par des techniques MCMC, est étayée par des simulations numériques. Dans un second temps, nous introduisons une stratégie originale d'agrégation non linéaire d'estimateurs de la fonction de régression. Les qualités théoriques et pratiques de cette approche --- dénommée COBRA --- sont étudiées, et illustrées sur données simulées et réelles. Enfin, nous présentons une modélisation bayésienne --- et l'implémentation MCMC correspondante --- d'un problème de génétique des populations. Les différentes approches développées dans ce document sont toutes librement téléchargeables depuis le site de l'auteur.
|
17 |
Une nouvelle famille de modèles linéaires généralisés (GLMs) pour l'analyse de données catégorielles ; application à la structure et au développement des plantes.Peyhardi, Jean 09 December 2013 (has links) (PDF)
Le but de cette thèse est de proposer une nouvelle classe de GLMs pour une variable réponse catégorielle structurée hiérarchiquement, comme une variable partiellement ordonnée par exemple. Une première étape a été de mettre en évidence les différences et les point communs entre les GLMs pour variables réponses nominale et ordinale. Sur cette base nous avons introduit une nouvelle spécification des GLMs pour variable réponse catégorielle, qu'elle soit ordinale ou nominale, basée sur trois composantes : le ratio de probabilitées r, la fonction de répartition F et la matrice de design Z. Ce cadre de travail nous a permis de définir une nouvelle famille de modèles pour données nominales, comparable aux familles de modèles cumulatifs, séquentiels et adjacents pour données ordinales. Puis nous avons défini la classe des modèles linéaires généralisés partitionnés conditionnels (PCGLMs) en utilisant des arbres orientés et la specification (r,F,Z). Dans notre contexte biologique, les données sont des séquences multivariées composées d'une variable réponse catégorielle (le type de production axillaire) et de variables explicatives (longueur de l'entre-noeud par exemple). Dans les combinaisons semi-markoviennes de modèles linéaires généralisés partitionnés conditionnés (SMS-PCGLM) estimées sur la base de ces séquences, la semi-chaîne de Markov sous-jacente représente la succession et les longueurs des zones de ramification, tandis que les PCGLMs représentent, l'influence des variables explicatives de croissance sur les productions axillaires dans chaque zone de ramification. En utilisant ces modèles statistiques intégratifs, nous avons montré que la croissance de la pousse influençait des événements de ramification particuliers.
|
18 |
Méthodes d'analyse de données et modèles bayésiens appliqués au contexte des inégalités socio-territoriales de santé et des expositions environnementalesLalloué, Benoît 06 December 2013 (has links) (PDF)
Cette thèse a pour but d'améliorer les connaissances concernant les techniques d'analyse de données et certains modèles bayésiens dans le domaine de l'étude des inégalités sociales et environnementales de santé. À l'échelle géographique de l'IRIS sur les agglomérations de Paris, Marseille, Lyon et Lille, l'événement sanitaire étudié est la mortalité infantile dont on cherchera à expliquer le risque avec des données socio-économiques issues du recensement et des expositions environnementales comme la pollution de l'air, les niveaux de bruit et la proximité aux industries polluantes, au trafic automobile ou aux espaces verts. Deux volets principaux composent cette thèse. Le volet analyse de données détaille la mise au point d'une procédure de création d'indices socio-économiques multidimensionnels et la conception d'un package R l'implémentant, puis la création d'un indice de multi-expositions environnementales. Pour cela, on utilise des techniques d'analyse de données pour synthétiser l'information et fournir des indicateurs composites utilisables directement par les décideurs publics ou dans le cadre d'études épidémiologiques. Le second volet concerne les modèles bayésiens et explique le modèle " BYM ". Celui-ci permet de prendre en compte les aspects spatiaux des données et est mis en œuvre pour estimer le risque de mortalité infantile. Dans les deux cas, les méthodes sont présentées et différents résultats de leur utilisation dans le contexte ci-dessus exposés. On montre notamment l'intérêt de la procédure de création d'indices socio-économiques et de multi-expositions, ainsi que l'existence d'inégalités sociales de mortalité infantile dans les agglomérations étudiées.
|
19 |
Détection d'anomalies à la volée dans des flux de données de grande dimensionBellas, Anastasios 28 January 2014 (has links) (PDF)
Le thème principal de cette thèse est d'étudier la détection d'anomalies dans des flux de données de grande dimension avec une application spécifique au \emph{Health Monitoring} des moteurs d'avion. Dans ce travail, on considère que le problème de la détection d'anomalies est un problème d'apprentissage non supervisée. Les données modernes, notamment celles issues de la surveillance des systèmes industriels sont souvent des flux d'observations de grande dimension, puisque plusieurs mesures sont prises à de hautes fréquences et à un horizon de temps qui peut être infini. De plus, les données peuvent contenir des anomalies (pannes) du système surveillé. La plupart des algorithmes existants ne peuvent pas traiter des données qui ont ces caractéristiques. Nous introduisons d'abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des données de grande dimension qui repose sur l'algorithme d'espérance-maximisation (EM) et qui est, en plus, robuste aux anomalies grâce à la technique du trimming. Ensuite, nous nous intéressons à la question du clustering probabiliste online de flux de données de grande dimension en développant l'inférence online du modèle de mélange d'analyse en composantes principales probabiliste. Pour les deux méthodes proposées, nous montrons leur efficacité sur des données simulées et réelles, issues par exemple des moteurs d'avion. Enfin, nous développons une application intégrée pour le Health Monitoring des moteurs d'avion dans le but de détecter des anomalies de façon dynamique. Le système proposé introduit des techniques originales de détection et de visualisation d'anomalies reposant sur les cartes auto-organisatrices. Des résultats de détection sont présentés et la question de l'identification des anomalies est aussi discutée.
|
20 |
Estimation récursive pour les modèles semi-paramétriquesNguyen, Thi Mong Ngoc 26 November 2010 (has links) (PDF)
Dans cette th ese, nous nous int eressons au mod ele semi-param etrique de r egression de la forme y = f( \theta'x; \epsilon), lorsque x \in R^p et y\in R. Notre objectif est d' etudier des probl emes d'estimation des param etres \theta et f de ce mod ele avec des m ethodes r ecursives. Dans la premi ere partie, l'approche que nous d eveloppons est fond ee sur une m ethode introduite par Li (1991), appel ee Sliced Inverse Regression (SIR). Nous proposons des m ethodes SIR r ecursives pour estimer le param etre . Dans le cas particulier o u l'on consid ere le nombre de tranches egal a 2, il est possible d'obtenir une expression analytique de l'estimateur de la direction de . Nous proposons une forme r ecursive pour cet estimateur, ainsi qu'une forme r ecursive de l'estimateur de la matrice d'int er^et. Ensuite, nous proposons une nouvelle approche appell ee \SIRoneslice" (r ecursive ou non r ecursive) de la m ethode SIR bas ee sur l'utilisation de l'information contenue dans une seule tranche optimale (qu'il faudra choisir parmi un nombre quelconque de tranches). Nous proposons egalement un crit ere \bootstrap na f" pour le choix du nombre de tranches. Des r esultats asymptotiques sont donn es et une etude sur des simulations d emontre le bon comportement num erique des approches r ecursives propos ees et l'avantage principal de l'utilisation la version r ecursive de SIR et de SIRoneslice du point de vue des temps de calcul. Dans la second partie, nous travaillons sur des donn ees de valvom etrie mesur ees sur des bivalves. Sur ces donn ees, nous comparons le comportement num erique de trois estimateurs non param etrique de la fonction de r egression : celui de Nadaraya-Watson, celui de Nadaraya-Watson r ecursif et celui de R ev esz qui est lui aussi r ecursif. Dans la derni ere partie de cette th ese, nous proposons une m ethode permettant de combiner l'estimation r ecursive de la fonction de lien f par l'estimateur de Nadaraya- Watson r ecursif et l'estimation du param etre via l'estimateur SIR r ecursif. Nous etablissons une loi des grands nombres ainsi qu'un th eor eme de limite centrale. Nous illustrons ces r esultats th eoriques par des simulations montrant le bon comportement num erique de la m ethode d'estimation propos ee.
|
Page generated in 0.0924 seconds