Spelling suggestions: "subject:"[STAT:TH] statistique/théorie""
31 |
Inférence statistique dans un modèle à variances isolées de grande dimensionPassemier, Damien 04 December 2012 (has links) (PDF)
Cette thèse s'intéresse à l'estimation statistique dans un modèle à variances isolées (modèle spike) de grande dimension. La théorie des matrices aléatoires permet de prendre en compte cette spécificité, puisque la plupart des résultats limites s'appliquent aux matrices dont la taille tend vers l'infini. Une part importante de ces résultats concerne la matrice de covariance empirique. Dans un premier temps, nous nous intéressons à l'estimation du nombre de facteurs/spikes. La différence de comportement des valeurs propres de la matrice de covariance empirique, selon que l'on considère celles correspondant aux spikes ou non, nous permet de construire un estimateur. Ce dernier correspond à la différence de deux valeurs propres consécutives ordonnées. Nous établissons la consistance de l'estimateur dans le cas où toutes les spikes sont distinctes, et le comparons à deux méthodes existantes à travers des simulations. L'estimateur dépend d'un seuil qui doit remplir certaines conditions. Dans la suite, nous étendons le résultat de consistance au cas d'égalité et améliorons l'estimateur en changeant de seuil. Dans un second temps, nous considérons les estimateurs du maximum de vraisemblance d'un modèle à facteurs strict à variance homoscédastique. En utilisant un théorème limite pour les statistiques spectrales linéaires, nous corrigeons l'estimateur de la variance commune en grande dimension en donnant l'expression de son biais et en établissant sa loi limite. Nous présentons une version corrigée du test du rapport de vraisemblance d'adéquation à un modèle à facteurs. Finalement, nous construisons un test d'égalité de deux spikes.
|
32 |
Propriétés asymptotiques de la distribution d'un échantillon dans le cas d'un plan de sondage informatifBonnéry, Daniel 24 November 2011 (has links) (PDF)
Étant donné un modèle de super-population (des variables aléatoires sont générées indépendamment et selon une même loi initiale sur une population) et un plan de sondage informatif, une loi de probabilité limite et une densité de probabilité limite des observations sur l'échantillon sont définies correspondant à des tailles de population et d'échantillon tendant vers l'infini. Le processus aléatoire de sélection peut induire une dépendance entre les observations sélectionnés. Un cadre asymptotique et des conditions faibles sur le processus de sélection sont donnés, sous lesquels les propriétés asymptotiques classiques sont conservées malgré la dépendance des données : la convergence uniforme de la fonction de répartition empirique. Par ailleurs, nous donnons la vitesse de convergence de l'estimateur à noyau de la densité vers la densité limite de l'échantillon. Ces résultats constituent des indications selon lesquelles il est parfois possible de considérer que les réalisations sur l'échantillon sont id et suivent approximativement la densité limite définie, notamment dans une perspective d'inférence sur le modèle de super-population. Par exemple, étant donné un modèle paramétrique on peut définir la vraisemblance approchée de l'échantillon comme produit de densités limites et un estimateur de maximum de vraisemblance approchée, dont on établit la normalité asymptotique . La dernière partie traite de tirage équilibré : des algorithmes de calcul de probabilités d'inclusion minimisant une approximation de la variance de l'estimateur de Horvitz-Thompson d'un total sont proposés.
|
33 |
Quelques contributions à la modélisation et l'analyse statistique de processus spatiauxHardouin, Cécile 11 July 2011 (has links) (PDF)
Le thème de cette habilitation est centré sur la modélisation et l'étude statistique de processus spatiaux ou spatio-temporels. Le premier chapitre synthétise les travaux sur une modélisation spatio-temporelle générale, consistant en des chaînes de Markov (temporelles) de champs de Markov (spatiaux), et à une généralisation des auto-modèles de Besag qui constituent une classe de champs markoviens particulièrement utilisés en statistique spatiale. Ces modèles généraux permettent une modélisation non hiérarchique pour des données spatiales ou spatio-temporelles de nature mixte, composées par exemple d'une masse en zéro accompagnée de valeurs réelles. Nous étudions la structure de ces modèles et leurs propriétés statistiques, comme l'ergodicité ou l'estimation paramétrique. Des applications sur des données réelles en météorologie ou en images illustrent les résultats. Le second chapitre concerne la modélisation de mécanismes conduisant à l'adoption de certains standards technologiques, dans un cadre de l'économie spatiale. Le but est de décrire la diffusion d'un processus technologique et de proposer des tests de coordination spatiale lorsque la règle de choix est locale et peut être dictée par les choix précédents des voisins. Le chapitre 3 présente quelques résultats récents sur le calcul de la constante de normalisation pour un processus de Gibbs via un algorithme récursif sur les lois conditionnelles. Enfin, le chapitre 4 reprend des travaux plus anciens en statistique paramétrique sur les méthodes d'estimation par minimum de contraste en situation non ergodique, et les méthodes de régression temporelle avec résidu à longue mémoire.
|
34 |
Sur quelques résultats d'inférence pour les processus fractionnaires et les processus ponctuels spatiaux de GibbsCoeurjolly, Jean-François 23 November 2010 (has links) (PDF)
Ce mémoire présente une synthèse de mes activités de recherche depuis mon doctorat. Ces travaux sont organisés en trois parties distinctes. Les deux premières parties ont pour point commun l'inférence statistique de quelques processus stochastiques. Les processus centraux en question sont respectivement le mouvement Brownien fractionnaire (et quelques unes de ses extensions) et les processus ponctuels spatiaux de Gibbs. Comme, nous le verrons par la suite, bien que ces processus soient de nature très diff érente, ils s'inscrivent dans la modélisation de données dépendantes qu'elles soient temporelles ou spatiales. Nos travaux ont pour objectifs communs d'établir des propriétés asymptotiques de méthodes d'estimation ou de méthodes de validation, classiques ou originales. Par ailleurs, une autre similitude est la mise en perspective de ces processus avec des applications faisant intervenir des systèmes complexes (modélisation de signaux issus d'Imagerie par Résonance Magnétique Fonctionnelle et modélisation de taches solaires). La troisième partie, quant à elle, regroupe des thèmes satellites regroupés sous la dénomination contributions à la statistique appliquée.
|
35 |
Détection et classification de cibles multispectrales dans l'infrarougeMaire, F. 14 February 2014 (has links) (PDF)
Les dispositifs de protection de sites sensibles doivent permettre de détecter des menaces potentielles suffisamment à l'avance pour pouvoir mettre en place une stratégie de défense. Dans cette optique, les méthodes de détection et de reconnaissance d'aéronefs se basant sur des images infrarouge multispectrales doivent être adaptées à des images faiblement résolues et être robustes à la variabilité spectrale et spatiale des cibles. Nous mettons au point dans cette thèse, des méthodes statistiques de détection et de reconnaissance d'aéronefs satisfaisant ces contraintes. Tout d'abord, nous spécifions une méthode de détection d'anomalies pour des images multispectrales, combinant un calcul de vraisemblance spectrale avec une étude sur les ensembles de niveaux de la transformée de Mahalanobis de l'image. Cette méthode ne nécessite aucune information a priori sur les aéronefs et nous permet d'identifier les images contenant des cibles. Ces images sont ensuite considérées comme des réalisations d'un modèle statistique d'observations fluctuant spectralement et spatialement autour de formes caractéristiques inconnues. L'estimation des paramètres de ce modèle est réalisée par une nouvelle méthodologie d'apprentissage séquentiel non supervisé pour des modèles à données manquantes que nous avons développée. La mise au point de ce modèle nous permet in fine de proposer une méthode de reconnaissance de cibles basée sur l'estimateur du maximum de vraisemblance a posteriori. Les résultats encourageants, tant en détection qu'en classification, justifient l'intérêt du développement de dispositifs permettant l'acquisition d'images multispectrales. Ces méthodes nous ont également permis d'identifier les regroupements de bandes spectrales optimales pour la détection et la reconnaissance d'aéronefs faiblement résolus en infrarouge.
|
36 |
Modèles hiérarchiques et processus ponctuels spatio-temporels - Applications en épidémiologie et en sismologieValmy, Larissa 05 November 2012 (has links) (PDF)
Les processus ponctuels sont souvent utilisés comme modèles de répartitions spatiales ou spatio-temporelles d'occurrences. Dans cette thèse, nous nous intéressons tout d'abord à des processus de Cox dirigés par un processus caché associé à un processus de Dirichlet. Ce modèle correspond à des occurrences cachées influençant l'intensité stochastique des occurrences observées. Nous généralisons la notion de " Shot noise Cox process " introduite par Moller et développons le traitement bayésien par un échantillonneur de Gibbs combiné à un algorithme de Metropolis-Hastings. Nous montrons que cette méthode MCMC est à sauts réversibles. Le modèle prend en compte, en effet, un nombre aléatoire de contributions cachées influençant l'intensité du processus ponctuel observé donc a un espace paramétrique de dimension variable. Nous focalisons l'inférence statistique sur l'estimation de la valeur espérée de chaque contribution cachée, le nombre espéré de contributions cachées, le degré d'influence spatiale de ces contributions et leur degré de corrélation. Le test d'égalité des contributions et celui de leur indépendance sont ainsi développés. L'utilité en épidémiologie et en écologie est alors démontrée à partir de données de Rubus fruticosa, Ibicella lutea et de mortalité dans les cantons de Georgia, USA. En termes de données observées, deux situations sont considérées: premièrement, les positions spatiales des occurrences sont observées entre plusieurs paires de dates consécutives; deuxièmement, des comptages sont effectués, au cours d'une période fixée, dans des unités d'échantillonnage spatiales. D'autre part, nous nous intéressons aux processus ponctuels à mémoire introduits par Kagan, Ogata et Vere-Jones, précurseurs de la statistique sismologique. En effet, les processus ponctuels spatio-temporels ont une place importante dans l'étude des catalogues sismiques puisque ces derniers sont généralement constitués d'événements sismiques datés et géo-référencés. Nous avons étudié un modèle ETAS (Epidemic Type Aftershock Sequence) avec une intensité d'arrière-plan indépendante du temps et plusieurs fonctions déclenchantes permettant d'intégrer les événements antérieurs récents. Cette approche est utilisée pour étudier la sismicité de l'arc des Petites Antilles. Une étude comparative des modèles Gamma, Weibull, Log-Normal et loi d'Omori modifiée pour les fonctions déclenchantes est menée. Nous montrons que la loi d'Omori modifiée ne s'ajuste pas aux données sismiques des Petites Antilles et la fonction déclenchante la plus adaptée est le modèle de Weibull. Cela implique que le temps d'attente entre répliques dans la zone des Petites Antilles est plus faible que celui des régions à sismicité décrite par la loi d'Omori modifiée. Autrement dit, l'agrégation des répliques après un événement majeur est plus prononcée dans la zone des Petites Antilles. La possibilité d'inclure une intensité d'arrière-plan suivant un processus de Dirichlet centré sur un processus spatial log-gaussien est discutée.
|
37 |
Estiamation et fluctuations de fonctionnelles de grandes matrices aléatoiresYao, Jianfeng 09 December 2013 (has links) (PDF)
L'objectif principal de la thèse est : l'étude des fluctuations de fonctionnelles du spectre de grandes matrices aléatoires, la construction d'estimateurs consistants et l'étude de leurs performances, dans la situation où la dimension des observations est du même ordre que le nombre des observations disponibles. Il y aura deux grandes parties dans cette thèse. La première concerne la contribution méthodologique. Nous ferons l'étude des fluctuations pour les statistiques linéaires des valeurs propres du modèle 'information-plus-bruit' pour des fonctionnelles analytiques, et étendrons ces résultats au cas des fonctionnelles non analytiques. Le procédé d'extension est fondé sur des méthodes d'interpolation avec des quantités gaussiennes. Ce procédé est appliqué aux grandes matrices de covariance empirique. L'autre grande partie sera consacrée à l'estimation des valeurs propres de la vraie covariance à partir d'une matrice de covariance empirique en grande dimension et l'étude de son comportement. Nous proposons un nouvel estimateur consistant et étudions ces fluctuations. En communications sans fil, cette procédure permet à un réseau secondaire d'établir la présence de ressources spectrales disponibles.
|
38 |
Récursivité au carrefour de la modélisation de séquences, des arbres aléatoires, des algorithmes stochastiques et des martingalesCénac, Peggy 15 November 2013 (has links) (PDF)
Ce mémoire est une synthèse de plusieurs études à l'intersection des systèmes dynamiques dans l'analyse statistique de séquences, de l'analyse d'algorithmes dans des arbres aléatoires et des processus stochastiques discrets. Les résultats établis ont des applications dans des domaines variés allant des séquences biologiques aux modèles de régression linéaire, processus de branchement, en passant par la statistique fonctionnelle et les estimations d'indicateurs de risque appliqués à l'assurance. Tous les résultats établis utilisent d'une façon ou d'une autre le caractère récursif de la structure étudiée, en faisant apparaître des invariants comme des martingales. Elles sont au coeur de ce mémoire, utilisées comme outils dans les preuves ou comme objets d'étude.
|
39 |
Le nombre de sujets dans les panels d'analyse sensorielle : une approche base de donnéesMammasse, Nadra 22 March 2012 (has links) (PDF)
Le nombre de sujets du panel détermine en grande partie le coût des études descriptives et hédoniques de l'analyse sensorielle. Une fois les risques α et β fixés, ce nombre peut théoriquement être calculé, dés lors que l'on connait la variabilité de la mesure due à l'hétérogénéité de la population visée et que l'on fixe la taille de la différence que l'on désire mettre en évidence. En général, l'ordre de grandeur du premier de ces paramètres est inconnu alors que celui du second est délicat à préciser pour l'expérimentateur. Ce travail propose une documentation systématique des valeurs prises dans la réalité par ces deux paramètres grâce à l'exploitation de deux bases de données, SensoBase et PrefBase, contenant respectivement un millier de jeux de données descriptives et quelques centaines de jeux de données hédoniques. Pratiquement, des recommandations pour la taille de panel sont établies sous forme d'abaques prenant en compte trois niveaux pour chacun des deux risques et des deux paramètres.D'autre part, ce travail étudie le nombre de sujets dans chacun des deux types de panel par une approche de ré-échantillonnage qui consiste à réduire progressivement le nombre de sujets tant que les résultats de l'analyse statistique demeurent stables. En moyenne, la taille des panels descriptifs pourrait être réduite d'un quart du nombre de sujets, mais cette moyenne cache une forte hétérogénéité selon le type de descripteurs considéré. La taille optimale des panels hédoniques serait elle très variable et cette variabilité est induite beaucoup plus par la nature et l'importance des différences entre les produits que par l'hétérogénéité des préférences individuelles. De plus, une même approche de ré-échantillonnage appliquée aux répétitions en tests descriptifs suggère que les répétitions ne sont plus nécessaires en phase de mesure, c'est-à-dire une fois le panel entraîné
|
40 |
Modélisation probabiliste et inférence par l'algorithme Belief PropagationMartin, Victorin 23 May 2013 (has links) (PDF)
On s'intéresse à la construction et l'estimation - à partir d'observations incomplètes - de modèles de variables aléatoires à valeurs réelles sur un graphe. Ces modèles doivent être adaptés à un problème de régression non standard où l'identité des variables observées (et donc celle des variables à prédire) varie d'une instance à l'autre. La nature du problème et des données disponibles nous conduit à modéliser le réseau sous la forme d'un champ markovien aléatoire, choix justifié par le principe de maximisation d'entropie de Jaynes. L'outil de prédiction choisi dans ces travaux est l'algorithme Belief Propagation - dans sa version classique ou gaussienne - dont la simplicité et l'efficacité permettent son utilisation sur des réseaux de grande taille. Après avoir fourni un nouveau résultat sur la stabilité locale des points fixes de l'algorithme, on étudie une approche fondée sur un modèle d'Ising latent où les dépendances entre variables réelles sont encodées à travers un réseau de variables binaires. Pour cela, on propose une définition de ces variables basée sur les fonctions de répartition des variables réelles associées. Pour l'étape de prédiction, il est nécessaire de modifier l'algorithme Belief Propagation pour imposer des contraintes de type bayésiennes sur les distributions marginales des variables binaires. L'estimation des paramètres du modèle peut aisément se faire à partir d'observations de paires. Cette approche est en fait une manière de résoudre le problème de régression en travaillant sur les quantiles. D'autre part, on propose un algorithme glouton d'estimation de la structure et des paramètres d'un champ markovien gaussien, basé sur l'algorithme Iterative Proportional Scaling. Cet algorithme produit à chaque itération un nouveau modèle dont la vraisemblance, ou une approximation de celle-ci dans le cas d'observations incomplètes, est supérieure à celle du modèle précédent. Cet algorithme fonctionnant par perturbation locale, il est possible d'imposer des contraintes spectrales assurant une meilleure compatibilité des modèles obtenus avec la version gaussienne de Belief Propagation. Les performances des différentes approches sont illustrées par des expérimentations numériques sur des données synthétiques.
|
Page generated in 0.1059 seconds