Spelling suggestions: "subject:"[STAT:TH] estatistics/estatistics 1heory"" "subject:"[STAT:TH] estatistics/estatistics btheory""
51 |
Quelques contributions en classification, régression et étude d'un problème inverse en financeMonnier, Jean-Baptiste 06 December 2011 (has links) (PDF)
On s'intéresse aux problèmes de régression, classification et à un problème inverse en finance. Nous abordons dans un premier temps le problème de régression en design aléatoire à valeurs dans un espace euclidien et dont la loi admet une densité inconnue. Nous montrons qu'il est possible d'élaborer une stratégie d'estimation optimale par projections localisées sur une analyse multi-résolution. Cette méthode originale offre un avantage calculatoire sur les méthodes d'estimation à noyau traditionnellement utilisées dans un tel contexte. On montre par la même occasion que le classifieur plug-in construit sur cette nouvelle procédure est optimal. De plus, il hérite des avantages calculatoires mentionnés plus haut, ce qui s'avère être un atout crucial dans de nombreuses applications. On se tourne ensuite vers le problème de régression en design aléatoire uniformément distribué sur l'hyper-sphère et on montre comment le tight frame de needlets permet de généraliser les méthodes traditionnelles de régression en ondelettes à ce nouveau contexte. On s'intéresse finalement au problème d'estimation de la densité risque-neutre à partir des prix d'options cotés sur les marchés. On exhibe une décomposition en valeurs singulières explicite d'opérateurs de prix restreints et on montre qu'elle permet d'élaborer une méthode d'estimation de la densité risque-neutre qui repose sur la résolution d'un simple programme quadratique.
|
52 |
De la trajectoire des prédateurs à la cartographie de leurs proies : estimation spatiale de l'activité des senneurs et des thonidés dans l'Océan indienWalker, Emily 29 June 2010 (has links) (PDF)
Actuellement, la distribution spatiale des thons tropicaux pêchés par les senneurs français dans l'Océan Indien est représentée à partir des données de captures et d'effort issues des livres de bord. Or ces données ne comportent qu'une position par jour et le nombre de calées réalisées pendant cette journée : l'ensemble des zones prospectées sans action de pêche, synonyme d'absence d'agrégations de thon n'est pas connu. Ces zones seraient pourtant utiles à la cartographie des abondances. Cette flottille étant équipée de systèmes VMS (Vessel Monitoring Systems), les trajectoires données par les VMS sont utilisées pour déduire du comportement des navires, les zones de présence (pêche) et d'absence (non pêche) d'agrégations de thonidés. L'objectif est donc d'estimer l'activité d'un navire à partir de sa trajectoire. L'application d'un modèle markovien permet de distinguer les activités de route, de recherche, et d'arrêt, et de pêche. Pour la majorité des sorties en mer (exceptées celles où un observateur est à bord), l'activité réelle du navire n'est pas connue (variable latente), ce qui justifie l'approche par chaînes de Markov à états cachés. Le modèle a été développé dans un contexte bayésien incluant des priors sur certains des paramètres (vitesses, angles de changement de cap et matrice de transition). Il a été calibré et validé grâce aux données collectées par des observateurs embarqués sur 10% de la flottille. Le taux d'erreur est de 10% pour des positions VMS enregistrées toutes les heures. Une fois estimée, l'activité des senneurs en chaque point de leur trajectoire a permis (1) d'obtenir des indicateurs spatiaux et temporels de l'effort de la flottille de senneurs français, et (2) d'étudier la structure spatiale des zones de présence de bancs de thons (variogrammes d'indicatrices) et d'en déduire, par cokrigeage d'indicatrices, des cartes de présence/présence potentielle/absence de thon capturable, pouvant être interprétées comme indices d'abondance de thon.
|
53 |
Inversion probabiliste bayésienne en analyse d'incertitudeFu, Shuai 14 December 2012 (has links) (PDF)
Ce travail de recherche propose une solution aux problèmes inverses probabilistes avec des outils de la statistique bayésienne. Le problème inverse considéré est d'estimer la distribution d'une variable aléatoire non observée X a partir d'observations bruitées Y suivant un modèle physique coûteux H. En général, de tels problèmes inverses sont rencontrés dans le traitement des incertitudes. Le cadre bayésien nous permet de prendre en compte les connaissances préalables d'experts surtout avec peu de données disponibles. Un algorithme de Metropolis-Hastings-within-Gibbs est proposé pour approcher la distribution a posteriori des paramètres de X avec un processus d'augmentation des données. A cause d'un nombre élevé d'appels, la fonction coûteuse H est remplacée par un émulateur de krigeage (méta-modèle) H chapeau. Cette approche implique plusieurs erreurs de nature différente et, dans ce travail, nous nous attachons a estimer et réduire l'impact de ces erreurs. Le critère DAC a été proposé pour évaluer la pertinence du plan d'expérience (design) et le choix de la loi a priori, en tenant compte des observations. Une autre contribution est la construction du design adaptatif adapté a notre objectif particulier dans le cadre bayésien. La principale méthodologie présentée dans ce travail a été appliquée a un cas d' étude d'ingénierie hydraulique.
|
54 |
Un théorème limite conditionnel. Applications à l'inférence conditionnelle et aux méthodes d'Importance Sampling.Caron, Virgile 16 October 2012 (has links) (PDF)
Cette thèse présente une approximation fine de la densité de longues sous-suites d'une marche aléatoire conditionnée par la valeur de son extrémité, ou par une moyenne d'une fonction de ses incréments, lorsque sa taille tend vers l'infini. Dans le domaine d'un conditionnement de type grande déviation, ce résultat généralise le principe conditionnel de Gibbs au sens où il décrit les sous suites de la marche aléatoire, et non son comportement marginal. Une approximation est aussi obtenue lorsque l'événement conditionnant énonce que la valeur terminale de la marche aléatoire appartient à un ensemble mince, ou gros, d'intérieur non vide. Les approximations proposées ont lieu soit en probabilité sous la loi conditionnelle, soit en distance de la variation totale. Deux applications sont développées; la première porte sur l'estimation de probabilités de certains événements rares par une nouvelle technique d'échantillonnage d'importance; ce cas correspond à un conditionnement de type grande déviation. Une seconde application explore des méthodes constructives d'amélioration d'estimateurs dans l'esprit du théorème de Rao-Blackwell, et d'inférence conditionnelle sous paramètre de nuisance; l'événement conditionnant est alors dans la gamme du théorème de la limite centrale. On traite en détail du choix effectif de la longueur maximale de la sous suite pour laquelle une erreur relative maximale fixée est atteinte par l'approximation; des algorithmes explicites permettent la mise en oeuvre effective de cette approximation et de ses conséquences.
|
55 |
Modélisation et commande de processus par réseaux de neurones ; application au pilotage d'un véhicule autonomeRivals, Isabelle 20 January 1995 (has links) (PDF)
Les réseaux de neurones formels permettent de construire, par apprentissage statistique, une vaste famille de modèles et de correcteurs non linéaires. L'objet de cette thèse est la définition des modalités de mise en œuvre de réseaux de neurones et l'évaluation de leur apport pour la modélisation et la commande non adaptatives de processus dynamiques non linéaires. Sur le plan théorique, nous présentons la modélisation et la commande de processus par réseaux de neurones dans un cadre aussi général que possible, en les plaçant dans la perspective de l'Automatique classique. En modélisation, les résultats concernant les systèmes linéaires nous aident à formuler les prédicteurs non linéaires optimaux théoriques correspondant à diverses hypothèses sur le bruit intervenant dans le processus à modéliser ; une méthodologie d'apprentissage associée fournit des prédicteurs neuronaux qui sont des réalisations des prédicteurs théoriques. Nous proposons ensuite une famille de systèmes de commande neuronaux, dont nous étudions les propriétés et les liens avec les systèmes de commande classique, linéaire ou non, en insistant notamment sur la robustesse ; ceci nous conduit à développer la commande avec modèle interne neuronale. Sur le plan pratique, nous illustrons notre démarche et nos résultats par une application industrielle, le pilotage d'un véhicule autonome tout-terrain, dont le volant, l'accélérateur et le frein sont commandés par des réseaux neuronaux.
|
56 |
JEUX DE BANDITS ET FONDATIONS DU CLUSTERINGBubeck, Sébastien 10 June 2010 (has links) (PDF)
Ce travail de thèse s'inscrit dans le domaine du machine learning et concerne plus particulièrement les sous-catégories de l'optimisation stochastique, du online learning et du clustering. Ces sous-domaines existent depuis plusieurs décennies mais ils ont tous reçu un éclairage différent au cours de ces dernières années. Notamment, les jeux de bandits offrent aujourd'hui un cadre commun pour l'optimisation stochastique et l'online learning. Ce point de vue conduit a de nombreuses extensions du jeu de base. C'est sur l'étude mathématique de ces jeux que se concentre la première partie de cette thèse. La seconde partie est quant à elle dédiée au clustering et plus particulièrement à deux notions importantes: la consistance asymptotique des algorithmes et la stabilité comme méthode de sélection de modèles.
|
57 |
Fast uncertainty reduction strategies relying on Gaussian process modelsChevalier, Clément 18 September 2013 (has links) (PDF)
Cette thèse traite de stratégies d'évaluation séquentielle et batch-séquentielle de fonctions à valeurs réelles sous un budget d'évaluation limité, à l'aide de modèles à processus Gaussiens. Des stratégies optimales de réduction séquentielle d'incertitude (SUR) sont étudiées pour deux problèmes différents, motivés par des cas d'application en sûreté nucléaire. Tout d'abord, nous traitons le problème d'identification d'un ensemble d'excursion au dessus d'un seuil T d'une fonction f à valeurs réelles. Ensuite, nous étudions le problème d'identification de l'ensemble des configurations "robustes, contrôlées", c'est à dire l'ensemble des inputs contrôlés où la fonction demeure sous T quelle que soit la valeur des différents inputs non-contrôlés. De nouvelles stratégies SUR sont présentés. Nous donnons aussi des procédures efficientes et des formules permettant d'utiliser ces stratégies sur des applications concrètes. L'utilisation de formules rapides pour recalculer rapidement le posterior de la moyenne ou de la fonction de covariance d'un processus Gaussien (les "formules d'update de krigeage") ne fournit pas uniquement une économie computationnelle importante. Elles sont aussi l'un des ingrédient clé pour obtenir des formules fermées permettant l'utilisation en pratique de stratégies d'évaluation coûteuses en temps de calcul. Une contribution en optimisation batch-séquentielle utilisant le Multi-points Expected Improvement est également présentée.
|
58 |
Mélanges bayésiens de modèles d'extrêmes multivariés, Application à la prédétermination régionale des crues avec données incomplètes.Anne, Sabourin 24 September 2013 (has links) (PDF)
La théorie statistique univariée des valeurs extrêmes se généralise au cas multivarié mais l'absence d'un cadre paramétrique naturel complique l'inférence de la loi jointe des extrêmes. Les marges d'erreur associées aux estimateurs non paramétriques de la structure de dépendance sont difficilement accessibles à partir de la dimension trois. Cependant, quantifier l'incertitude est d'autant plus important pour les applications que le problème de la rareté des données extrêmes est récurrent, en particulier en hydrologie. L'objet de cette thèse est de développer des modèles de dépendance entre extrêmes, dans un cadre bayésien permettant de représenter l'incertitude. Après une introduction à la théorie des valeurs extrêmes et à l'inférence bayésienne (chapitre 1), le chapitre 2 explore les propriétés des modèles obtenus en combinant des modèles paramétriques existants, par mélange bayésien (Bayesian Model Averaging). Un modèle semi-paramétrique de mélange de Dirichlet est étudié au chapitre suivant : une nouvelle paramétrisation est introduite afin de s'affranchir d'une contrainte de moments caractéristique de la structure de dépendance et de faciliter l'échantillonnage de la loi a posteriori. Le chapitre~\ref{censorDiri} est motivé par une application hydrologique: il s'agit d'estimer la structure de dépendance spatiale des crues extrêmes dans la région cévenole des Gardons en utilisant des données historiques enregistrées en quatre points. Les données anciennes augmentent la taille de l'échantillon mais beaucoup de ces données sont censurées. Une méthode d'augmentation de données est introduite, dans le cadre du mélange de Dirichlet, palliant l'absence d'expression explicite de la vraisemblance censurée. Les perspectives sont discutées au chapitre 5.
|
59 |
Méthodes d'analyse de données et modèles bayésiens appliqués au contexte des inégalités socio-territoriales de santé et des expositions environnementalesLalloué, Benoît 06 December 2013 (has links) (PDF)
Cette thèse a pour but d'améliorer les connaissances concernant les techniques d'analyse de données et certains modèles bayésiens dans le domaine de l'étude des inégalités sociales et environnementales de santé. À l'échelle géographique de l'IRIS sur les agglomérations de Paris, Marseille, Lyon et Lille, l'événement sanitaire étudié est la mortalité infantile dont on cherchera à expliquer le risque avec des données socio-économiques issues du recensement et des expositions environnementales comme la pollution de l'air, les niveaux de bruit et la proximité aux industries polluantes, au trafic automobile ou aux espaces verts. Deux volets principaux composent cette thèse. Le volet analyse de données détaille la mise au point d'une procédure de création d'indices socio-économiques multidimensionnels et la conception d'un package R l'implémentant, puis la création d'un indice de multi-expositions environnementales. Pour cela, on utilise des techniques d'analyse de données pour synthétiser l'information et fournir des indicateurs composites utilisables directement par les décideurs publics ou dans le cadre d'études épidémiologiques. Le second volet concerne les modèles bayésiens et explique le modèle " BYM ". Celui-ci permet de prendre en compte les aspects spatiaux des données et est mis en œuvre pour estimer le risque de mortalité infantile. Dans les deux cas, les méthodes sont présentées et différents résultats de leur utilisation dans le contexte ci-dessus exposés. On montre notamment l'intérêt de la procédure de création d'indices socio-économiques et de multi-expositions, ainsi que l'existence d'inégalités sociales de mortalité infantile dans les agglomérations étudiées.
|
60 |
Détection d'anomalies à la volée dans des flux de données de grande dimensionBellas, Anastasios 28 January 2014 (has links) (PDF)
Le thème principal de cette thèse est d'étudier la détection d'anomalies dans des flux de données de grande dimension avec une application spécifique au \emph{Health Monitoring} des moteurs d'avion. Dans ce travail, on considère que le problème de la détection d'anomalies est un problème d'apprentissage non supervisée. Les données modernes, notamment celles issues de la surveillance des systèmes industriels sont souvent des flux d'observations de grande dimension, puisque plusieurs mesures sont prises à de hautes fréquences et à un horizon de temps qui peut être infini. De plus, les données peuvent contenir des anomalies (pannes) du système surveillé. La plupart des algorithmes existants ne peuvent pas traiter des données qui ont ces caractéristiques. Nous introduisons d'abord un algorithme de clustering probabiliste offline dans des sous-espaces pour des données de grande dimension qui repose sur l'algorithme d'espérance-maximisation (EM) et qui est, en plus, robuste aux anomalies grâce à la technique du trimming. Ensuite, nous nous intéressons à la question du clustering probabiliste online de flux de données de grande dimension en développant l'inférence online du modèle de mélange d'analyse en composantes principales probabiliste. Pour les deux méthodes proposées, nous montrons leur efficacité sur des données simulées et réelles, issues par exemple des moteurs d'avion. Enfin, nous développons une application intégrée pour le Health Monitoring des moteurs d'avion dans le but de détecter des anomalies de façon dynamique. Le système proposé introduit des techniques originales de détection et de visualisation d'anomalies reposant sur les cartes auto-organisatrices. Des résultats de détection sont présentés et la question de l'identification des anomalies est aussi discutée.
|
Page generated in 0.3409 seconds