Spelling suggestions: "subject:"[STAT:TH] estatistics/estatistics 1heory"" "subject:"[STAT:TH] estatistics/estatistics btheory""
1 |
De l'analyse structurale à la modélisation des ressources naturelles : contributions géostatistiquesRivoirard, Jacques 11 January 2012 (has links) (PDF)
Mes travaux de recherche s'inscrivent dans le développement d'outils géostatistiques pour mieux décrire, comprendre et modéliser la distribution spatiale de ressources naturelles : ressources minières, pétrolières, halieutiques. J'ai parcouru, chemin faisant, les grands secteurs de la géostatistique que sont l'analyse structurale, l'estimation linéaire par krigeage ou cokrigeage, les méthodes non-linéaires, et enfin les simulations. Toute étude géostatistique commence par l'analyse structurale, dans laquelle on cherche à mettre en évidence la structure spatiale des variables en jeu, à l'aide d'outils structuraux tel le variogramme. J'ai étudié de façon empirique l'influence déterminante que pouvait avoir le choix du support de travail (surface ou volume élémentaire sur lequel est mesurée la variable), ainsi que l'émergence difficile d'une structure variographique. En halieutique, l'approche transitive (basée sur un échantillonnage à maille régulière ignorant les frontières), et certaines statistiques apparentées, se révèlent appropriées pour décrire des populations spatiales possédant quelques valeurs très fortes et des frontières diffuses. L'analyse structurale est naturellement cruciale lorsqu'il s'agit de mettre en évidence des liens structuraux entre variables, notamment hiérarchiques. Ainsi la taille des harengs plutôt que leur age, au Nord de l'Ecosse, ou la proportion de minerai plutôt que le métal, dans un gisement d'uranium en petites veines, apparaissent-elles comme pré-éminentes. Le croisement de variables, et les méthodes d'estimation associées (cokrigeage, analyse krigeante), se révèlent particulièrement adaptés pour filtrer des séries de données, sismiques par exemple. Les techniques de cartographie que sont krigeage et cokrigeage posent en pratique un problème majeur, celui du choix du voisinage utilisé pour faire l'estimation, c'est-à-dire le sous-ensemble des données qui est utilisé pour estimer la valeur inconnue en un point. Un voisinage trop petit dans l'estimation de blocs miniers s'accompagne d'un biais conditionnel, responsable d'une surestimation des blocs considérés comme riches. J'ai proposé des outils permettant de mieux choisir le voisinage. Par ailleurs, l'utilisation d'un voisinage glissant peut générer des discontinuités indésirables : une solution générale a été proposée. Enfin je me suis intéressé aux conditions dans lesquelles certaines versions simplifiées de cokrigeage, par exemple le cokrigeage collocalisé, ne s'accompagnent pas de perte d'information. Les problèmes de dépassement de seuils nécessitent, pour le moins, le recours à la géostatistique non-linéaire, basée sur des transformations de la variable en gaussienne ou indicatrices, par exemple. Dans certaines circonstances, le cokrigeage d'indicatrices s'obtient par krigeage de résidus d'indicatrices. Un modèle d'écrêtage permet une estimation adaptée à la présence de valeurs extrêmes, comme dans les gisements d'or. Par ailleurs, une méthode d'ajustement d'histogramme a été développée, permettant en particulier de combler de manière controlée les queues de distribution insuffisamment informées. En mine, la technique dite de conditionnement uniforme permet de prédire la distribution des valeurs de blocs à l'intérieur d'un panneau minier à partir de la seule teneur de ce panneau : la méthode a été étendue au cas multivariable. Les simulations géostatistiques permettent de représenter des phénomènes dans leur variabilité spatiale, et donc d'estimer des quantités complexes. Ainsi a-t-on pu évaluer les ressources récupérables en nodules polymétalliques dans le pacifique Nord, compte tenu de contraintes de pente. De même, l'incertitude sur l'estimation de l'abondance du hareng au Nord de l'Ecosse a pu être chiffrée en combinant différentes sources d'incertitude. Il a fallu pour cela adapter la lassique méthode de simulation transformée gaussienne aux problèmes de valeurs nulles en grand nombre. Quant au modèle résultant du seuillage d'une gaussienne, il permet la simulation de faciès de réservoirs hétérogènes, conditionnée par des données de faciès aux puits. Une technique a été imaginée afin de rendre une telle simulation cohérente avec les fluides observés aux puits. Avec le modèle booléen, les corps sableux sont considérés comme des objets implantés aléatoirement et indépendamment : contraignant dans le cas stationnaire, le modèle est beaucoup plus souple en présence de non-stationnarités, comme c'est généralement le cas des réservoirs hétérogènes. Cependant les simulations génétiques, simulant la genèse des formations géologiques, sont plus adaptées lorsqu'on cherche à reproduire par exemple la géométrie et l'agencement des corps sédimentaires complexes liés aux réservoirs chenalisés méandriformes. Des méthodes de conditionnement ad hoc et l'usage de formules heuristiques s'avèrent alors fort utiles.
|
2 |
Etude de Quelques Problèmes d'Estimation Statistique en FinanceRosenbaum, Mathieu 07 December 2007 (has links) (PDF)
Cette thèse traite plusieurs problèmes de finance statistique et se compose de quatre parties. Dans la première partie, on étudie la question de l'estimation de la persistance de la volatilité à partir d'observations discrètes d'un modèle de diffusion sur un intervalle [0,T], où T est un temps objectif fixé. Pour cela, on introduit un mouvement brownien fractionnaire d'indice de Hurst H dans la dynamique de la volatilité. On construit une procédure d'estimation du paramètre H à partir des données haute fréquence de la diffusion. On montre que la précision de notre estimateur est n^{-1/(4H+2)}, où n est la fréquence d'observation et on prouve son optimalité au sens minimax. Ces considérations théoriques sont suivies d'une étude numérique sur données simulées et données financières. La seconde partie de la thèse traite de la problématique du bruit de microstructure. Pour cela, on considère les observations à la fréquence n$et avec erreur d'arrondi a_n tendant vers zéro, d'un modèle de diffusion sur un intervalle [0,T], où T est un temps objectif fixé. On propose dans ce cadre des estimateurs de la volatilité intégrée de l'actif dont on montre que la précision est max(a_n, n^{-1/2}). On obtient par ailleurs des théorèmes centraux limites dans le cas de diffusions homogènes. Cette étude théorique est ici aussi suivie d'une étude numérique sur données simulées et données financières. On établit dans la troisième partie de cette thèse une caractérisation simple des espaces de Besov et on l'utilise pour démontrer de nouvelles propriétés de régularité pour certains processus stochastiques. Cette partie peut paraître déconnectée des problèmes de finance statistique mais a été inspiratrice pour la partie 4 de la thèse. On construit dans la dernière partie de la thèse un nouvel indice de bruit de microstructure et on l'étudie sur des données financières. Cet indice, dont le calcul se base sur les p-variations de l'actif considéré à différentes échelles de temps, peut être interprété en terme d'espaces de Besov. Comparé aux autres indices, il semble posséder plusieurs avantages. En particulier, il permet de mettre en évidence des phénomènes originaux comme une certaine forme de régularité additionnelle dans les échelles les plus fines. On montre que ces phénomènes peuvent être partiellement reproduits par des modèles de bruit de microstructure additif ou de diffusion avec erreur d'arrondi. Néanmoins, une reproduction fidèle semble nécessiter soit une combinaison de deux formes d'erreur, soit une forme sophistiquée d'erreur d'arrondi.
|
3 |
Méthodes exploratoires d'analyse de données temporellesSaporta, Gilbert 10 June 1981 (has links) (PDF)
L'analyse en composantes principales et l'analyse des correspondances sont généralisées pour étudier des ensembles de trajectoires de processus numériques ou qualitatifs. On étudie également certains problèmes de régression avec une infinité non dénombrable de variables: régression sur un processus, régression d'un processus sur un autre.
|
4 |
Liaisons entre plusieurs ensembles de variables et codage de données qualitativesSaporta, Gilbert 15 May 1975 (has links) (PDF)
Nous étudions des généralisations de l'analyse canonique à plusieurs ensembles de variables. On présente également des techniques d'analyse discriminante sur variables qualitatives via un codage optimal des catégories, ainsi qu'une technique directe de représentation des proximités entre tableaux avec les opérateurs d'Escoufier.
|
5 |
Inférence statistique à travers les échellesDuval, Céline 07 December 2012 (has links) (PDF)
Cette thèse porte sur le problème d'estimation à travers les échelles pour un processus stochastique. Nous étudions comment le choix du pas d'échantillonnage impacte les procédures statistiques. Nous nous intéressons à l'estimation de processus à sauts à partir de l'observation d'une trajectoire discrétisée sur [0, T]. Lorsque la longueur de l'intervalle d'observation T va à l'infini, le pas d'échantillonnage tend soit vers 0 (échelle microscopique), vers une constante positive (échelle intermédiaire) ou encore vers l'infini (échelle macroscopique). Dans chacun de ces régimes nous supposons que le nombre d'observations tend vers l'infini. Dans un premier temps le cas particulier d'un processus de Poisson composé d'intensité inconnue avec des sauts symétriques {-1,1} est étudié. Le Chapitre 2 illustre la notion d'estimation statistique dans les trois échelles définies ci-dessus. Dans ce modèle, on s'intéresse aux propriétés des expériences statistiques. On montre la propriété de Normalité Asymptotique Locale dans les trois échelles microscopiques, intermédiaires et macroscopiques. L'information de Fisher est alors connue pour chacun de ces régimes. Ensuite nous analysons comment se comporte une procédure d'estimation de l'intensité qui est efficace (de variance minimale) à une échelle donnée lorsqu'on l'applique à des observations venant d'une échelle différente. On regarde l'estimateur de la variation quadratique empirique, qui est efficace dans le régime macroscopique, et on l'utilise sur des données provenant des régimes intermédiaire ou microscopique. Cet estimateur reste efficace dans les échelles microscopiques, mais montre une perte substantielle d'information aux échelles intermédiaires. Une procédure unifiée d'estimation est proposée, elle est efficace dans tous les régimes. Les Chapitres 3 et 4 étudient l'estimation non paramétrique de la densité de saut d'un processus renouvellement composé dans les régimes microscopiques, lorsque le pas d'échantillonnage tend vers 0. Un estimateur de cette densité utilisant des méthodes d'ondelettes est construit. Il est adaptatif et minimax pour des pas d'échantillonnage qui décroissent en T^{-alpha}, pour alpha>0. La procédure d'estimation repose sur l'inversion de l'opérateur de composition donnant la loi des incréments comme une transformation non linéaire de la loi des sauts que l'on cherche à estimer. L'opérateur inverse est explicite dans le cas du processus de Poisson composé (Chapitre 3), mais n'a pas d'expression analytique pour les processus de renouvellement composés (Chapitre 4). Dans ce dernier cas, il est approché via une technique de point fixe. Le Chapitre 5 étudie le problème de perte d'identifiabilité dans les régimes macroscopiques. Si un processus à sauts est observé avec un pas d'échantillonnage grand, certaines approximations limites, telles que l'approximation gaussienne, deviennent valides. Ceci peut entraîner une perte d'identifiabilité de la loi ayant généré le processus, dès lors que sa structure est plus complexe que celle étudiée dans le Chapitre 2. Dans un premier temps un modèle jouet à deux paramètres est considéré. Deux régimes différents émergent de l'étude : un régime où le paramètre n'est plus identifiable et un où il reste identifiable mais où les estimateurs optimaux convergent avec des vitesses plus lentes que les vitesses paramétriques habituelles. De l'étude de cas particulier, nous dérivons des bornes inférieures montrant qu'il n'existe pas d'estimateur convergent pour les processus de Lévy de saut pur ou pour les processus de renouvellement composés dans les régimes macroscopiques tels que le pas d'échantillonnage croît plus vite que racine de T. Enfin nous identifions des régimes macroscopiques où les incréments d'un processus de Poisson composé ne sont pas distinguables de variables aléatoires gaussiennes, et des régimes où il n'existe pas d'estimateur convergent pour les processus de Poisson composés dépendant de trop de paramètres.
|
6 |
PAC-Bayesian aggregation and multi-armed banditsAudibert, Jean-Yves 14 October 2010 (has links) (PDF)
This habilitation thesis presents several contributions to (1) the PAC-Bayesian analysis of statistical learning, (2) the three aggregation problems: given d functions, how to predict as well as (i) the best of these d functions (model selection type aggregation), (ii) the best convex combination of these d functions, (iii) the best linear combination of these d functions, (3) the multi-armed bandit problems.
|
7 |
De l' echantillonnage optimal en grande et petite dimensionCarpentier, Alexandra 05 October 2012 (has links) (PDF)
Pendant ma th ese, j'ai eu la chance d'apprendre et de travailler sous la supervision de mon directeur de th ese R emi, et ce dans deux domaines qui me sont particuli erement chers. Je veux parler de la Th eorie des Bandits et du Compressed Sensing. Je les vois comme intimement li es non par les m ethodes mais par leur objectif commun: l' echantillonnage optimal de l'espace. Tous deux sont centr es sur les mani eres d' echantillonner l'espace e cacement : la Th eorie des Bandits en petite dimension et le Compressed Sensing en grande dimension. Dans cette dissertation, je pr esente la plupart des travaux que mes co-auteurs et moi-m^eme avons ecrit durant les trois ann ees qu'a dur e ma th ese.
|
8 |
PAC-Bayesian aggregation and multi-armed banditsAudibert, Jean-Yves 14 October 2010 (has links) (PDF)
This habilitation thesis presents several contributions to (1) the PAC-Bayesian analysis of statistical learning, (2) the three aggregation problems: given d functions, how to predict as well as (i) the best of these d functions (model selection type aggregation), (ii) the best convex combination of these d functions, (iii) the best linear combination of these d functions, (3) the multi-armed bandit problems.
|
9 |
Développements statistiques et algorithmiques pour l'analyse des cancers du sein de type triple négatifRigaill, Guillem 17 November 2010 (has links) (PDF)
Dans le monde, le cancer du sein est le cancer le plus fréquent de la femme. Plusieurs types de cancer du sein ont été mis en évidence. Les carcinomes infiltrants triple négatif (TNBC) sont l'un de ces types. Les TNBC sont parmi les plus agressifs cancers du sein et sont associés à un mauvais pronostique. Il n'y a pas encore de traitement dédié pour ces cancers. Cette thèse avait pour but d'identifier des gènes et des voies de signalisation dérégulés dans les cancers de types TNBC en s'appuyant sur les profiles transcriptomiques et génomiques de tumeurs TNBC bien caractérisées, obtenues par la technique des biopuces. Mon travail comporte deux volets. D'abord, j'ai développé des méthodes pour l'analyse des données génomiques. J'ai proposé une méthode (ITALICS) pour la normalisation des données Affymetrix SNP 100K et 500K. J'ai travaillé sur la segmentation des profils génomiques. J'ai développé de nouveaux outils statistiques pour étudier la stabilité de la segmentation et j'ai obtenu des formules exactes pour des critères de sélection de modèle. Enfin, j'ai propose un algorithme de programmation dynamique rapide qui retrouve la meilleure segmentation au sens de la norme euclidienne. Dans un second temps, j'ai analysé les données omiques du projet. J'ai conçu le plan d'expérience. J'ai analysé les données transcriptomiques avec des méthodes déjà disponibles. J'ai comparé les classifications transcriptomique et immunohistochimique des TNBC. L'analyse des données transcriptomiques m'a permis d'identifier des gènes et des voies de signalisation dérégulés dans les TNBC. Enfin, j'ai analysé les données génomiques avec les outils que j'ai développés.
|
10 |
Méthodes statistiques pour la mise en correspondance de descripteursCollier, Olivier 02 October 2013 (has links) (PDF)
De nombreuses applications, en vision par ordinateur ou en médecine notamment,ont pour but d'identifier des similarités entre plusieurs images ou signaux. On peut alors détecter des objets, les suivre, ou recouper des prises de vue. Dans tous les cas, les procédures algorithmiques qui traitent les images utilisent une sélection de points-clefs qu'elles essayent ensuite de mettre en correspondance par paire. Elles calculent pour chaque point un descripteur qui le caractérise, le discrimine des autres. Parmi toutes les procédures possibles,la plus utilisée aujourd'hui est SIFT, qui sélectionne les points-clefs, calcule des descripteurs et propose un critère de mise en correspondance globale. Dans une première partie, nous tentons d'améliorer cet algorithme en changeant le descripteur original qui nécessite de trouver l'argument du maximum d'un histogramme : en effet, son calcul est statistiquement instable. Nous devons alors également changer le critère de mise en correspondance de deux descripteurs. Il en résulte un problème de test non paramétrique dans lequel à la fois l'hypothèse nulle et alternative sont composites, et même non paramétriques. Nous utilisons le test du rapport de vraisemblance généralisé afin d'exhiber des procédures de test consistantes, et proposons une étude minimax du problème. Dans une seconde partie, nous nous intéressons à l'optimalité d'une procédure globale de mise en correspondance. Nous énonçons un modèle statistique dans lequel des descripteurs sont présents dans un certain ordre dans une première image, et dans un autre dans une seconde image. La mise en correspondance revient alors à l'estimation d'une permutation. Nous donnons un critère d'optimalité au sens minimax pour les estimateurs. Nous utilisons en particulier la vraisemblance afin de trouver plusieurs estimateurs consistants, et même optimaux sous certaines conditions. Enfin, nous nous sommes intéressés à des aspects pratiques en montrant que nos estimateurs étaient calculables en temps raisonnable, ce qui nous a permis ensuite d'illustrer la hiérarchie de nos estimateurs par des simulations
|
Page generated in 0.1109 seconds