Spelling suggestions: "subject:"[STAT:TH] estatistics/estatistics 1heory"" "subject:"[STAT:TH] estatistics/estatistics btheory""
31 |
Contribution à l'apprentissage statistique à base de modèles génératifs pour données complexes.Jacques, Julien 28 November 2012 (has links) (PDF)
Ce mémoire synthétise les activités de recherche que j'ai menées de 2005 à 2012, sur la thématique de l'apprentissage statistique des données complexes, abordée par le biais de modèles probabilistes paramétriques génératifs. Plusieurs types de données complexes sont considérées. Les données issues de populations différentes ont été abordées en proposant des modèles de lien paramétriques entre populations, permettant d'adapter les modèles statistiques d'une population vers l'autre, en évitant une lourde collecte de nouvelles données. Les données de rang, définissant un classement d'objets selon un ordre de préférence, les données ordinales, qui sont des données qualitatives ayant des modalités ordonnées, et les données fonctionnelles, où l'observation statistique consiste en une ou plusieurs courbes, ont également été étudies. Pour ces trois types de données, des modèles génératifs probabilistes ont été définis et utilisés en classification automatique de données multivariées. Enfin les données de grande dimension, que l'on rencontre lorsque le nombre de variables du problème dépasse celui des observations, ont été étudiées dans un cadre de régression. Deux approches, fruits de deux thèses de doctorat que je co-encadre, sont proposés: l'une utilisant des algorithmes d'optimisation combinatoire pour explorer de façon efficace l'espace des variables, et l'autre définissant un modèle de régression regroupant ensemble les variables ayant un effet similaire.
|
32 |
Contributions à la statistique des processus : estimation, prédiction et extrêmesWintenberger, Olivier 23 November 2012 (has links) (PDF)
Ce mémoire d'habilitation traite de la statistique des processus à temps discret faiblement dépendants. Une première partie présente des résultats asymptotiques d'estimation pour les paramètres de modèles affines généraux. La méthode étudiée est la maximisation du critère de quasi-vraisemblance. Afin de traiter de possibles ruptures de stationnarité, nous pénalisons ce critère par le nombre de ruptures. Pour les modèles à volatilité comme le modèle EGARCH, cette procédure est instable et nous proposons de contraindre le critère au domaine dit d'inversibilité continue. Nous étudions le problème de la prédiction de processus faiblement dépendants dans une seconde partie. Les résultats obtenus sont des inégalités d'oracle non asymptotiques nécessitant l'étude préalable des propriétés de concentration gaussiennes de lois faiblement dépendantes. Pour ce faire nous utilisons une notion de transport faible et de nouvelles inégalités dites de transport conditionnel. Enfin, le comportement des extrêmes en présence de dépendance fait l'objet de la troisième partie. Nous introduisons un indice de {\it cluster} qui caractérise les lois limites $\alpha$-stables dans le théorème de la limite centrale et les grandes déviations des sommes partielles à variation régulière. Nous traitons des exemples de processus à queues épaisses tels que les solutions des équations récurrentes stochastiques linéaires et le modèle GARCH. Nous appliquons ces résultats pour caractériser asymptotiquement les erreurs d'estimation des auto-covariances de processus à queues épaisses.
|
33 |
Estimation non-paramétrique et convergence faible des mesures de pauvretéSeck, Cheikh Tidiane 23 March 2011 (has links) (PDF)
Cette thèse introduit tout d'abord une formule générale qui englobe toutes les mesures de pauvreté uni-dimensionnelles basées sur le revenu. Nous proposons ensuite deux types d'estimateurs non-paramétriques (à noyau et de type "plug-in") pour cet indice général de pauvreté, tout en étudiant leurs propriétés asymptotiques. Notre méthodologie, basée essentiellement sur la théorie moderne du processus empirique indexé des fonctions, offre un cadre global et rigoureux qui permet d'étudier, avec la même approche, le comportement asymptotique de tous les indices de pauvreté encore disponibles jusqu'ici dans la littérature. Nous obtenons la consistance forte uniforme d'une très large classe de mesures de pauvreté incluant presque tous les modèles d'indices proposés par les économistes, décomposables comme non-décomposables. Ce résultat est utilisé pour construire des intervalles de confiance simultanés, de niveau asymptotiquement optimal (100%). Un théorème central limite uniforme fonctionnel est également établi pour cette large classe d'indicateurs de pauvreté. Comme conséquence, des procédures d'inférence robustes, basées sur le noyau de covariance et utilisant un test de Wald, sont développées afin de comparer de façon non-ambiguë la pauvreté entre deux populations différentes.
|
34 |
Some (statistical) applications of Ockham's principleLe Pennec, Erwan 19 March 2013 (has links) (PDF)
Ce manuscrit présente mes contributions scientifiques de ces dix dernières années à l'interface entre traitement d'image et statistique. Il débute par l'étude d'un exemple jouet, l'estimation de la moyenne d'un vecteur gaussien, qui permet de présenter le type de question statistique auquel je me suis intéressé, de souligner l'importance de la théorie de l'approximation et de présenter le principe de parcimonie d'Ockham. Après une brève description de l'ensemble des contributions, le manuscrit s'organise autour des modèles statistiques que j'ai pu rencontrés: modèle de bruit blanc, modèle de densité et modèle de densité conditionnelle.
|
35 |
Sélection de modèle : une approche décisionnelleBoisbunon, Aurélie 14 January 2013 (has links) (PDF)
Cette thèse s'articule autour de la problématique de la sélection de modèle, étudiée dans le contexte de la régression linéaire. L'objectif est de déterminer le meilleur modèle de prédiction à partir de données mesurées, c'est-à-dire le modèle réalisant le meilleur compromis entre attache aux données et complexité du modèle. La contribution principale consiste en la dérivation de critères d'évaluation de modèles basés sur des techniques de théorie de la décision, plus précisément l'estimation de coût. Ces critères reposent sur une hypothèse distributionnelle plus large que l'hypothèse classique gaussienne avec indépendance entre les observations : la famille des lois à symétrie sphérique. Cette famille nous permet à la fois de nous affranchir de l'hypothèse d'indépendance et d'ajouter une plus grande robustesse puisque nos critères ne dépendent pas de la forme spécifique de la distribution. Nous proposons également une méthode de comparaison des critères dérivés au travers d'une mesure de type Erreur quadratique (MSE), qui permet de déterminer si un critère d'évaluation de modèle est meilleur qu'un autre. La seconde contribution attaque le problème de la construction des différents modèles comparés. Les collections de modèles considérées sont celles issues des méthodes de régularisation parcimonieuses, de type Lasso. En particulier, nous nous sommes intéressés à la Pénalité Concave Minimax (MCP), qui garde la sélection du Lasso tout en corrigeant son biais d'estimation. Cette pénalité correspond cependant à un problème non différentiable et non convexe. La généralisation des outils habituels de sous-différentielles grâce aux différentielles de Clarke a permis de déterminer les conditions d'optimalité et de développer un algorithme de chemin de régularisation pour le MCP. Enfin, nous comparons nos propositions avec celles de la littérature au travers d'une étude numérique, dans laquelle nous vérifions la qualité de la sélection. Les résultats montrent notamment que nos critères obtiennent des performances comparables à ceux de la littérature, et que les critères les plus couramment utilisés en pratique (validation croisée) ne sont pas toujours parmi les plus performants.
|
36 |
Estimation de fonctions géométriques et déconvolutionDossal, Charles 05 December 2005 (has links) (PDF)
Le travail présenté se divise en trois partie. Dans un premier temps, nous montrons que le formalisme de la sélection de modèles permet d'établir la vitesse de décroissance de l'erreur d'estimation d'un estimateur par seuillage dans une base orthogonale de bandlettes d'une image bruitée par un bruit additif gaussien pour un modèle d'images géométriquement régulières. Cette vitesse étant optimale à un facteur logarithmique près pour les fonctions de régularité C_alpha en dehors de courbes C_alpha. Dans un second temps, nous montrons qu'une approche similaire permet également d'atteindre un estimateur optimal pour l'inversion de l'opérateur de tomographie sur la même classe de fonctions. Dans une troisième partie nous analysons la déconvolution sparse spike 1D par minimisation l_1 et montrons qu'une distance minimum entre les spikes, dépendant du filtre assure la reconstruction exacte de la déconvolution par minimisation l_1
|
37 |
Etudes de modèles de croissance et fragmentation et applications en biologieDoumic, Marie 20 June 2013 (has links) (PDF)
Etude d'équations de croissance et de fragmentation, problèmes inverses et directs, et applications en biologie
|
38 |
Estimation statistique d'atlas probabiliste avec les données multimodales et son application à la segmentation basée sur l'atlasXu, Hao 31 March 2014 (has links) (PDF)
Les atlases d'anatomie informatisé jouent un rôle important dans l'analyse d'images médicales. Cependant un atlas se réfère généralement à une image standard ou une moyenne d'image aussi appelé template, qui probablement représente bien d'une population observée, il ne suffit pas pour caractériser la population observée en détail. Un template doit être apprises conjointement avec la variabilité géométrique des formes représentées dans les observations. Ces deux quantités seront par la suite former l'atlas de la population correspondante. La variabilité géométrique est modélisée comme des déformations du template de sorte qu'il s'adapte aux observations. Dans la première partie du travail, nous fournissons un nouveau modèle statistique générative basée sur des templates déformables denses qui représente plusieurs types de tissus observés dans les images médicales. Notre atlas contient à la fois une estimation des templates probabiliste de chaque tissu (appelée classes) et la métrique de déformation. Nous utilisons un algorithme stochastique pour l'estimation de l'atlas probabilistes donné un ensemble de données. Cet atlas est ensuite utilisé pour la méthode de segmentation basée sur l'atlas pour segmenter les nouvelles images. Expériences sont montrées sur les images T1 du cerveau. Les analyses traditionnelles d'imagerie de résonance magnétique fonctionnelle utilisent peu d'informations anatomies. Le recalage des images vers un template est basé sur l'anatomie individuelle et ne tient pas compte des informations fonctionnelles, donc les activations détectées ne se limitent pas à la matière grise. Dans la deuxième partie du travail, on propose un modèle statistique pour estimer un atlas probabiliste de l'IRM fonctionnelle et T1 qui résume à la fois des informations anatomies et fonctionnelles et la variabilité géométrique de la population. Le recalage et la segmentation sont effectuées conjointement pendant l'estimation de l'atlas et l'activité fonctionnelle est limitée à la matière grise, augmenter la précision de l'atlas. Inférer l'abondance des protéines de l'intensité de peptides est l'étape clé dans la protéomique quantitative. La conclusion est nécessairement plus précis quand de nombreux peptides sont pris en compte pour une protéine donnée. Pourtant, l'information apportée par les peptides partagées par différentes protéines est souvent jeté. Dans la troisième partie du travail, nous proposons un système statistique basée sur une modèle hiérarchique à inclure cette information. Notre méthodologie, basée sur une analyse simultanée de tous les peptides quantifiés, gère les erreurs biologiques et techniques ainsi que l'effet des peptides. En outre, nous proposons une mise en œuvre pratique adapté à l'analyse de grandes bases de données. Par rapport à une méthode basée sur l'analyse d'une protéine à la fois (ce qui ne comprend pas les peptides partagés), notre méthodologie s'est révélée être beaucoup plus fiable pour estimer l'abondance de protéines et de tester les changements d'abondance.
|
39 |
Comportement d'un échantillon sous conditionnement extrême, maximum de vraisemblance sous échantillonnage pondéréCao, Zhansheng 26 November 2012 (has links) (PDF)
Dans le Chapitre 1, nous explorons le comportement joint des variables d'une marche aléatoire (X1, . . . ,Xn) lorsque leur valeur moyenne tend vers l'infini quand n tend vers l'infini. Il est prouvé que toutes ces variables doivent partager la même valeur, ce qui généralise les résultats précédents, dans le cadre de grands dépassements de sommes finies de i.i.d variables aléatoires. Dans le Chapitre 2, nous montrons un théorème de Gibbs conditionnel pour une marche aléatoire (X1, ..,Xn) conditionnée à une déviation extrême. Il est prouvé que lorsque les opérandes ont des queues légères avec une certaine régularité supplémentaire, la distribution asymptotique conditionnelle de X1 peut être approximée par la distribution tiltée en norme de la variation totale, généralisant ainsi le cas classique du LDP. Le troisième Chapitre explore le principe du maximum de vraisemblance dans les modèles paramétriques, dans le contexte du théorème de grandes déviations de Sanov. Le MLE est associé à la minimisation d'un critère spécifique de type divergence, qui se généralise au cas du bootstrap pondéré, où la divergnce est fonction de la distribution des poids. Certaines propriétés de la procédure résultante d'inférence sont présenteés ; l'efficacité de Bahadur de tests est également examinée dans ce contexte.
|
40 |
Contribution à la notion d'autosimilarité et à l'étude des trajectoires de champs aléatoires.Lacaux, Céline 06 December 2012 (has links) (PDF)
Mes travaux portent essentiellement sur des champs aléatoires qui satisfont une propriété d'autosimilarité globale ou locale, éventuellement anisotrope. Au cours de ces dernières années, je me suis concentrée sur l'étude de la régularité des trajectoires de tels champs mais aussi de leur simulation, de l'estimation des paramètres ou encore de certaines propriétés géométriques (dimension d'Hausdorff). J'ai été amenée à introduire de nouvelles notions d'autosimilarité : autosimilarité locale pour des champs indexés par une variété et autosimilarité locale anisotrope. Une partie de mes travaux porte sur des séries de type shot noise (vitesse de convergence, régularité). Ces séries permettent notamment de proposer une méthode de simulation pour les champs fractionnaires ou multifractionnaires. Elles nous ont permis d'obtenir une majoration du module de continuité de champs aléatoires anisotropes stables mais sont aussi utiles pour l'étude de champs plus généraux (champs définis par une série aléatoire conditionnellement sous-gaussienne, champs multi-stables). L'étude de modèles anisotropes est motivée par la modélisation de roches mais aussi de radiographies d'os en vue de l'aide à la détection précoce de l'ostéoporose (projet ANR MATAIM). J'ai aussi abordé des questions plus statistiques : estimations des paramètres, propriété LAN (Local Asymptotic Normality). Enfin, au sein de l'équipe INRIA BIology Genetics and Statistics, je travaille sur des problématiques tournées vers des applications médicales en collaboration avec des automaticiens. J'ai en particulier travaillé sur un algorithme de débruitage en vue d'application à des ECG.
|
Page generated in 0.1167 seconds