Global ETD Search

1	Inférence robuste sur les paramètres d'une régression linéaire bayésienne Gagnon, Philippe 01 1900 (has links) (PDF) La robustesse d'une inférence a posteriori face à des valeurs aberrantes est étudiée, dans un cadre de régression linéaire bayésienne. Il est montré que le modèle de régression linéaire simple avec une constante nulle peut être vu comme un problème d'inférence sur des paramètres de position-échelle. Un lien est alors effectué avec la théorie de robustesse de Desgagné (2011). En présence minoritaire de données aberrantes, une convergence en loi des densités a posteriori vers celles excluant les valeurs extrêmes, lorsque celles-ci tendent vers plus ou moins l'infini, est garantie sous une condition relative à des ailes suffisamment relevées de la densité des erreurs. Il est démontré que les estimations par maximum de vraisemblance sont eux aussi robustes. De plus, une nouvelle famille de densités, appelée DL-GEP, est proposée afin de guider l'utilisateur dans une recherche de distributions respectant le critère de robustesse. Les résultats théoriques sont illustrés d'abord à l'aide d'un exemple basé sur des données simulées, puis par une étude de cas s'appuyant sur des données financières, où les considérations pratiques sont abordées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Inférence bayésienne, robustesse, régression linéaire, valeurs aberrantes, paramètres de position-échelle, distributions à ailes relevées, fonctions à variation L-exponentielle, famille de densités DL-GEP. Inférence statistique Régression linéaire Statistique bayésienne Statistique robuste
2	Recalage non rigide en imagerie cérébrale : méthodes et validation Hellier, Pierre 22 December 2000 (has links) (PDF) Dans le contexte de la fusion de données en imagerie médicale, cette thèse s'intéresse aux problèmes de recalage non-rigide en imagerie cérébrale, monomodalité et multimodalité. Dans un premier temps, nous avons développé une approche originale pour estimer une transformation $3D$ dense entre deux volumes IRM de deux sujets différents. Cette méthode est basée sur une estimation du flot optique, exprimé dans un cadre statistique robuste. Nous avons également proposé un schéma de minimisation efficace, à la fois multirésolution et multigrille, s'appuyant sur des contraintes anatomiques. Nous avons validé cette méthode sur des données synthétiques, puis sur une base de donnée de 18 sujets. Dans un deuxième temps, nous nous sommes intéressés au problème du recalage non-rigide multimodalité. Les images fonctionnelles IRMf, en acquisition EPI, présentent des déformations géométriques qui gênent l'interprétation des données fonctionnelles. Nous avons proposé un algorithme de recalage non-rigide multimodalité à l'aide d'une mesure de similarité adaptée, dans un cadre de minimisation multigrille. Dans un troisième temps, nous avons proposé un cadre de validation de méthodes de recalage non-rigides. 5 méthodes différentes, parmi lesquelles des approches classiques et des approches plus récentes, ont été évaluées sur la base de critères globaux (volume moyen, corrélation des Lvv, recouvrement des tissus anatomiques) et de critères locaux (recalage des sillons corticaux). Enfin, nous avons étudié des approches coopératives utilisant les processus de segmentation et de recalage. Basée sur une méthode de type ``ensemble de niveaux'', la segmentation de structures anatomiques peut être guidée par un champ grossier de déformation. Le recalage permet d'initialiser correctement les modèles déformables, entraînant une segmentation automatique, plus robuste, plus précise et considérablement plus rapide. D'autre part, la segmentation de structures anatomiques d'intérêt comme les sillons corticaux permet de contraindre le processus de recalage présenté dans la première partie. En particulier, le cadre statistique permet d'intégrer cette contrainte locale et éparse de manière naturelle. Sur la base de 18 sujets, nous avons montré l'apport de cette contrainte anatomique. Imagerie médicale recalage non-rigide segmentation flot optique statistique robuste minimisation multigrille
3	Segmentation de processus avec un bruit autorégressif / Segmenting processes with an autoregressive noise Chakar, Souhil 22 September 2015 (has links) Nous proposons d’étudier la méthodologie de la segmentation de processus avec un bruit autorégressif sous ses aspects théoriques et pratiques. Par « segmentation » on entend ici l’inférence de points de rupture multiples correspondant à des changements abrupts dans la moyenne de la série temporelle. Le point de vue adopté est de considérer les paramètres de l’autorégression comme des paramètres de nuisance, à prendre en compte dans l’inférence dans la mesure où cela améliore la segmentation.D’un point de vue théorique, le but est de conserver un certain nombre de propriétés asymptotiques de l’estimation des points de rupture et des paramètres propres à chaque segment. D’un point de vue pratique, on se doit de prendre en compte les limitations algorithmiques liées à la détermination de la segmentation optimale. La méthode proposée, doublement contrainte, est basée sur l’utilisation de techniques d’estimation robuste permettant l’estimation préalable des paramètres de l’autorégression, puis la décorrélation du processus, permettant ainsi de s’approcher du problème de la segmentation dans le cas d’observations indépendantes. Cette méthode permet l’utilisation d’algorithmes efficaces. Elle est assise sur des résultats asymptotiques que nous avons démontrés. Elle permet de proposer des critères de sélection du nombre de ruptures adaptés et fondés. Une étude de simulations vient l’illustrer. / We propose to study the methodology of autoregressive processes segmentation under both its theoretical and practical aspects. “Segmentation” means here inferring multiple change-points corresponding to mean shifts. We consider autoregression parameters as nuisance parameters, whose estimation is considered only for improving the segmentation.From a theoretical point of view, we aim to keep some asymptotic properties of change-points and other parameters estimators. From a practical point of view, we have to take into account the algorithmic constraints to get the optimal segmentation. To meet these requirements, we propose a method based on robust estimation techniques, which allows a preliminary estimation of the autoregression parameters and then the decorrelation of the process. The aim is to get our problem closer to the segmentation in the case of independent observations. This method allows us to use efficient algorithms. It is based on asymptotic results that we proved. It allows us to propose adapted and well-founded number of changes selection criteria. A simulation study illustrates the method. Segmentation Modèle autorégressif Statistique robuste Sélection de modèle Segmentation Autoregressive model Robust statistics Model selection
4	Statistical methods for analysing serum protein electrophoretic data in External Quality Assessment (EQA) programmes Zhang, Lixin 03 December 2010 (has links) Les examens de laboratoire jouent un rôle essentiel dans la pratique médicale. Ils sont utilisés à des fins diagnostique, pronostique, thérapeutique ou encore pour dépister des maladies spécifiques dans des populations présumées en bonne santé (Tietz, 1986). Quotidiennement, les laboratoires de biologie clinique réalisent des millions de tests fournissant autant de données à interpréter. Les responsables des soins de santé ont toujours été préoccupés par la qualité globale du travail réalisé dans les laboratoires. En dépit de procédures de contrôle de qualité interne rigoureuses, les résultats obtenus pour un même échantillon dans deux laboratoires peuvent occasionnellement différer de façon notoire. Il serait inacceptable cependant quun résultat dun test biologique soit considéré comme « normal » dans un laboratoire et « anormal » dans lautre. Les programmes dEvaluation Externe de la Qualité (EEQ) ont précisément comme objectif de contrôler la performance analytique des laboratoires de biologie clinique à une grande échelle et généralement par le biais dun organisme externe. Le but de lEEQ est de sassurer que les résultats des tests soient compatibles quel que soit le laboratoire qui réalise les analyses, en dautres termes de garantir la comparabilité des laboratoires et par là-même dadministrer les meilleurs soins aux patients (Libeer, 1993). Les protocoles EEQ consistent à organiser des enquêtes dans lesquelles les laboratoires participants doivent réaliser des analyses sur un même échantillon contrôle comme sil sagissait danalyses de routine. Il faut ensuite renvoyer les résultats de ces analyses au centre EEQ avec des informations détaillées sur les techniques de dosage utilisées. Les résultats sont alors soumis à une analyse statistique. En réalité, lanalyse statistique poursuit trois objectifs : (1) obtenir une estimation robuste de la concentration du constituant (moyenne) dans léchantillon contrôle et de la variabilité entre les laboratoires (écart-type), une estimation robuste étant nécessaire car les résultats EEQ contiennent souvent des valeurs aberrantes qui peuvent sérieusement affecter la moyenne et de lécart-type ; (2) évaluer la qualité des laboratoires en mettant en évidence les résultats « hors-limites » et les laboratoires « peu performants » et ce, à court et à long termes ; (3) évaluer et comparer la précision analytique des techniques/équipements utilisés par les participants (Albert, 1997). Depuis plusieurs dizaines dannées, des programmes EEQ ont été mis en place dans de nombreux pays et ils contrôlent la plupart des analyses de biologie clinique classiques comme le glucose, le cholestérol ou le calcium, ou encore les enzymes et les hormones. Ce travail a débuté lorsque lélectrophorèse de protéines fut introduite dans le panel des analyses de laboratoire soumises à lEEQ. Contrairement aux autres tests contrôlés jusqualors, lélectrophorèse de protéines fournit non pas une valeur mais cinq fractions, respectivement, lalbumine, les globulines α1, α2, β et , dont la somme fait 100% et dont linterprétation doit se faire globalement. En dautres termes, les données électrophorétiques obtenues dans lEEQ doivent être analysées par des méthodes de la statistique multivariée (Zhang et al, 2008). Ceci nécessite ladaptation à lenvironnement EEQ de méthodes multivariées existantes (telles quon les trouve dans les ouvrages de référence) ou le développement dapproches nouvelles. Dans cette thèse, nous nous sommes fixé comme but dapporter une solution théorique et pratique au problème de lanalyse et de linterprétation des résultats délectrophorèses dans le domaine de lEvaluation Externe de la Qualité. Dans lintroduction de ce travail, un bref rappel est fait des protocoles EEQ et de leur mise en pratique notamment en ayant recours à lInternet. Les méthodes univariées de statistique robuste permettant destimer la moyenne et lécart-type des résultats EEQ sont décrites et la notion de valeur « hors-limites » est définie. Ceci permet dapprécier la qualité dun laboratoire par rapport à ses pairs sur base du résultat quil a fourni. Le concept de coefficient de variation (CV) est aussi présenté comme un moyen de mesurer et de comparer la reproductibilité analytique des techniques de laboratoire. Finalement, on rappelle quelques notions relatives aux électrophorèses de protéines, leur utilité clinique et les méthodes de dosage utilisées. Les bases de données EEQ qui servent à illustrer la méthodologie statistique développée dans ce travail sont décrites en détail. Elles proviennent principalement des enquêtes de lEvaluation Externe de la Qualité réalisées entre 2004 et 2008 en France et en Belgique. La première partie de cette thèse concerne le problème de lévaluation de la performance des laboratoires pour le dosage de lélectrophorèse de protéines. La façon la plus simple consiste à appliquer les méthodes univariées classiques à chaque fraction de lélectrophorèse. Cette façon de procéder cependant ignore que les fractions doivent être interprétées globalement car elles sont corrélées. De plus, elles sont linéairement dépendantes (car leur somme est égale à 100%), ce qui conduit à une matrice de variances-covariances singulière et donc non inversible. La première approche multivariée que nous proposons vise à retirer une des cinq fractions et ainsi éviter le problème de singularité, ensuite à obtenir une estimation robuste du vecteur moyen et de la matrice de variances-covariances par la technique du déterminant de covariance minimum (MCD) publiée par Rousseuw et Van Driessen (1999). On utilise alors la distance de Mahalanobis pour identifier les profils électrophorétiques « hors-limites » et détecter les laboratoires dont la qualité est insatisfaisante (Zhang et al. 2008). Appliquée aux bases de données EEQ, cette méthode simple savère ne pas être optimale car elle donne des corrélations peu fiables et décèle trop de laboratoires « hors-limites ». Cest la raison pour laquelle, une approche nouvelle est proposée dans laquelle une transformation log-ratio (Egozcue et al. 2003) est appliquée aux profils électrophorétiques avant de les analyser statistiquement. Cette méthode transforme les cinq fractions électrophorétiques en quatre variables indépendantes et sans dimension. La technique MCD est alors appliquée pour obtenir des estimations robustes du vecteur moyen et de la matrice de dispersion. Les estimations sont utilisées pour calculer la distance de Mahalanobis et mettre en lumière les laboratoires « hors-limites ». Appliquée aux bases de données EEQ, cette seconde approche est meilleure que la première, non seulement dun point de vue théorique mais aussi pratique, en détectant un nombre plus raisonnable de laboratoires peu performants. Des méthodes de représentations graphiques des profils électrophorétiques sont aussi proposées au moyen du "MCD z-score plot" ou du "star plot" obtenu à partir de lanalyse en composantes principales (ACP) robuste. La seconde partie de la thèse sattache à lévaluation et à la comparaison de la précision analytique des techniques de dosage délectrophorèses utilisées par les laboratoires participants à lEEQ. Ceci nous a conduit à rechercher des méthodes dextension du coefficient de variation (CV) classique au cas multivariée. Les coefficients de variation multivariés publiés dans la littérature sont passés en revue, en ce compris ceux de Reyment (1960) et de Van Valen (1974, 2005). Reyment fut le premier à proposer une définition du CV multivarié et à donner une formule permettant de calculer l'erreur type de l'estimation. Van Valen suggéra une définition plus générale car applicable en toute circonstances mais qui malheureusement ne tient pas compte explicitement des corrélations entre les variables. Par ailleurs, nous avons exploité une idée de Voinov et Nikulin (1996) pour développer un CV multivarié basée sur la distance de Mahalanobis et qui est invariant par rapport à léchelle utilisée. Nous lavons appliqué aux données de lEEQ franco-belge de 2004 et avons ainsi pu classer les techniques électrophorétiques par ordre décroissant de précision analytique (Zhang et al. 2010). Malheureusement, cette approche comme celle du CV de Reyment requiert une matrice de covariance non singulière et nest donc pas applicable pour des groupes deffectif faible (n < 5) de laboratoires utilisant la même technique. Nous avons dès lors proposé une définition originale et tout à fait générale du CV multivarié, notée CVm (Albert et Zhang, 2010). Cette nouvelle formulation jouit de propriétés intéressantes; elle est simple et facile à calculer, ne requiert aucune inversion de matrice (contrairement aux autres techniques) mais uniquement le calcul de formes quadratiques. On nimpose aucune restriction sur le nombre dobservations ni sur le nombre de variables du problème. Nous avons appliqué cette méthode CVm aux bases de données EEQ délectrophorèses et nous avons pu démontrer en pratique sa grande flexibilité. Elle nous a permis de classer toutes les techniques électrophorétiques même pour des groupes de participants de petite taille (n = 2) et de mettre en évidence les plus précises, comme celle de lélectrophorèse capillaire de zone (CZE) complètement automatisée. Nous avons aussi appliqué la nouvelle méthode à des données de cytométrie de flux récoltées dans le cadre dune enquête EEQ réalisée en Belgique en 2010 ainsi quà un échantillon de données de « microarray » publié dans la littérature (Golub et al. 1999), confirmant ainsi son applicabilité à des domaines variés. Enfin, nous présentons quelques développements théoriques personnels sur le CV de Reyment afin de corriger la définition initiale, entachée à notre sens dune erreur de dimension, son estimation ainsi que la formule de lerreur type. En résumé, la méthodologie statistique développée dans ce travail propose une solution complète à lanalyse des données électrophorétiques ou de tout autre profil de tests de laboratoire récoltés dans le cadre denquêtes de lEvaluation Externe de la Qualité. robust statistics/statistique robuste Quality control/controle de qualite electrophoresis/electrophorese
5	Utilisation des Divergences entre Mesures en Statistique Inférentielle Keziou, Amor 17 November 2003 (has links) (PDF) Dans cette thèse, nous proposons de nouvelles méthodes d'estimation et de test par optimisation des Divergences entre mesures pour des modèles paramétriques discrets ou continus, pour des modèles à rapport de densités semi-paramétriques et pour des modèles non paramétriques restreints par des contraintes linéaires. Les méthodes proposées sont basées sur une nouvelle représentation des Divergences entre mesures. Nous montrons que les méthodes du maximum de vraisemblance paramétrique et du maximum de vraisemblance empirique sont des cas particuliers correspondant au choix de la Divergence de Kullback-Leibler modifiée, et que le choix d'autres types de Divergences mène à des estimateurs ayant des propriétés similaires voire meilleurs dans certains cas. De nombreuses perspectives concernant le problème du choix de la Divergence sont notées. [MATH] Mathematics vraisemblance empirique statistique semi-paramétrique divergences entre mesures minimum de divergence efficacité et robustesse problème à deux échantillons dualité vraisemblance empirique généralisée divergence de chi2 divergence de Hellinger divergence de Kullback statistique robuste M-estimateurs efficacité de Pitman efficacité de Bahadur grandes déviations
6	Algorithmes stochastiques pour la statistique robuste en grande dimension / Stochastic algorithms for robust statistics in high dimension Godichon-Baggioni, Antoine 17 June 2016 (has links) Cette thèse porte sur l'étude d'algorithmes stochastiques en grande dimension ainsi qu'à leur application en statistique robuste. Dans la suite, l'expression grande dimension pourra aussi bien signifier que la taille des échantillons étudiés est grande ou encore que les variables considérées sont à valeurs dans des espaces de grande dimension (pas nécessairement finie). Afin d'analyser ce type de données, il peut être avantageux de considérer des algorithmes qui soient rapides, qui ne nécessitent pas de stocker toutes les données, et qui permettent de mettre à jour facilement les estimations. Dans de grandes masses de données en grande dimension, la détection automatique de points atypiques est souvent délicate. Cependant, ces points, même s'ils sont peu nombreux, peuvent fortement perturber des indicateurs simples tels que la moyenne ou la covariance. On va se concentrer sur des estimateurs robustes, qui ne sont pas trop sensibles aux données atypiques. Dans une première partie, on s'intéresse à l'estimation récursive de la médiane géométrique, un indicateur de position robuste, et qui peut donc être préférée à la moyenne lorsqu'une partie des données étudiées est contaminée. Pour cela, on introduit un algorithme de Robbins-Monro ainsi que sa version moyennée, avant de construire des boules de confiance non asymptotiques et d'exhiber leurs vitesses de convergence $L^{p}$ et presque sûre.La deuxième partie traite de l'estimation de la "Median Covariation Matrix" (MCM), qui est un indicateur de dispersion robuste lié à la médiane, et qui, si la variable étudiée suit une loi symétrique, a les mêmes sous-espaces propres que la matrice de variance-covariance. Ces dernières propriétés rendent l'étude de la MCM particulièrement intéressante pour l'Analyse en Composantes Principales Robuste. On va donc introduire un algorithme itératif qui permet d'estimer simultanément la médiane géométrique et la MCM ainsi que les $q$ principaux vecteurs propres de cette dernière. On donne, dans un premier temps, la forte consistance des estimateurs de la MCM avant d'exhiber les vitesses de convergence en moyenne quadratique.Dans une troisième partie, en s'inspirant du travail effectué sur les estimateurs de la médiane et de la "Median Covariation Matrix", on exhibe les vitesses de convergence presque sûre et $L^{p}$ des algorithmes de gradient stochastiques et de leur version moyennée dans des espaces de Hilbert, avec des hypothèses moins restrictives que celles présentes dans la littérature. On présente alors deux applications en statistique robuste: estimation de quantiles géométriques et régression logistique robuste.Dans la dernière partie, on cherche à ajuster une sphère sur un nuage de points répartis autour d'une sphère complète où tronquée. Plus précisément, on considère une variable aléatoire ayant une distribution sphérique tronquée, et on cherche à estimer son centre ainsi que son rayon. Pour ce faire, on introduit un algorithme de gradient stochastique projeté et son moyenné. Sous des hypothèses raisonnables, on établit leurs vitesses de convergence en moyenne quadratique ainsi que la normalité asymptotique de l'algorithme moyenné. / This thesis focus on stochastic algorithms in high dimension as well as their application in robust statistics. In what follows, the expression high dimension may be used when the the size of the studied sample is large or when the variables we consider take values in high dimensional spaces (not necessarily finite). In order to analyze these kind of data, it can be interesting to consider algorithms which are fast, which do not need to store all the data, and which allow to update easily the estimates. In large sample of high dimensional data, outliers detection is often complicated. Nevertheless, these outliers, even if they are not many, can strongly disturb simple indicators like the mean and the covariance. We will focus on robust estimates, which are not too much sensitive to outliers.In a first part, we are interested in the recursive estimation of the geometric median, which is a robust indicator of location which can so be preferred to the mean when a part of the studied data is contaminated. For this purpose, we introduce a Robbins-Monro algorithm as well as its averaged version, before building non asymptotic confidence balls for these estimates, and exhibiting their $L^{p}$ and almost sure rates of convergence.In a second part, we focus on the estimation of the Median Covariation Matrix (MCM), which is a robust dispersion indicator linked to the geometric median. Furthermore, if the studied variable has a symmetric law, this indicator has the same eigenvectors as the covariance matrix. This last property represent a real interest to study the MCM, especially for Robust Principal Component Analysis. We so introduce a recursive algorithm which enables us to estimate simultaneously the geometric median, the MCM, and its $q$ main eigenvectors. We give, in a first time, the strong consistency of the estimators of the MCM, before exhibiting their rates of convergence in quadratic mean.In a third part, in the light of the work on the estimates of the median and of the Median Covariation Matrix, we exhibit the almost sure and $L^{p}$ rates of convergence of averaged stochastic gradient algorithms in Hilbert spaces, with less restrictive assumptions than in the literature. Then, two applications in robust statistics are given: estimation of the geometric quantiles and application in robust logistic regression.In the last part, we aim to fit a sphere on a noisy points cloud spread around a complete or truncated sphere. More precisely, we consider a random variable with a truncated spherical distribution, and we want to estimate its center as well as its radius. In this aim, we introduce a projected stochastic gradient algorithm and its averaged version. We establish the strong consistency of these estimators as well as their rates of convergence in quadratic mean. Finally, the asymptotic normality of the averaged algorithm is given. Grande Dimension Données Fonctionnelles Algorithmes Stochastiques Algorithmes Récursifs Algorithmes de Gradient Stochastiques Moyennisation Statistique Robuste Médiane Géométrique High Dimension Functional Data Stochastic Algorithms Recursive Algorithms Stochastic Gradient Algorithms Averaging Robust Statistics Geometric Median 519

1

Page generated in 0.0988 seconds