Spelling suggestions: "subject:"bobust statistics."" "subject:"arobust statistics.""
71 |
New design comparison criteria in Taguchi's robust parameter designSavarese, Paul Tenzing 06 June 2008 (has links)
Choice of an experimental design is an important concern for most researchers. Judicious selection of an experimental design is also a weighty matter in Robust Parameter Design (RPD). RPD seeks to choose the levels of fixed controllable variables that provide insensitivity (robustness) to the variability of a process induced by uncontrollable noise variables. We use the fact that in the RPD scenario interest lies primarily with the ability of a design to estimate the noise and control by noise interaction effects in the fitted model. These effects allow for effective estimation of the process variance — an understanding of which is necessary to achieve the goals of RPD.
Possible designs for use in RPD are quite numerous. Standard designs such as crossed array designs, Plackett-Burman designs, combined array factorial designs and many second order designs all vie for a place in the experimenters tool kit. New criteria are developed based on classical optimality criteria for judging various designs with respect to their performance in RPD. Many different designs are studied and compared. Several first-order and many second order designs such as the central-composite designs, Box-Behnken designs, and hybrid designs are studied and compared via our criteria. Numerous scenarios involving different models and designs are considered; results and conclusions are presented regarding which designs are preferable for use in RPD. Also, a new design rotatability entity is introduced.
Optimality conditions with respect to our criteria are studied. For designs which are rotatable by our new rotatability entity, conditions are given which lead to optimality for a number of the new design comparison criteria.
Finally, a sequential design-augmentation algorithm was developed and programmed on a computer. By cultivating a unique mechanism the algorithm implements a D<sub>s</sub>-optimal strategy in selecting candidate points. D<sub>s</sub>-optimality is likened to D-optimality on a subset of model parameters and is naturally suited to the RPD scenario. The algorithm can be used in either a sequential design-augmentation scenario or in a design-building scenario. Especially useful when a standard design does not exist to match the number of runs available to the researcher, the algorithm can be used to generate a design of the requisite size that should perform well in RPD. / Ph. D.
|
72 |
High-dimensional statistical methods for inter-subject studies in neuroimagingFritsch, Virgile 18 December 2013 (has links) (PDF)
La variabilité inter-individuelle est un obstacle majeur à l'analyse d'images médicales, en particulier en neuroimagerie. Il convient de distinguer la variabilité naturelle ou statistique, source de potentiels effets d'intérêt pour du diagnostique, de la variabilité artefactuelle, constituée d'effets de nuisance liés à des problèmes expérimentaux ou techniques, survenant lors de l'acquisition ou le traitement des données. La dernière peut s'avérer bien plus importante que la première : en neuroimagerie, les problèmes d'acquisition peuvent ainsi masquer la variabilité fonctionnelle qui est par ailleurs associée à une maladie, un trouble psychologique, ou à l'expression d'un code génétique spécifique. La qualité des procédures statistiques utilisées pour les études de groupe est alors diminuée car lesdites procédures reposent sur l'hypothèse d'une population homogène, hypothèse difficile à vérifier manuellement sur des données de neuroimagerie dont la dimension est élevée. Des méthodes automatiques ont été mises en oeuvre pour tenter d'éliminer les sujets trop déviants et ainsi rendre les groupes étudiés plus homogènes. Cette pratique n'a pas entièrement fait ses preuves pour autant, attendu qu'aucune étude ne l'a clairement validée, et que le niveau de tolérance à choisir reste arbitraire. Une autre approche consiste alors à utiliser des procédures d'analyse et de traitement des données intrinsèquement insensibles à l'hypothèse d'homogénéité. Elles sont en outre mieux adaptées aux données réelles en ce qu'elles tolèrent dans une certaine mesure d'autres violations d'hypothèse plus subtiles telle que la normalité des données. Un autre problème, partiellement lié, est le manque de stabilité et de sensibilité des méthodes d'analyse au niveau voxel, sources de résultats qui ne sont pas reproductibles.Nous commençons cette thèse par le développement d'une méthode de détection d'individus atypiques adaptée aux données de neuroimagerie, qui fournit un contrôle statistique sur l'inclusion de sujets : nous proposons une version regularisée d'un estimateur de covariance robuste pour le rendre utilisable en grande dimension. Nous comparons plusieurs types de régularisation et concluons que les projections aléatoires offrent le meilleur compromis. Nous présentons également des procédures non-paramétriques dont nous montrons la qualité de performance, bien qu'elles n'offrent aucun contrôle statistique. La seconde contribution de cette thèse est une nouvelle approche, nommée RPBI (Randomized Parcellation Based Inference), répondant au manque de reproductibilité des méthodes classiques. Nous stabilisons l'approche d'analyse à l'échelle de la parcelle en agrégeant plusieurs analyses indépendantes, pour lesquelles le partitionnement du cerveau en parcelles varie d'une analyse à l'autre. La méthode permet d'atteindre un niveau de sensibilité supérieur à celui des méthodes de l'état de l'art, ce que nous démontrons par des expériences sur des données synthétiques et réelles. Notre troisième contribution est une application de la régression robuste aux études de neuroimagerie. Poursuivant un travail déjà existant, nous nous concentrons sur les études à grande échelle effectuées sur plus de cent sujets. Considérant à la fois des données simulées et des données réelles, nous montrons que l'utilisation de la régression robuste améliore la sensibilité des analyses. Nous démontrons qu'il est important d'assurer une résistance face aux violations d'hypothèse, même dans les cas où une inspection minutieuse du jeu de données a été conduite au préalable. Enfin, nous associons la régression robuste à notre méthode d'analyse RPBI afin d'obtenir des tests statistiques encore plus sensibles.
|
73 |
Simulating Statistical Power Curves with the Bootstrap and Robust EstimationHerrington, Richard S. 08 1900 (has links)
Power and effect size analysis are important methods in the psychological sciences. It is well known that classical statistical tests are not robust with respect to power and type II error. However, relatively little attention has been paid in the psychological literature to the effect that non-normality and outliers have on the power of a given statistical test (Wilcox, 1998). Robust measures of location exist that provide much more powerful tests of statistical hypotheses, but their usefulness in power estimation for sample size selection, with real data, is largely unknown. Furthermore, practical approaches to power planning (Cohen, 1988) usually focus on normal theory settings and in general do not make available nonparametric approaches to power and effect size estimation. Beran (1986) proved that it is possible to nonparametrically estimate power for a given statistical test using bootstrap methods (Efron, 1993). However, this method is not widely known or utilized in data analysis settings. This research study examined the practical importance of combining robust measures of location with nonparametric power analysis. Simulation and analysis of real world data sets are used. The present study found that: 1) bootstrap confidence intervals using Mestimators gave shorter confidence intervals than the normal theory counterpart whenever the data had heavy tailed distributions; 2) bootstrap empirical power is higher for Mestimators than the normal theory counterpart when the data had heavy tailed distributions; 3) the smoothed bootstrap controls type I error rate (less than 6%) under the null hypothesis for small sample sizes; and 4) Robust effect sizes can be used in conjuction with Cohen's (1988) power tables to get more realistic sample sizes given that the data distribution has heavy tails.
|
74 |
Summary Conclusions: Computation of Minimum Volume Covering Ellipsoids*Sun, Peng, Freund, Robert M. 01 1900 (has links)
We present a practical algorithm for computing the minimum volume n-dimensional ellipsoid that must contain m given points a₁,..., am â Rn. This convex constrained problem arises in a variety of applied computational settings, particularly in data mining and robust statistics. Its structure makes it particularly amenable to solution by interior-point methods, and it has been the subject of much theoretical complexity analysis. Here we focus on computation. We present a combined interior-point and active-set method for solving this problem. Our computational results demonstrate that our method solves very large problem instances (m = 30,000 and n = 30) to a high degree of accuracy in under 30 seconds on a personal computer. / Singapore-MIT Alliance (SMA)
|
75 |
Essays on Fair OperationsXia, Shangzhou January 2024 (has links)
Fairness emerges as a vital concern to decision makers as crucial as efficiency, if not more important. Fair operations decisions are aimed at distributive justice in various scenarios. In this dissertation, we study two examples of distributively fair decision making in operations research, a dynamic fair allocation problem and a subpopulational robustness assessment problem for machine learning models.
We first study a dynamic allocation problem in which 𝑇 sequentially arriving divisible resources are to be allocated to a number of agents with concave utilities. The joint utility functions of each resource to the agents are drawn stochastically from a known joint distribution, independently and identically across time, and the central planner makes immediate and irrevocable allocation decisions. Most works on dynamic resource allocation aim to maximize the utilitarian welfare, i.e., the efficiency of the allocation, which may result in unfair concentration of resources on certain high-utility agents while leaving others' demands under-fulfilled. In this work, aiming at balancing efficiency and fairness, we instead consider a broad collection of welfare metrics, the Hölder means, which includes the Nash social welfare and the egalitarian welfare.
To this end, we first study a fluid-based policy derived from a deterministic surrogate to the underlying problem and show that for all smooth Hölder mean welfare metrics it attains an 𝑂 (1) regret over the time horizon length 𝑇 against the hindsight optimum, i.e., the optimal welfare if all utilities were known in advance of deciding on allocations. However, when evaluated under the non-smooth egalitarian welfare, the fluid-based policy attains a regret of order 𝛩 (√𝑇). We then propose a new policy built thereupon, called Backward Infrequent Re-solving (𝖡𝖨𝖱), which consists of re-solving the deterministic surrogate problem at most 𝑂 (log 𝑇) times. We show under a mild regularity condition that it attains a regret against the hindsight optimal egalitarian welfare of order 𝑂 (1) when all agents have linear utilities and 𝑂 (log 𝑇) otherwise. We further propose the Backward Infrequent Re-solving with Thresholding (𝖡𝖨𝖱𝖳) policy, which enhances the (𝖡𝖨𝖱𝖳) policy by thresholding adjustments and performs similarly without any assumption whatsoever. More specifically, we prove the (𝖡𝖨𝖱𝖳) policy attains an 𝑂 (1) regret independently of the horizon length 𝑇 when all agents have linear utilities and 𝑂 (log²⁺^𝜀) otherwise. We conclude by presenting numerical experiments to corroborate our theoretical claims and to illustrate the significant performance improvement against several benchmark policies.
The performance of ML models degrades when the training population is different from that seen under operation. Towards assessing distributional robustness, we study the worst-case performance of a model over 𝒂𝒍𝒍 subpopulations of a given size, defined with respect to core attributes 𝑍. This notion of robustness can consider arbitrary (continuous) attributes 𝑍, and automatically accounts for complex intersectionality in disadvantaged groups. We develop a scalable yet principled two-stage estimation procedure that can evaluate the robustness of state-of-the-art models. We prove that our procedure enjoys several finite-sample convergence guarantees, including 𝒅𝒊𝒎𝒆𝒏𝒔𝒊𝒐𝒏-𝒇𝒓𝒆𝒆 convergence. Instead of overly conservative notions based on Rademacher complexities, our evaluation error depends on the dimension of 𝑍 only through the out-of-sample error in estimating the performance conditional on 𝑍. On real datasets, we demonstrate that our method certifies the robustness of a model and prevents deployment of unreliable models.
|
76 |
High-dimensional statistical methods for inter-subject studies in neuroimaging / Analyse statistique de données en grande dimension : application à l'étude de la variabilité inter-individuelle en neuroimagerieFritsch, Virgile 18 December 2013 (has links)
La variabilité inter-individuelle est un obstacle majeur à l'analyse d'images médicales, en particulier en neuroimagerie. Il convient de distinguer la variabilité naturelle ou statistique, source de potentiels effets d'intérêt pour du diagnostique, de la variabilité artefactuelle, constituée d'effets de nuisance liés à des problèmes expérimentaux ou techniques, survenant lors de l'acquisition ou le traitement des données. La dernière peut s'avérer bien plus importante que la première : en neuroimagerie, les problèmes d'acquisition peuvent ainsi masquer la variabilité fonctionnelle qui est par ailleurs associée à une maladie, un trouble psychologique, ou à l'expression d'un code génétique spécifique. La qualité des procédures statistiques utilisées pour les études de groupe est alors diminuée car lesdites procédures reposent sur l'hypothèse d'une population homogène, hypothèse difficile à vérifier manuellement sur des données de neuroimagerie dont la dimension est élevée. Des méthodes automatiques ont été mises en oeuvre pour tenter d'éliminer les sujets trop déviants et ainsi rendre les groupes étudiés plus homogènes. Cette pratique n'a pas entièrement fait ses preuves pour autant, attendu qu'aucune étude ne l'a clairement validée, et que le niveau de tolérance à choisir reste arbitraire. Une autre approche consiste alors à utiliser des procédures d'analyse et de traitement des données intrinsèquement insensibles à l'hypothèse d'homogénéité. Elles sont en outre mieux adaptées aux données réelles en ce qu'elles tolèrent dans une certaine mesure d'autres violations d'hypothèse plus subtiles telle que la normalité des données. Un autre problème, partiellement lié, est le manque de stabilité et de sensibilité des méthodes d'analyse au niveau voxel, sources de résultats qui ne sont pas reproductibles.Nous commençons cette thèse par le développement d'une méthode de détection d'individus atypiques adaptée aux données de neuroimagerie, qui fournit un contrôle statistique sur l'inclusion de sujets : nous proposons une version regularisée d'un estimateur de covariance robuste pour le rendre utilisable en grande dimension. Nous comparons plusieurs types de régularisation et concluons que les projections aléatoires offrent le meilleur compromis. Nous présentons également des procédures non-paramétriques dont nous montrons la qualité de performance, bien qu'elles n'offrent aucun contrôle statistique. La seconde contribution de cette thèse est une nouvelle approche, nommée RPBI (Randomized Parcellation Based Inference), répondant au manque de reproductibilité des méthodes classiques. Nous stabilisons l'approche d'analyse à l'échelle de la parcelle en agrégeant plusieurs analyses indépendantes, pour lesquelles le partitionnement du cerveau en parcelles varie d'une analyse à l'autre. La méthode permet d'atteindre un niveau de sensibilité supérieur à celui des méthodes de l'état de l'art, ce que nous démontrons par des expériences sur des données synthétiques et réelles. Notre troisième contribution est une application de la régression robuste aux études de neuroimagerie. Poursuivant un travail déjà existant, nous nous concentrons sur les études à grande échelle effectuées sur plus de cent sujets. Considérant à la fois des données simulées et des données réelles, nous montrons que l'utilisation de la régression robuste améliore la sensibilité des analyses. Nous démontrons qu'il est important d'assurer une résistance face aux violations d'hypothèse, même dans les cas où une inspection minutieuse du jeu de données a été conduite au préalable. Enfin, nous associons la régression robuste à notre méthode d'analyse RPBI afin d'obtenir des tests statistiques encore plus sensibles. / La variabilité inter-individuelle est un obstacle majeur à l'analyse d'images médicales, en particulier en neuroimagerie. Il convient de distinguer la variabilité naturelle ou statistique, source de potentiels effets d'intérêt pour du diagnostique, de la variabilité artefactuelle, constituée d'effets de nuisance liés à des problèmes expérimentaux ou techniques, survenant lors de l'acquisition ou le traitement des données. La dernière peut s'avérer bien plus importante que la première : en neuroimagerie, les problèmes d'acquisition peuvent ainsi masquer la variabilité fonctionnelle qui est par ailleurs associée à une maladie, un trouble psychologique, ou à l'expression d'un code génétique spécifique. La qualité des procédures statistiques utilisées pour les études de groupe est alors diminuée car lesdites procédures reposent sur l'hypothèse d'une population homogène, hypothèse difficile à vérifier manuellement sur des données de neuroimagerie dont la dimension est élevée. Des méthodes automatiques ont été mises en oeuvre pour tenter d'éliminer les sujets trop déviants et ainsi rendre les groupes étudiés plus homogènes. Cette pratique n'a pas entièrement fait ses preuves pour autant, attendu qu'aucune étude ne l'a clairement validée, et que le niveau de tolérance à choisir reste arbitraire. Une autre approche consiste alors à utiliser des procédures d'analyse et de traitement des données intrinsèquement insensibles à l'hypothèse d'homogénéité. Elles sont en outre mieux adaptées aux données réelles en ce qu'elles tolèrent dans une certaine mesure d'autres violations d'hypothèse plus subtiles telle que la normalité des données. Un autre problème, partiellement lié, est le manque de stabilité et de sensibilité des méthodes d'analyse au niveau voxel, sources de résultats qui ne sont pas reproductibles.Nous commençons cette thèse par le développement d'une méthode de détection d'individus atypiques adaptée aux données de neuroimagerie, qui fournit un contrôle statistique sur l'inclusion de sujets : nous proposons une version regularisée d'un estimateur de covariance robuste pour le rendre utilisable en grande dimension. Nous comparons plusieurs types de régularisation et concluons que les projections aléatoires offrent le meilleur compromis. Nous présentons également des procédures non-paramétriques dont nous montrons la qualité de performance, bien qu'elles n'offrent aucun contrôle statistique. La seconde contribution de cette thèse est une nouvelle approche, nommée RPBI (Randomized Parcellation Based Inference), répondant au manque de reproductibilité des méthodes classiques. Nous stabilisons l'approche d'analyse à l'échelle de la parcelle en agrégeant plusieurs analyses indépendantes, pour lesquelles le partitionnement du cerveau en parcelles varie d'une analyse à l'autre. La méthode permet d'atteindre un niveau de sensibilité supérieur à celui des méthodes de l'état de l'art, ce que nous démontrons par des expériences sur des données synthétiques et réelles. Notre troisième contribution est une application de la régression robuste aux études de neuroimagerie. Poursuivant un travail déjà existant, nous nous concentrons sur les études à grande échelle effectuées sur plus de cent sujets. Considérant à la fois des données simulées et des données réelles, nous montrons que l'utilisation de la régression robuste améliore la sensibilité des analyses. Nous démontrons qu'il est important d'assurer une résistance face aux violations d'hypothèse, même dans les cas où une inspection minutieuse du jeu de données a été conduite au préalable. Enfin, nous associons la régression robuste à notre méthode d'analyse RPBI afin d'obtenir des tests statistiques encore plus sensibles.
|
77 |
Intégration des données d'observatoires magnétiques dans l'interprétation de sondages magnétotelluriques : acqusition, traitement, interprétation / Using magnetic observatory data in the framework of magnetotellurics : acquisition, processing, interpretationLarnier, Hugo 07 February 2017 (has links)
Dans ce manuscrit, nous développons des méthodologies de détection et caractérisation de sources géomagnétiques et atmosphériques en se basant sur la transformée en ondelettes continues. Les techniques introduites se basent sur les caractéristiques temps-fréquence des ondes observées dans les séries temporelles magnétotelluriques (MT). A partir de ces procédures de détection, nous détaillons l'implémentation d'une stratégie de détermination des fonctions de réponse MT basée sur les statistiques robustes, et du bootstrap hiérarchique pour le calcul des incertitudes. Deux études MT sont également détaillées. La première étude MT concerne la caractérisation de la structure géoélectrique situé sous l'observatoire magnétique de Chambon-La-Forêt, France. La seconde étude concerne des mesures effectuées dans la vallée de Trisuli au Népal en mars 2016. L'objectif de cette campagne est la comparaison avec une étude effectuée en 1996. Nous discutons des effets topographiques sur les sondages MT. Nous présentons également une nouvelle interprétation de la distribution de conductivité dans le sous-sol de vallée de Trisuli. / In this manuscript, we detail the application of continuous wavelet transform to processing schemes for the detection and the characterisation of geomagnetic and atmospheric sources. Presented techniques are based on time-frequency properties of electromagnetic (EM) waves observed in magnetotellurics (MT) time series. We detail the application of these detection procedures in a MT processing scheme. To recover MT response functions, we use robust statistics and a hierarchical bootstrap approach for uncertainties determination. Interpretation of two datasets are also presented. The first MT study deals with the caracterisation of the resistivity distribution below the French National magnetic observatory of Chambon-la-Forêt. The second study details the interpretation of new MT soundings acquired in March 2016 in the Trisuli valley, Nepal. The main objective of this campaign was to compare the new soundings with an old campaign in 1996. We discuss topography effects on MT soundings and their implication on the resistivity distribution. We also introduce a new interpretation of the resistivity distribution in Trisuli valley.
|
78 |
Statistical methods for analysing serum protein electrophoretic data in External Quality Assessment (EQA) programmesZhang, Lixin 03 December 2010 (has links)
Les examens de laboratoire jouent un rôle essentiel dans la pratique médicale. Ils sont utilisés à des fins diagnostique, pronostique, thérapeutique ou encore pour dépister des maladies spécifiques dans des populations présumées en bonne santé (Tietz, 1986). Quotidiennement, les laboratoires de biologie clinique réalisent des millions de tests fournissant autant de données à interpréter. Les responsables des soins de santé ont toujours été préoccupés par la qualité globale du travail réalisé dans les laboratoires. En dépit de procédures de contrôle de qualité interne rigoureuses, les résultats obtenus pour un même échantillon dans deux laboratoires peuvent occasionnellement différer de façon notoire. Il serait inacceptable cependant quun résultat dun test biologique soit considéré comme « normal » dans un laboratoire et « anormal » dans lautre.
Les programmes dEvaluation Externe de la Qualité (EEQ) ont précisément comme objectif de contrôler la performance analytique des laboratoires de biologie clinique à une grande échelle et généralement par le biais dun organisme externe. Le but de lEEQ est de sassurer que les résultats des tests soient compatibles quel que soit le laboratoire qui réalise les analyses, en dautres termes de garantir la comparabilité des laboratoires et par là-même dadministrer les meilleurs soins aux patients (Libeer, 1993). Les protocoles EEQ consistent à organiser des enquêtes dans lesquelles les laboratoires participants doivent réaliser des analyses sur un même échantillon contrôle comme sil sagissait danalyses de routine. Il faut ensuite renvoyer les résultats de ces analyses au centre EEQ avec des informations détaillées sur les techniques de dosage utilisées. Les résultats sont alors soumis à une analyse statistique. En réalité, lanalyse statistique poursuit trois objectifs : (1) obtenir une estimation robuste de la concentration du constituant (moyenne) dans léchantillon contrôle et de la variabilité entre les laboratoires (écart-type), une estimation robuste étant nécessaire car les résultats EEQ contiennent souvent des valeurs aberrantes qui peuvent sérieusement affecter la moyenne et de lécart-type ; (2) évaluer la qualité des laboratoires en mettant en évidence les résultats « hors-limites » et les laboratoires « peu performants » et ce, à court et à long termes ; (3) évaluer et comparer la précision analytique des techniques/équipements utilisés par les participants (Albert, 1997). Depuis plusieurs dizaines dannées, des programmes EEQ ont été mis en place dans de nombreux pays et ils contrôlent la plupart des analyses de biologie clinique classiques comme le glucose, le cholestérol ou le calcium, ou encore les enzymes et les hormones.
Ce travail a débuté lorsque lélectrophorèse de protéines fut introduite dans le panel des analyses de laboratoire soumises à lEEQ. Contrairement aux autres tests contrôlés jusqualors, lélectrophorèse de protéines fournit non pas une valeur mais cinq fractions, respectivement, lalbumine, les globulines α1, α2, β et , dont la somme fait 100% et dont linterprétation doit se faire globalement. En dautres termes, les données électrophorétiques obtenues dans lEEQ doivent être analysées par des méthodes de la statistique multivariée (Zhang et al, 2008). Ceci nécessite ladaptation à lenvironnement EEQ de méthodes multivariées existantes (telles quon les trouve dans les ouvrages de référence) ou le développement dapproches nouvelles. Dans cette thèse, nous nous sommes fixé comme but dapporter une solution théorique et pratique au problème de lanalyse et de linterprétation des résultats délectrophorèses dans le domaine de lEvaluation Externe de la Qualité.
Dans lintroduction de ce travail, un bref rappel est fait des protocoles EEQ et de leur mise en pratique notamment en ayant recours à lInternet. Les méthodes univariées de statistique robuste permettant destimer la moyenne et lécart-type des résultats EEQ sont décrites et la notion de valeur « hors-limites » est définie. Ceci permet dapprécier la qualité dun laboratoire par rapport à ses pairs sur base du résultat quil a fourni. Le concept de coefficient de variation (CV) est aussi présenté comme un moyen de mesurer et de comparer la reproductibilité analytique des techniques de laboratoire. Finalement, on rappelle quelques notions relatives aux électrophorèses de protéines, leur utilité clinique et les méthodes de dosage utilisées. Les bases de données EEQ qui servent à illustrer la méthodologie statistique développée dans ce travail sont décrites en détail. Elles proviennent principalement des enquêtes de lEvaluation Externe de la Qualité réalisées entre 2004 et 2008 en France et en Belgique.
La première partie de cette thèse concerne le problème de lévaluation de la performance des laboratoires pour le dosage de lélectrophorèse de protéines. La façon la plus simple consiste à appliquer les méthodes univariées classiques à chaque fraction de lélectrophorèse. Cette façon de procéder cependant ignore que les fractions doivent être interprétées globalement car elles sont corrélées. De plus, elles sont linéairement dépendantes (car leur somme est égale à 100%), ce qui conduit à une matrice de variances-covariances singulière et donc non inversible. La première approche multivariée que nous proposons vise à retirer une des cinq fractions et ainsi éviter le problème de singularité, ensuite à obtenir une estimation robuste du vecteur moyen et de la matrice de variances-covariances par la technique du déterminant de covariance minimum (MCD) publiée par Rousseuw et Van Driessen (1999). On utilise alors la distance de Mahalanobis pour identifier les profils électrophorétiques « hors-limites » et détecter les laboratoires dont la qualité est insatisfaisante (Zhang et al. 2008). Appliquée aux bases de données EEQ, cette méthode simple savère ne pas être optimale car elle donne des corrélations peu fiables et décèle trop de laboratoires « hors-limites ». Cest la raison pour laquelle, une approche nouvelle est proposée dans laquelle une transformation log-ratio (Egozcue et al. 2003) est appliquée aux profils électrophorétiques avant de les analyser statistiquement. Cette méthode transforme les cinq fractions électrophorétiques en quatre variables indépendantes et sans dimension. La technique MCD est alors appliquée pour obtenir des estimations robustes du vecteur moyen et de la matrice de dispersion. Les estimations sont utilisées pour calculer la distance de Mahalanobis et mettre en lumière les laboratoires « hors-limites ». Appliquée aux bases de données EEQ, cette seconde approche est meilleure que la première, non seulement dun point de vue théorique mais aussi pratique, en détectant un nombre plus raisonnable de laboratoires peu performants. Des méthodes de représentations graphiques des profils électrophorétiques sont aussi proposées au moyen du "MCD z-score plot" ou du "star plot" obtenu à partir de lanalyse en composantes principales (ACP) robuste.
La seconde partie de la thèse sattache à lévaluation et à la comparaison de la précision analytique des techniques de dosage délectrophorèses utilisées par les laboratoires participants à lEEQ. Ceci nous a conduit à rechercher des méthodes dextension du coefficient de variation (CV) classique au cas multivariée. Les coefficients de variation multivariés publiés dans la littérature sont passés en revue, en ce compris ceux de Reyment (1960) et de Van Valen (1974, 2005). Reyment fut le premier à proposer une définition du CV multivarié et à donner une formule permettant de calculer l'erreur type de l'estimation. Van Valen suggéra une définition plus générale car applicable en toute circonstances mais qui malheureusement ne tient pas compte explicitement des corrélations entre les variables. Par ailleurs, nous avons exploité une idée de Voinov et Nikulin (1996) pour développer un CV multivarié basée sur la distance de Mahalanobis et qui est invariant par rapport à léchelle utilisée. Nous lavons appliqué aux données de lEEQ franco-belge de 2004 et avons ainsi pu classer les techniques électrophorétiques par ordre décroissant de précision analytique (Zhang et al. 2010). Malheureusement, cette approche comme celle du CV de Reyment requiert une matrice de covariance non singulière et nest donc pas applicable pour des groupes deffectif faible (n < 5) de laboratoires utilisant la même technique. Nous avons dès lors proposé une définition originale et tout à fait générale du CV multivarié, notée CVm (Albert et Zhang, 2010). Cette nouvelle formulation jouit de propriétés intéressantes; elle est simple et facile à calculer, ne requiert aucune inversion de matrice (contrairement aux autres techniques) mais uniquement le calcul de formes quadratiques. On nimpose aucune restriction sur le nombre dobservations ni sur le nombre de variables du problème. Nous avons appliqué cette méthode CVm aux bases de données EEQ délectrophorèses et nous avons pu démontrer en pratique sa grande flexibilité. Elle nous a permis de classer toutes les techniques électrophorétiques même pour des groupes de participants de petite taille (n = 2) et de mettre en évidence les plus précises, comme celle de lélectrophorèse capillaire de zone (CZE) complètement automatisée. Nous avons aussi appliqué la nouvelle méthode à des données de cytométrie de flux récoltées dans le cadre dune enquête EEQ réalisée en Belgique en 2010 ainsi quà un échantillon de données de « microarray » publié dans la littérature (Golub et al. 1999), confirmant ainsi son applicabilité à des domaines variés. Enfin, nous présentons quelques développements théoriques personnels sur le CV de Reyment afin de corriger la définition initiale, entachée à notre sens dune erreur de dimension, son estimation ainsi que la formule de lerreur type.
En résumé, la méthodologie statistique développée dans ce travail propose une solution complète à lanalyse des données électrophorétiques ou de tout autre profil de tests de laboratoire récoltés dans le cadre denquêtes de lEvaluation Externe de la Qualité.
|
79 |
Received signal strength calibration for wireless local area network localizationFelix, Diego 11 August 2010 (has links)
Terminal localization for indoor Wireless Local Area Networks (WLAN) is critical for the deployment of location-aware computing inside of buildings. The purpose of this research work is not to develop a novel WLAN terminal location estimation technique or algorithm, but rather to tackle challenges in survey data collection and in calibration of multiple mobile terminal Received Signal Strength (RSS) data. Three major challenges are addressed in this thesis: first, to decrease the influence of outliers introduced in the distance measurements by Non-Line-of-Sight (NLoS) propagation when a ultrasonic sensor network is used for data collection; second, to obtain high localization accuracy in the presence of fluctuations of the RSS measurements caused by multipath fading; and third, to determine an automated calibration method to reduce large variations in RSS levels when different mobile devices need to be located. In this thesis, a robust window function is developed to mitigate the influence of outliers in survey terminal localization. Furthermore, spatial filtering of the RSS signals to reduce the effect of the distance-varying portion of noise is proposed. Two different survey point geometries are tested with the noise reduction technique: survey points arranged in sets of tight clusters and survey points uniformly distributed over the network area. Finally, an affine transformation is introduced as RSS calibration method between mobile devices to decrease the effect of RSS level variation and an automated calibration procedure based on the Expectation-Maximization (EM) algorithm is developed. The results show that the mean distance error in the survey terminal localization is well within an acceptable range for data collection. In addition, when the spatial averaging noise reduction filter is used the location accuracy improves by 16% and by 18% when the filter is applied to a clustered survey set as opposed to a straight-line survey set. Lastly, the location accuracy is within 2m when an affine function is used for RSS calibration and the automated calibration algorithm converged to the optimal transformation parameters after it was iterated for 11 locations.
|
80 |
Mean-Variance Portfolio Optimization : Challenging the role of traditional covariance estimation / Effektiv portföljförvaltning : en utvärdering av metoder for kovariansskattningMARAKBI, ZAKARIA January 2016 (has links)
Ever since its introduction in 1952, the Mean-Variance (MV) portfolio selection theory has remained a centerpiece within the realm of e_cient asset allocation. However, in scienti_c circles, the theory has stirred controversy. A strand of criticism has emerged that points to the phenomenon that Mean-Variance Optimization su_ers from the severe drawback of estimation errors contained in the expected return vector and the covariance matrix, resulting in portfolios that may signi_cantly deviate from the true optimal portfolio. While a substantial amount of e_ort has been devoted to estimating the expected return vector in this context, much less is written about the covariance matrix input. In recent times, however, research that points to the importance of the covariance matrix in MV optimization has emerged. As a result, there has been a growing interest whether MV optimization can be enhanced by improving the estimate of the covariance matrix. Hence, this thesis was set forth by the purpose to investigate whether nancial practitioners and institutions can allocate portfolios consisting of assets in a more e_cient manner by changing the covariance matrix input in mean-variance optimization. In the quest of chieving this purpose, an out-of-sample analysis of MV optimized portfolios was performed, where the performance of ve prominent covariance matrix estimators were compared, holding all other things equal in the MV optimization. The optimization was performed under realistic investment constraints, taking incurred transaction costs into account, and for an investment asset universe ranging from equity to bonds. The empirical _ndings in this study suggest one dominant estimator: the covariance matrix estimator implied by the Gerber Statistic (GS). Speci_cally, by using this covariance matrix estimator in lieu of the traditional sample covariance matrix, the MV optimization rendered more e_cient portfolios in terms of higher Sharpe ratios, higher risk-adjusted returns and lower maximum drawdowns. The outperformance was protruding during recessionary times. This suggests that an investor that employs traditional MVO in quantitative asset allocation can improve their asset picking abilities by changing to the, in theory, more robust GS ovariance matrix estimator in times of volatile nancial markets.
|
Page generated in 0.106 seconds