201 |
Teoría de matrices aleatorias aplicada al análisis estadístico de un modelo de factoresBrito Pizarro, Camila Fernanda January 2016 (has links)
Magíster en Ciencias de la Ingeniería, Mención Matemáticas Aplicadas.
Ingeniera Civil Matemática / Las matrices aleatorias y su reciente teoría están jugando un papel fundamental como herramienta estadística en áreas tales como finanzas, meteorología y procesamiento de señales e imágenes. Algunas de las aplicaciones que han adquirido mayor desarrollo se encuentran en el sector financiero y en el área de las comunicaciones inalámbricas. El desafío planteado en este trabajo de tesis consiste en realizar un análisis estadístico basado en la teoría de matrices aleatorias referido a un modelo de factores. A través de la experimentación computacional, se pretende alcanzar dos metas.
La primera de ellas consiste en contrastar dos versiones de un mismo test de hipótesis, las cuales se definen a partir de estadísticos provenientes de dos de las más conocidas familias gaussianas de matrices aleatorias: GUE y GOE. Esta comparación surge del hecho de que la familia GOE es menos estudiada en las aplicaciones
de matrices aleatorias a considerar, de modo que se busca ampliar el conocimiento que de ella se tiene.
Para hacer efectivo el contraste entre ambas versiones, estas se implementan para luego analizarlas en términos de sus comportamientos frente a errores y aciertos. Así, se logra probar empíricamente que no existe diferencia alguna entre ellas, por lo que la versión GOE del test es la que asume el protagonismo.
Alcanzada la meta anterior, la segunda consiste en dar utilidad al test en su versión GOE, mediante el desarrollo de un procedimiento que lo aplica iteradas veces para estimar el número de factores de una muestra sujeta al modelo de factores. Posteriormente, el procedimiento es sometido a una serie de pruebas empíricas que buscan validarlo como método de estimación del número de factores.
Finalmente, es preciso mencionar que, si bien, este trabajo posee un carácter fundamentalmente experimental, no se aparta del
estudio, análisis y manejo abstracto de la teoría de matrices aleatorias que se requieren necesariamente para llevarlo a cabo. / Este trabajo ha sido parcialmente financiado por Núcleo Milenio: "Modelos estocásticos de sistemas complejos y desordenados"
|
202 |
Análisis de datos y métodos bayesianosBernardo, Jose M. 25 September 2017 (has links)
En este trabajo se describen las nuevas perspectivas abiertas en la ciencia estadística por dos hechos históricos relativamente recientes, el espectacular desarrollo de los métodos gráficos en microordenadores, y la axiomatización de la estadística matemática proporcionada por el paradigma Bayesiano.
|
203 |
Diálogo con el autor: La fórmula del gol: secretos numéricos del deporte reyCordero, jaime, Ñopo, Hugo 25 May 2018 (has links)
Diálogo con los autores del libro "La fórmula del gol", donde se conversó sobre temas diversos de fútbol como si este puede mover la economía de un país, si pesa tanto el fútbol en la vida de los peruanos o temas exclusivos del deporte como qué tan determinante es anotar el primer gol o que tanto influyen las expulsiones en el resultado de un partido.
|
204 |
Contexto geográfico y distribución del sufragio en el gran Santiago para las elecciones presidenciales 2009 - 2010Aravena Silva, Francisco January 2015 (has links)
Memoria para optar al título de Geógrafo / En la presente investigación se analiza la distribución espacial de los resultados electorales de las elecciones presidenciales 2009-2010 en las comunas que componen el Gran Santiago. Dichas votaciones se relacionaron con variables sociodemográficas con el propósito de determinar áreas de preferencia electoral. Para aquello, se utilizó una metodología de tipo estadística, analítica y descriptiva, basada en la utilización del método de análisis de componentes principales (ACP) y en el análisis de Clúster no Jerárquico. Ambos métodos fueron complementados por procedimientos apoyados en los Sistemas de Informaciones Geográficas (SIG). Como principales resultados se determina que en el Gran Santiago, la Concertación de Partidos por la Democracia pierde mucho más votos de los que gana la Coalición por el Cambio. También se determina que la distribución de las votaciones no es homogénea, sino que varían según las características sociodemográficas de las comunas. Además, se constata que comunas con un mayor nivel socioeconómico tienen una menor dispersión de las votaciones.
|
205 |
L'us de la informació simbòlica en l'automatització del tractament estadístic de dominis poc estructuratsGibert Oliveras, Karina 30 January 1995 (has links)
Per les seves característiques intrínseques (coexistència de variables quantitatives i qualitatives amb gran nombre de modalitats , coneixement addicional sobre l'estructura del domini per part d'un expert), els dominis poc estructurats constitueixen problemes difícils de tractar amb les tècniques actuals en Estadística i Intel·ligència Artificial. A grans trets, l'estructura complexa d'aquests dominis fa que la construcció d'una base de coneixement complet sobre el domini, per a un sistema de diagnòstic, esdevingui pràcticament inabordable i que el clustering (basat en distàncies, que se situen en un pla sintàctic) tingui un comportament pobre; d'altra banda, la gestió simultània de variables numèriques i quantitats ingents d'informació qualitativa no respon exactament a les situacions per a les que les tècniques de clustering pures han estat pensades.KLASS és una eina de classificació parametritzable (quant als criteris d'agregació i les mètriques) capaç d'emprar informació semàntica per a dirigir el procés de classificació. Una de les seves característiques més destacables és l'ús conjunt d'informació qualitativa i quantitativa en la descripció dels objectes.L'objectiu principal d'aquest treball ha estat superar les limitacions de les tècniques de l'Estadística i de la Intel·ligència Artificial en la classificació de dominis poc estructurats.Entre d'altres resultats cal destacar una estratègia mixta de classificació que:- incorpora al procés de classificació coneixement parcial (ja no serà necessari que sigui complet) i/o no homogeni que tingui l'expert sobre el domini. Aquest coneixement es formalitza en CP1 (càlcul de predicats de primer ordre), permetent màxima potència expressiva i flexibilitat, i s'utilitza per construir una partició inicial sobre el domini induïda per les regles que equival a empaquetar "trossos" de coneixement en unitats funcionals, introduint informació semàntica al sistema a partir de la qual procedir amb una classificació per veïns recíprocs encadenats (de complexitat quadràtica). Aquesta seria la contribució principal de la present tesi i, entre altres coses, ofereix l'oportunitat de fer intervenir, en les regles, variables derivades de les observades. En aquest punt, el mecanisme és especialment potent i dona la possibilitat d'estudiar les dades simultàniament en diferents sistemes de coordenades.- permet treballar simultàniament amb variables qualitatives i quantitatives, tot mantenint la representació simbòlica d'aquestes darreres i evitant la categorització de les primeres. Això ha suscitat la definició d'un representat de classe per a les variables qualitatives, que constitueix una segona aportació d'aquest treball, i permet un tractament homogeni de:- variables quantitatives i qualitatives- classes i individus ( en conseqüència, fa possible la integració de les classes induïdes per les regles en una única jerarquia final).Treballar amb aquest tipus de matrius requereix detenir-se en la definició d'una funció que avaluació la distància entre individus. S'ha definit la família de distàncies mixtes d2 (_r,_r)(i, i0), estudiant-ne algunes propietats teòriques i aportant una proposta pels valors dels paràmetres (_r, _r). No es té notícia que una formulació d'aquest estil hagi estat abans utilitzada.I una metodologia de treball iterativa que, partint de les dades observacionals i el coneixement de l'expert, integra el proc´es anterior amb eines d'ajuda a la interpretació de les classes, de tal forma que s'obtingui finalment una classificació "satisfactòria", d'acord amb els objectius de l'expert.Aquesta metodologia resol la dificultat que per ell suposa formalitzar el seu coneixement de forma completa i precisa en dominis poc estructurats, ocasionada per l'existència de regles que aplica inconscientment i que, havent adquirit amb l'experiència, inicialment no és capaç de formalitzar.En el camp d'ajudes a la interpretació de les classes (actualment poc automatitzada en Estadística) es fan bàsicament dues contribucions · s'aporta una forma ràpida de mesurar _¸(P1,P2) la diferència entre dues classificacions, orientada a fer comparacions i, eventualment, avaluar la qualitat d'una classificació. El càlcul d'aquest coeficient es basa en la construcció de la taula de contingència de la partició producte i · un sistema de caracterització de la classificació que detecta les variables identificadores d'algunes classes (basant-se en un proc´es de condicionament progressiu). Aquesta tècnica descansa també sobre el concepte de representant de classe definit anteriorment i, a més de dotar al classificador de certa capacitat explicativa, dóna lloc a un procediment de generació automàtica de regles, que podran formar part de la base de coneixement d'un sistema de diagnòstic basat en el coneixement per dominis més complexos que els tractables actualment, la qual cosa suposa una contribució a l'apertura d'un canal d'apropament de l'Estadística i la Intel·ligència Artificial. / Por sus características intrínsecas (coexistencia de variables cuantitativas y cualitativas de gran número de modalidades , conocimiento adicional del experto acerca de la estructura del dominio), los dominios poco estructurados constituyen problemas difíciles de tratar con las técnicas actuales en Estadística e Inteligencia Artificial. A grandes rasgos, la estructura compleja de estos dominios hace que la construcción de una base de conocimiento completo sobre ellos, para un sistema de diagnostico, se vuelva prácticamente inabordable y que el clustering (basado en distancias, que se sitúan en el plano sintáctico) tenga un comportamiento pobre; por otro lado, la gestión simultánea de variables numéricas y cantidades ingentes de información cualitativa no responde exactamente a las situaciones para las que las técnicas de clustering puras fueron pensadas.KLASS es una herramienta de clasificación parametrizable (en cuanto a los criterios de agregación y las métricas) capaz de emplear información semántica para dirigir el proceso de clasificación. Una de sus características más destacables es el uso conjunto de información cuantitativa y cualitativa en la descripción de los objetos.El objetivo principal de este trabajo ha sido superar las limitaciones de las técnicas de la Estadística y de la Inteligencia Artificial para la clasificación de dominios poco estructurados. Entre otros resultados, cabe destacar:Una estrategia mixta de clasificación que: - incorpora al proceso de clasificación conocimiento parcial (ya no será necesario que sea completo) y/o no homogéneo que tenga el experto sobre el dominio.Este conocimiento se formaliza en CP1, permitiendo máxima potencia expresiva y flexibilidad, y se utiliza para construir una partición inicial inducida por las reglas equivalente a empaquetar trozos de conocimiento en unidades funcionales y que supone introducir información semántica al sistema a partir de la cual proceder a una clasificación por vecinos recíprocos encadenados (de complejidad cuadrática). Esta seria la contribución principal de la presente tesis y, entre otras cosas, ofrece la oportunidad de hacer intervenir, en las reglas, variables derivadas de las observadas. En este punto, el mecanismo es especialmente potente y da la posibilidad de estudiar los datos bajo distintos sistemas de coordenadas simultáneamente.- permite trabajar conjuntamente con variables cualitativas y cuantitativas, manteniendo la representación simbólica de estas últimas y evitando la categorización de las primeras. Ello ha suscitado la definición de un representante de clase para las variables cualitativas, que constituye una segunda aportación de este trabajoy permite un tratamiento homogéneo de:- variables cualitativas y cuantitativas.- clases e individuos (en consecuencia, hace posible la integración de las clases inducidas por las reglas en una jerarquía final).Trabajar con este tipo de matrices requiere detener-se en la definición de una función que evalué la distancia entre individuos. Se ha definido la familia de distancias mixtas d2(_r,_r)(i, i0), estudiando algunas de sus propiedades teóricas y aportando una propuesta para los valores de los parámetros (_r, _r). No se tiene noticia de que una formulación de este estilo se haya utilizado con anterioridad.Y una metodología de trabajo iterativa que, partiendo de datos observacionales y del conocimiento del experto, integra el proceso anterior con herramientas de ayuda a la interpretación de las clases, de tal forma que se obtenga finalmente una clasificación satisfactoria, de acuerdo a los objetivos del experto. Esta metodología resuelve la dificultad que para él supone formalizar su conocimiento de forma completa y precisa en dominios poco estructurados, debida a la existencia de reglas que aplica inconscientemente y que, habiendo adquirido con la experiencia, inicialmente no fue capaz de formalizar.En el campo de ayudas a la interpretación de las clases (actualmente poco automatizada en Estadística) se hacen básicamente dos contribuciones· se aporta una forma rápida de medir _¸(P1,P2) la diferencia entre dos clasificaciones, orientada a hacer comparaciones y, eventualmente, evaluar la calidad de una clasificación. El calculo de este coeficiente se basa en la construcción de la tabla de contingencia de la partición producto y· un sistema de caracterización de la clasificación que detecta las variables identificadoras de algunas clases (basándose en un proceso de condicionamiento progresivo). Esta técnica descansa también sobre el concepto de representante de clase definido anteriormente y, además de dotar al clasificador de cierta capacidad explicativa, da lugar a un procedimiento de generación automática de reglas, que podrán formar parte de la base de conocimiento de un sistema de diagnostico basado en el conocimiento para dominios más complejos que los manejables actualmente, lo cual supone una contribución a la apertura de un canal de acercamiento entre Estadística e Inteligencia Artificial. / Because of their intrinsic characteristics (coexistence of quantitative and qualitative variables the last ones with great number of modalities , additional expert knowledge on the domain structure), ill-structured domains are difficult problems for the actual statistical and artificial intelligence techniques. Briefly, construction of complete knowledge bases of the domain, to be used in diagnostic oriented systems, is almost unreachable due to the complexity of these kinds of domains. The clustering (based on distances, which are, in fact, syntactic criteria) has also a poor behaviour; actually, standard statistical techniques where not specifically designed for simultaneous treatment of numerical variables and great quantity of qualitative information.KLASS is a clustering tool that can use semantic information to guide the classification process. It is parameterized on the aggregation criteria and the metrics. One of its most important features is the use of both qualitative and quantitative information in the object descriptions.The main goal of this work is to overcome the limitations of Statistics and Artificial Intelligence techniques referred to this particular context. Among other results, one may highlight:A mixt classification strategy that:- incorporates parcial (complete knowledge is not necessary anymore) and/or no homogeneous knowledge that the expert has on the domain. This knowledge is formalized in CP1, allowing maximum expressivity and flexibility, and it is used to built an initial induced partition on the domain this is equivalent to pack knowledge pieces in functional units, introducing semantics into the system from witch a chained reciprocal neighbours classification (of quadratic cost) is performed. This is the main contribution of the thesis and, among others, it offers the opportunity of using, in the rules, variables defined as transformations of the observed ones. In this point, the mechanism is especially powerful, providing the possibility to study the data simultaneously in different coordinate systems.- manages data matrices composed of both quantitative and qualitative variables, maintaining the symbolic representation of the last ones and evoying the codification of the firsts. This suggests the definition of a class representative for qualitative variables. It constitutes a second contribution of this work, allowing an homogeneous treatement of_ quantitative and qualitative variables_ classes and individuals (as a consequence, enables the integration of the classes induced by the rules in an only final hierarchy).And an iterative working methodology that, starting with observational data and expert knowledge, integrates the previous process with some tools oriented to the interpretation of the classes in such a way that, at the end, a satisfactory classification can be obtained, according to the expert goals. This methodology solves the expert difficulties in formalizing its knowledge in a complete and precise way for ill-structured domains. Those difficulties are due to the existence of rules, acquired by experience, that the expert applies unconsciously and, initially, he was not able to formalize.Referring to the class interpretation oriented tools (nowadays, at low level of automation in Statistics) two basic contributions are made:· a quick way of measuring _¸(P1,P2) the difference between two classifications is provided. This measure is oriented to comparisons and, occasionally, to an evaluation of a classification quality. The coefficient is calculated using the product partition contingency table and· a class characterization system to detect identifier variables for some classes (based on a progressive conditioning process). This technique is also founded on the class representative defined before. It gives some explicative capacity to the classifier and it also constitutes a starting point for an automatic rules generation process. The rules generated by this process could be introduced in the knowledge base of a diagnostic oriented system for a domain of greater complexity than those that are manageable at present. This supposes a contribution on the Statistics and Artificial Intelligence approach.
|
206 |
Some practical problems of recent nonparametric procedures: testing, estimation and applicationBarrientos Marín, Jorge 26 January 2007 (has links)
No description available.
|
207 |
Modelos de teoría de respuesta al ítem multidimensional con una aplicación psicológicaMalaspina Quevedo, Martín Ludgardo 23 November 2016 (has links)
La presente investigación, dentro del contexto de la Teoría de Respuesta al Ítem (TRI), estudia un modelo multidimensional logístico compensatorio de dos parámetros (M2PL) para ítems dicotómicos. Para ello, se explican teóricamente los métodos de estimación más conocidos para los parámetros de los ítems y de los rasgos latentes de las personas, priorizando el método bayesiano mediante Cadenas de Markov de Monte Carlo (MCMC). Estos métodos de estimación se exploran mediante implementaciones computacionales con el software R y R2WinBUGS. La calidad de las respectivas estimaciones de los parámetros se analiza mediante un estudio de simulación, en el cual se comprueba que el método de estimación más robusto para el modelo propuesto es el bayesiano mediante MCMC. Finalmente, el modelo y el método de estimación elegidos se ilustran mediante una aplicación que usa un conjunto de datos sobre actitudes hacia la estadística en estudiantes de una universidad privada de Colombia. / Tesis
|
208 |
Inferencia bayesiana en un modelo de regresión cuantílica semiparamétricoAgurto Mejía, Hugo Miguel 20 July 2015 (has links)
Este trabajo propone un Modelo de Regresión Cuantílica Semiparamétrico. Nosotros empleamos la metodología sugerida por Crainiceanu et al. (2005) para un modelo semiparamétrico en el contexto de un modelo de regresión cuantílica. Un enfoque de inferencia Bayesiana es adoptado usando Algoritmos de Montecarlo vía Cadenas de Markov (MCMC).
Se obtuvieron formas cerradas para las distribuciones condicionales completas y así el algoritmo muestrador de Gibbs pudo ser fácilmente implementado. Un Estudio de Simulación es llevado a cabo para ilustrar el enfoque Bayesiano para estimar los parámetros del modelo. El modelo desarrollado es ilustrado usando conjuntos de datos reales. / Tesis
|
209 |
Study and validation of data structures with missing values. Application to survival analysisSerrat i Piè, Carles 21 May 2001 (has links)
En aquest treball tractem tres metodologies diferents -no paramètrica, paramètrica i semiparamètrica- per tal de considerar els patrons de dades amb valors no observats en un context d'anàlisi de la supervivència. Les dues primeres metodologies han estat desenvolupades sota les hipòtesis de MCAR (Missing Completely at Random) o MAR (Missing at Random). Primer, hem utilitzat el mètode de remostreig de bootstrap i un esquema d'imputació basat en un model bilineal en la matriu de dades per tal d'inferir sobre la distribució dels paràmetres d'interès. Per una altra banda, hem analitzat els inconvenients a l'hora d'obtenir inferències correctes quan es tracta el problema de forma totalment paramètrica, a la vegada que hem proposat algunes estratègies per tenir en compte la informació complementària que poden proporcionar altres covariants completament observades.De tota manera, en general no es pot suposar la ignorabilitat del mecanisme de no resposta. Aleshores, ens proposem desenvolupar un mètode semiparamètric per a l'anàlisi de la supervivència quan tenim un patró de no resposta no ignorable. Primer, proposem l'estimador de Kaplan-Meier Agrupat (GKM) com una alternativa a l'estimador KM estàndard per tal d'estimar la supervivència en un nombre finit de temps fixats. De tota manera, quan les covariants són parcialment observades ni l'estimador GKM estratificat ni l'estimador KM estratificat poden ser calculats directament a partir de la mostra. Aleshores, proposem una classe d'equacions d'estimació per tal d'obtenir estimadors semiparamètrics de les probabilitats i substituïm aquestes estimacions en l'estimador GKM estratificat. Ens referim a aquest nou estimador com l'estimador Kaplan-Meier Agrupat-Estimat (EGKM). Demostrem que els estimadors GKM i EGKM són arrel quadrada consistents i que asimptòticament segueixen una distribució normal multivariant, a la vegada que obtenim estimadors consistents per a la matriu de variància-covariància límit. L'avantatge de l'estimador EGKM és que proporciona estimacions no esbiaixades de la supervivència i permet utilitzar un model de selecció flexible per a les probabilitats de no resposta. Il·lustrem el mètode amb una aplicació a una cohort de pacients amb Tuberculosi i infectats pel VIH. Al final de l'aplicació, duem a terme una anàlisi de sensibilitat que inclou tots els tipus de patrons de no resposta, des de MCAR fins a no ignorable, i que permet que l'analista pugui obtenir conclusions després d'analitzar tots els escenaris plausibles i d'avaluar l'impacte que tenen les suposicions en el mecanisme no ignorable de no resposta sobre les inferències resultants.Acabem l'enfoc semiparamètric explorant el comportament de l'estimador EGKM per a mostres finites. Per fer-ho, duem a terme un estudi de simulació. Les simulacions, sota escenaris que tenen en compte diferents nivells de censura, de patrons de no resposta i de grandàries mostrals, il·lustren les bones propietats que té l'estimador que proposem. Per exemple, les probabilitats de cobertura tendeixen a les nominals quan el patró de no resposta fet servir en l'anàlisi és proper al vertader patró de no resposta que ha generat les dades. En particular, l'estimador és eficient en el cas menys informatiu dels considerats: aproximadament un 80% de censura i un 50% de dades no observades. / In this work we have approached three different methodologies --nonparametric, parametric and semiparametric-- to deal with data patterns with missing values in a survival analysis context. The first two approaches have been developed under the assumption that the investigator has enough information and can assume that the non-response mechanism is MCAR or MAR. In this situation, we have adapted a bootstrap and bilinear multiple imputation scheme to draw the distribution of the parameters of interest. On the other hand, we have analyzed the drawbacks encountered to get correct inferences, as well as, we have proposed some strategies to take into account the information provided by other fully observed covariates.However, in many situations it is impossible to assume the ignorability of the non-response probabilities. Then, we focus our interest in developing a method for survival analysis when we have a non-ignorable non-response pattern, using a semiparametric perspective. First, for right censored samples with completely observed covariates, we propose the Grouped Kaplan-Meier estimator (GKM) as an alternative to the standard KM estimator when we are interested in the survival at a finite number of fixed times of interest. However, when the covariates are partially observed, neither the stratified GKM estimator, nor the stratified KM estimator can be directly computed from the sample. Henceforth, we propose a class of estimating equations to obtain semiparametric estimates for these probabilities and then we substitute these estimates in the stratified GKM estimator. We refer to this new estimation procedure as Estimated Grouped Kaplan-Meier estimator (EGKM). We prove that the GKM and EGKM estimators are squared root consistent and asymptotically normal distributed, and a consistent estimator for their limiting variances is derived. The advantage of the EGKM estimator is that provides asymptotically unbiased estimates for the survival under a flexible selection model for the non-response probability pattern. We illustrate the method with a cohort of HIV-infected with Tuberculosis patients. At the end of the application, a sensitivity analysis that includes all types of non-response pattern, from MCAR to non-ignorable, allows the investigator to draw conclusions after analyzing all the plausible scenarios and evaluating the impact on the resulting inferences of the non-ignorable assumptions in the non-response mechanism.We close the semiparametric approach by exploring the behaviour of the EGKM estimator for finite samples. In order to do that, a simulation study is carried out. Simulations performed under scenarios taking into account different levels of censoring, non-response probability patterns and sample sizes show the good properties of the proposed estimator. For instance, the empirical coverage probabilities tend to the nominal ones when the non-response pattern used in the analysis is close to the true non-response pattern that generated the data. In particular, it is specially efficient in the less informative scenarios (e,g, around a 80% of censoring and a 50% of missing data).
|
210 |
Contribucions a la microagregació per a la protecció de dades estadístiquesTorres Aragó, Àngel 08 September 2003 (has links)
DE TESIDesprés de recollir la informació referent a les tècniques pertorbatives més rellevants de control de la revelació de microdades contínues actualment existents, l'objectiu general de la tesi és l'anàlisi i la millora d'aquestes tècniques de control de la revelació mitjançant mètodes d'estadística matemàtica; millora referida a almenys un dels tres aspectes següents: 1) Nivell de protecció. Donar un bon grau de protecció a la informació confidencial de les dades que han de ser publicades.2) Pèrdua d'informació. Minimitzar la pèrdua d'informació durant el procés de modificació de les dades. 3) Complexitat computacional. Reduir el temps de càlcul i/o computació inherent a l'aplicació de tècniques de control de la revelació.L'anàlisi i millora referides als objectius generals d'aquesta tesi han estat aplicades concretament a una tècnica de control de la revelació per a microdades contínues anomenada microagregació que bàsicament ajunta registres individuals del conjunt de microdades per tal de disminuir el risc de revelació.Podem diferenciar les diverses aportacions de la tesi de la següent manera:1. Aportacions als mètodes de microagregació univariant, aplicats fonamentalment al tractament de microdades contínues univariants.2. Aportacions als mètodes de microagregació multivariant, aplicats bàsicament al tractament de microdades contínues multivariants (més d'una variable observada).3. Mesures comparatives de mètodes pertorbatius.1. Microagregació univariant1.1. S'ha desenvolupat un estudi analític mitjançant estadístics d'ordre sobre la seguretat del mètode de microagregació amb ordenació individual.1.2. S'ha comparat la qualitat del mètode de microagregació mitjançant ordenació individual amb altres mètodes de control de la revelació per a microdades contínues; qualitat que ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.2. Microagregació multivariant2.1. S'ha creat un nou mètode de microagregació multivariant de la "Distància Màxima Modificat" (DMM), modificació d'un altre mètode existent anomenat de la "Distància Màxima" (DM) i s'han comparat les seves complexitats computacionals.2.2. Hem comparat la qualitat del nou mètode de microagregació de la Distància Màxima Modificat" (DMM) amb altres mètodes de control de la revelació per a microdades contínues; qualitat que també ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.2.3. Hem desenvolupat un estudi analític per calcular el número de possibles particions d'un conjunt de p variables observades en h-1 conjunts de mida s i un únic conjunt de mida s+r, on p=hs+r.2.4. S'ha realitzat un estudi sobre el número de variables que han de tenir els conjunts d'una partició sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una bona qualitat.2.5. Hem fet un estudi sobre la combinació de variables dintre els conjunts que formen una partició que, juntament amb l'anterior estudi sobre el número de variables, proporcionen a l'usuari de la microagregació multivariant una guia per saber quantes i quines variables haurien de formar la partició del conjunt de variables sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una millor qualitat.3. Mesures comparatives3.1. Distinció entre les diverses naturaleses que formen part de les mesures emprades per comparar mètodes pertorbatius.3.2. Ponderació de les diverses mesures tenint en compte les diverses naturaleses trobades en el punt anterior.3.3.Creació d'una nova mesura de pèrdua de confidencialitat basada en intervals de confiança construïts a partir de desviacions típiques. / THESIS SUMMARYThis Ph. D. thesis deals with topics related to the protection of the confidentiality of statistical data being disseminated by statistical offices.Beyond presenting a state of the art on the most relevant perturbative techniques for statistical disclosure control of microdata, the general objective of this thesis is to analyze and improve such techniques through the use of mathematical statistics. Improvements achieved in at least one of the three following directions:1) Increase the protection level, i.e. increase the level of protection of sensitive information in the data being published.2) Decrease information loss, i.e. the loss of data utility caused by the application of statistical disclosure control techniques.3) Decrease computational complexity, i.e. the computation inherent to the application of statistical disclosure control techniques.The analysis and improvement mentioned in the general objectives of this thesis have beenapplied to a specific statistical disclosure control technique for continuous microdata. This technique, known as microaggregation, basically consists of clustering individual records in the data set in order to reduce disclosure risk.The contributions of this thesis can be classified as follows:1. Contributions to univariate microaggregation methods, which are mainly used to treat univariate continuous data.2. Contributions to multivariate microaggregation methods, which are mainly used to treat multivariate continuous data (observations of several variables).3. Comparative measures for perturbative methods.1. Univariate microaggregation1.1. An analytical study has been carried out using order statistics whose purpose is to assess the security of individual ranking microaggregation.1.2. The quality of individual ranking microaggregation has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.2.Multivariate microaggregation.2.1. A new multivariate microaggregation method has been presented which is called "modified maximum distance" (MMD). MMD is a modification of a previous method called "maximum distance" (MD). Computational complexities of MMD and MD have been compared.2.2. The quality of MMD has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.2.3. An analytical study has been carried out in order to compute the number of possible partitions of a set of p observed variables into h-1 sets of size s and one set of size s+r, where p=hs+r.2.4. A study has been carried out on the number of variables required by the sets of a partition on which the MMD method is run in order to obtain a modified data set with good quality.2.5. A study on the combination of variables within the sets that form a partition has been performed which, together with the previous study on the number of variables, provides the user of multivariate microaggregation with a guideline for deciding how many and which variables should form the partition of the set of variables on which MMD is to be run in order to obtain a modified data set with better quality.3. Comparative measures3.1. A distinction has been established between the different natures of the measures used to compare perturbative methods.3.2. A weighting of the various measures has been proposed which takes into account the various natures determined in the previous item.3.3. A new disclosure risk measure has been introduced which consists of a confidence interval based on standard deviations (rather than on ranks, as proposed in previous work). This new measure is especially suited for skewed data.
|
Page generated in 0.0792 seconds