Spelling suggestions: "subject:"1209.estadística"" "subject:"1209.stadística""
1 |
Medidas de diferencia y clasificación automática no paramétrica de datos composicionalesMartín Fernández, Josep Antoni 23 March 2001 (has links)
Es muy frecuente encontrar datos de tipo composicional en disciplinas tan dispares como son, entre otras, las ciencias de la tierra, la medicina, y la economía. También es frecuente en estos ámbitos el uso de técnicas de clasificación no paramétrica para la detección de agrupaciones naturales en los datos. Sin embargo, una búsqueda bibliográfica bastante exhaustiva y la presentación de resultados preliminares sobre el tema en congresos de ámbito internacional han permitido constatar la inexistencia de un cuerpo teórico y metodológico apropiado que permita desarrollar pautas y recomendaciones a seguir en el momento de realizar una clasificación no paramétrica de datos composicionales. Por estos motivos se ha elegido como tema de tesis la adaptación y desarrollo de métodos de agrupación adecuados a datos de naturaleza composicional, es decir, datos tales que el valor de cada una de sus componentes expresa una proporción respecto de un total. El título de la misma, "Medidas de diferencia y clasificación automática no paramétrica de datos composicionales", recoge no sólo este propósito, sino que añade la expresión "medidas de diferencia" con el propósito de reflejar el peso específico importante que tiene el estudio de este tipo de medida en el desarrollo del trabajo. La expresión "no paramétrica'' se refiere a que en la misma no se considerarán técnicas de clasificación que presuponen la existencia de un modelo de distribución de probabilidad para las observaciones objeto de la agrupación. La memoria de la tesis se inicia con un capítulo introductorio donde se presentan los elementos básicos de las técnicas de clasificación automática no paramétrica. Se pone especial énfasis en aquellos elementos susceptibles de ser adaptados para su aplicación en clasificaciones de datos composicionales. En el segundo capítulo se aborda el análisis de los conceptos más importantes en torno a los datos composicionales. En este capítulo, los esfuerzos se han concentrado principalmente en estudiar las medidas de diferencia entre datos composicionales junto con las medidas de tendencia central y de dispersión. Con ello se dispone de las herramientas necesarias para proceder al desarrollo de una metodología apropiada para la clasificación no paramétrica de datos composicionales, consistente en incorporar los elementos anteriores a las técnicas habituales y adaptarlas en la medida de lo necesario. El tercer capítulo se dedica exclusivamente a proponer nuevas medidas de diferencia entre datos composicionales basadas en las medidas de divergencia entre distribuciones de probabilidad. En el cuarto capítulo se incorporan las peculiaridades de los datos composicionales a las técnicas de clasificación y se exponen las pautas a seguir en el uso práctico de estas técnicas. El capítulo se completa con la aplicación de la metodología expuesta a un caso práctico. En el quinto capítulo de esta tesis se aborda el denominado problema de los ceros. Se analizan los inconvenientes de los métodos usuales de substitución y se propone una nueva fórmula de substitución de los ceros por redondeo. El capítulo finaliza con el estudio de un caso práctico. En el epílogo de esta memoria se presentan las conclusiones del trabajo de investigación y se indican la líneas futuras de trabajo. En los apéndices finales de esta memoria se recogen los conjuntos de datos utilizados en los casos prácticos que se han desarrollado en la presente tesis. Esta memoria se completa con la lista de las referencias bibliográficas más relevantes que se han consultado para llevar a cabo este trabajo de investigación. / On March 23, 2001 Josep Antoni Martín-Fernández from the Dept. of Computer Sciences and Applied Mathematics of the University of Girona (Catalonia-Spain), presented his PhD thesis, entitled "Measures of difference and non-parametric cluster analysis for compositional data" at the Technical University of Barcelona. A short resumee follows:Compositional data are by definition proportions of some whole. Thus, their natural sample space is the open simplex and interest lies in the relative behaviour of the components. Basic operations defined on the simplex induce a vector space structure, which justifies the developement of its algebraic-geometric structure: scalar product, norm, and distance. At the same time, hierarchic methods of classification require to establish in advance some or all of the following measures: difference, central tendency and dispersion, in accordance with the nature of the data. J. A. Martín-Fernández studies the requirements for these measures when the data are compositional in type and presents specific measures to be used with the most usual non-parametric methods of cluster analysis. As a part of his thesis he also introduced the centering operation, which has been shown to be a powerful tool to visualize compositional data sets. Furthermore, he defines a new dissimilarity based on measures of divergence between multinomial probability distributions, which is compatible with the nature of compositional data. Finally, J. A. Martín-Fernández presents in his thesis a new method to attack the "Achilles heel" of any statistical analysis of compositional data: the presence of zero values, based on a multiplicative approach which respects the essential properties of this type of data.
|
2 |
Models de distribució sobre el símplexMateu Figueras, Glòria 10 October 2003 (has links)
Les dades composicionals són vectors les components dels quals representen proporcions respecte d'un total, i per tant estan sotmesos a la restricció que la suma de les seves components és una constant. L'espai natural per a vectors amb D components és el símplex SD. En l'àmbit de la modelització, ens trobem amb una gran dificultat: no coneixem prou classes de distribucions que permetin modelitzar adequadament la majoria dels conjunts de dades composicionals. En els anys 80, Aitchison proposa una metodologia per treballar amb dades composicionals que hem anomenat metodologia MOVE, ja que es basa en transformacions. En el tema específic de la modelització, Aitchison utilitza la transformació logquocient additiva per projectar les composicions a l'espai real i posteriorment les modelitza amb una distribució normal. D'aquesta manera introdueix la distribució normal logística additiva. Tot i les bones propietats algebraiques que presenta aquesta distribució ens trobem amb dues dificultats: el model normal no pot modelitzar alguns conjunts de dades transformades, especialment quan presenten una certa asimetria. Per altra banda, aquesta família de distribucions no és tancada respecte de l'amalgama (o suma) de components. El 1996 Azzalini i Dalla-Valle introdueixen la distribució normal asimètrica a RD. Es tracta d'una generalització del model normal amb un paràmetre de forma que regula la asimetria de la distribució. Utilitzant la teoria de les transformacions i la distribució normal asimètrica, hem definit una nova distribució que hem anomenat normal asimètrica logística additiva. Aquesta és especialment indicada per modelitzar conjunts de dades composicionals amb un biaix moderat, i consegüentment ens aporta la solució a una de les dificultats de la distribució normal logística additiva. Estudiant amb més detall aquest nou model, hem comprovat que presenta unes bones propietats algebraiques. Per altra banda i mitjançant simulacions, hem pogut il·lustrar l'efecte que tenen els paràmetres de la distribució normal logística additiva inicial en la distribució de l'amalgama i hem pogut comprovar que, en certs casos, el model normal asimètric proporciona un bon ajust per al logquocient de l'amalgama. Una eina útil en la modelització de vectors aleatoris són els tests de bondat d'ajust. Malauradament, no és gens freqüent trobar a la literatura tests de bondat d'ajust aplicables a la distribució normal asimètrica. Així doncs, hem desenvolupat uns tests per aquesta distribució i hem realitzat un estudi de potència utilitzant diverses distribucions alternatives. La metodologia que hem escollit és la de D'Agostino i Stephens que consisteix en mesurar la diferència entre la funció de distribució empírica (calculada mitjançant la mostra) i la funció de distribució teòrica (la normal asimètrica). L'estructura d'espai euclidià del símplex ens ha suggerit una nova metodologia que hem anomenat STAY ja que no es basa en les transformacions. Sabem que és equivalent utilitzar les operacions pròpies de SD que aplicar les operacions de l'espai real a les coordenades de les composicions respecte d'una base ortonormal. Sobre aquestes coordenades hem definit el model normal i el model normal asimètric a SD i hem realitzat un estudi comparatiu amb els models normal logístic additiu i normal asimètric logístic additiu. Si bé en determinades situacions aquesta nova metodologia dóna resultats totalment equivalents als obtinguts amb la tècnica de les transformacions, en altres aporta canvis importants. Per exemple, ha permès expressar directament sobre el símplex conceptes bàsics de l'estadística clàssica, com el concepte d'esperança o de variància. Donat que no existeixen treballs previs en aquesta direcció, proposem un exemple il·lustratiu en el cas univariant. Sobre les coordenades respecte d'una base unitària, hem definit el model normal a R+ i hem realitzat una comparació amb el model lognormal obtingut mitjançant la transformació logarítmica. / Compositional data are vectors whose components represent proportions of some whole and this is the reason why they are subject to the unit-sum constraint of its components. Therefore, a suitable sample space for compositional data is the unit simplex SD. The modelling of compositional data has a great problem: the lack of enough flexible models. In the eighties Aitchison developed a methodology to work with compositional data that we have called MOVE methodology. It is based on the transformation of compositional data from SD to the real space and the transformed data is modelled by a multivariate normal distribution. The additive logratio transformation gives rice to the additive logistic normal model which exhibits rich properties. Unfortunately, sometimes a multivariate normal model cannot properly fit the transformed data set, especially when it presents some skewness. Also the additive logistic normal family is not closed under amalgamation of components. In 1996 Azzalini and Dalla Valle introduced the skew normal distribution: a family of distributions on the real space, including the multivariate normal distribution, but with an extra parameter which allows the density to have some skewness. Emulating Aitchison, we have combined the logistic normal approach with the skew-normal distribution to define a new class of distributions on the simplex: the additive logistic skew-normal class. We apply it to model compositional data sets when the transformed data presents some skewness. We have proved that this class of distributions has good algebraic properties. We have also studied the adequacy of the logistic skew-normal distribution to model amalgamations of additive logistic normal vectors. Simulation studies show that in some cases our distribution can provide a reasonable fit. A useful tool in the study of the modelisation of vectors is the test of goodness-of-fit. Unfortunately we don't find in the literature tests of goodness-of-fit for the skew-normal distribution. Thus, we have developed these kinds of tests and we have completed the work with a power study. We have chosen the R.B. D'Agostino and M.A. Stephens methodology that consists in computing the difference between the empirical distribution function (computed from the sample) and the theoretic distribution function (skew-normal). Parallel studies have recently developed the metric space structure of SD. This has suggested us a new methodology to work with compositional data sets that we have called STAY approach because it is not based on transformations. The theory of algebra tells us that any D dimensional real vector space with an inner product has an orthonormal basis to which the coefficients behave like usual elements in RD. Our suggestion is to apply to these coefficients all the standard methods and results available for real random vectors. Thus, on the coefficients with respect to an orthonormal basis we have defined the normal model in SD and the skew-normal model in SD and we have compared them with the additive logistic normal and the additive logistic skew-normal model respectively. From a probabilistic point of view, the laws on SD defined using the STAY methodology are identical to the laws defined using the MOVE methodology. But the STAY methodology has provided some important changes. For example, it has allowed us to express directly over the simplex some basic concepts like the expected value or the variance of a random composition. As we have not found in the literature previous work in this direction, we have started this study with an illustrative example. Over the coefficients with respect to a unitary basis we have defined the normal model in the positive real line and we have compared it with the lognormal model, defined with the logarithmic transformation.
|
3 |
Modelo setar aplicado a la volatilidad de la rentabilidad de las acciones: algoritmos para su identificaciónMárquez Cebrián, Maria Dolors 27 May 2002 (has links)
Esta tesis se centra en el estudio de la serie temporal de volatilidades asociada a la rentabilidad de las acciones a partir de un modelo no lineal, el modelo SETAR "Self-Exciting Threshold AutoRegressive model". El modelo SETAR, a pesar de presentar buenas propiedades y resultados plausibles, ha sido poco utilizado debido a que la implementación de los procesos de identificación y estimación no es sencilla y tampoco está completa, lo que lleva a un proceso de modelización poco ágil. Por este motivo uno de los principales objetivos de la investigación es mejorar la automatización de estos procesos obteniendo e implementando un esquema algorítmico que permita estimar los órdenes de los procesos autoregresivos que componen el modelo, a la vez que determine para cada uno de los procesos autoregresivos cuales son los retardos significativos. El algoritmo propuesto, a diferencia del de Thanoon (1990), debe permitir trabajar con modelos de más de dos regímenes y no presentar limitaciones sobre el número de variables regresoras en cada proceso autoregresivo.En esta tesis se propone una nueva metodología que hemos denominado MIEC "Metodología para la Identificación y Estimación de Coeficientes" basada en un proceso algorítmico que permite la selección de los regresores de forma automática, así como la estimación del orden de los procesos autoregresivos. El diseño de nuestro algoritmo surge del análisis de las características de los algoritmos involucrados en las metodologías propuestas por Tong, Tsay y Thanoon para la identificación y estimación de modelos SETAR. El estudio de las propiedades de algunos criterios de información (AIC, BIC, AICc) permite demostrar que dichos criterios alcanzan el valor mínimo en modelos cuyos regresores tienen retardos consecutivos, esta propiedad es generalizable a todos los modelos SETAR. En nuestra metodología MIEC, el nuevo algoritmo se integrará con el test de linealidad TAR-F de Tsay y, si consideramos modelos SETAR con dos regímenes, con un proceso algorítmico que estima de forma automática el valor umbral.La metodología propuesta en la tesis se ha aplicado al estudio de la volatilidad asociada a la rentabilidad del IBEX-35 en el período 1990-2000. Como la volatilidad no es directamente observable y en el campo financiero no tiene una medida única, es necesario definir el concepto de volatilidad en nuestro marco de estudio y obtener en este contexto un estimador de la volatilidad. En la tesis hemos elegido como estimador de la volatilidad mensual la desviación absoluta respecto a la media del exceso de rentabilidad. Una vez obtenida la serie de volatilidades {wt}, se analizan sus características: la no estacionariedad de la serie se elimina a partir de una transformación conocida como "tasa de variación natural" yt = ln (wt) que permite interpretar yt como una medida del cambio relativo entre un período y el anterior Las características de la serie {yt} justifican la elección de un modelo SETAR y, en consecuencia, aplicamos la metodología MIEC para identificar y estimar los parámetros que caracterizan el modelo. El resultado es un SETAR (2; 2,8) con el que se explica el comportamiento histórico de la serie, y también permite realizar acertadas predicciones sobre los cambios de tendencia de la volatilidad. / This thesis is focused on the study of the volatility of the IBEX-35 returns with a non-linear model the self-exciting threshold autoregressive SETAR models; and on the improvement of the identification process.The SETAR model has certain features, that cannot be captured by a linear time series models, nevertheless this model has not been widely used in applications because the implementation of the estimation and identification process is complex, incomplete and hard. The main goal of this research is to improve the algorithm for the estimation of orders of autoregressive process and for the selecttion of significant lags.We propose, in this thesis, a new metodology - MIEC "Identification and Estimation of Coeficients Methodology"- based on an algorithmic process for the automatic selection of the regressors, and the estimation of autoregressive process orders. The analysis of Tong's methodology, Tsay's algorithm and Thanoon's algorithm has helped us to design our proposal. We have proved that the AIC (Akaike's Information Criteria), the BIC (Bayesian Information Criteria) and the AICc (Corrected Akaike's Information Criteria) are minimun if the model has regressors with consecutive lags; this feature is true in SETAR models. MIEC methodology builds an algorithm which incorporates a linearity test, the TAR-F test of Tsay, and to permits the automatic estimation of threshold in SETAR models with two regimes.We have applied our methodology to the study of the volatility of IBEX 35 returns from 1990 to 2000. As volatility is not observable, we need to construct a volatility measure, but first, it is necessary to clarify the concept of volatility, because this term is used in practice in different ways. In this thesis, we have used the absolute value of monthly excess return minus its mean as the estimator of volatility. The study of the new series gives a SETAR model to explain the behaviour of the volatility time series. The application of the MIEC procedure to the volatility of IBEX 35 returns estimates a SETAR (2; 2 ,8) model. This model explains the historical behaviour of the time series, and is able to forecast the volatility trend's changes.
|
4 |
Utilització de mascles enters per a la producció de carn: avaluació sensorial i estudis de consumidorsFont i Furnols, Maria 20 June 2000 (has links)
L'olor sexual és un defecte sensorial que es dóna sobretot en la carn de porcs mascles enters i és deguda principalment a dues substàncies, l'androstenona i l'escatol. Els objectius principals d'aquest estudi són conèixer la distribució d'androstenona i escatol dels porcs del nostre país respecte l'europea, descriure aquests dos compostos sensorialment mitjançant un panel entrenat, estudiar la resposta d'acceptabilitat dels consumidors europeus a la carn de porc mascle enter segons el seu nivell d'androstenona i escatol i veure la influència de la sensibilitat a l'androstenona en la resposta d'acceptabilitat dels consumidors espanyols. Es van medir els nivells d'escatol i androstenona en el greix subcutani de 4.313 mascles enters i 223 femelles, produïts en dues estacions de l'any en 6 països europeus. Per als posteriors estudis sensorials es va seleccionar una submostra de 42 lloms de femelles i 378 de mascles enters, classificats en nou grups segons nivells d'androstenona i escatol alts (>0.99 i >0.21 µg/g respectivament), mitjans o baixos (<0.5 µg/g i <0.10 µg/g). Els degustadors, prèviament seleccionats i entrenats van obtenir el perfil descriptiu pel mètode 'Checklist'. Van trobar per a l'olor els descriptors 'androstenona', 'escatol', 'porc', 'orina', 'suor', 'fems', 'dolç', 'ranci' i 'anormal' i per al flavor els anteriors excepte 'fems'. Van avaluar monàdicament 10 lloms, cuits al forn a 175°C durant 10', en cada una de les 6 sessions d'olor i flavor. Els consumidors (aproximadament 240 per país i rèplica) van valorar 5 mostres segons una escala hedònica de 7 nivells. L'acceptabilitat del flavor de la carn es va avaluar en lloms cuits a 180°C i rescalfats a 250°C i la de l'olor en lloms cuits pel mateix sistema i, a més, escalfats 1 minut en una planxa a 250ºC just abans de servir. En l'assaig espanyol es va fer la prova de la sensibilitat a l'androstenona. La mitjana dels nivells d'androstenona i escatol al nostre país es va situar per sobre de l'europea i va ser de 1.20 µg/g i de 0.19 µg/g respectivament. El percentatge de canals amb nivells d'androstenona superiors a 1.0 µg/g i d'escatol superiors a 0.21 µg/g va ser del 17% al nostre país i del 7% en el global de tots els països participants. En la descripció sensorial dels lloms es va observar una gran confusió dels atributs. Els lloms procedents de mascles enters amb nivells baixos o mitjans d'androstenona i escatol i els lloms procedents de femelles es van caracteritzar sensorialment per l'atribut 'dolç'. La resposta dels consumidors en general va ser sobretot de refús de l'olor de les mostres amb elevats nivells d'escatol, independentment del contingut d'androstenona. Els consumidors espanyols anòsmics o poc sensibles a l'androstenona van donar pitjor nota d'acceptabilitat només als lloms amb elevat nivell d'escatol independentment del nivell d'androstenona. Tanmateix aquest darrer nivell va influir en les notes d'acceptabilitat donades pels consumidors molt sensibles a aquesta substància (24% homes, 37% dones), essent pitjors quant el nivell era elevat o mitjà. Es pot concloure que caldria controlar els nivells d'androstenona i escatol sobretot en països com Espanya en què es consumeixen principalment lloms de mascles enters i es tenen els nivells d'androstenona i escatol elevats. L'olor sexual té una caracterització sensorial complexa, tanmateix, és causa del rebuig o baixa acceptabilitat dels lloms per part dels consumidors, especialment si aquests són sensibles a l'androstenona i, si no es té en compte la sensibilitat, es subestima la importància d'aquesta. Un possible llindar satisfactori per a la majoria de consumidors en les condicions d'aquest estudi seria el refús de canals amb (a) >0.21 µg/g d'escatol, (b) >0.99 µg/g d'androstenona o (c) >0.10 µg/g d'escatol i >0.5 µg/g d'androstenona. / Boar taint is a sensory defect mainly detected in boar meat, mainly due to two substances, androstenone and skatole. The main objectives of this study are to ascertain the androstenone and skatole distribution in the pig population of our country with respect to the group of the other European countries; to obtain the sensory characterisation of both compounds by means of a trained panel; to study the acceptability of the boar meat by the European consumers depending on the levels of androstenone and skatole; and to ascertain the sensitivity to androstenone as an influence on the acceptability of boar to Spanish consumers. The levels of androstenone and skatole in subcutaneous fat were measured in 4313 boars and 223 gilts, produced in 6 European countries during two seasons (replicates). In the sensory studies, 42 loins from gilts and 378 loins from boars were selected and the boars were classified in 9 groups depending on the levels of androstenone and skatole (high:>1.0 and >0.21 µg/g respectively, medium and low: <0.5 µg/g and <0.10 µg/g). Panellists previously selected and trained obtained the profile by the checklist method. 'Androstenone', 'skatole', 'pig', 'urine', 'sweat', 'manure', 'sweet', 'rancid' and 'abnormal' were found as odour attributes. The flavour attributes were the same except for 'manure'. Panellists evaluated in a monadic way 10 loins, cooked at 175ºC in the oven for 10 minutes, in each of the 6 sessions of odour and flavour assessment. Consumers (approximately 240 per country and replicate) evaluated 5 samples in a 7 level hedonic scale. The acceptability of the meat flavour was evaluated in loins cooked at 180ºC and re-cooked at 250ºC and the acceptability of the meat odour was evaluated in loins cooked in the same way and kept for 1 minute on a hot plate at 250ºC just before serving. In our country, consumers' sensibility to androstenone was tested. Mean levels of androstenone and skatole in our country (1.20 µg/g and 0.19 µg/g respectively) were above the European mean. The percentage of carcasses with androstenone and skatole levels higher than 1.0 µg/g and 0.21 µg/g was 17% in our country and 7% in all the European countries studied. In the sensory characterisation of the androstenona and the skatole there was a lot of confusion among attributes.. Boar loins with low and medium levels of androstenone and skatole and gilt loins were sensory characterised by the same attribute 'sweet'. Consumers mainly refused the odour of the loins with high levels of skatole, regardless of the androstenone content. The anosmics or less sensitive to androstenone Spanish consumers gave the worst note of acceptability to the loins with high skatole level, independently of the androstenone level. The androstenone level influence in the notes of acceptability given by the highly sensitive consumers to androstenone (24% men, 37% women), are worse when the level of this substance is high or medium. It can be concluded that the androstenone and skatole levels should be controlled, especially in the countries like Spain, where boar meat is consumed and where there are high levels of androstenone as well as with skatole. Boar taint has a complex sensory characterisation. Loins with boar taint have a low level of acceptability with consumers, especially if they are sensitive to androstenone and, if the sensitivity is not taken into account, the importance of androstenone is underestimated. A possible threshold that satisfies the most important part of the consumers in the conditions of this study would be the rejection of carcasses with (a) >0.21 µg/g of skatole, (b) >0.99 µg/g of androstenone or (c) >0.10 µg/g of skatole and >0.5 µg/g of androstenone.
|
5 |
L'us de la informació simbòlica en l'automatització del tractament estadístic de dominis poc estructuratsGibert Oliveras, Karina 30 January 1995 (has links)
Per les seves característiques intrínseques (coexistència de variables quantitatives i qualitatives amb gran nombre de modalitats , coneixement addicional sobre l'estructura del domini per part d'un expert), els dominis poc estructurats constitueixen problemes difícils de tractar amb les tècniques actuals en Estadística i Intel·ligència Artificial. A grans trets, l'estructura complexa d'aquests dominis fa que la construcció d'una base de coneixement complet sobre el domini, per a un sistema de diagnòstic, esdevingui pràcticament inabordable i que el clustering (basat en distàncies, que se situen en un pla sintàctic) tingui un comportament pobre; d'altra banda, la gestió simultània de variables numèriques i quantitats ingents d'informació qualitativa no respon exactament a les situacions per a les que les tècniques de clustering pures han estat pensades.KLASS és una eina de classificació parametritzable (quant als criteris d'agregació i les mètriques) capaç d'emprar informació semàntica per a dirigir el procés de classificació. Una de les seves característiques més destacables és l'ús conjunt d'informació qualitativa i quantitativa en la descripció dels objectes.L'objectiu principal d'aquest treball ha estat superar les limitacions de les tècniques de l'Estadística i de la Intel·ligència Artificial en la classificació de dominis poc estructurats.Entre d'altres resultats cal destacar una estratègia mixta de classificació que:- incorpora al procés de classificació coneixement parcial (ja no serà necessari que sigui complet) i/o no homogeni que tingui l'expert sobre el domini. Aquest coneixement es formalitza en CP1 (càlcul de predicats de primer ordre), permetent màxima potència expressiva i flexibilitat, i s'utilitza per construir una partició inicial sobre el domini induïda per les regles que equival a empaquetar "trossos" de coneixement en unitats funcionals, introduint informació semàntica al sistema a partir de la qual procedir amb una classificació per veïns recíprocs encadenats (de complexitat quadràtica). Aquesta seria la contribució principal de la present tesi i, entre altres coses, ofereix l'oportunitat de fer intervenir, en les regles, variables derivades de les observades. En aquest punt, el mecanisme és especialment potent i dona la possibilitat d'estudiar les dades simultàniament en diferents sistemes de coordenades.- permet treballar simultàniament amb variables qualitatives i quantitatives, tot mantenint la representació simbòlica d'aquestes darreres i evitant la categorització de les primeres. Això ha suscitat la definició d'un representat de classe per a les variables qualitatives, que constitueix una segona aportació d'aquest treball, i permet un tractament homogeni de:- variables quantitatives i qualitatives- classes i individus ( en conseqüència, fa possible la integració de les classes induïdes per les regles en una única jerarquia final).Treballar amb aquest tipus de matrius requereix detenir-se en la definició d'una funció que avaluació la distància entre individus. S'ha definit la família de distàncies mixtes d2 (_r,_r)(i, i0), estudiant-ne algunes propietats teòriques i aportant una proposta pels valors dels paràmetres (_r, _r). No es té notícia que una formulació d'aquest estil hagi estat abans utilitzada.I una metodologia de treball iterativa que, partint de les dades observacionals i el coneixement de l'expert, integra el proc´es anterior amb eines d'ajuda a la interpretació de les classes, de tal forma que s'obtingui finalment una classificació "satisfactòria", d'acord amb els objectius de l'expert.Aquesta metodologia resol la dificultat que per ell suposa formalitzar el seu coneixement de forma completa i precisa en dominis poc estructurats, ocasionada per l'existència de regles que aplica inconscientment i que, havent adquirit amb l'experiència, inicialment no és capaç de formalitzar.En el camp d'ajudes a la interpretació de les classes (actualment poc automatitzada en Estadística) es fan bàsicament dues contribucions · s'aporta una forma ràpida de mesurar _¸(P1,P2) la diferència entre dues classificacions, orientada a fer comparacions i, eventualment, avaluar la qualitat d'una classificació. El càlcul d'aquest coeficient es basa en la construcció de la taula de contingència de la partició producte i · un sistema de caracterització de la classificació que detecta les variables identificadores d'algunes classes (basant-se en un proc´es de condicionament progressiu). Aquesta tècnica descansa també sobre el concepte de representant de classe definit anteriorment i, a més de dotar al classificador de certa capacitat explicativa, dóna lloc a un procediment de generació automàtica de regles, que podran formar part de la base de coneixement d'un sistema de diagnòstic basat en el coneixement per dominis més complexos que els tractables actualment, la qual cosa suposa una contribució a l'apertura d'un canal d'apropament de l'Estadística i la Intel·ligència Artificial. / Por sus características intrínsecas (coexistencia de variables cuantitativas y cualitativas de gran número de modalidades , conocimiento adicional del experto acerca de la estructura del dominio), los dominios poco estructurados constituyen problemas difíciles de tratar con las técnicas actuales en Estadística e Inteligencia Artificial. A grandes rasgos, la estructura compleja de estos dominios hace que la construcción de una base de conocimiento completo sobre ellos, para un sistema de diagnostico, se vuelva prácticamente inabordable y que el clustering (basado en distancias, que se sitúan en el plano sintáctico) tenga un comportamiento pobre; por otro lado, la gestión simultánea de variables numéricas y cantidades ingentes de información cualitativa no responde exactamente a las situaciones para las que las técnicas de clustering puras fueron pensadas.KLASS es una herramienta de clasificación parametrizable (en cuanto a los criterios de agregación y las métricas) capaz de emplear información semántica para dirigir el proceso de clasificación. Una de sus características más destacables es el uso conjunto de información cuantitativa y cualitativa en la descripción de los objetos.El objetivo principal de este trabajo ha sido superar las limitaciones de las técnicas de la Estadística y de la Inteligencia Artificial para la clasificación de dominios poco estructurados. Entre otros resultados, cabe destacar:Una estrategia mixta de clasificación que: - incorpora al proceso de clasificación conocimiento parcial (ya no será necesario que sea completo) y/o no homogéneo que tenga el experto sobre el dominio.Este conocimiento se formaliza en CP1, permitiendo máxima potencia expresiva y flexibilidad, y se utiliza para construir una partición inicial inducida por las reglas equivalente a empaquetar trozos de conocimiento en unidades funcionales y que supone introducir información semántica al sistema a partir de la cual proceder a una clasificación por vecinos recíprocos encadenados (de complejidad cuadrática). Esta seria la contribución principal de la presente tesis y, entre otras cosas, ofrece la oportunidad de hacer intervenir, en las reglas, variables derivadas de las observadas. En este punto, el mecanismo es especialmente potente y da la posibilidad de estudiar los datos bajo distintos sistemas de coordenadas simultáneamente.- permite trabajar conjuntamente con variables cualitativas y cuantitativas, manteniendo la representación simbólica de estas últimas y evitando la categorización de las primeras. Ello ha suscitado la definición de un representante de clase para las variables cualitativas, que constituye una segunda aportación de este trabajoy permite un tratamiento homogéneo de:- variables cualitativas y cuantitativas.- clases e individuos (en consecuencia, hace posible la integración de las clases inducidas por las reglas en una jerarquía final).Trabajar con este tipo de matrices requiere detener-se en la definición de una función que evalué la distancia entre individuos. Se ha definido la familia de distancias mixtas d2(_r,_r)(i, i0), estudiando algunas de sus propiedades teóricas y aportando una propuesta para los valores de los parámetros (_r, _r). No se tiene noticia de que una formulación de este estilo se haya utilizado con anterioridad.Y una metodología de trabajo iterativa que, partiendo de datos observacionales y del conocimiento del experto, integra el proceso anterior con herramientas de ayuda a la interpretación de las clases, de tal forma que se obtenga finalmente una clasificación satisfactoria, de acuerdo a los objetivos del experto. Esta metodología resuelve la dificultad que para él supone formalizar su conocimiento de forma completa y precisa en dominios poco estructurados, debida a la existencia de reglas que aplica inconscientemente y que, habiendo adquirido con la experiencia, inicialmente no fue capaz de formalizar.En el campo de ayudas a la interpretación de las clases (actualmente poco automatizada en Estadística) se hacen básicamente dos contribuciones· se aporta una forma rápida de medir _¸(P1,P2) la diferencia entre dos clasificaciones, orientada a hacer comparaciones y, eventualmente, evaluar la calidad de una clasificación. El calculo de este coeficiente se basa en la construcción de la tabla de contingencia de la partición producto y· un sistema de caracterización de la clasificación que detecta las variables identificadoras de algunas clases (basándose en un proceso de condicionamiento progresivo). Esta técnica descansa también sobre el concepto de representante de clase definido anteriormente y, además de dotar al clasificador de cierta capacidad explicativa, da lugar a un procedimiento de generación automática de reglas, que podrán formar parte de la base de conocimiento de un sistema de diagnostico basado en el conocimiento para dominios más complejos que los manejables actualmente, lo cual supone una contribución a la apertura de un canal de acercamiento entre Estadística e Inteligencia Artificial. / Because of their intrinsic characteristics (coexistence of quantitative and qualitative variables the last ones with great number of modalities , additional expert knowledge on the domain structure), ill-structured domains are difficult problems for the actual statistical and artificial intelligence techniques. Briefly, construction of complete knowledge bases of the domain, to be used in diagnostic oriented systems, is almost unreachable due to the complexity of these kinds of domains. The clustering (based on distances, which are, in fact, syntactic criteria) has also a poor behaviour; actually, standard statistical techniques where not specifically designed for simultaneous treatment of numerical variables and great quantity of qualitative information.KLASS is a clustering tool that can use semantic information to guide the classification process. It is parameterized on the aggregation criteria and the metrics. One of its most important features is the use of both qualitative and quantitative information in the object descriptions.The main goal of this work is to overcome the limitations of Statistics and Artificial Intelligence techniques referred to this particular context. Among other results, one may highlight:A mixt classification strategy that:- incorporates parcial (complete knowledge is not necessary anymore) and/or no homogeneous knowledge that the expert has on the domain. This knowledge is formalized in CP1, allowing maximum expressivity and flexibility, and it is used to built an initial induced partition on the domain this is equivalent to pack knowledge pieces in functional units, introducing semantics into the system from witch a chained reciprocal neighbours classification (of quadratic cost) is performed. This is the main contribution of the thesis and, among others, it offers the opportunity of using, in the rules, variables defined as transformations of the observed ones. In this point, the mechanism is especially powerful, providing the possibility to study the data simultaneously in different coordinate systems.- manages data matrices composed of both quantitative and qualitative variables, maintaining the symbolic representation of the last ones and evoying the codification of the firsts. This suggests the definition of a class representative for qualitative variables. It constitutes a second contribution of this work, allowing an homogeneous treatement of_ quantitative and qualitative variables_ classes and individuals (as a consequence, enables the integration of the classes induced by the rules in an only final hierarchy).And an iterative working methodology that, starting with observational data and expert knowledge, integrates the previous process with some tools oriented to the interpretation of the classes in such a way that, at the end, a satisfactory classification can be obtained, according to the expert goals. This methodology solves the expert difficulties in formalizing its knowledge in a complete and precise way for ill-structured domains. Those difficulties are due to the existence of rules, acquired by experience, that the expert applies unconsciously and, initially, he was not able to formalize.Referring to the class interpretation oriented tools (nowadays, at low level of automation in Statistics) two basic contributions are made:· a quick way of measuring _¸(P1,P2) the difference between two classifications is provided. This measure is oriented to comparisons and, occasionally, to an evaluation of a classification quality. The coefficient is calculated using the product partition contingency table and· a class characterization system to detect identifier variables for some classes (based on a progressive conditioning process). This technique is also founded on the class representative defined before. It gives some explicative capacity to the classifier and it also constitutes a starting point for an automatic rules generation process. The rules generated by this process could be introduced in the knowledge base of a diagnostic oriented system for a domain of greater complexity than those that are manageable at present. This supposes a contribution on the Statistics and Artificial Intelligence approach.
|
6 |
Study and validation of data structures with missing values. Application to survival analysisSerrat i Piè, Carles 21 May 2001 (has links)
En aquest treball tractem tres metodologies diferents -no paramètrica, paramètrica i semiparamètrica- per tal de considerar els patrons de dades amb valors no observats en un context d'anàlisi de la supervivència. Les dues primeres metodologies han estat desenvolupades sota les hipòtesis de MCAR (Missing Completely at Random) o MAR (Missing at Random). Primer, hem utilitzat el mètode de remostreig de bootstrap i un esquema d'imputació basat en un model bilineal en la matriu de dades per tal d'inferir sobre la distribució dels paràmetres d'interès. Per una altra banda, hem analitzat els inconvenients a l'hora d'obtenir inferències correctes quan es tracta el problema de forma totalment paramètrica, a la vegada que hem proposat algunes estratègies per tenir en compte la informació complementària que poden proporcionar altres covariants completament observades.De tota manera, en general no es pot suposar la ignorabilitat del mecanisme de no resposta. Aleshores, ens proposem desenvolupar un mètode semiparamètric per a l'anàlisi de la supervivència quan tenim un patró de no resposta no ignorable. Primer, proposem l'estimador de Kaplan-Meier Agrupat (GKM) com una alternativa a l'estimador KM estàndard per tal d'estimar la supervivència en un nombre finit de temps fixats. De tota manera, quan les covariants són parcialment observades ni l'estimador GKM estratificat ni l'estimador KM estratificat poden ser calculats directament a partir de la mostra. Aleshores, proposem una classe d'equacions d'estimació per tal d'obtenir estimadors semiparamètrics de les probabilitats i substituïm aquestes estimacions en l'estimador GKM estratificat. Ens referim a aquest nou estimador com l'estimador Kaplan-Meier Agrupat-Estimat (EGKM). Demostrem que els estimadors GKM i EGKM són arrel quadrada consistents i que asimptòticament segueixen una distribució normal multivariant, a la vegada que obtenim estimadors consistents per a la matriu de variància-covariància límit. L'avantatge de l'estimador EGKM és que proporciona estimacions no esbiaixades de la supervivència i permet utilitzar un model de selecció flexible per a les probabilitats de no resposta. Il·lustrem el mètode amb una aplicació a una cohort de pacients amb Tuberculosi i infectats pel VIH. Al final de l'aplicació, duem a terme una anàlisi de sensibilitat que inclou tots els tipus de patrons de no resposta, des de MCAR fins a no ignorable, i que permet que l'analista pugui obtenir conclusions després d'analitzar tots els escenaris plausibles i d'avaluar l'impacte que tenen les suposicions en el mecanisme no ignorable de no resposta sobre les inferències resultants.Acabem l'enfoc semiparamètric explorant el comportament de l'estimador EGKM per a mostres finites. Per fer-ho, duem a terme un estudi de simulació. Les simulacions, sota escenaris que tenen en compte diferents nivells de censura, de patrons de no resposta i de grandàries mostrals, il·lustren les bones propietats que té l'estimador que proposem. Per exemple, les probabilitats de cobertura tendeixen a les nominals quan el patró de no resposta fet servir en l'anàlisi és proper al vertader patró de no resposta que ha generat les dades. En particular, l'estimador és eficient en el cas menys informatiu dels considerats: aproximadament un 80% de censura i un 50% de dades no observades. / In this work we have approached three different methodologies --nonparametric, parametric and semiparametric-- to deal with data patterns with missing values in a survival analysis context. The first two approaches have been developed under the assumption that the investigator has enough information and can assume that the non-response mechanism is MCAR or MAR. In this situation, we have adapted a bootstrap and bilinear multiple imputation scheme to draw the distribution of the parameters of interest. On the other hand, we have analyzed the drawbacks encountered to get correct inferences, as well as, we have proposed some strategies to take into account the information provided by other fully observed covariates.However, in many situations it is impossible to assume the ignorability of the non-response probabilities. Then, we focus our interest in developing a method for survival analysis when we have a non-ignorable non-response pattern, using a semiparametric perspective. First, for right censored samples with completely observed covariates, we propose the Grouped Kaplan-Meier estimator (GKM) as an alternative to the standard KM estimator when we are interested in the survival at a finite number of fixed times of interest. However, when the covariates are partially observed, neither the stratified GKM estimator, nor the stratified KM estimator can be directly computed from the sample. Henceforth, we propose a class of estimating equations to obtain semiparametric estimates for these probabilities and then we substitute these estimates in the stratified GKM estimator. We refer to this new estimation procedure as Estimated Grouped Kaplan-Meier estimator (EGKM). We prove that the GKM and EGKM estimators are squared root consistent and asymptotically normal distributed, and a consistent estimator for their limiting variances is derived. The advantage of the EGKM estimator is that provides asymptotically unbiased estimates for the survival under a flexible selection model for the non-response probability pattern. We illustrate the method with a cohort of HIV-infected with Tuberculosis patients. At the end of the application, a sensitivity analysis that includes all types of non-response pattern, from MCAR to non-ignorable, allows the investigator to draw conclusions after analyzing all the plausible scenarios and evaluating the impact on the resulting inferences of the non-ignorable assumptions in the non-response mechanism.We close the semiparametric approach by exploring the behaviour of the EGKM estimator for finite samples. In order to do that, a simulation study is carried out. Simulations performed under scenarios taking into account different levels of censoring, non-response probability patterns and sample sizes show the good properties of the proposed estimator. For instance, the empirical coverage probabilities tend to the nominal ones when the non-response pattern used in the analysis is close to the true non-response pattern that generated the data. In particular, it is specially efficient in the less informative scenarios (e,g, around a 80% of censoring and a 50% of missing data).
|
7 |
Fusión de Datos: Imputación y ValidaciónJuárez Alonso, Carlos Alberto 04 March 2005 (has links)
Las actitudes, el conocimiento y las acciones generalmente se basan en muestras. Algunos basan sus conclusiones en muestras pequeñas y pocas veces toman en cuenta la magnitud de lo que se desconoce. Generalmente se carece de recursos para estudiar más de una parte del problema de interés que pudiera aumentar nuestro conocimiento. Algunas razones para el uso de las técnicas de muestreo son: costo reducido, mayor velocidad, mayor enfoque o perspectiva y mayor exactitud.La fusión de datos surge como una alternativa a la fuente única de datos frente a la necesidad de conseguir el máximo de información posible al menor costo. Tiene como objetivo combinar datos de diferentes fuentes para poder disponer de toda la información en un solo archivo, aunque artificial, con todas las variables de interés. Utiliza lo mejor de la información existente en un archivo para reconstruir la información ausente en otro archivo. Es una estimación estadística de los datos faltantes. Es un medio de limitar la recolección de datos, reconstruyendo la información faltante. No es un problema de análisis estadístico con datos faltantes en el cual se consideran los mecanismos que conducen a la ausencia de datos. En el caso de la fusión de datos, se presentan bloques completos de datos ausentes, en general, muestras independientes.La revisión bibliográfica ha permitido analizar el problema del análisis de datos faltantes como una aproximación al tema de la fusión de datos, considerando que la fusión de datos es un caso particular. En este caso, se está hablando de bloques de datos faltantes y en muchas ocasiones, datos faltantes por diseño.El objetivo de la fusión de datos es por lo tanto, el obtener un solo archivo que pueda ser analizado posteriormente con herramientas de minería de datos. La idea es estimar los valores de las variables no informadas (valores faltantes) a partir de un bloque de variables informadas correlacionadas con el bloque de variables a reconstituir (variables comunes). Es importante hacer notar que no se esta generando nueva información.Parte de este trabajo se dedica a la definición y aproximación del concepto fusión de datos. Se presentan algunos enfoques para el tratamiento de los datos ausentes. Se han revisado, de manera no exhaustiva, algunas técnicas relacionadas con el tema y se muestran aplicaciones de la fusión de datos relacionadas con otras herramientas.Son muchas las técnicas que existen para tratar la reconstrucción de los datos faltantes. En este trabajo, el enfoque se ha hecho sobre la técnica de imputación Hot deck. Con esta técnica se sustituyen valores individuales extraídos de unidades observadas similares. Se basa en el reemplazo de la información faltante en el conjunto de individuos no informados (con datos faltantes) que se llaman receptores, utilizando la información de los individuos informados más parecidos, llamados donantes. Es una práctica común que involucra esquemas elaborados para la selección de las unidades similares para la imputación. Se estudian algunos procedimientos no paramétricos de discriminación para efectuar la búsqueda de los individuos más cercanos (parecidos). Existen distintos algoritmos diseñados para esto. Se ha hecho una revisión de algunos de estos métodos de búsqueda. Este trabajo se basa en el algoritmo de Fukunaga/Narendra. Se muestran los componentes del sistema. Se presentan los fundamentos y las bases que se han seguido para el desarrollo y la implantación del mismo. Se han establecido algunas propuestas no paramétricas para la medición de la calidad de la fusión.La experimentación y prueba de las distintas propuesta se ha hecho dividida en dos partes. En una se ha hecho una selección aleatoria de los individuos para formar un conjunto de donantes y un conjunto de receptores. En la segunda parte, la selección se ha hecho a partir de una característica específica en una variable. Para esto se emplea un archivo sintético creado a partir de un conjunto de datos privados de financiación para el otorgamiento de créditos al consumo. Este archivo general consta de 6692 individuos. El aspecto práctico de este trabajo, ha sido el desarrollo de un sistema de fusión de datos.Aunque mucho está escrito sobre la imputación Hot deck, siempre habrá espacio para proponer nuevos métodos. Evaluar la calidad de la fusión seguirá siendo tema de interés. Queda claro que la fusión de datos satisface la necesidad de muchos de proporcionar una sola fuente de datos completa a los usuarios finales. Sin embargo, se debe tener cuidado al hacer uso de esta información (son estimaciones, no valores reales observados). / Very often, attitudes, knowledge and actions, are base on samples. Some base their conclusions on small samples and are less likely to be aware of the extent of what is unknown. There is frequently a lack of resources to study more than a part of the problem of interest which could increase our knowledge of it. Some reasons for the use of sample techniques are: reduced cost, greater speed, greater scope o perspective and greater accuracy. Data fusion emerges as an alternative to single source data, faced to the need of acquiring the more information as possible at the lower cost. Its objective is to combine data from different sources in order to have the whole information on a single file, though artificial, but with all the variables of interest. It makes use of the best of the current information contained on one file to rebuild the missing information on another file. It's a statistical estimation of the missing data. It is a mean to restrict the gathering of data, rebuilding the missing information. It is not a problem of statistical analysis with missing data, on which, the process that leads to the absence of data are considered. In the case of data fusion, complete blocks of missing data appear, generally, independent samples.The bibliography has allowed analyzing the subject of missing data as an approach to the subject of data fusion, considering that data fusion is a particular case of it. In this case, missing data and sometimes missing by design is what it is all about.Therefore, the objective of data fusion is to get a single file which can be analyzed further with data mining tools. The idea is to estimate the values of the variables with missing data upon a block of variables with the whole information correlated with the variables to be rebuilt. It is important to mention that new information is not being generated. A part of this work is dedicated to the definition and rapprochement to the concept of data fusion. Some ways of treating the problem of missing data are presented. Some techniques related to the subject have been reviewed in a non exhaustive way and some data fusion applications related with other tools is shown.There are many techniques for treating the rebuilding of missing data. This work is focused on the hot deck technique.With this technique, individual units, took from similar observed units are replaced. It is based on the replacement of the missing information in the set of units with missing information called receivers, using the information of units more likely to them called donors. It is a common practice that involves complex outlines for the selection of the similar unit to be used for the imputation.Some non parametric discrimination procedures have been studied to perform the search of the nearest units (the most resembling). There are different algorithms for this purpose. A review of some of these search methods has been made. This work is based on the Fukunaga/Narendra algorithm. The components of the system are shown as well as the foundations and bases followed for the development and implementation. Some non parametric proposals have been made for measuring the quality of the fusion.The experimentation and tests of the system has been made in two parts. In one part, a random selection of the units that makes the set of donors and the set of receivers has been made. In the second part, the selection has been made upon a specific characteristic on a variable. For this purpose, a synthetic file created upon a set of private financing data for the grant of consumer goods credits is used. This general file contains 6692 units.The practical aspect of this work has been the development of a data fusion system. Although many have been written about hot deck imputation, there is always room for new proposals. Evaluating the quality of the fusion is still a subject of interest. It is clear that data fusion fulfill the need of many to provide the final user with a complete single source of data. However, care must be taken with the use of this information (they are estimations, not actual observed values).
|
8 |
Contribucions a la microagregació per a la protecció de dades estadístiquesTorres Aragó, Àngel 08 September 2003 (has links)
DE TESIDesprés de recollir la informació referent a les tècniques pertorbatives més rellevants de control de la revelació de microdades contínues actualment existents, l'objectiu general de la tesi és l'anàlisi i la millora d'aquestes tècniques de control de la revelació mitjançant mètodes d'estadística matemàtica; millora referida a almenys un dels tres aspectes següents: 1) Nivell de protecció. Donar un bon grau de protecció a la informació confidencial de les dades que han de ser publicades.2) Pèrdua d'informació. Minimitzar la pèrdua d'informació durant el procés de modificació de les dades. 3) Complexitat computacional. Reduir el temps de càlcul i/o computació inherent a l'aplicació de tècniques de control de la revelació.L'anàlisi i millora referides als objectius generals d'aquesta tesi han estat aplicades concretament a una tècnica de control de la revelació per a microdades contínues anomenada microagregació que bàsicament ajunta registres individuals del conjunt de microdades per tal de disminuir el risc de revelació.Podem diferenciar les diverses aportacions de la tesi de la següent manera:1. Aportacions als mètodes de microagregació univariant, aplicats fonamentalment al tractament de microdades contínues univariants.2. Aportacions als mètodes de microagregació multivariant, aplicats bàsicament al tractament de microdades contínues multivariants (més d'una variable observada).3. Mesures comparatives de mètodes pertorbatius.1. Microagregació univariant1.1. S'ha desenvolupat un estudi analític mitjançant estadístics d'ordre sobre la seguretat del mètode de microagregació amb ordenació individual.1.2. S'ha comparat la qualitat del mètode de microagregació mitjançant ordenació individual amb altres mètodes de control de la revelació per a microdades contínues; qualitat que ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.2. Microagregació multivariant2.1. S'ha creat un nou mètode de microagregació multivariant de la "Distància Màxima Modificat" (DMM), modificació d'un altre mètode existent anomenat de la "Distància Màxima" (DM) i s'han comparat les seves complexitats computacionals.2.2. Hem comparat la qualitat del nou mètode de microagregació de la Distància Màxima Modificat" (DMM) amb altres mètodes de control de la revelació per a microdades contínues; qualitat que també ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.2.3. Hem desenvolupat un estudi analític per calcular el número de possibles particions d'un conjunt de p variables observades en h-1 conjunts de mida s i un únic conjunt de mida s+r, on p=hs+r.2.4. S'ha realitzat un estudi sobre el número de variables que han de tenir els conjunts d'una partició sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una bona qualitat.2.5. Hem fet un estudi sobre la combinació de variables dintre els conjunts que formen una partició que, juntament amb l'anterior estudi sobre el número de variables, proporcionen a l'usuari de la microagregació multivariant una guia per saber quantes i quines variables haurien de formar la partició del conjunt de variables sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una millor qualitat.3. Mesures comparatives3.1. Distinció entre les diverses naturaleses que formen part de les mesures emprades per comparar mètodes pertorbatius.3.2. Ponderació de les diverses mesures tenint en compte les diverses naturaleses trobades en el punt anterior.3.3.Creació d'una nova mesura de pèrdua de confidencialitat basada en intervals de confiança construïts a partir de desviacions típiques. / THESIS SUMMARYThis Ph. D. thesis deals with topics related to the protection of the confidentiality of statistical data being disseminated by statistical offices.Beyond presenting a state of the art on the most relevant perturbative techniques for statistical disclosure control of microdata, the general objective of this thesis is to analyze and improve such techniques through the use of mathematical statistics. Improvements achieved in at least one of the three following directions:1) Increase the protection level, i.e. increase the level of protection of sensitive information in the data being published.2) Decrease information loss, i.e. the loss of data utility caused by the application of statistical disclosure control techniques.3) Decrease computational complexity, i.e. the computation inherent to the application of statistical disclosure control techniques.The analysis and improvement mentioned in the general objectives of this thesis have beenapplied to a specific statistical disclosure control technique for continuous microdata. This technique, known as microaggregation, basically consists of clustering individual records in the data set in order to reduce disclosure risk.The contributions of this thesis can be classified as follows:1. Contributions to univariate microaggregation methods, which are mainly used to treat univariate continuous data.2. Contributions to multivariate microaggregation methods, which are mainly used to treat multivariate continuous data (observations of several variables).3. Comparative measures for perturbative methods.1. Univariate microaggregation1.1. An analytical study has been carried out using order statistics whose purpose is to assess the security of individual ranking microaggregation.1.2. The quality of individual ranking microaggregation has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.2.Multivariate microaggregation.2.1. A new multivariate microaggregation method has been presented which is called "modified maximum distance" (MMD). MMD is a modification of a previous method called "maximum distance" (MD). Computational complexities of MMD and MD have been compared.2.2. The quality of MMD has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.2.3. An analytical study has been carried out in order to compute the number of possible partitions of a set of p observed variables into h-1 sets of size s and one set of size s+r, where p=hs+r.2.4. A study has been carried out on the number of variables required by the sets of a partition on which the MMD method is run in order to obtain a modified data set with good quality.2.5. A study on the combination of variables within the sets that form a partition has been performed which, together with the previous study on the number of variables, provides the user of multivariate microaggregation with a guideline for deciding how many and which variables should form the partition of the set of variables on which MMD is to be run in order to obtain a modified data set with better quality.3. Comparative measures3.1. A distinction has been established between the different natures of the measures used to compare perturbative methods.3.2. A weighting of the various measures has been proposed which takes into account the various natures determined in the previous item.3.3. A new disclosure risk measure has been introduced which consists of a confidence interval based on standard deviations (rather than on ranks, as proposed in previous work). This new measure is especially suited for skewed data.
|
9 |
Análisis y propuestas sobre algunos aspectos de la aplicación del diseño de experimentos en la industriaLeón Adams, Guillermo de 05 July 2004 (has links)
La memoria contiene algunas aportaciones en aspectos prácticos de la aplicación del diseño de experimentos en la industria. El material se ha integrado en cuatro partes que se corresponden con cada uno de los temas que se abordan. En la primera se desarrolla el problema de la aleatorización de los órdenes de experimentación en los diseños factoriales completos o fraccionales, con 8 o 16 experimentos, se plantea la necesidad de contar con órdenes que satisfagan las expectativas que la aleatorización produce, cuando se considera la existencia de tendencias en la respuesta. Se analiza la implicación y la importancia que tiene el orden de experimentación en el número de cambios de nivel, se plantea unas hipótesis y consideraciones, bajo las cuales se han construido las tablas que se presentan y que creemos resultan de utilidad para seleccionar órdenes de fácil ejecución (mínimo número de cambios en los niveles de los factores) sin renunciar a los objetivos que se pretenden con la aleatorización. Se dan formulas para evaluar el número de cambios de nivel en los diseños factoriales fraccionales a dos niveles.La segunda parte trata la representación de los efectos en papel probabilístico normal para analizar su significación estadística. Nuestra conjetura es que el uso de un simple diagrama de puntos de los efectos proporciona prácticamente la misma información que su representación en papel probabilístico normal, con la ventaja de que es mucho más fácil de entender y de recordar y, por tanto, más difícil cometer errores importantes. Se presentan todas las fases de un estudio comparativo que con este fin se realizó con estudiantes de la Escuela Técnica Superior de Ingeniería Industrial de Barcelona. La parte tercera de la memoria está dividida en dos capítulos (capítulo 3 y 4). En el primero se comentan algunas de las alternativas que se han creado para dar solución al problema del diseño de productos y procesos robustos, proporcionado una visión global de diversos enfoques, que no suelen presentarse reunidos, encaminados a la solución de este problema. El capítulo 4 se dedica al estudio del gráfico Media Desviación (MD) propuesto por Grima (1993). Se desarrolla los temas relacionados a la modelación de la esperanza y la varianza de la respuesta, con un enfoque de superficie de respuesta. Se ilustra las etapas para construir el gráfico, y se muestra lo fácil que es implantar esta metodología en un paquete de software estadístico tipo Minitab. Se contrasta el uso del gráfico MD con algunos de los procedimientos existentes para destacar su eficiencia y sencillez. Se considera el problema de incluir los costes en la búsqueda de las mejores condiciones en el diseño de productos robustos. Se muestra también la simplicidad con que se puede tratar el problema de analizar más de una respuesta. En la última parte se trata el error tipo II en la selección de los efectos que se deben asumir significativos. Se plantean algunas aclaraciones terminológicas y se propone el uso de un gráfico, que hemos denominado "alfa-beta", que ayuda a elegir el valor crítico que conviene fijar para separar los efectos significativos de los que no lo son, a la vista de los riesgos que se corren en cada caso. Se ha construido un valor para los efectos estimados, denotado "valor q", que tiene por objeto evidenciar la posibilidad del error tipo II y ayudar en el proceso de selección de los efectos que se considerarán significativos. Este valor corresponde, bajo el supuesto de normalidad, al valor ß que se tiene cuando en la hipótesis alternativa el efecto posee un valor igual al de su estimación.
|
10 |
Regression and residual analysis in linear models with interval censored dataTopp, Rebekka 19 July 2002 (has links)
This work consists of two parts, both related with regression analysis for interval censored data. Interval censored data x have the property that their value cannot be observed exactly but only the respective interval [xL,xR] which contains the true value x with probability one.In the first part of this work I develop an estimation theory for the regression parameters of the linear model where both dependent and independent variables are interval censored. In doing so I use a semi-parametric maximum likelihood approach which determines the parameter estimates via maximization of the likelihood function of the data. Since the density function of the covariate is unknown due to interval censoring, the maximization problem is solved through an algorithm which frstly determines the unknown density function of the covariate and then maximizes the complete data likelihood function. The unknown covariate density is hereby determined nonparametrically through a modification of the approach of Turnbull (1976). The resulting parameter estimates are given under the assumption that the distribution of the model errors belong to the exponential familiy or are Weibull. In addition I extend my extimation theory to the case that the regression model includes both an interval censored and an uncensored covariate. Since the derivation of the theoretical statistical properties of the developed parameter estimates is rather complex, simulations were carried out to determine the quality of the estimates. As a result it can be seen that the estimated values for the regression parameters are always very close the real ones. Finally, some alternative estimation methods for this regression problem are discussed.In the second part of this work I develop a residual theory for the linear regression model where the covariate is interval censored, but the depending variable can be observed exactly. In this case the model errors appear to be interval censored, and so the residuals. This leads to the problem of not directly observable residuals which is solved in the following way: Since one assumption of the linear regression model is the N(0,2)-distribution of the model errors, it follows that the distribtuion of the interval censored errors is a truncated normal distribution, the truncation being determined by the observed model error intervals. Consequently, the distribution of the interval censored residuals is a -distribution, truncated in the respective residual interval, where the estimation of the residual variance is accomplished through the method of Gómez et al. (2002). In a simulation study I compare the behaviour of the so constructed residuals with those of Gómez et al. (2002) and a naïve type of resiudals which considers the middle of the residual interval as the observed residual. The results show that my residuals can be used for most of the simulated scenarios, wheras this is not the case for the other two types of residuals. Finally, my new residual theory is applied to a data set from a clinical study.
|
Page generated in 0.2273 seconds