• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 84
  • 51
  • 19
  • 15
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 184
  • 90
  • 40
  • 34
  • 30
  • 28
  • 22
  • 20
  • 18
  • 17
  • 17
  • 17
  • 16
  • 16
  • 12
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Los modelos multinivel en el análisis de factores de riesgo de sibilancias recurrentes en lactantes. Enfoques frecuentista y bayesianao

Pérez Fernández, Virginia 05 December 2012 (has links)
En esta tesis se han mostrado los conceptos fundamentales de la metodología multinivel, y se han desarrollado los enfoques frecuentista y bayesiano para el análisis de los modelos multinivel logísticos de 2 niveles. Se ha realizado un estudio comparativo entre un método de análisis que no tiene en cuenta la estructura jerárquica de los datos y los métodos multinivel para el análisis de los factores de riesgo de las sibilancias recurrentes en lactantes. Se han comparado los enfoques frecuentista y bayesiano tanto para el análisis de los modelos multinivel de 2 niveles completamente aleatorios, con intercepto y pendiente aleatoria, como para los modelos de 2 niveles con intercepto aleatorio y variables explicativas del primer nivel y del segundo nivel. El resultado obtenido es que los modelos multinivel mejoran la precisión de las estimaciones de los parámetros respecto a los modelos que no tienen en cuenta la estructura jerárquica de los datos / This thesis shows the fundamental concepts of the multilevel methodology, and the frequentist and bayesian approaches for multilevel models for binary responses. A comparative study between a method of analysis which does not consider the hierarchical structure of the data and two multilevel methods when applied to study of wheezing and its risk factors in the first year of life. A bayesian and frequentist methods were compared for fitting a two-level random slope model, with random intercept and random slope, and for a random intercept model with a two level explanatory variables. The results show that the multilevel models improve estimations accuracy of parameters regarding models which do not consider the hierarchical structure of the data.
82

Improvement of ms based e-nose performances by incorporation of chromatographic retention time as a new data dimension

Burian, Cosmin 19 July 2010 (has links)
Mejora del rendimiento de la nariz electrónica basada en espectrometría de masas mediante la incorporación del tiempo de retención cromatografico como una nueva dimensión de datosLa importancia del sentido de olor en la naturaleza y en la sociedad humana queda latente con el gran interés que se muestra en el análisis del olor y el gusto en la industria alimentaria. Aunque las aéreas mas interesadas son las de la alimentación y bebida, también se ha mostrado la necesitad para esta tecnología en otros campos como en el de la cosmética. Lamentablemente, el uso de los paneles sensoriales humanos o paneles caninos son costosos, propensos al cansancio, subjetivos, poco fiables e inadecuados para cuantificar, mientras que el análisis de laboratorio, a pesar de la precisión, imparcialidad y capacidad cuantitativa, necesita una labor intensa, con personal especializado y requiere de mucho tiempo. Debido a estos inconvenientes el concepto de olfato artificial generó un gran interés en entornos industriales.El término "nariz electrónica" se asocia con una serie de sensores de gases químicos, con una amplia superposición de selectividad para las mediciones de compuestos volátiles en combinación con los instrumentos informáticos de análisis de datos. La nariz electrónica se utiliza para proporcionar una información comparativa en vez de una cualitativa en un análisis, y porque la interpretación puede ser automatizada, el dispositivo es adecuado para el control de calidad y análisis. A pesar de algunos logros prometedores, los sensores de estado sólido de gas no han cumplido con sus expectativas. La baja sensibilidad y selectividad, la corta vida del sensor, la calibración difícil y los problemas de deriva han demostrado serias limitaciones. En un esfuerzo para mejorar los inconvenientes de los sensores de estado sólido, se han adoptado nuevos enfoques, utilizando diferentes sensores para la nariz electrónica. Sistemas de sensores ópticos, la espectrometría de movilidad iónica y la espectrometría infrarroja son ejemplos de técnicas que han sido probadas.Las narices electrónicas basadas en la espectrometría de masas (MS) aparecieron por primera vez en 1998 [B. Dittmann, S. y G. Nitz Horner. Adv. Food Sci. 20 (1998), p. 115], y representan un salto importante en la sensibilidad, retando a la nariz electrónica basada en sensores químicos. Este nuevo enfoque del concepto de una nariz electrónica usa sensores virtuales en forma de proporciones m/z. Una huella digital compleja y muy reproducible se obtiene en forma de un espectro de masas, que se procesa mediante algoritmos de reconocimiento de patrones para la clasificación y cuantificación. A pesar de que la nariz electrónica basada en la espectrometría de masas supera a la nariz electrónica clásica de sensores de estado sólido en muchos aspectos, su uso se limita actualmente a la instrumentación de laboratorio de escritorio. La falta de portabilidad no representará necesariamente un problema en el futuro, dado que espectrómetros de masas en miniatura se han fabricado ya en una fase de prototipado.Un inconveniente más crítico de la nariz electrónica basada en MS consiste en la manera en la que se analizan las muestras. La fragmentación simultánea de mezclas complejas de isómeros pueden producir resultados muy similares a raíz de este enfoque. Una nariz electrónica mejor sería la que combina la sensibilidad y el poder de identificación del detector de masas con la capacidad de separación de la cromatografía de gases. El principal inconveniente de este enfoque es de nuevo el coste y la falta de portabilidad de los equipos. Además de los problemas anteriores con la espectrometría de masas, el análisis de cromatografía de gases requiere mucho tiempo de medida.Para abordar estas cuestiones, se han reportado miniaturizaciones en cromatografía capilar de gases (GC) que hacen posible el GC-en-un-chip, CG-rápido y CG-flash que hacen uso de columnas cortas, reduciendo el tiempo de análisis a los tiempos de elución como segundos y, en algunos casos, se han comercializado. La miniaturización de la espectrometría de masas y cromatografía de gases tiene un gran potencial para mejorar el rendimiento, la utilidad y la accesibilidad de la nueva generación de narices electrónicas.Esta tesis se dedica al estudio y a la evaluación del enfoque del GC-MS para la nariz electrónica como un paso anterior al desarrollo de las tecnologías mencionadas anteriormente. El objetivo principal de la tesis es de estudiar si el tiempo de retención de una separación de cromatografía puede mejorar el rendimiento de la nariz electrónica basada en MS, mostrando que la adición de una tercera dimensión trae más información, ayudando a la clasificación de las pruebas. Esto se puede hacer de dos maneras: · comparando el análisis de datos de dos vías de espectrometría de masas con análisis de datos de dos vías de matrices desplegadas y concatenadas para los datos de tres vías y · comparando el análisis de datos de dos vías del espectrometría de masas con el análisis de datos de tres vías para el conjunto de datos tridimensionales.Desde el punto de vista de cromatografía, la meta será la de optimizar el método cromatográfico con el fin de reducir el tiempo de análisis a un mínimo sin dejar de tener resultados aceptables.Un paso importante en el análisis de datos multivariados de vías múltiples es el preprocesamiento de datos. Debido a este objetivo, el último objetivo será el de determinar qué técnicas de preprocesamiento son las mejores para y el análisis de dos y tres vías de datos.Con el fin de alcanzar los objetivos propuestos se crearon dos grupos de datos. El primero consiste en las mezclas de nueve isómeros de dimetilfenol y etilfenol. La razón de esta elección fue la similitud de los espectros de masas entre sí. De esta manera la nariz electrónica basada en espectrometría de masas sería retada por el conjunto de datos. También teniendo en cuenta el tiempo de retención de los nueve isómeros solos, las soluciones se hicieron, como si el conjunto de datos demostraría el reto si se usaría sólo el tiempo de retención. Por tanto, este conjunto de datos "artificiales" sostiene nuestras esperanzas en mostrar las mejoras de la utilización de ambas dimensiones, la MS (espectros de masas) y la GC (tiempo de retención).Veinte clases, representando las soluciones de los nueve isómeros se midieron en diez repeticiones cada una, por tres métodos cromatográficos, dando un total de 600 mediciones. Los métodos cromatográficos fueron diseñados para dar un cromatograma resuelto por completo, un pico coeluido y una situación intermediaria con un cromatograma resuelto parcialmente. Los datos fueron registrados en una matriz de tres dimensiones con las siguientes direcciones: (muestras medidas) x (proporción m/z) x (tiempo de retención). Por "colapsar" los ejes X e Y del tiempo de retención cromatográfica y los fragmentos m/z, respectivamente, se obtuvieron dos matrices que representan los espectros de masa regular y el cromatograma de iones totales, respectivamente. Estos enfoques sueltan la información traída por la tercera dimensión y el despliegue por lo que la matriz original 3D y la concatenación de las TIC y el espectro de masa media se han tenido en consideración como una forma de preservar la información adicional de la tercera dimensión en una matriz de dos dimensiones.Los datos fueron tratados mediante la alineación de picos, con una media de centrado y la normalización por la altura máxima y el área del pico, los instrumentos de pre-procesamiento que también fueron evaluados por sus logros.Para el análisis de datos de dos vías fueron utilizados el PCA, PLS-DA y fuzzyARTMAP. La agrupación de PCA y PARAFAC fueron evaluados por la relación intervariedad - intravariedad, mientras que los resultados mediante fuzzy ARTMAP fueron dados como el éxito de la las tasas de clasificación en porcentajes.Cuando PCA y PARAFAC se utilizaron, como era de esperar, el método de cromatografía resuelto (método 1) dio los mejores resultados globales, donde los algoritmos 2D funcionan mejor, mientras que en un caso más complicado (picos más coeluidos del método 3) pierden eficacia frente a métodos 3D.En el caso de PLS-DA y n-PLS, aunque los resultados no son tan concluyentes como los resultados del PCA y PARAFAC, tratándose de las diferencias mínimas, el modelo de vías múltiples PLS-DA ofrece un porcentaje de éxito en la predicción de ambos conjuntos de datos. También se recomienda el n-PLS en vez de utilizar datos desplegados y concatenados, ya que construye un modelo más parsimonioso.Para el análisis fuzzyARTMAP, la estrategia de votación empleada ha demostrado que al usar los espectros de masa media y la información del cromatograma de iones totales juntos se obtienen resultados más consistentes.En el segundo conjunto de datos se aborda el problema de la adulteración del aceite de oliva extra virgen con aceite de avellana, que debido a las similitudes entre los dos aceites es una de las más difíciles de detectar. Cuatro aceites extra virgen de oliva y dos aceites de avellana se midieron puros y en mezclas de 30%, 10%, 5% y 2% con los mismos objetivos mostrando que la adición de la extra dimensión mejora los resultados. Se han hechos cinco repeticiones para cada preparación, dando un total de 190 muestras: 4 aceites puros de oliva, 2 aceites puros de avellana y 32 adulteraciones de aceite de avellana en aceite de oliva, dando un total de 38 clases. Dos métodos cromatográficos fueron utilizados. El primero estaba dirigido a una completa separación de los componentes del aceite de oliva y empleó una separación con temperatura programable, mientras que el objetivo del segundo método fue un pico coeluido, por lo tanto fue contratada una temperatura constante de separación. Los datos fueron analizados por medio de la PCA, PARAFAC, PLS-DA y PLS-n.Como en el conjunto "artificial" de datos, el PCA y PARAFAC se analizaron por medio de la capacidad de clusterización, que mostró que los mejores resultados se obtienen con los datos desplegados seguido por los datos 3D tratados con el PARAFAC.Desde el punto de vista de optimización de la columna, los logros obtenidos por la columna corta está por debajo del enfoque de la columna larga, pero este caso demuestra una vez más que la adición de los incrementos de tercera dimensión mejoran la nariz electrónica basada en MS.Para el PLS-DA y n-PLS se evaluaron las tasas de éxito comparativamente, tanto para las corridas cromatográficas largas como para las cortas. Mientras que para la columna larga el mejor rendimiento es para los datos del cromatograma de iones totales (TIC), la columna corta muestra mejor rendimiento para los datos concatenados de los espectros de masa media y TIC. Además, la predicción de las tasas de éxito son las mismas para los datos TIC de columna larga como para los datos concatenados de la columna corta. Este caso es muy interesante porque demuestra que el enfoque PLS de la tercera dimensión mejora los resultados y, por otra parte, mediante el uso de la columna corta el tiempo de análisis se acorta considerablemente.Se esperan ciertos logros de la nariz electrónica. Por el momento, ninguno de esos enfoques se acercó lo suficiente para producir una respuesta positiva en los mercados. Los sensores de estado sólido tienen inconvenientes casi imposibles de superar. La nariz electrónica basada en espectrometría de masas tiene una falta de portabilidad y a veces sus logros son insuficientes, y el aparato del cromatógrafo de gases-espectrómetro de masas sufre problemas de portabilidad igual que espectrómetro de masas y toma mucho tiempo. El desarrollo de potentes algoritmos matemáticos durante los últimos años, junto con los avances en la miniaturización, tanto para MS y GC y mostrar cromatografía rápida cierta esperanza de una nariz electrónica mucho mejor.A través de este trabajo podemos afirmar que la adición del tiempo de retención cromatográfica como una dimensión extra aporta una ventaja sobre las actuales tecnologías de la nariz electrónica. Mientras que para los cromatogramas totalmente resueltos no se logran mejoras o la ganancia es mínima, sobre todo en la predicción, para una columna corta la información adicional mejora los resultados, en algunos casos, hacerlos tan bien como cuando una larga columna se utiliza. Esto es muy importante ya que las mediciones en un cromatógrafo de gases - espectrometro de masas se pueden optimizar para tramos muy cortos, una característica muy importante para una nariz electrónica. Esto permitiría el diseño de un instrumento de mayor rendimiento, adecuado para el control de calidad en líneas de productos.
83

Study and validation of data structures with missing values. Application to survival analysis

Serrat i Piè, Carles 21 May 2001 (has links)
En aquest treball tractem tres metodologies diferents -no paramètrica, paramètrica i semiparamètrica- per tal de considerar els patrons de dades amb valors no observats en un context d'anàlisi de la supervivència. Les dues primeres metodologies han estat desenvolupades sota les hipòtesis de MCAR (Missing Completely at Random) o MAR (Missing at Random). Primer, hem utilitzat el mètode de remostreig de bootstrap i un esquema d'imputació basat en un model bilineal en la matriu de dades per tal d'inferir sobre la distribució dels paràmetres d'interès. Per una altra banda, hem analitzat els inconvenients a l'hora d'obtenir inferències correctes quan es tracta el problema de forma totalment paramètrica, a la vegada que hem proposat algunes estratègies per tenir en compte la informació complementària que poden proporcionar altres covariants completament observades.De tota manera, en general no es pot suposar la ignorabilitat del mecanisme de no resposta. Aleshores, ens proposem desenvolupar un mètode semiparamètric per a l'anàlisi de la supervivència quan tenim un patró de no resposta no ignorable. Primer, proposem l'estimador de Kaplan-Meier Agrupat (GKM) com una alternativa a l'estimador KM estàndard per tal d'estimar la supervivència en un nombre finit de temps fixats. De tota manera, quan les covariants són parcialment observades ni l'estimador GKM estratificat ni l'estimador KM estratificat poden ser calculats directament a partir de la mostra. Aleshores, proposem una classe d'equacions d'estimació per tal d'obtenir estimadors semiparamètrics de les probabilitats i substituïm aquestes estimacions en l'estimador GKM estratificat. Ens referim a aquest nou estimador com l'estimador Kaplan-Meier Agrupat-Estimat (EGKM). Demostrem que els estimadors GKM i EGKM són arrel quadrada consistents i que asimptòticament segueixen una distribució normal multivariant, a la vegada que obtenim estimadors consistents per a la matriu de variància-covariància límit. L'avantatge de l'estimador EGKM és que proporciona estimacions no esbiaixades de la supervivència i permet utilitzar un model de selecció flexible per a les probabilitats de no resposta. Il·lustrem el mètode amb una aplicació a una cohort de pacients amb Tuberculosi i infectats pel VIH. Al final de l'aplicació, duem a terme una anàlisi de sensibilitat que inclou tots els tipus de patrons de no resposta, des de MCAR fins a no ignorable, i que permet que l'analista pugui obtenir conclusions després d'analitzar tots els escenaris plausibles i d'avaluar l'impacte que tenen les suposicions en el mecanisme no ignorable de no resposta sobre les inferències resultants.Acabem l'enfoc semiparamètric explorant el comportament de l'estimador EGKM per a mostres finites. Per fer-ho, duem a terme un estudi de simulació. Les simulacions, sota escenaris que tenen en compte diferents nivells de censura, de patrons de no resposta i de grandàries mostrals, il·lustren les bones propietats que té l'estimador que proposem. Per exemple, les probabilitats de cobertura tendeixen a les nominals quan el patró de no resposta fet servir en l'anàlisi és proper al vertader patró de no resposta que ha generat les dades. En particular, l'estimador és eficient en el cas menys informatiu dels considerats: aproximadament un 80% de censura i un 50% de dades no observades. / In this work we have approached three different methodologies --nonparametric, parametric and semiparametric-- to deal with data patterns with missing values in a survival analysis context. The first two approaches have been developed under the assumption that the investigator has enough information and can assume that the non-response mechanism is MCAR or MAR. In this situation, we have adapted a bootstrap and bilinear multiple imputation scheme to draw the distribution of the parameters of interest. On the other hand, we have analyzed the drawbacks encountered to get correct inferences, as well as, we have proposed some strategies to take into account the information provided by other fully observed covariates.However, in many situations it is impossible to assume the ignorability of the non-response probabilities. Then, we focus our interest in developing a method for survival analysis when we have a non-ignorable non-response pattern, using a semiparametric perspective. First, for right censored samples with completely observed covariates, we propose the Grouped Kaplan-Meier estimator (GKM) as an alternative to the standard KM estimator when we are interested in the survival at a finite number of fixed times of interest. However, when the covariates are partially observed, neither the stratified GKM estimator, nor the stratified KM estimator can be directly computed from the sample. Henceforth, we propose a class of estimating equations to obtain semiparametric estimates for these probabilities and then we substitute these estimates in the stratified GKM estimator. We refer to this new estimation procedure as Estimated Grouped Kaplan-Meier estimator (EGKM). We prove that the GKM and EGKM estimators are squared root consistent and asymptotically normal distributed, and a consistent estimator for their limiting variances is derived. The advantage of the EGKM estimator is that provides asymptotically unbiased estimates for the survival under a flexible selection model for the non-response probability pattern. We illustrate the method with a cohort of HIV-infected with Tuberculosis patients. At the end of the application, a sensitivity analysis that includes all types of non-response pattern, from MCAR to non-ignorable, allows the investigator to draw conclusions after analyzing all the plausible scenarios and evaluating the impact on the resulting inferences of the non-ignorable assumptions in the non-response mechanism.We close the semiparametric approach by exploring the behaviour of the EGKM estimator for finite samples. In order to do that, a simulation study is carried out. Simulations performed under scenarios taking into account different levels of censoring, non-response probability patterns and sample sizes show the good properties of the proposed estimator. For instance, the empirical coverage probabilities tend to the nominal ones when the non-response pattern used in the analysis is close to the true non-response pattern that generated the data. In particular, it is specially efficient in the less informative scenarios (e,g, around a 80% of censoring and a 50% of missing data).
84

Fusión de Datos: Imputación y Validación

Juárez Alonso, Carlos Alberto 04 March 2005 (has links)
Las actitudes, el conocimiento y las acciones generalmente se basan en muestras. Algunos basan sus conclusiones en muestras pequeñas y pocas veces toman en cuenta la magnitud de lo que se desconoce. Generalmente se carece de recursos para estudiar más de una parte del problema de interés que pudiera aumentar nuestro conocimiento. Algunas razones para el uso de las técnicas de muestreo son: costo reducido, mayor velocidad, mayor enfoque o perspectiva y mayor exactitud.La fusión de datos surge como una alternativa a la fuente única de datos frente a la necesidad de conseguir el máximo de información posible al menor costo. Tiene como objetivo combinar datos de diferentes fuentes para poder disponer de toda la información en un solo archivo, aunque artificial, con todas las variables de interés. Utiliza lo mejor de la información existente en un archivo para reconstruir la información ausente en otro archivo. Es una estimación estadística de los datos faltantes. Es un medio de limitar la recolección de datos, reconstruyendo la información faltante. No es un problema de análisis estadístico con datos faltantes en el cual se consideran los mecanismos que conducen a la ausencia de datos. En el caso de la fusión de datos, se presentan bloques completos de datos ausentes, en general, muestras independientes.La revisión bibliográfica ha permitido analizar el problema del análisis de datos faltantes como una aproximación al tema de la fusión de datos, considerando que la fusión de datos es un caso particular. En este caso, se está hablando de bloques de datos faltantes y en muchas ocasiones, datos faltantes por diseño.El objetivo de la fusión de datos es por lo tanto, el obtener un solo archivo que pueda ser analizado posteriormente con herramientas de minería de datos. La idea es estimar los valores de las variables no informadas (valores faltantes) a partir de un bloque de variables informadas correlacionadas con el bloque de variables a reconstituir (variables comunes). Es importante hacer notar que no se esta generando nueva información.Parte de este trabajo se dedica a la definición y aproximación del concepto fusión de datos. Se presentan algunos enfoques para el tratamiento de los datos ausentes. Se han revisado, de manera no exhaustiva, algunas técnicas relacionadas con el tema y se muestran aplicaciones de la fusión de datos relacionadas con otras herramientas.Son muchas las técnicas que existen para tratar la reconstrucción de los datos faltantes. En este trabajo, el enfoque se ha hecho sobre la técnica de imputación Hot deck. Con esta técnica se sustituyen valores individuales extraídos de unidades observadas similares. Se basa en el reemplazo de la información faltante en el conjunto de individuos no informados (con datos faltantes) que se llaman receptores, utilizando la información de los individuos informados más parecidos, llamados donantes. Es una práctica común que involucra esquemas elaborados para la selección de las unidades similares para la imputación. Se estudian algunos procedimientos no paramétricos de discriminación para efectuar la búsqueda de los individuos más cercanos (parecidos). Existen distintos algoritmos diseñados para esto. Se ha hecho una revisión de algunos de estos métodos de búsqueda. Este trabajo se basa en el algoritmo de Fukunaga/Narendra. Se muestran los componentes del sistema. Se presentan los fundamentos y las bases que se han seguido para el desarrollo y la implantación del mismo. Se han establecido algunas propuestas no paramétricas para la medición de la calidad de la fusión.La experimentación y prueba de las distintas propuesta se ha hecho dividida en dos partes. En una se ha hecho una selección aleatoria de los individuos para formar un conjunto de donantes y un conjunto de receptores. En la segunda parte, la selección se ha hecho a partir de una característica específica en una variable. Para esto se emplea un archivo sintético creado a partir de un conjunto de datos privados de financiación para el otorgamiento de créditos al consumo. Este archivo general consta de 6692 individuos. El aspecto práctico de este trabajo, ha sido el desarrollo de un sistema de fusión de datos.Aunque mucho está escrito sobre la imputación Hot deck, siempre habrá espacio para proponer nuevos métodos. Evaluar la calidad de la fusión seguirá siendo tema de interés. Queda claro que la fusión de datos satisface la necesidad de muchos de proporcionar una sola fuente de datos completa a los usuarios finales. Sin embargo, se debe tener cuidado al hacer uso de esta información (son estimaciones, no valores reales observados). / Very often, attitudes, knowledge and actions, are base on samples. Some base their conclusions on small samples and are less likely to be aware of the extent of what is unknown. There is frequently a lack of resources to study more than a part of the problem of interest which could increase our knowledge of it. Some reasons for the use of sample techniques are: reduced cost, greater speed, greater scope o perspective and greater accuracy. Data fusion emerges as an alternative to single source data, faced to the need of acquiring the more information as possible at the lower cost. Its objective is to combine data from different sources in order to have the whole information on a single file, though artificial, but with all the variables of interest. It makes use of the best of the current information contained on one file to rebuild the missing information on another file. It's a statistical estimation of the missing data. It is a mean to restrict the gathering of data, rebuilding the missing information. It is not a problem of statistical analysis with missing data, on which, the process that leads to the absence of data are considered. In the case of data fusion, complete blocks of missing data appear, generally, independent samples.The bibliography has allowed analyzing the subject of missing data as an approach to the subject of data fusion, considering that data fusion is a particular case of it. In this case, missing data and sometimes missing by design is what it is all about.Therefore, the objective of data fusion is to get a single file which can be analyzed further with data mining tools. The idea is to estimate the values of the variables with missing data upon a block of variables with the whole information correlated with the variables to be rebuilt. It is important to mention that new information is not being generated. A part of this work is dedicated to the definition and rapprochement to the concept of data fusion. Some ways of treating the problem of missing data are presented. Some techniques related to the subject have been reviewed in a non exhaustive way and some data fusion applications related with other tools is shown.There are many techniques for treating the rebuilding of missing data. This work is focused on the hot deck technique.With this technique, individual units, took from similar observed units are replaced. It is based on the replacement of the missing information in the set of units with missing information called receivers, using the information of units more likely to them called donors. It is a common practice that involves complex outlines for the selection of the similar unit to be used for the imputation.Some non parametric discrimination procedures have been studied to perform the search of the nearest units (the most resembling). There are different algorithms for this purpose. A review of some of these search methods has been made. This work is based on the Fukunaga/Narendra algorithm. The components of the system are shown as well as the foundations and bases followed for the development and implementation. Some non parametric proposals have been made for measuring the quality of the fusion.The experimentation and tests of the system has been made in two parts. In one part, a random selection of the units that makes the set of donors and the set of receivers has been made. In the second part, the selection has been made upon a specific characteristic on a variable. For this purpose, a synthetic file created upon a set of private financing data for the grant of consumer goods credits is used. This general file contains 6692 units.The practical aspect of this work has been the development of a data fusion system. Although many have been written about hot deck imputation, there is always room for new proposals. Evaluating the quality of the fusion is still a subject of interest. It is clear that data fusion fulfill the need of many to provide the final user with a complete single source of data. However, care must be taken with the use of this information (they are estimations, not actual observed values).
85

Contribucions a la microagregació per a la protecció de dades estadístiques

Torres Aragó, Àngel 08 September 2003 (has links)
DE TESIDesprés de recollir la informació referent a les tècniques pertorbatives més rellevants de control de la revelació de microdades contínues actualment existents, l'objectiu general de la tesi és l'anàlisi i la millora d'aquestes tècniques de control de la revelació mitjançant mètodes d'estadística matemàtica; millora referida a almenys un dels tres aspectes següents: 1) Nivell de protecció. Donar un bon grau de protecció a la informació confidencial de les dades que han de ser publicades.2) Pèrdua d'informació. Minimitzar la pèrdua d'informació durant el procés de modificació de les dades. 3) Complexitat computacional. Reduir el temps de càlcul i/o computació inherent a l'aplicació de tècniques de control de la revelació.L'anàlisi i millora referides als objectius generals d'aquesta tesi han estat aplicades concretament a una tècnica de control de la revelació per a microdades contínues anomenada microagregació que bàsicament ajunta registres individuals del conjunt de microdades per tal de disminuir el risc de revelació.Podem diferenciar les diverses aportacions de la tesi de la següent manera:1. Aportacions als mètodes de microagregació univariant, aplicats fonamentalment al tractament de microdades contínues univariants.2. Aportacions als mètodes de microagregació multivariant, aplicats bàsicament al tractament de microdades contínues multivariants (més d'una variable observada).3. Mesures comparatives de mètodes pertorbatius.1. Microagregació univariant1.1. S'ha desenvolupat un estudi analític mitjançant estadístics d'ordre sobre la seguretat del mètode de microagregació amb ordenació individual.1.2. S'ha comparat la qualitat del mètode de microagregació mitjançant ordenació individual amb altres mètodes de control de la revelació per a microdades contínues; qualitat que ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.2. Microagregació multivariant2.1. S'ha creat un nou mètode de microagregació multivariant de la "Distància Màxima Modificat" (DMM), modificació d'un altre mètode existent anomenat de la "Distància Màxima" (DM) i s'han comparat les seves complexitats computacionals.2.2. Hem comparat la qualitat del nou mètode de microagregació de la Distància Màxima Modificat" (DMM) amb altres mètodes de control de la revelació per a microdades contínues; qualitat que també ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.2.3. Hem desenvolupat un estudi analític per calcular el número de possibles particions d'un conjunt de p variables observades en h-1 conjunts de mida s i un únic conjunt de mida s+r, on p=hs+r.2.4. S'ha realitzat un estudi sobre el número de variables que han de tenir els conjunts d'una partició sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una bona qualitat.2.5. Hem fet un estudi sobre la combinació de variables dintre els conjunts que formen una partició que, juntament amb l'anterior estudi sobre el número de variables, proporcionen a l'usuari de la microagregació multivariant una guia per saber quantes i quines variables haurien de formar la partició del conjunt de variables sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una millor qualitat.3. Mesures comparatives3.1. Distinció entre les diverses naturaleses que formen part de les mesures emprades per comparar mètodes pertorbatius.3.2. Ponderació de les diverses mesures tenint en compte les diverses naturaleses trobades en el punt anterior.3.3.Creació d'una nova mesura de pèrdua de confidencialitat basada en intervals de confiança construïts a partir de desviacions típiques. / THESIS SUMMARYThis Ph. D. thesis deals with topics related to the protection of the confidentiality of statistical data being disseminated by statistical offices.Beyond presenting a state of the art on the most relevant perturbative techniques for statistical disclosure control of microdata, the general objective of this thesis is to analyze and improve such techniques through the use of mathematical statistics. Improvements achieved in at least one of the three following directions:1) Increase the protection level, i.e. increase the level of protection of sensitive information in the data being published.2) Decrease information loss, i.e. the loss of data utility caused by the application of statistical disclosure control techniques.3) Decrease computational complexity, i.e. the computation inherent to the application of statistical disclosure control techniques.The analysis and improvement mentioned in the general objectives of this thesis have beenapplied to a specific statistical disclosure control technique for continuous microdata. This technique, known as microaggregation, basically consists of clustering individual records in the data set in order to reduce disclosure risk.The contributions of this thesis can be classified as follows:1. Contributions to univariate microaggregation methods, which are mainly used to treat univariate continuous data.2. Contributions to multivariate microaggregation methods, which are mainly used to treat multivariate continuous data (observations of several variables).3. Comparative measures for perturbative methods.1. Univariate microaggregation1.1. An analytical study has been carried out using order statistics whose purpose is to assess the security of individual ranking microaggregation.1.2. The quality of individual ranking microaggregation has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.2.Multivariate microaggregation.2.1. A new multivariate microaggregation method has been presented which is called "modified maximum distance" (MMD). MMD is a modification of a previous method called "maximum distance" (MD). Computational complexities of MMD and MD have been compared.2.2. The quality of MMD has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.2.3. An analytical study has been carried out in order to compute the number of possible partitions of a set of p observed variables into h-1 sets of size s and one set of size s+r, where p=hs+r.2.4. A study has been carried out on the number of variables required by the sets of a partition on which the MMD method is run in order to obtain a modified data set with good quality.2.5. A study on the combination of variables within the sets that form a partition has been performed which, together with the previous study on the number of variables, provides the user of multivariate microaggregation with a guideline for deciding how many and which variables should form the partition of the set of variables on which MMD is to be run in order to obtain a modified data set with better quality.3. Comparative measures3.1. A distinction has been established between the different natures of the measures used to compare perturbative methods.3.2. A weighting of the various measures has been proposed which takes into account the various natures determined in the previous item.3.3. A new disclosure risk measure has been introduced which consists of a confidence interval based on standard deviations (rather than on ranks, as proposed in previous work). This new measure is especially suited for skewed data.
86

Análisis y propuestas sobre algunos aspectos de la aplicación del diseño de experimentos en la industria

León Adams, Guillermo de 05 July 2004 (has links)
La memoria contiene algunas aportaciones en aspectos prácticos de la aplicación del diseño de experimentos en la industria. El material se ha integrado en cuatro partes que se corresponden con cada uno de los temas que se abordan. En la primera se desarrolla el problema de la aleatorización de los órdenes de experimentación en los diseños factoriales completos o fraccionales, con 8 o 16 experimentos, se plantea la necesidad de contar con órdenes que satisfagan las expectativas que la aleatorización produce, cuando se considera la existencia de tendencias en la respuesta. Se analiza la implicación y la importancia que tiene el orden de experimentación en el número de cambios de nivel, se plantea unas hipótesis y consideraciones, bajo las cuales se han construido las tablas que se presentan y que creemos resultan de utilidad para seleccionar órdenes de fácil ejecución (mínimo número de cambios en los niveles de los factores) sin renunciar a los objetivos que se pretenden con la aleatorización. Se dan formulas para evaluar el número de cambios de nivel en los diseños factoriales fraccionales a dos niveles.La segunda parte trata la representación de los efectos en papel probabilístico normal para analizar su significación estadística. Nuestra conjetura es que el uso de un simple diagrama de puntos de los efectos proporciona prácticamente la misma información que su representación en papel probabilístico normal, con la ventaja de que es mucho más fácil de entender y de recordar y, por tanto, más difícil cometer errores importantes. Se presentan todas las fases de un estudio comparativo que con este fin se realizó con estudiantes de la Escuela Técnica Superior de Ingeniería Industrial de Barcelona. La parte tercera de la memoria está dividida en dos capítulos (capítulo 3 y 4). En el primero se comentan algunas de las alternativas que se han creado para dar solución al problema del diseño de productos y procesos robustos, proporcionado una visión global de diversos enfoques, que no suelen presentarse reunidos, encaminados a la solución de este problema. El capítulo 4 se dedica al estudio del gráfico Media Desviación (MD) propuesto por Grima (1993). Se desarrolla los temas relacionados a la modelación de la esperanza y la varianza de la respuesta, con un enfoque de superficie de respuesta. Se ilustra las etapas para construir el gráfico, y se muestra lo fácil que es implantar esta metodología en un paquete de software estadístico tipo Minitab. Se contrasta el uso del gráfico MD con algunos de los procedimientos existentes para destacar su eficiencia y sencillez. Se considera el problema de incluir los costes en la búsqueda de las mejores condiciones en el diseño de productos robustos. Se muestra también la simplicidad con que se puede tratar el problema de analizar más de una respuesta. En la última parte se trata el error tipo II en la selección de los efectos que se deben asumir significativos. Se plantean algunas aclaraciones terminológicas y se propone el uso de un gráfico, que hemos denominado "alfa-beta", que ayuda a elegir el valor crítico que conviene fijar para separar los efectos significativos de los que no lo son, a la vista de los riesgos que se corren en cada caso. Se ha construido un valor para los efectos estimados, denotado "valor q", que tiene por objeto evidenciar la posibilidad del error tipo II y ayudar en el proceso de selección de los efectos que se considerarán significativos. Este valor corresponde, bajo el supuesto de normalidad, al valor ß que se tiene cuando en la hipótesis alternativa el efecto posee un valor igual al de su estimación.
87

Regression and residual analysis in linear models with interval censored data

Topp, Rebekka 19 July 2002 (has links)
This work consists of two parts, both related with regression analysis for interval censored data. Interval censored data x have the property that their value cannot be observed exactly but only the respective interval [xL,xR] which contains the true value x with probability one.In the first part of this work I develop an estimation theory for the regression parameters of the linear model where both dependent and independent variables are interval censored. In doing so I use a semi-parametric maximum likelihood approach which determines the parameter estimates via maximization of the likelihood function of the data. Since the density function of the covariate is unknown due to interval censoring, the maximization problem is solved through an algorithm which frstly determines the unknown density function of the covariate and then maximizes the complete data likelihood function. The unknown covariate density is hereby determined nonparametrically through a modification of the approach of Turnbull (1976). The resulting parameter estimates are given under the assumption that the distribution of the model errors belong to the exponential familiy or are Weibull. In addition I extend my extimation theory to the case that the regression model includes both an interval censored and an uncensored covariate. Since the derivation of the theoretical statistical properties of the developed parameter estimates is rather complex, simulations were carried out to determine the quality of the estimates. As a result it can be seen that the estimated values for the regression parameters are always very close the real ones. Finally, some alternative estimation methods for this regression problem are discussed.In the second part of this work I develop a residual theory for the linear regression model where the covariate is interval censored, but the depending variable can be observed exactly. In this case the model errors appear to be interval censored, and so the residuals. This leads to the problem of not directly observable residuals which is solved in the following way: Since one assumption of the linear regression model is the N(0,2)-distribution of the model errors, it follows that the distribtuion of the interval censored errors is a truncated normal distribution, the truncation being determined by the observed model error intervals. Consequently, the distribution of the interval censored residuals is a -distribution, truncated in the respective residual interval, where the estimation of the residual variance is accomplished through the method of Gómez et al. (2002). In a simulation study I compare the behaviour of the so constructed residuals with those of Gómez et al. (2002) and a naïve type of resiudals which considers the middle of the residual interval as the observed residual. The results show that my residuals can be used for most of the simulated scenarios, wheras this is not the case for the other two types of residuals. Finally, my new residual theory is applied to a data set from a clinical study.
88

Estudi de les inèrcies estructurals en anàlisis de correspondències. Aportacions per a una millora de les anàlisis

Daunis i Estadella, Josep 11 February 2005 (has links)
La memòria d'aquesta tesi doctoral s'estructura en un primer capítol on es descriuen els objectius de la tesi i l'organització del treball de recerca. Després, el Capítol 2: Anàlisis factorials de dades es destina a presentar les eines utilitzades en les anàlisis factorials de dades. S'introdueix una anàlisi de tipus general, l'anàlisi canònica per a la comparació de dos grups de variables, i llavors es generalitza per a mes de dos grups. Presentem les anàlisis de correspondències, simples i múltiples, com un cas particular de les anàlisis canòniques, però també des d'una perspectiva més clàssica. Es proporcionen tècniques de representació gràfica - representacions simètriques i Biplots - i el concepte d'inèrcia.En el Capítol 3: Models loglineals i models gràfics es desenvolupen els models loglineals i els models gràfics, el concepte d'independència condicional i el seu ús. Es desenvolupen, a continuació, la formulació dels models loglineals, les restriccions que els caracteritzen -suma zero o còrner zero- i les relacions de transició. Es realitza un estudi de la influència dels paràmetres en la generació de models, sobretot de la importància del termes de les interaccions sobre els termes independents i els efectes principals. En aquest capítol s'introdueix la deviància, com a raó de versemblança entre dos models, la seva expressió i relació amb l'estadístic χ2 i altres indicadors de divergència de models.El Capítol 4: Estudi de les inèrcies en anàlisis de correspondències s'inicia amb la relació entre la inèrcia, el coeficient de contingència i la deviància. A continuació, s'estudien les descomposicions de la inèrcia com a contribucions dels individus, modalitats o variables i s'apliquen a l'estudi de matrius quadrades. En referència a les anàlisis de correspondències múltiples de la taula de Burt, es fa la descomposició de les inèrcies per blocs i s'estudia la problemàtica dels blocs diagonals. S'estudien metodologies de tractament i es fa una proposta de metodologia per al tractament de matrius quadrades no simètriques basada en una doble descomposició, per una part en l'anàlisi de la simetria-no simetria i per l'altra utilitzant la reconstitució factorial de la part simètrica, basada en un algorisme k-EM, on k és l'ordre de reconstitució. La reconstitució k-EM pot ser aplicada a les taules diagonals de Burt i ens porta a una anàlisi equivalent al Joint Correspondence Analysis.En el Capítol 5: ACM respecte un model i ACM condicional es dedica a presentar les ACM sobre un model i l'ACM condicional, on una variable qualitativa externa juga el paper de partició. L'aportació es basa en realitzar l'estudi de la inèrcia i la seva descomposició, en dues parts lligades a la variable condicionadora externa: la inèrcia inter i la inèrcia intra. Es troba la formulació de la distribució i mitjançant aquesta, s'interpreta la importància o no del condicionament. Així doncs, usant l'ACM condicional i els models loglineals estudiem el comportament de la inèrcia en relació al model. El Capítol 6: ACM multicondicional considera les problemàtiques que genera la implementació de l'ACM multicondicional, ja que no es pot generalitzar trivialment del cas simple. Mitjançant l'estudi de les inèrcies condicionals i els models loglineals es desenvolupa una proposta d'anàlisi multicondicional. Aquests resultats són comparats amb els que s'obtenen en un procés de modelització loglineal. S'aplica la proposta a un exemple en el Capítol 7.El treball de recerca finalitza amb unes conclusions on es resumeixen les principals aportacions i s'indiquen quines podrien ser algunes línies de recerca futures en aquest camp i s'annexen les macros programades. / The research work memory is structured in a first chapter with the description of the objectives of the doctoral thesis and the research work organization. Then, the Chapter 2 Descriptive factorial analysis is exclusively dedicated to present the tools used in factorial analysis. A general analysis, the canonical analysis, to compare two groups of variables is introduced, and then it is generalized to more than two questions. We present correspondence analysis, simple and multiple, as a particular case of canonical analysis, but we present both methods also from a more classical point of view. We also introduce graphical techniques -symmetric displays and Biplots- and the inertia concept.Chapter 3 Loglinear and graphical models introduces briefly loglinear models and graphical models, the conditional independence concept and its use. Next, we develop the loglinear model formula and the constraints that characterize the model -zero sum or zero corner treatment- and the transition relations. We make a study of the influence of the parameters over the model generation, especially about the significance of interaction terms over principal and independent terms. In this chapter we introduce the deviance, as a likelihood ratio between two models, its expression and its relation with the χ2 statistic and other model divergence indicators. In Chapter 4 Study of the inertias in correspondence analysis we start with the relation among inertias, the contingence coefficient and deviance. Next, we study the inertia decomposition as the contribution of each individual, category or variable. It's applied to study the case of square matrices. With reference to the multiple correspondence analysis of the Burt table, we decompose inertia by blocks and we investigate the influence of the blocks of the diagonal. A summary of several treatment methodologies is done. We propose a new methodology to treat squared skew-symmetric matrices, based on a double decomposition, on the one hand, in the symmetry-skew-symmetry analysis and on the other using the factorial reconstitution of the symmetric part, based on a k-EM algorithm, where k is the reconstitution order. The k-EM reconstitution methodology can be applied to the diagonal tables of a Burt table, which leads a result equivalent to Joint Correspondence Analysis.In Chapter 5 - MCA with respect to a model and conditional MCA- firstly we start presenting MCA with respect to a model. Secondly we discuss conditional MCA, where an external variable plays a partitioning role. The contribution is based on studying the inertia and its decomposition in two parts linked to the external conditioning variables, the inter and intra inertia. Next, we find their distribution function and, by means of this, we can test the significance of the conditioning variable. Therefore, using the conditional MCA and loglinear models introduced before, we study the inertia behaviour with relation to the model and with different relation levels between the variables.The Chapter 6 -Multiconditional MCA- consideres problems generated by the implementation of multiple conditional analysis, since it is not possible to generalize this definition to the simple conditional case. By means of the study of conditional inertias and loglinear models, we develop our proposal for a multiconditional analysis. These results are compared with the results obtained in a loglinear modelling process. We apply our proposal to a data example in Chapter 7. The dissertation ends with a chapter of conclusions which sums up our principal contributions and suggests some future research lines in this field of investigation and with the macros programmed and used.
89

Aspectos estocásticos en la coordinación hidrotérmica a largo plazo

González Alastrué, José Antonio 19 December 1997 (has links)
El proyecto de tesis titulado "Aspectos estocásticos en la coordinación hidrotérmica a largo plazo" es el resultado de un trabajo de investigación enmarcado en el campo de la generación de electricidad y trata, más concretamente, de los principales aspectos de características indeterministas relacionados con la generación y coordinación hidrotérmica a largo plazo, tal como su mismo título resume. Es, por lo tanto, un proyecto directamente comprometido con la investigación aplicada en un sector estratégico de la economía.El trabajo está situado en el dominio de la Investigación Operativa, dentro de la rama conocida como optimización estocástica; en consecuencia, se presenta estrechamente vinculado al área de las ciencias de la Estadística. El objetivo principal está planteado en investigar un modelo apropiado para el tema que permita desarrollar aplicaciones de minimización de los costes relacionados con la producción de energía eléctrica. Esta localización implica ciertamente simplificaciones en lo relativo al proceso físico-mecánico de generación de electricidad, en beneficio de una visión global obligada si se tiene en cuenta que el periodo de estudio tiene una magnitud temporal en torno al año, mientras que el número de centrales térmicas e hidráulicas que el problema considera es propio de las situaciones reales que se presentan en una compañía eléctrica.Dentro de lo que se conoce como optimización estocástica existen un buen número de métodos establecidos. A partir de los trabajos del profesor Nabona, el método multiartículo entra dentro de este círculo, con su aplicación en problemas de optimización de la generación hidroeléctrica a largo plazo. El ánimo inicial en la investigación que este trabajo describe -pero que no culmina- se puede plantear como:o realizar un estudio sobre el cálculo de distribuciones multiartículo para las aportaciones naturales,o determinar una estimación del error que el método introduce, teniendo en cuenta que se trata de una aproximación sobre las distribuciones de partidaSin embargo, estos simples puntos de partida tuvieron que ser replanteados cuando se les unieron otros de evidente necesidad, y de ambiciones más elevadas, como elaborar una formalización concerniente a las variables aleatorias de bloques, íntimamente relacionadas con la teoría multiartículo, o extender ésta a un método para resolver el problema de coordinación hidrotérmica a largo plazo. Todos ellos se pueden unificar en un objetivo prioritario, perseguido por el trabajo que se describe en esta memoria, que es la consolidación de la teoría en el ámbito de la optimización estocástica.¿Qué se entiende por consolidación? En primer lugar, demostrar que el método está respaldado por una teoría robusta. También, que esta teoría es suficiente para modelizar los sistemas que se consideran en los problemas eléctricos citados. Finalmente, que las soluciones halladas para tales problemas son verosímiles y pueden ser de utilidad al usuario que demanda una herramienta sofisticada para la evaluación de costes en parques hidrotérmicos con horizontes a largo plazo.Aportaciones de la tesisEn síntesis, la principal aportación de la tesis es haber logrado un avance significativo en el terreno de la optimización estocástica más concretamente, en el terreno de la coordinación hidrotérmica a largo plazo mediante la aplicación combinada de técnicas multiartículo y variables de bloques. Puesto que el campo de investigación en el entorno de la optimización con variables aleatorias de bloques es muy amplio todavía, esta contribución tiene aspiraciones a ser un paso importante hacia la madurez del método multiartículo.Particularmente, deben destacarse los siguientes aspectos:o descripción y estudio exhaustivo desde el punto de vista estadístico de la distribución de probabilidad genérica conocida como de bloques; ya utilizada en trabajos previos, en esta memoria se pretende categorizarla como variable aleatoria propia. De este proceso se desprende una metodología para estimar variables de bloques a partir de una muestra procedente de una variable cualquiera.o cálculo de expresiones de la generación hidráulica esperada para la validación de una aproximación en uso. La comparación posterior sobre casos concretos evidencia una cierta sobreestimación en el cálculo de la generación por parte de la versión inicial. Estas expresiones reducen el sesgo en la estimación de la generación hidráulica esperada, aunque son alternativas menos eficientes computacionalmente.o construcción de un procedimiento que permite simular políticas de largo plazo aplicables a una cuenca hidráulica. El proceso genera valores de aportaciones naturales condicionadas entre sí, y permite verificar si la política obtenida mediante la minimización de una función de coste probable de producción genera costes aceptables.o desarrollo de técnicas específicas para un programa de coordinación hidrotérmica a través de curvas potencia-energía parametrizadas por factores indeterministas, entre los que se cuenta la generación hidráulica representada como distribución de bloques.o desarrollo de un método para hallar la distribución de la suma de una variable de bloques y otra cualquiera independiente de la primera por el procedimiento de la convolución, y aplicación del mismo a distribuciones de la potencia en fallo hidráulica con la carga del sistema. A partir del mismo se construye una nueva función de coste probable de producción que no depende, como las anteriores, solamente de la esperanza de la generación hidráulica.o desarrollo e implementación de un modelo de optimización de la generación hidráulica a largo plazo basado en la nueva función de coste probable de producción, y que tiene en cuenta límites de potencia y de generación hidráulica.o un aspecto que nunca se había abordado hasta ahora ha sido una comparativa de resultados teniendo en cuenta la influencia que presenta el número de bloques con que son representadas las variables. Las pruebas efectuadas no son taxativas en cuanto a este aspecto, pero proporcionan una información sumamente interesante. / The thesis project entitled "Stochastic Aspects on Long-Term Hydrothermal Coordination" is the result of a research work in the field of the electricity generation. More precisely, it deals with some aspects with random characteristics related to the generation and long-term hydrothermal coordination processes. Therefore, it is a project directly involved with applied research in a strategic sector of Economy.The work presented is connected with Stochastic Optimization techniques, a field between Statistics and Operations Research. The goal is to find a suitable model to be applied in the minimization of the cost of electricity production. As, in this kind of problems, the time horizon is long (around one year or more) and the number of thermal and hydro units should be large in order to consider realistic cases, the modelling does not take into account the detail of the physical-mechanical process of generation, which is considered more properly in the short-term stage.We follow the method developed by Professor Nabona to describe random variables through multiblock distributions in a multicommodity model. Initially, we aimed to:o apply the calculus of multiblock distributions to natural inflows, ando estimate the error introduced by the method, taking into account that it is an approximation of the original distributions.Later, we included more formal aspects to describe multiblock random variables and their properties, and the multicommodity model was extended. Thus, this method has grown to currently become a successful model in the Stochastic Optimization space, which is undoubtedly the main objective of the project. We prove that the method can model the systems considered efficiently, and the solutions found are plausible and can be useful to evaluate costs in hydrothermal parks for long-term periods. Our contribution is likely to represent a significant progress in the field of Stochastic Optimization applied to Long-Term Hydrothermal Coordination.In addition, the following points should be remarked:o Description and study from a probabilistic point of view of the multiblock probability distribution. Besides, we derive a methodology to estimate multiblock variables from a sample coming to an unknown distribution.o Alternative expression of hydrogeneration, in order to validate an approximation based on multiblock variables. This expression, computationally more expensive but closer to actual values, is evaluated using real cases, and it shows that former evaluations of hydrogeneration overestimate it slightly.o Development of simulation procedures in order to simulate long-term policies that are applied to a single hydro basin. The process generates non-independent values of natural inflows for each reservoir, allowing to test if the policy obtained through the minimization of the expected production cost function produces acceptable costs.o Implementation of specific techniques for a hydrothermal coordination program, using power-energy curves with parameters dependent on random factors, like hydrogeneration (represented through a multiblock distribution).o Development of a convolution method to sum up a multiblock random variable to any other, applicable to find the hydropower unavailability with the load system. This method allows to build a new expected production cost function, not depending only of the expected hydrogeneration.o With the new expected production cost function, one has developed and implemented a richer model, taking into account power and hydrogeneration limits.o Finally, a study of the influence of the number of blocks used to describe the multiblock distributions has been undertaken. The tests carried out are not definitive, but they contribute with some interesting information.
90

Survival analysis issues with interval-censored data

Oller Piqué, Ramon 30 June 2006 (has links)
L'anàlisi de la supervivència s'utilitza en diversos àmbits per tal d'analitzar dades que mesuren el temps transcorregut entre dos successos. També s'anomena anàlisi de la història dels esdeveniments, anàlisi de temps de vida, anàlisi de fiabilitat o anàlisi del temps fins a l'esdeveniment. Una de les dificultats que té aquesta àrea de l'estadística és la presència de dades censurades. El temps de vida d'un individu és censurat quan només és possible mesurar-lo de manera parcial o inexacta. Hi ha diverses circumstàncies que donen lloc a diversos tipus de censura. La censura en un interval fa referència a una situació on el succés d'interès no es pot observar directament i només tenim coneixement que ha tingut lloc en un interval de temps aleatori. Aquest tipus de censura ha generat molta recerca en els darrers anys i usualment té lloc en estudis on els individus són inspeccionats o observats de manera intermitent. En aquesta situació només tenim coneixement que el temps de vida de l'individu es troba entre dos temps d'inspecció consecutius.Aquesta tesi doctoral es divideix en dues parts que tracten dues qüestions importants que fan referència a dades amb censura en un interval. La primera part la formen els capítols 2 i 3 els quals tracten sobre condicions formals que asseguren que la versemblança simplificada pot ser utilitzada en l'estimació de la distribució del temps de vida. La segona part la formen els capítols 4 i 5 que es dediquen a l'estudi de procediments estadístics pel problema de k mostres. El treball que reproduïm conté diversos materials que ja s'han publicat o ja s'han presentat per ser considerats com objecte de publicació.En el capítol 1 introduïm la notació bàsica que s'utilitza en la tesi doctoral. També fem una descripció de l'enfocament no paramètric en l'estimació de la funció de distribució del temps de vida. Peto (1973) i Turnbull (1976) van ser els primers autors que van proposar un mètode d'estimació basat en la versió simplificada de la funció de versemblança. Altres autors han estudiat la unicitat de la solució obtinguda en aquest mètode (Gentleman i Geyer, 1994) o han millorat el mètode amb noves propostes (Wellner i Zhan, 1997).El capítol 2 reprodueix l'article d'Oller et al. (2004). Demostrem l'equivalència entre les diferents caracteritzacions de censura no informativa que podem trobar a la bibliografia i definim una condició de suma constant anàloga a l'obtinguda en el context de censura per la dreta. També demostrem que si la condició de no informació o la condició de suma constant són certes, la versemblança simplificada es pot utilitzar per obtenir l'estimador de màxima versemblança no paramètric (NPMLE) de la funció de distribució del temps de vida. Finalment, caracteritzem la propietat de suma constant d'acord amb diversos tipus de censura. En el capítol 3 estudiem quina relació té la propietat de suma constant en la identificació de la distribució del temps de vida. Demostrem que la distribució del temps de vida no és identificable fora de la classe dels models de suma constant. També demostrem que la probabilitat del temps de vida en cadascun dels intervals observables és identificable dins la classe dels models de suma constant. Tots aquests conceptes elsil·lustrem amb diversos exemples.El capítol 4 s'ha publicat parcialment en l'article de revisió metodològica de Gómez et al. (2004). Proporciona una visió general d'aquelles tècniques que s'han aplicat en el problema no paramètric de comparació de dues o més mostres amb dades censurades en un interval. També hem desenvolupat algunes rutines amb S-Plus que implementen la versió permutacional del tests de Wilcoxon, Logrank i de la t de Student per a dades censurades en un interval (Fay and Shih, 1998). Aquesta part de la tesi doctoral es complementa en el capítol 5 amb diverses propostes d'extensió del test de Jonckeere. Amb l'objectiu de provar una tendència en el problema de k mostres, Abel (1986) va realitzar una de les poques generalitzacions del test de Jonckheere per a dades censurades en un interval. Nosaltres proposem altres generalitzacions d'acord amb els resultats presentats en el capítol 4. Utilitzem enfocaments permutacionals i de Monte Carlo. Proporcionem programes informàtics per a cada proposta i realitzem un estudi de simulació per tal de comparar la potència de cada proposta sota diferents models paramètrics i supòsits de tendència. Com a motivació de la metodologia, en els dos capítols s'analitza un conjunt de dades d'un estudi sobre els beneficis de la zidovudina en pacients en els primers estadis de la infecció del virus VIH (Volberding et al., 1995).Finalment, el capítol 6 resumeix els resultats i destaca aquells aspectes que s'han de completar en el futur. / Survival analysis is used in various fields for analyzing data involving the duration between two events. It is also known as event history analysis, lifetime data analysis, reliability analysis or time to event analysis. One of the difficulties which arise in this area is the presence of censored data. The lifetime of an individual is censored when it cannot be exactly measured but partial information is available. Different circumstances can produce different types of censoring. Interval censoring refers to the situation when the event of interest cannot be directly observed and it is only known to have occurred during a random interval of time. This kind of censoring has produced a lot of work in the last years and typically occurs for individuals in a study being inspected or observed intermittently, so that an individual's lifetime is known only to lie between two successive observation times.This PhD thesis is divided into two parts which handle two important issues of interval censored data. The first part is composed by Chapter 2 and Chapter 3 and it is about formal conditions which allow estimation of the lifetime distribution to be based on a well known simplified likelihood. The second part is composed by Chapter 4 and Chapter 5 and it is devoted to the study of test procedures for the k-sample problem. The present work reproduces several material which has already been published or has been already submitted.In Chapter 1 we give the basic notation used in this PhD thesis. We also describe the nonparametric approach to estimate the distribution function of the lifetime variable. Peto (1973) and Turnbull (1976) were the first authors to propose an estimation method which is based on a simplified version of the likelihood function. Other authors have studied the uniqueness of the solution given by this method (Gentleman and Geyer, 1994) or have improved it with new proposals (Wellner and Zhan, 1997).Chapter 2 reproduces the paper of Oller et al. (2004). We prove the equivalence between different characterizations of noninformative censoring appeared in the literature and we define an analogous constant-sum condition to the one derived in the context of right censoring. We prove as well that when the noninformative condition or the constant-sum condition holds, the simplified likelihood can be used to obtain the nonparametric maximum likelihood estimator (NPMLE) of the failure time distribution function. Finally, we characterize the constant-sum property according to different types of censoring. In Chapter 3 we study the relevance of the constant-sum property in the identifiability of the lifetime distribution. We show that the lifetime distribution is not identifiable outside the class of constant-sum models. We also show that the lifetime probabilities assigned to the observable intervals are identifiable inside the class of constant-sum models. We illustrate all these notions with several examples.Chapter 4 has partially been published in the survey paper of Gómez et al. (2004). It gives a general view of those procedures which have been applied in the nonparametric problem of the comparison of two or more interval-censored samples. We also develop some S-Plus routines which implement the permutational version of the Wilcoxon test, the Logrank test and the t-test for interval censored data (Fay and Shih, 1998). This part of the PhD thesis is completed in Chapter 5 by different proposals of extension of the Jonckeere's test. In order to test for an increasing trend in the k-sample problem, Abel (1986) gives one of the few generalizations of the Jonckheree's test for interval-censored data. We also suggest different Jonckheere-type tests according to the tests presented in Chapter 4. We use permutational and Monte Carlo approaches. We give computer programs for each proposal and perform a simulation study in order compare the power of each proposal under different parametric assumptions and different alternatives. We motivate both chapters with the analysis of a set of data from a study of the benefits of zidovudine in patients in the early stages of the HIV infection (Volberding et al., 1995).Finally, Chapter 6 summarizes results and address those aspects which remain to be completed.

Page generated in 0.0382 seconds